本發(fā)明涉及人類認(rèn)知和知識表征領(lǐng)域,特別涉及基于多層神經(jīng)網(wǎng)絡(luò)的圖像-文本雙編碼認(rèn)知機(jī)理模型及其建立的方法。
背景技術(shù):
近年來,對于人類認(rèn)知和知識表征的研究成為科學(xué)界的熱點;同時這也是人工智能研究中的關(guān)鍵點。雙編碼是由心理學(xué)家佩維奧在1971年提出的一種認(rèn)知理論,其強(qiáng)調(diào)在信息的貯存、加工和提取中,語言和非語言的信息加工過程是同樣重要的。人類認(rèn)知存在兩個子系統(tǒng),其一專用于對非語詞事物、事件(即映象)的表征與處理即表象系統(tǒng);而另一個則用于語言的處理即語義系統(tǒng)。這兩個子系統(tǒng)即相互平行又相互聯(lián)系。佩維奧同時還假定,存在兩種不同的表征單元:表象系統(tǒng)中適用于心理映象表征的“圖象單元”和語義系統(tǒng)中適用于語言實體表征的“語言單元”。前者是根據(jù)部分與整體的關(guān)系組織的,而后者是根據(jù)聯(lián)想與層級組織的。雙編碼理論是認(rèn)知科學(xué)中的一個重要理論,但是其也只停留在了理論的文字表述,其完整數(shù)學(xué)模型的建立仍然是個難點。本發(fā)明就是基于神經(jīng)網(wǎng)絡(luò)建立圖像-文本雙編碼認(rèn)知理論的數(shù)學(xué)模型。
人工神經(jīng)網(wǎng)絡(luò)是一種應(yīng)用類似于大腦神經(jīng)突觸聯(lián)接的結(jié)構(gòu)進(jìn)行信息處理的數(shù)學(xué)模型,其也是人工智能中的重要研究方向。深度學(xué)習(xí)是人工神經(jīng)網(wǎng)絡(luò)上的一個重大發(fā)展。當(dāng)前研究者普遍發(fā)現(xiàn)采用深度學(xué)習(xí)框架完成一些任務(wù)相比與傳統(tǒng)的機(jī)器學(xué)習(xí)方法都有了很大的改善,例如圖像識別、自然語言處理、數(shù)據(jù)挖掘等。深度學(xué)習(xí)通過多隱層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到目標(biāo)更深層次的本質(zhì)特性,從而在眾多領(lǐng)域中都取得了很好的效果。運(yùn)用神經(jīng)網(wǎng)絡(luò)發(fā)展人工智能也成為了研究熱點。
深度學(xué)習(xí)在人工智能上所取得的進(jìn)展也啟發(fā)了本發(fā)明。通過借助深度神經(jīng)網(wǎng)絡(luò)建立圖像-文本雙編碼認(rèn)知機(jī)理的數(shù)學(xué)實現(xiàn)模型,為研究該理論提供數(shù)學(xué)基礎(chǔ)。
技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明提出了一種基于cr2神經(jīng)網(wǎng)絡(luò)的圖像-文本雙編碼機(jī)理實現(xiàn)模型。cr2神經(jīng)網(wǎng)絡(luò)指代的是cnn、rnn,rbf三種神經(jīng)網(wǎng)絡(luò)的有機(jī)組成。該模型實現(xiàn)了圖像表象系統(tǒng)和自然語言語義系統(tǒng)模型的建立,同時還建立起了兩個系統(tǒng)之間參考關(guān)聯(lián)系統(tǒng)的模型。本發(fā)明的模型完整的模擬了圖像-文本雙編碼認(rèn)知機(jī)理的整個過程。
本發(fā)明的目的就是建立圖像-文本雙編碼認(rèn)知機(jī)理數(shù)學(xué)實現(xiàn)模型,主要是通過以下技術(shù)方案來實現(xiàn)的:
本發(fā)明提供的圖像-文本雙編碼認(rèn)知機(jī)理數(shù)學(xué)實現(xiàn)模型,包括以下步驟:
s1:輸入與信息相關(guān)的圖像信息及其文本信息;
s2:通過表象系統(tǒng)獲取該信息非語詞表征的“圖像單元”;
s3:通過語義系統(tǒng)獲取該信息語詞表征的“語言單元”;
s4:通過參考關(guān)聯(lián)系統(tǒng)獲取關(guān)聯(lián)的“圖像單元”及其“語言單元”;
s5:輸出獲取的所有“圖像單元”和“語言單元”。
進(jìn)一步,所述步驟s1中圖像信息為圖像的像素信息,文本信息為單詞編碼;
進(jìn)一步,所述步驟s2中表象系統(tǒng)模型采用訓(xùn)練過的多層卷積神經(jīng)網(wǎng)絡(luò),輸出的向量作為“圖像單元”;
進(jìn)一步,所述步驟s3中語義系統(tǒng)模型采用rnnlm語言模型,輸出的詞向量作為“語言單元”;
進(jìn)一步,所述步驟s4中參考關(guān)聯(lián)系統(tǒng)模型采用rbf自增長神經(jīng)網(wǎng)絡(luò);
進(jìn)一步,所述步驟s4中參考關(guān)聯(lián)系統(tǒng)模型訓(xùn)練采用在線監(jiān)督學(xué)習(xí),輸入為“圖像單元”,輸出為對應(yīng)的“語言單元”;
進(jìn)一步,所述步驟s4中逆模型為參考關(guān)聯(lián)系統(tǒng)正向神經(jīng)網(wǎng)絡(luò)的逆向運(yùn)算。
本發(fā)明的特點在于:本發(fā)明利用了多層卷積神經(jīng)網(wǎng)絡(luò)獲取了“圖像單元”,利用rnnlm語言模型獲取了“語言單元”,其很好的模擬了人腦對于映像和語言信息的處理;同時利用rbf自增長神經(jīng)網(wǎng)絡(luò)建立起了兩個認(rèn)知子系統(tǒng)之間的相互參考關(guān)聯(lián),兩個子系統(tǒng)實現(xiàn)了即相互平行又相互關(guān)聯(lián)。cnn、rnn、rbf三種神經(jīng)網(wǎng)絡(luò)組成了本文的cr2神經(jīng)網(wǎng)絡(luò)。至此,三個部分的有機(jī)結(jié)合完整的模擬了圖像-文本雙編碼認(rèn)知機(jī)理。
附圖說明
為了使本發(fā)明的目的,技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明作進(jìn)一步的詳細(xì)描述,其中:
圖1為本發(fā)明提供的圖像-文本雙編碼機(jī)理實現(xiàn)模型的系統(tǒng)結(jié)構(gòu)框圖。
圖2為本發(fā)明提供的圖像-文本雙編碼機(jī)理實現(xiàn)模型的系統(tǒng)原理示意圖。
具體實施方式
以下將結(jié)合附圖,對本發(fā)明所述的方法做進(jìn)一步的詳細(xì)說明。圖1為本發(fā)明提供的圖像-文本雙編碼機(jī)理實現(xiàn)模型的系統(tǒng)結(jié)構(gòu)框圖;圖2為本發(fā)明提供的圖像-文本雙編碼機(jī)理實現(xiàn)模型的系統(tǒng)原理示意圖,如圖所示:本發(fā)明提供的圖像-文本雙編碼機(jī)理實現(xiàn)模型,包括以下步驟:
s1:輸入與信息相關(guān)的圖像信息及其文本信息;
s2:通過表象系統(tǒng)獲取該信息非語詞表征的“圖像單元”;
s3:通過語義系統(tǒng)獲取該信息語詞表征的“語言單元”;
s4:通過參考關(guān)聯(lián)系統(tǒng)獲取關(guān)聯(lián)的“圖像單元”及其“語言單元”;
s5:輸出獲取的所有“圖像單元”和“語言單元”。
作為上述實施例的進(jìn)一步改進(jìn),所述步驟s1中圖像信息為圖像的像素信息,文本信息為單詞編碼;
作為上述實施例的進(jìn)一步改進(jìn),所述步驟s2中表象系統(tǒng)模型采用訓(xùn)練過的多層卷積神經(jīng)網(wǎng)絡(luò),輸出的向量作為“圖像單元”;
作為上述實施例的進(jìn)一步改進(jìn),所述步驟s3中語義系統(tǒng)模型采用rnnlm語言模型,輸出的詞向量作為“語言單元”;
作為上述實施例的進(jìn)一步改進(jìn),所述步驟s4中參考關(guān)聯(lián)系統(tǒng)模型采用rbf自增長神經(jīng)網(wǎng)絡(luò);
作為上述實施例的進(jìn)一步改進(jìn),所述步驟s4中參考關(guān)聯(lián)系統(tǒng)模型訓(xùn)練采用在線監(jiān)督學(xué)習(xí),輸入為“圖像單元”,輸出為對應(yīng)的“語言單元”;
作為上述實施例的進(jìn)一步改進(jìn),所述步驟s4中逆模型為參考關(guān)聯(lián)系統(tǒng)正向神經(jīng)網(wǎng)絡(luò)的逆向運(yùn)算。
以上所述僅為本發(fā)明的優(yōu)選實施例,并不用于限制本發(fā)明,顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型內(nèi)。