一種基于rnn的圖片描述自動(dòng)生成方法

文檔序號(hào)：9866192閱讀：1335來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于rnn的圖片描述自動(dòng)生成方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及人工智能領(lǐng)域，特別設(shè)及一種基于的圖片描述自動(dòng)生成方法。
【背景技術(shù)】
[0002] 自動(dòng)圖像內(nèi)容描述是人工智能圖像識(shí)別近年興起的新技術(shù)。其目的在于通過(guò)算法，自動(dòng)把一個(gè)圖像的內(nèi)容信息，用自然語(yǔ)言表達(dá)出來(lái)。Show and Tell :A化ural Image Caption Generato;r，0;riol Vinyals 2014,通過(guò)先使用深度網(wǎng)絡(luò)提取圖像特征，再使用RNN 模型將圖像特征轉(zhuǎn)化為文字描述，提取出圖像的語(yǔ)義信息。但其是對(duì)整個(gè)圖像進(jìn)行整體處理，不能很好地利用圖像中的空間位置的信息。Show,Attend and Tell :Neural Image (^iptionGeneration with Visual Attention,Kelvin Xu 2015,在其之上加入了顯著性檢測(cè)，對(duì)圖像的空間信息有一定的利用，但其也只利用了簡(jiǎn)單的RN飾莫型，語(yǔ)義的表達(dá)力較弱。

【發(fā)明內(nèi)容】

[0003] 為了克服現(xiàn)有技術(shù)的上述缺點(diǎn)與不足，本發(fā)明的目的在于提供一種基于的圖片描述自動(dòng)生成方法，可W自動(dòng)識(shí)別，理解用戶(hù)上傳的數(shù)碼圖像，并生成人類(lèi)能理解的自然句子。
[0004] 本發(fā)明的目的通過(guò)W下技術(shù)方案實(shí)現(xiàn)：
[0005] -種基于的圖片描述自動(dòng)生成方法，包括W下步驟：
[0006] S1在計(jì)算機(jī)上進(jìn)行訓(xùn)練過(guò)程：
[0007] S1.1采集數(shù)據(jù)集:采集日常生活中各類(lèi)場(chǎng)景里面的圖像作為訓(xùn)練圖像，每張訓(xùn)練圖像帶上一句或多句描述該圖像內(nèi)容的句子；
[000引S1.2使用深度學(xué)習(xí)網(wǎng)絡(luò)，對(duì)訓(xùn)練集的每一張圖片提取圖像特征；
[0009] S1.3詞性篩選:收集四、六級(jí)英語(yǔ)單詞的詞匯表，W及每個(gè)單詞的詞性；
[0010] 對(duì)于每張訓(xùn)練圖像對(duì)應(yīng)的一個(gè)或多個(gè)句子進(jìn)行詞性篩選:對(duì)于句子中的每個(gè)單詞，如果單詞在四、六級(jí)詞匯表中排第一的詞性是名詞或者動(dòng)詞，該單詞留下，否則，把該單詞去掉;使用篩選之后剩下的單詞組成句子作為數(shù)據(jù)庫(kù)；
[0011] S1.4將詞語(yǔ)數(shù)據(jù)轉(zhuǎn)換成特征向量:統(tǒng)計(jì)出S1.3中的數(shù)據(jù)庫(kù)中所有句子中出現(xiàn)的不同單詞的數(shù)目，加上一個(gè)自定義的END字符，句子的總字符數(shù)為η;并對(duì)單詞按字母順序進(jìn)行排序，每個(gè)單詞在序列中的位置作為該單詞的索引位置；由此把每個(gè)單詞表示為一個(gè)η維的單詞特征向量，該向量只有在該單詞的索引位置上為1，其他全為零;η為正整數(shù)；
[0012 ] S1.5將單詞特征向量和圖像特征向量統(tǒng)一映射到同一維度k的向量;k為正整數(shù)； [OOK] S1.6使用LSTM網(wǎng)絡(luò)進(jìn)行訓(xùn)練:每個(gè)訓(xùn)練樣例為一張訓(xùn)練圖像和該訓(xùn)練圖像所對(duì)應(yīng) 的經(jīng)S1.3篩選的句子;每次隨機(jī)選擇一張訓(xùn)練圖像和一個(gè)對(duì)應(yīng)的參考句子；
[0014] S1.7將LSTM網(wǎng)絡(luò)的輸入和輸出都設(shè)為k維向量，在時(shí)刻0，把k維的圖像特征向量傳入LSTM網(wǎng)絡(luò)，網(wǎng)絡(luò)輸出一個(gè)k維向量;然后將輸出的k維向量左乘一個(gè)n*k維的矩陣，得到一個(gè)η維向量;向量上第i維的值代表了索引值為i的單詞的可能性;i為正整數(shù)；
[001引SI.8使用SI.7得到的η維向量和SI.6中輸入的參考句子的η維向量進(jìn)行比較，計(jì)算兩個(gè)向量的歐式距離，作為L(zhǎng)STM網(wǎng)絡(luò)的誤差，使用反向誤差傳播算法，更新網(wǎng)絡(luò)參數(shù)；
[0016] S2自動(dòng)生成圖像描述：
[0017] S2.1在互聯(lián)網(wǎng)上捜集自然語(yǔ)言的句子，形成語(yǔ)料庫(kù)；
[0018] S2.2對(duì)于測(cè)試圖像，先使用深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)測(cè)試圖像提取圖像特征，再使用S1.7 的方法得到η維的可能性單詞向量;根據(jù)η維向量上每一維值的大小，選出可能性最大的單詞；
[0019] S2.3將步驟S2.2得到的單詞向量再次輸入LSTM網(wǎng)絡(luò)中，得到更新后的輸出單詞可能性向量;不斷重復(fù)此過(guò)程，直到入LSTM網(wǎng)絡(luò)輸出END單詞；
[0020] S2.4將S2.2和S2.3過(guò)程中輸出的單詞，按順序組合成一個(gè)句子；使用該句子在 S2.1的語(yǔ)料庫(kù)中進(jìn)行匹配，捜索最相近的句子并輸出，生成測(cè)試圖像的描述。
[0021 ]步驟S1.5所述將單詞特征向量和圖像特征向量統(tǒng)一映射到同一維度k的向量，具體為：
[0022 ] 對(duì)η維的單詞向量特征左乘W -個(gè)k*n的矩陣，對(duì)于m維的圖像特征向量，乘W-個(gè) k*m維的矩陣；由此把單詞特征和圖像特征統(tǒng)一到k維;m為正整數(shù)。
[0023] S1.8所述使用S1.7得到的η維向量和S1.6中輸入的參考句子的η維向量進(jìn)行比較，計(jì)算兩個(gè)向量的歐式距離作為L(zhǎng)STM網(wǎng)絡(luò)的誤差，使用反向誤差傳播算法，更新網(wǎng)絡(luò)參數(shù)，具體為：
[0024] 在輸入第t個(gè)單詞時(shí)，t小于句子長(zhǎng)度1，使用S1.7的方法，向LSTM網(wǎng)絡(luò)輸入?yún)⒖季?子中的第t個(gè)單詞，得到η維的可能性向量;使用參考句子中的第t+1個(gè)單詞作為參考，t+1個(gè) 單詞在η維可能性向量的負(fù)數(shù)作為誤差，使用反向誤差傳播算法，更新網(wǎng)絡(luò)參數(shù);t為正整數(shù)，1為正整數(shù)；
[0025] 在輸入第1個(gè)單詞時(shí)，使用S1.7的方法，向LSTM網(wǎng)絡(luò)輸入?yún)⒖季渥又械牡?個(gè)單詞，得到η維的可能性向量;使用S1.4中加入的END單詞作為參考，END單詞在η維可能性向量的負(fù)數(shù)作為誤差，使用反向誤差傳播算法，更新網(wǎng)絡(luò)參數(shù)。
[0026] 與現(xiàn)有技術(shù)相比，本發(fā)明具有W下優(yōu)點(diǎn)和有益效果：
[0027] (1)本發(fā)明很好地融合圖像特征和文字特征，放在統(tǒng)一的框架下進(jìn)行學(xué)習(xí)和理解，使圖像信息和文字信息產(chǎn)生互補(bǔ)。
[0028] (2)本發(fā)明充分考慮到自動(dòng)文字描述圖片的困難性。采用了把句子中的名詞和動(dòng) 詞保留，去除其他詞性詞語(yǔ)的方法。保留了原來(lái)句子的主干部分(名詞和動(dòng)詞），去掉其他可能帶來(lái)很大干擾的部分，降低了學(xué)習(xí)的復(fù)雜度，得到了較好的效果。
[0029] (3)本發(fā)明通過(guò)不斷增加訓(xùn)練數(shù)據(jù)庫(kù)中的圖像和句子，本發(fā)明的性能可W不斷得到提高，而不需要重新訓(xùn)練。
[0030] (4)本發(fā)明中使用了互聯(lián)網(wǎng)上的海量信息作為我們的語(yǔ)料庫(kù)，使算法可W輸出更貼近日常語(yǔ)言的話(huà)語(yǔ)。
【附圖說(shuō)明】
[0031] 圖1為本發(fā)明的實(shí)施例的基于的圖片描述自動(dòng)生成方法的流程圖。
【具體實(shí)施方式】
[0032]下面結(jié)合實(shí)施例，對(duì)本發(fā)明作進(jìn)一步地詳細(xì)說(shuō)明，但本發(fā)明的實(shí)施方式不限于此。 [00削實(shí)施例
[0034] 本實(shí)施例的一種基于的圖片描述自動(dòng)生成方法，如圖1所示，包括W下步驟：
[0035] S1在計(jì)算機(jī)上進(jìn)行訓(xùn)練過(guò)程：
[0036] S1.1采集數(shù)據(jù)集:從ht化://mscoco.org/網(wǎng)站上下載mscoco數(shù)據(jù)庫(kù)，該數(shù)據(jù)庫(kù)包含30萬(wàn)張圖片，每張圖片帶有5個(gè)描述圖像內(nèi)容的句子；
[0037] S1 . 2使用深度學(xué)習(xí)網(wǎng)絡(luò)（參照論文ImageNet Classif ication wi th Deep Convolutional Neural Networks ,Alex Krizhevsky, Ilya Sutskever,Geoffrey E Hinton,NIPS 2012.)，對(duì)訓(xùn)練集的每一張圖片提取圖像特征;本實(shí)施例選用網(wǎng)絡(luò)結(jié)構(gòu)的最后一個(gè)全連接層的輸出m = 4096維向量FiER^96作為圖像的特征向量；
[0038] S1.3詞性篩選:收集四、六級(jí)英語(yǔ)單詞的詞匯表，W及每個(gè)單詞的詞性；
[0039] 對(duì)于每張訓(xùn)練圖像對(duì)應(yīng)的一個(gè)或多個(gè)句子進(jìn)行詞性篩選:對(duì)于句子中的每個(gè)單詞，如果在四、六級(jí)詞匯表中排第一的詞性是名詞或者動(dòng)詞，該單詞留下，否則，把該單詞去掉;使用篩選之后剩下的單詞組成句子，

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：郭禮華;廖啟俊;
技術(shù)所有人：華南理工大學(xué);
我是此專(zhuān)利的發(fā)明人

上一篇：一種多層稀疏編碼特征的鳥(niǎo)類(lèi)圖像識(shí)別方法
上一篇：顯示圖片的方法及裝置的制造方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

參考文獻(xiàn)自動(dòng)生成方法相關(guān)技術(shù)

idea自動(dòng)生成方法注釋相關(guān)技術(shù)

idea自動(dòng)生成構(gòu)造方法相關(guān)技術(shù)

eclipse自動(dòng)生成方法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于rnn的圖片描述自動(dòng)生成方法