亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于rnn的圖片描述自動(dòng)生成方法

文檔序號(hào):9866192閱讀:1335來(lái)源:國(guó)知局
一種基于rnn的圖片描述自動(dòng)生成方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及人工智能領(lǐng)域,特別設(shè)及一種基于的圖片描述自動(dòng)生成方法。
【背景技術(shù)】
[0002] 自動(dòng)圖像內(nèi)容描述是人工智能圖像識(shí)別近年興起的新技術(shù)。其目的在于通過(guò)算 法,自動(dòng)把一個(gè)圖像的內(nèi)容信息,用自然語(yǔ)言表達(dá)出來(lái)。Show and Tell :A化ural Image Caption Generato;r,0;riol Vinyals 2014,通過(guò)先使用深度網(wǎng)絡(luò)提取圖像特征,再使用RNN 模型將圖像特征轉(zhuǎn)化為文字描述,提取出圖像的語(yǔ)義信息。但其是對(duì)整個(gè)圖像進(jìn)行整體處 理,不能很好地利用圖像中的空間位置的信息。Show,Attend and Tell :Neural Image (^iptionGeneration with Visual Attention,Kelvin Xu 2015,在其之上加入了顯著性檢 測(cè),對(duì)圖像的空間信息有一定的利用,但其也只利用了簡(jiǎn)單的RN飾莫型,語(yǔ)義的表達(dá)力較弱。

【發(fā)明內(nèi)容】

[0003] 為了克服現(xiàn)有技術(shù)的上述缺點(diǎn)與不足,本發(fā)明的目的在于提供一種基于的圖 片描述自動(dòng)生成方法,可W自動(dòng)識(shí)別,理解用戶(hù)上傳的數(shù)碼圖像,并生成人類(lèi)能理解的自然 句子。
[0004] 本發(fā)明的目的通過(guò)W下技術(shù)方案實(shí)現(xiàn):
[0005] -種基于的圖片描述自動(dòng)生成方法,包括W下步驟:
[0006] S1在計(jì)算機(jī)上進(jìn)行訓(xùn)練過(guò)程:
[0007] S1.1采集數(shù)據(jù)集:采集日常生活中各類(lèi)場(chǎng)景里面的圖像作為訓(xùn)練圖像,每張訓(xùn)練 圖像帶上一句或多句描述該圖像內(nèi)容的句子;
[000引S1.2使用深度學(xué)習(xí)網(wǎng)絡(luò),對(duì)訓(xùn)練集的每一張圖片提取圖像特征;
[0009] S1.3詞性篩選:收集四、六級(jí)英語(yǔ)單詞的詞匯表,W及每個(gè)單詞的詞性;
[0010] 對(duì)于每張訓(xùn)練圖像對(duì)應(yīng)的一個(gè)或多個(gè)句子進(jìn)行詞性篩選:對(duì)于句子中的每個(gè)單 詞,如果單詞在四、六級(jí)詞匯表中排第一的詞性是名詞或者動(dòng)詞,該單詞留下,否則,把該單 詞去掉;使用篩選之后剩下的單詞組成句子作為數(shù)據(jù)庫(kù);
[0011] S1.4將詞語(yǔ)數(shù)據(jù)轉(zhuǎn)換成特征向量:統(tǒng)計(jì)出S1.3中的數(shù)據(jù)庫(kù)中所有句子中出現(xiàn)的不 同單詞的數(shù)目,加上一個(gè)自定義的END字符,句子的總字符數(shù)為η;并對(duì)單詞按字母順序進(jìn)行 排序,每個(gè)單詞在序列中的位置作為該單詞的索引位置;由此把每個(gè)單詞表示為一個(gè)η維的 單詞特征向量,該向量只有在該單詞的索引位置上為1,其他全為零;η為正整數(shù);
[0012 ] S1.5將單詞特征向量和圖像特征向量統(tǒng)一映射到同一維度k的向量;k為正整數(shù); [OOK] S1.6使用LSTM網(wǎng)絡(luò)進(jìn)行訓(xùn)練:每個(gè)訓(xùn)練樣例為一張訓(xùn)練圖像和該訓(xùn)練圖像所對(duì)應(yīng) 的經(jīng)S1.3篩選的句子;每次隨機(jī)選擇一張訓(xùn)練圖像和一個(gè)對(duì)應(yīng)的參考句子;
[0014] S1.7將LSTM網(wǎng)絡(luò)的輸入和輸出都設(shè)為k維向量,在時(shí)刻0,把k維的圖像特征向量傳 入LSTM網(wǎng)絡(luò),網(wǎng)絡(luò)輸出一個(gè)k維向量;然后將輸出的k維向量左乘一個(gè)n*k維的矩陣,得到一 個(gè)η維向量;向量上第i維的值代表了索引值為i的單詞的可能性;i為正整數(shù);
[001引SI.8使用SI.7得到的η維向量和SI.6中輸入的參考句子的η維向量進(jìn)行比較,計(jì)算 兩個(gè)向量的歐式距離,作為L(zhǎng)STM網(wǎng)絡(luò)的誤差,使用反向誤差傳播算法,更新網(wǎng)絡(luò)參數(shù);
[0016] S2自動(dòng)生成圖像描述:
[0017] S2.1在互聯(lián)網(wǎng)上捜集自然語(yǔ)言的句子,形成語(yǔ)料庫(kù);
[0018] S2.2對(duì)于測(cè)試圖像,先使用深度學(xué)習(xí)網(wǎng)絡(luò)對(duì)測(cè)試圖像提取圖像特征,再使用S1.7 的方法得到η維的可能性單詞向量;根據(jù)η維向量上每一維值的大小,選出可能性最大的單 詞;
[0019] S2.3將步驟S2.2得到的單詞向量再次輸入LSTM網(wǎng)絡(luò)中,得到更新后的輸出單詞可 能性向量;不斷重復(fù)此過(guò)程,直到入LSTM網(wǎng)絡(luò)輸出END單詞;
[0020] S2.4將S2.2和S2.3過(guò)程中輸出的單詞,按順序組合成一個(gè)句子;使用該句子在 S2.1的語(yǔ)料庫(kù)中進(jìn)行匹配,捜索最相近的句子并輸出,生成測(cè)試圖像的描述。
[0021 ]步驟S1.5所述將單詞特征向量和圖像特征向量統(tǒng)一映射到同一維度k的向量,具 體為:
[0022 ] 對(duì)η維的單詞向量特征左乘W -個(gè)k*n的矩陣,對(duì)于m維的圖像特征向量,乘W-個(gè) k*m維的矩陣;由此把單詞特征和圖像特征統(tǒng)一到k維;m為正整數(shù)。
[0023] S1.8所述使用S1.7得到的η維向量和S1.6中輸入的參考句子的η維向量進(jìn)行比較, 計(jì)算兩個(gè)向量的歐式距離作為L(zhǎng)STM網(wǎng)絡(luò)的誤差,使用反向誤差傳播算法,更新網(wǎng)絡(luò)參數(shù),具 體為:
[0024] 在輸入第t個(gè)單詞時(shí),t小于句子長(zhǎng)度1,使用S1.7的方法,向LSTM網(wǎng)絡(luò)輸入?yún)⒖季?子中的第t個(gè)單詞,得到η維的可能性向量;使用參考句子中的第t+1個(gè)單詞作為參考,t+1個(gè) 單詞在η維可能性向量的負(fù)數(shù)作為誤差,使用反向誤差傳播算法,更新網(wǎng)絡(luò)參數(shù);t為正整 數(shù),1為正整數(shù);
[0025] 在輸入第1個(gè)單詞時(shí),使用S1.7的方法,向LSTM網(wǎng)絡(luò)輸入?yún)⒖季渥又械牡?個(gè)單詞, 得到η維的可能性向量;使用S1.4中加入的END單詞作為參考,END單詞在η維可能性向量的 負(fù)數(shù)作為誤差,使用反向誤差傳播算法,更新網(wǎng)絡(luò)參數(shù)。
[0026] 與現(xiàn)有技術(shù)相比,本發(fā)明具有W下優(yōu)點(diǎn)和有益效果:
[0027] (1)本發(fā)明很好地融合圖像特征和文字特征,放在統(tǒng)一的框架下進(jìn)行學(xué)習(xí)和理解, 使圖像信息和文字信息產(chǎn)生互補(bǔ)。
[0028] (2)本發(fā)明充分考慮到自動(dòng)文字描述圖片的困難性。采用了把句子中的名詞和動(dòng) 詞保留,去除其他詞性詞語(yǔ)的方法。保留了原來(lái)句子的主干部分(名詞和動(dòng)詞),去掉其他可 能帶來(lái)很大干擾的部分,降低了學(xué)習(xí)的復(fù)雜度,得到了較好的效果。
[0029] (3)本發(fā)明通過(guò)不斷增加訓(xùn)練數(shù)據(jù)庫(kù)中的圖像和句子,本發(fā)明的性能可W不斷得 到提高,而不需要重新訓(xùn)練。
[0030] (4)本發(fā)明中使用了互聯(lián)網(wǎng)上的海量信息作為我們的語(yǔ)料庫(kù),使算法可W輸出更 貼近日常語(yǔ)言的話(huà)語(yǔ)。
【附圖說(shuō)明】
[0031] 圖1為本發(fā)明的實(shí)施例的基于的圖片描述自動(dòng)生成方法的流程圖。
【具體實(shí)施方式】
[0032]下面結(jié)合實(shí)施例,對(duì)本發(fā)明作進(jìn)一步地詳細(xì)說(shuō)明,但本發(fā)明的實(shí)施方式不限于此。 [00削實(shí)施例
[0034] 本實(shí)施例的一種基于的圖片描述自動(dòng)生成方法,如圖1所示,包括W下步驟:
[0035] S1在計(jì)算機(jī)上進(jìn)行訓(xùn)練過(guò)程:
[0036] S1.1采集數(shù)據(jù)集:從ht化://mscoco.org/網(wǎng)站上下載mscoco數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)包 含30萬(wàn)張圖片,每張圖片帶有5個(gè)描述圖像內(nèi)容的句子;
[0037] S1 . 2使用深度學(xué)習(xí)網(wǎng)絡(luò)(參照論文ImageNet Classif ication wi th Deep Convolutional Neural Networks ,Alex Krizhevsky, Ilya Sutskever,Geoffrey E Hinton,NIPS 2012.),對(duì)訓(xùn)練集的每一張圖片提取圖像特征;本實(shí)施例選用網(wǎng)絡(luò)結(jié)構(gòu)的最 后一個(gè)全連接層的輸出m = 4096維向量FiER^96作為圖像的特征向量;
[0038] S1.3詞性篩選:收集四、六級(jí)英語(yǔ)單詞的詞匯表,W及每個(gè)單詞的詞性;
[0039] 對(duì)于每張訓(xùn)練圖像對(duì)應(yīng)的一個(gè)或多個(gè)句子進(jìn)行詞性篩選:對(duì)于句子中的每個(gè)單 詞,如果在四、六級(jí)詞匯表中排第一的詞性是名詞或者動(dòng)詞,該單詞留下,否則,把該單詞去 掉;使用篩選之后剩下的單詞組成句子,
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1