用于視覺問答的系統(tǒng)和方法與流程

文檔序號(hào)：11155290閱讀：1733來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明大體上涉及計(jì)算技術(shù)，并且更具體地涉及用于自動(dòng)進(jìn)行對(duì)圖像相關(guān)問題的問答任務(wù)并改進(jìn)人機(jī)對(duì)接的系統(tǒng)和方法。

背景技術(shù)：

存在的問題是如何自動(dòng)回答與圖像相關(guān)的問題。雖然已經(jīng)嘗試了使用深度學(xué)習(xí)來使回答問題的過程自動(dòng)進(jìn)行，但是仍需顯著的提高。

因此，需要的是提供更有效且更準(zhǔn)確的方式來自動(dòng)回答與圖像相關(guān)的問題的系統(tǒng)和方法。

技術(shù)實(shí)現(xiàn)要素：

本申請(qǐng)?zhí)峁┝艘环N改進(jìn)對(duì)問題輸入生成的答案的準(zhǔn)確性的計(jì)算機(jī)實(shí)施的方法、一種對(duì)圖像相關(guān)的問題生成答案的計(jì)算機(jī)實(shí)施的方法、以及一種改進(jìn)對(duì)問題輸入生成的答案的準(zhǔn)確性的裝置

根據(jù)本申請(qǐng)的一方面，提供了一種改進(jìn)對(duì)問題輸入生成的答案的準(zhǔn)確性的計(jì)算機(jī)實(shí)施的方法包括：接收?qǐng)D像輸入；接收與圖像輸入相關(guān)的問題輸入；將問題輸入和圖像輸入輸入到基于關(guān)注的可配置卷積神經(jīng)網(wǎng)絡(luò)框架中以生成答案，基于關(guān)注的可配置卷積神經(jīng)網(wǎng)絡(luò)框架包括：圖像特征圖提取組件，包括從圖像輸入提取圖像特征圖的卷積神經(jīng)網(wǎng)絡(luò)；語義問題嵌入組件，從問題輸入獲得問題嵌入；經(jīng)問題引導(dǎo)的關(guān)注圖生成組件，接收?qǐng)D像特征圖和問題嵌入，并且獲得集中于問題輸入所詢問的區(qū)域或多個(gè)區(qū)域的經(jīng)問題引導(dǎo)的關(guān)注圖；以及答案生成組件，通過使用經(jīng)問題引導(dǎo)的關(guān)注圖加權(quán)圖像特征圖，獲得經(jīng)關(guān)注加權(quán)的圖像特征圖，并且基于圖像特征圖、問題嵌入和經(jīng)關(guān)注加權(quán)的圖像特征圖的融合來生成答案。

根據(jù)本申請(qǐng)的另一方面，提供了一種對(duì)圖像相關(guān)的問題生成答案的計(jì)算機(jī)實(shí)施的方法，包括：使用深層卷積神經(jīng)網(wǎng)絡(luò)從包括多個(gè)像素的輸入圖像提取圖像特征圖；使用長(zhǎng)短期存儲(chǔ)器層從與輸入圖像相關(guān)的輸入問題中獲得密集問題嵌入；通過將密集問題嵌入從語義空間投影到視覺空間來產(chǎn)生多個(gè)經(jīng)問題配置的內(nèi)核；將經(jīng)問題配置的內(nèi)核與圖像特征圖卷積以生成經(jīng)問題引導(dǎo)的關(guān)注圖；通過使用經(jīng)問題引導(dǎo)的關(guān)注圖在空間上加權(quán)圖像特征圖，在多類別分類器處獲得經(jīng)關(guān)注加權(quán)的圖像特征圖，經(jīng)關(guān)注加權(quán)的圖像特征圖降低與輸入問題不相關(guān)的區(qū)域的權(quán)重；以及基于圖像特征圖、密集問題嵌入和經(jīng)關(guān)注加權(quán)的圖像特征圖的融合對(duì)輸入問題生成答案。

根據(jù)本申請(qǐng)的再一方面，提供了一種改進(jìn)對(duì)問題輸入生成的答案的準(zhǔn)確性的裝置，包括：響應(yīng)于接收問題輸入提取所述問題輸入的密集問題嵌入的裝置；響應(yīng)于接收與所述問題輸入相關(guān)的圖像輸入生成圖像特征圖的裝置；至少基于所述圖像特征圖和所述密集問題嵌入生成經(jīng)問題引導(dǎo)的關(guān)注圖的裝置，所述經(jīng)問題引導(dǎo)的關(guān)注圖選擇性地集中于所述問題輸入所詢問的區(qū)域上；使用所述經(jīng)問題引導(dǎo)的關(guān)注圖在空間上加權(quán)所述圖像特征圖以獲得經(jīng)關(guān)注加權(quán)的圖像特征圖的裝置；以及將語義信息、所述圖像特征圖和所述經(jīng)關(guān)注加權(quán)的圖像特征圖融合以對(duì)所述問題輸入生成答案的裝置。

附圖說明

將參考本發(fā)明的實(shí)施方式，它們的示例可示于附圖中。這些附圖旨在是說明性的而非限制性的。雖然本發(fā)明大體上在這些實(shí)施方式的上下文中描述，但應(yīng)理解，本發(fā)明的范圍并不旨在限于這些特定實(shí)施方式。附圖中的項(xiàng)目未按比例繪制。

圖1示出根據(jù)本公開的實(shí)施方式的視覺問答中的關(guān)注的問題。

圖2描繪根據(jù)本公開的實(shí)施方式的示例性流程或框架。

圖3描繪根據(jù)本公開的實(shí)施方式的用于詢問處理的LSTM框架的實(shí)施方式的細(xì)節(jié)。

圖4描繪根據(jù)本公開的實(shí)施方式的基于關(guān)注加權(quán)圖像(attention weighted image)的答案生成的示例性流程圖。

圖5描繪根據(jù)本公開的實(shí)施方式的用于生成關(guān)注加權(quán)圖像的示例性流程圖。

圖6描繪根據(jù)本公開的實(shí)施方式的一些示例圖像以及對(duì)應(yīng)QA對(duì)，每個(gè)圖像以其相應(yīng)數(shù)據(jù)集的編號(hào)標(biāo)識(shí)。

圖7示出根據(jù)本公開的實(shí)施方式的具有圖像相關(guān)問題與在Toronto COCO-QA數(shù)據(jù)集中通過ABC-CNN生成的經(jīng)問題引導(dǎo)的關(guān)注圖的所選圖像。

圖8描繪根據(jù)本公開的實(shí)施方式的計(jì)算設(shè)備/信息處理系統(tǒng)的簡(jiǎn)化框圖。

具體實(shí)施方式

在以下描述中，出于解釋目的，闡明具體細(xì)節(jié)以便提供對(duì)本發(fā)明的理解。然而，將對(duì)本領(lǐng)域的技術(shù)人員顯而易見的是，可在沒有這些細(xì)節(jié)的情況下實(shí)踐本發(fā)明。此外，本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到，下文描述的本發(fā)明的實(shí)施方式可以以各種方式(例如過程、裝置、系統(tǒng)、設(shè)備或方法)在非瞬時(shí)計(jì)算機(jī)可讀介質(zhì)上實(shí)施。

附圖中示出的組件或是模塊是本發(fā)明實(shí)施方式的示例性說明，并且意圖避免使本發(fā)明不清楚。還應(yīng)理解，在本論述的全文中，組件可描述為單獨(dú)的功能單元(可包括子單元)，但是本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到，各種組件或其部分可劃分成單獨(dú)組件，或者可整合在一起(包括整合在單個(gè)的系統(tǒng)或組件內(nèi))。應(yīng)當(dāng)關(guān)注，本文論述的功能或操作可實(shí)施為組件。組件可以以軟件、硬件、或它們的組合實(shí)施。

此外，附圖內(nèi)的組件或系統(tǒng)之間的連接并不旨在限于直接連接。相反，在這些組件之間的數(shù)據(jù)可由中間組件修改、重格式化、或以其他方式改變。另外，可以使用另外或更少的連接。還應(yīng)關(guān)注，術(shù)語“聯(lián)接”、“連接”、或“通信地聯(lián)接”應(yīng)理解為包括直接連接、通過一個(gè)或多個(gè)中間設(shè)備來進(jìn)行的間接連接、和無線連接。

在本說明書中對(duì)“一個(gè)實(shí)施方式”、“優(yōu)選實(shí)施方式”、“實(shí)施方式”、“多個(gè)實(shí)施方式”的提及表示結(jié)合實(shí)施方式所描述的具體特征、結(jié)構(gòu)、特性或功能包括在本發(fā)明的至少一個(gè)實(shí)施方式中。另外，在本說明書的各個(gè)地方出現(xiàn)以上所提到的短語并不一定全都是指相同的實(shí)施方式或多個(gè)相同實(shí)施方式。

在本說明書的各個(gè)地方使用某些術(shù)語目的在于說明，并且不應(yīng)被理解為限制。服務(wù)、功能或資源并不限于單個(gè)服務(wù)、單個(gè)功能或單個(gè)資源；這些術(shù)語的使用可指代相關(guān)服務(wù)、功能或資源的可分布或聚合的分組。術(shù)語“包括”、“包括有”、“包含”、“包含有”應(yīng)理解為開放性的術(shù)語，并且其后任何列出內(nèi)容都是實(shí)例，而不旨在限于所列項(xiàng)目。術(shù)語“圖像”應(yīng)理解為包括靜態(tài)圖像或視頻圖像。本文所使用的任何標(biāo)題僅是為了組織目的，并且不應(yīng)被用于限制說明書或權(quán)利要求的范圍。本專利文獻(xiàn)中提到的每個(gè)參考文獻(xiàn)以其全文通過引用并入本文。

此外，本領(lǐng)域的技術(shù)人員應(yīng)認(rèn)識(shí)到，(1)某些步驟可以可選地執(zhí)行；(2)步驟可不限于本文所闡述的特定次序；(3)某些步驟可以以不同次序執(zhí)行；以及(4)某些步驟可同時(shí)地進(jìn)行。

A.介紹

視覺問答(VQA)是計(jì)算機(jī)視覺化、自然語言處理和機(jī)器學(xué)習(xí)的積極跨學(xué)科性研究領(lǐng)域。給定圖像以及與圖像相關(guān)的自然語言問題，VQA使用自然語句回答問題。VQA不僅是構(gòu)建人工智能的基本步驟，也對(duì)許多應(yīng)用(例如圖像檢索、盲人導(dǎo)航和兒童早教)極為重要。VQA是一項(xiàng)有挑戰(zhàn)的任務(wù)，因?yàn)樗髲?fù)雜的計(jì)算視覺技術(shù)以深層理解圖像，還要求先進(jìn)的自然語言處理技術(shù)以提取問題含義，并且要求統(tǒng)一框架來有效地整合視覺信息和語義信息。

目前，大多數(shù)的現(xiàn)有技術(shù)VQA模型包含視覺部分、自然語言部分和答案生成部分。視覺部分利用深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)[參見例如Y·A·樂村(Y.A.LeCun)、L·伯特(L.Bottou)、G·B·奧爾(G.B.Orr)和K·R·穆勒(K.R.Muller)，“有效BackProp”(Efficient Backprop)，《神經(jīng)網(wǎng)絡(luò)：技巧》(Neural networks:Tricks of the trade))，第9–48頁，施普林格出版公司(Springer)，2012]或傳統(tǒng)的視覺特征提取器從輸入圖像中提取視覺特征。自然語言部分利用Bag-of-Word模型或循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)[參見例如S·霍奇瑞特(S.Hochreiter)和J·施密哈勃(J.Schmidhuber)，“長(zhǎng)短期存儲(chǔ)器(Long short-term memory)”，《神經(jīng)計(jì)算》(Neural computation)，9(8):1735–1780，1997]模型學(xué)習(xí)密集問題嵌入(dense question embedding)以對(duì)問題語義進(jìn)行編碼。答案生成部分在給定視覺特征和問題嵌入的情況下，生成答案。答案可為通過多類別分類器來生成的單字詞答案或?yàn)橥ㄟ^另外的RNN解碼器來生成的完整句子。全局視覺特征和密集問題嵌入通過線性/非線性的聯(lián)合投影整合。這種整合通常并不足以充分利用視覺部分與問題理解部分之間的關(guān)系。

在本文中呈現(xiàn)新的基于關(guān)注的可配置卷積神經(jīng)網(wǎng)絡(luò)(ABC-CNN)的實(shí)施方式作為統(tǒng)一框架，它將VQA的視覺信息和語義信息整合。當(dāng)試圖回答與圖像相關(guān)的問題時(shí)，人們趨于在給出答案前集中于根據(jù)問題意向的信息區(qū)域上。例如，在圖1中，就詢問“外套是什么顏色的？”而言，人們通常在判斷外套顏色以回答問題之前找出外套區(qū)域。找出這些區(qū)域的機(jī)制是稱為經(jīng)問題引導(dǎo)的關(guān)注，因?yàn)檫@些區(qū)域通過圖像以及圖像相關(guān)的問題兩者確定。

給定圖像以及圖像相關(guān)的問題，所提出的框架不僅生成自然語言答案，而且還提供經(jīng)問題引導(dǎo)的關(guān)注信息作為回答問題的重要證據(jù)。在實(shí)施方式中，VQA任務(wù)考慮單字詞答案；然而，實(shí)施方式可容易地?cái)U(kuò)展為通過使用例如RNN解碼器生成完整句子。

為了處理這些問題，提出基于關(guān)注的可配置卷積神經(jīng)網(wǎng)絡(luò)(ABC-CNN)。根據(jù)本公開的一些實(shí)施方式的示例性ABC-CNN框架200在圖2中示出。ABC-CNN框架包含視覺部分(也被稱為圖像特征圖提取部分)、問題理解部分、答案生成部分和關(guān)注提取部分。在所描繪的實(shí)施方式中，方框205指示視覺部分或視覺組件；方框210為問題理解部分或問題理解組件；方框215表示具有可配置卷積的關(guān)注提取部分或關(guān)注提取組件；以及方框220是對(duì)經(jīng)關(guān)注加權(quán)的圖像特征圖222使用多類別分類的答案生成部分或答案生成組件。

在實(shí)施方式中，卷積神經(jīng)網(wǎng)絡(luò)(CNN)207用于在視覺部分中提取視覺特征。替代提取單個(gè)全局視覺特征，空間特征圖通過在滑動(dòng)窗口中應(yīng)用CNN或利用完全卷積神經(jīng)網(wǎng)絡(luò)被提取以保留重要空間信息。在實(shí)施方式中，長(zhǎng)短期存儲(chǔ)器(LSTM)模型214用于在問題理解部分中獲得問題嵌入212，并且多類別分類器用于在答案生成部分中生成答案。視覺部分和問題理解部分通過利用經(jīng)問題引導(dǎo)的關(guān)注進(jìn)行整合。

在實(shí)施方式中，經(jīng)問題引導(dǎo)的關(guān)注信息在關(guān)注提取部分215內(nèi)被表示為經(jīng)問題引導(dǎo)的關(guān)注圖218，關(guān)注提取部分215是ABC-CNN框架的核心。其經(jīng)由可配置的卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)，其中卷積內(nèi)核216通過將問題嵌入從語義空間投影到視覺空間來生成?？膳渲镁矸e內(nèi)核與根據(jù)問題含義所確定的視覺信息對(duì)應(yīng)。例如，在圖1中，問題“雨傘是什么顏色的？”應(yīng)當(dāng)生成與“雨傘”視覺特征對(duì)應(yīng)的卷積內(nèi)核?？膳渲镁矸e內(nèi)核與圖像特征圖表的卷積自適應(yīng)地將每個(gè)區(qū)域?qū)τ诨卮鸾o定問題的重要性表示為經(jīng)問題引導(dǎo)的關(guān)注圖218。經(jīng)問題引導(dǎo)的關(guān)注圖218可以用于在空間上加權(quán)視覺特征圖，以過濾掉噪聲和不相關(guān)的信息。在實(shí)施方式中，ABC-CNN是有效地將圖像和語言理解整合并可以以端對(duì)端的方式訓(xùn)練而不要求對(duì)圖像中的關(guān)注區(qū)域進(jìn)行任何人工標(biāo)記的統(tǒng)一框架。

在實(shí)驗(yàn)中，根據(jù)本公開的ABC-CNN架構(gòu)的實(shí)施方式針對(duì)三個(gè)基準(zhǔn)VQA數(shù)據(jù)集進(jìn)行評(píng)估：Toronto COCOQA[M·瑞恩(M.Ren)、R·吉洛斯(R.Kiros)和R·澤內(nèi)爾(R.Zemel)，“探索用于圖像問答的模型和數(shù)據(jù)”(Exploring models and data for image question answering)，arXiv:1505.02074.2015]；DAQUAR[M·馬里諾維斯基(M.Malinowski)和M·弗利特茲(M.Fritz)，“基于不確定的輸入進(jìn)行真實(shí)世界場(chǎng)景的問答的多世界性方法”(A multi-world approach to question answering about real-world scenes based on uncertain input)，《神經(jīng)信息處理系統(tǒng)發(fā)展》(Advances in Neural Information Processing Systems)，第1682–1690頁，2014]；以及VQA[S·安托(S.Antol)、A·阿格拉瓦(A.Agrawal)、J·路(J.Lu)、M·米歇爾(M.Mitchell)、D·巴塔(D.Batra)、C·L·齊特尼科(C.L.Zitnick)和D·帕里克(D.Parikh)，“VQA：視覺問答”(VQA:Visual question answering)，arXiv預(yù)印本arXiv:1505.00468，2015]。實(shí)驗(yàn)表明，ABC-CNN框架顯著優(yōu)于現(xiàn)有技術(shù)方法。視覺化證實(shí)了ABC-CNN架構(gòu)能夠生成很好地反映問題詢問的區(qū)域的關(guān)注圖。

總而言之，統(tǒng)一的ABC-CNN框架被公開為經(jīng)由經(jīng)問題引導(dǎo)的關(guān)注有效地將視覺信息與語義信息整合以用于VQA。經(jīng)問題引導(dǎo)的關(guān)注不僅顯著改進(jìn)VQA系統(tǒng)性能，而且它還幫助獲得對(duì)問答過程的更好理解。

B.相關(guān)工作

VQA&為圖像加說明：這兩問題在推理視覺內(nèi)容并以自然語言呈現(xiàn)結(jié)果方面存在相似。在VQA和為圖像加說明方面的當(dāng)前現(xiàn)有技術(shù)方法趨于應(yīng)用CNN提取視覺特征并且應(yīng)用LSTM模型作為解碼器來生成答案或說明。一些方法在LSTM解碼器中的生成期間應(yīng)用多模型層來通過聯(lián)合投影組合可視特征和字詞嵌入矢量。至少一個(gè)其他方法[參見P·賽馬內(nèi)特(P.Sermanet)、A·福姆(A.Frome)和E·瑞爾(E.Real)，“用于精細(xì)的分類的關(guān)注”(Attention for fine-grained categorization)，arXiv預(yù)印本arXiv:1412.7054，2014]利用所投影的圖像特征作為L(zhǎng)STM解碼器的起始狀態(tài)，這類似于序列至序列學(xué)習(xí)[參見，I·蘇特科夫(I.Sutskever)、O·維亞爾斯(O.Vinyals)和Q·V·李(Q.V.Le)，“利用神經(jīng)網(wǎng)絡(luò)的序列-序列學(xué)習(xí)”(Sequence to sequence learning with neural networks)，《神經(jīng)信息處理系統(tǒng)發(fā)展》(Advances in neural information processing systems)，第3104–3112頁，2014]中的編解碼-解碼器框架。在將圖像特征處理為全局視覺特征時(shí)，它們沒有發(fā)掘問題中的有價(jià)值的信息來將它們的關(guān)注集中于圖像中的對(duì)應(yīng)區(qū)域上。

關(guān)注模型：關(guān)注模型已成功地用于許多計(jì)算機(jī)視覺任務(wù)，包括對(duì)象檢測(cè)、精細(xì)圖像分類、精細(xì)視覺識(shí)別和為圖像加說明。關(guān)注信息可建模為圖像中的關(guān)注區(qū)域序列。循環(huán)神經(jīng)網(wǎng)絡(luò)用于基于當(dāng)前關(guān)注區(qū)域的位置和視覺特征來預(yù)測(cè)下一關(guān)注區(qū)域。一些人將該框架分別用于對(duì)象識(shí)別、對(duì)象檢測(cè)和精細(xì)對(duì)象識(shí)別。另一些人已發(fā)展出用于為圖像加說明的基于關(guān)注的模型，該模型使用循環(huán)神經(jīng)網(wǎng)絡(luò)作為生成器，使得在生成句子中的不同字詞時(shí)，模型將其關(guān)注集中于不同圖像區(qū)域上。所述模型提取每個(gè)圖像中的一組建議區(qū)域，并且關(guān)注權(quán)重使用解碼LSTM生成器隱藏狀態(tài)和每個(gè)建議區(qū)域中提取的視覺特征來學(xué)習(xí)。在一種情況[參見T·Y·林(T.Y.Lin)、A·羅伊·喬杜里(A.Roy Chowdhury)和S·馬基(S.Maji)，“用于精細(xì)視覺識(shí)別的雙線性CNN模型”(Bilinear CNN models for fine-grained visual recognition)，arXiv預(yù)印本arXiv:1504.07889，2015]下，雙線性CNN結(jié)構(gòu)被提出用于將位置和內(nèi)容組合以用于精細(xì)圖像分類。ABC-CNN受到將關(guān)注在這些視覺任務(wù)上的成功應(yīng)用的啟發(fā)，并且利用經(jīng)問題引導(dǎo)的關(guān)注來改進(jìn)VQA性能。

可配置卷積神經(jīng)網(wǎng)絡(luò)：已經(jīng)提出用于小范圍天氣預(yù)測(cè)的動(dòng)態(tài)的卷積層架構(gòu)[參見B·克萊恩(B.Klein)、L·沃夫(L.Wolf)和Y·埃菲克(Y.Afek)，“用于小范圍天氣預(yù)測(cè)的動(dòng)態(tài)的卷積層架構(gòu)”(A dynamic convolutional layer for short range weather prediction)，《IEEE計(jì)算機(jī)視覺和圖案識(shí)別會(huì)刊》(Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition)第4840–4848頁，2015]。動(dòng)態(tài)的卷積層中的卷積內(nèi)核通過神經(jīng)網(wǎng)絡(luò)在先前時(shí)間步長(zhǎng)中對(duì)天氣圖像信息編碼來確定。在VQA中，確定關(guān)注區(qū)域的最重要的線索是問題。因此，ABC-CNN框架的實(shí)施方式中的可配置卷積內(nèi)核通過問題嵌入來確定。

C.基于關(guān)注的可配置CNN

圖2中示出了ABC-CNN框架的實(shí)施方式。在實(shí)施方式中，具有單字詞答案的QA對(duì)是本文中的重點(diǎn)示例，因?yàn)槿蝿?wù)可看作是多類別分類的問題，這簡(jiǎn)化了評(píng)估度量并且允許集中于開發(fā)經(jīng)問題引導(dǎo)的關(guān)注模型。然而，應(yīng)當(dāng)關(guān)注，關(guān)注模型的實(shí)施方式可容易地?cái)U(kuò)展為通過用LSTM解碼器替代多類別分類模型來生成多字詞的句子作為答案。

如圖2所示，所描繪的ABC-CNN實(shí)施方式包括四個(gè)組件：圖像特征提取部分205、問題理解部分210、關(guān)注提取部分215和答案生成部分220。在圖像特征提取部分205中，在實(shí)施方式中，深度卷積神經(jīng)網(wǎng)絡(luò)207被用于針對(duì)每個(gè)圖像提取圖像特征圖I 208作為圖像表示。在實(shí)施方式中，使用了在1000類ImageNet分類挑戰(zhàn)2012數(shù)據(jù)集[參見J·鄧(J.Deng)、W·董(W.Dong)、R·索契爾(R.Socher)、L·J·李(L.-J.Li)、K·李(K.Li)和李菲菲(L.Fei-Fei)，“圖像網(wǎng)絡(luò)：大規(guī)模分級(jí)圖像數(shù)據(jù)庫”(A large-scale hierarchical image database)，《IEEE計(jì)算機(jī)視覺和圖案識(shí)別2009CVPR2009會(huì)刊》(Computer Vision and Pattern Recognition,2009.CVPR2009.IEEE Conference on)，第248–255頁，IEEE，2009]上預(yù)訓(xùn)練的VGG-19深度卷積神經(jīng)網(wǎng)絡(luò)[K·西蒙亞恩(K.Simonyan)和A·齊塞曼(A.Zisserman，“用于大規(guī)模圖像識(shí)別的極深卷積網(wǎng)絡(luò)”(A very deep convolutional networks for large-scale image recognition)，arXiv預(yù)印本)arXiv:1409.1556，2014]、以及在PASCAL 2007分段數(shù)據(jù)集上預(yù)訓(xùn)練的完全卷積分段神經(jīng)網(wǎng)絡(luò)[參見L·C·陳(L.C.Chen)、G·帕潘多斯(G.Papandreou)、I·柯基諾斯(I.Kokkinos)、A·K·穆菲(K.Murphy)和A·L·于勒(A.L.Yuille)，“利用深度卷積網(wǎng)絡(luò)和全連接的CRFS的語義圖像分段”(Semantic image segmentation with deep convolutional nets and fully connected CRFS)，arXiv預(yù)印本arXiv:1412.7062，2014]。在實(shí)施方式中，問題理解部分210采用LSTM層214來學(xué)習(xí)密集問題嵌入s 213，以對(duì)圖像相關(guān)問題的語義信息進(jìn)行編碼。在實(shí)施方式中，ABC-CNN框架的核心組件是關(guān)注提取部分215。在實(shí)施方式中，關(guān)注提取部分根據(jù)密集問題嵌入配置一組卷積內(nèi)核216。表征問題中所問的對(duì)象的視覺特征的卷積內(nèi)核216被應(yīng)用于圖像特征圖208，以生成經(jīng)問題引導(dǎo)的關(guān)注圖218。在實(shí)施方式中，基于圖像特征圖I 208、經(jīng)關(guān)注加權(quán)的圖像特征圖222和密集問題嵌入213的融合的改進(jìn)，答案生成部分220使用多類別分類器回答問題。本章節(jié)的其余部分將更詳細(xì)地描述ABC-CNN框架的每個(gè)組件的實(shí)施方式。

1.關(guān)注提取

在實(shí)施方式中，經(jīng)問題引導(dǎo)的關(guān)注圖m(其反映了問題所詢問的圖像區(qū)域)使用可配置卷積神經(jīng)網(wǎng)絡(luò)從每個(gè)圖像-問題對(duì)中生成?？膳渲镁矸e神經(jīng)網(wǎng)絡(luò)中的卷積內(nèi)核可根據(jù)密集問題嵌入s通過將密集問題嵌入s從語義空間投影到視覺空間來配置。

其中σ(.)是sigmoid函數(shù)。

在實(shí)施方式中，密集問題表示s對(duì)編碼問題中詢問的語義對(duì)象信息。在實(shí)施方式中，投影將語義信息變換成對(duì)應(yīng)的視覺信息以作為經(jīng)問題配置的內(nèi)核，其具有與圖像特征圖I相同數(shù)量的通道。例如，如果問題是“雨傘是什么顏色的？”，則經(jīng)問題配置的內(nèi)核k應(yīng)當(dāng)為雨傘的視覺特征。

在實(shí)施方式中，經(jīng)問題引導(dǎo)的關(guān)注圖可通過將經(jīng)問題配置的內(nèi)核k應(yīng)用于圖像特征圖I上來生成。

其中m_ij是位置(i,j)處的經(jīng)問題引導(dǎo)的關(guān)注的元素，并且符號(hào)*表示卷積運(yùn)算。在實(shí)施方式中，Softmax歸一化產(chǎn)生空間關(guān)注分布作為經(jīng)問題引導(dǎo)的圖。在實(shí)施方式中，卷積被填充以確保關(guān)注圖m具有與圖像特征圖I相同的大小。經(jīng)問題引導(dǎo)的關(guān)注圖集中于問題所詢問的區(qū)域上。例如，問題“雨傘是什么顏色的？”可以生成集中在圖像中的雨傘區(qū)域上的關(guān)注圖，因?yàn)榫矸e內(nèi)核按照問題被配置成雨傘視覺特征。

利用關(guān)注圖m，問答準(zhǔn)確性可對(duì)所有四類問題改善，這是出于以下原因：

·對(duì)于計(jì)數(shù)問題，例如“在對(duì)象中存在多少汽車？”，關(guān)注圖過濾掉不相關(guān)的區(qū)域，這使對(duì)象更容易地推斷圖像中的對(duì)象數(shù)量。

·對(duì)于顏色問題，例如“外套是什么顏色的？”，特定對(duì)象的顏色可通過集中于相關(guān)對(duì)象上來更有效地回答。

·對(duì)于對(duì)象問題，例如“桌面上放的是什么？”，關(guān)注圖可以過濾掉不太相關(guān)的區(qū)域，例如背景，并且根據(jù)空間關(guān)系推斷尋找對(duì)象的更好的位置。

·對(duì)于位置問題，例如“圖像中的汽車在哪？”，關(guān)注圖對(duì)于生成準(zhǔn)確的答案來說是重要的，因?yàn)?，它清楚地描述?duì)象是在圖像中的哪個(gè)位置。

2.問題理解

問題理解對(duì)于視覺問答來說是重要的。問題語義含義不僅會(huì)為答案生成提供最重要的線索，而且可以用于確定可配置卷積內(nèi)核以成關(guān)注圖。

最近，長(zhǎng)短期存儲(chǔ)器(LSTM)模型已表明了在語言理解上工作得很好。在實(shí)施方式中，LSTM模型被用于生成密集問題嵌入來表征問題語義含義。在實(shí)施方式中，問題q首先被分詞成字詞序列{v_t}。在實(shí)施方式中，所有大寫字符被轉(zhuǎn)換成小寫字符，并且所有標(biāo)點(diǎn)被刪除。在訓(xùn)練集合中出現(xiàn)但未在測(cè)試集合中出現(xiàn)的字詞用特殊符號(hào)來替代，例如#OOV#，并且#B#和#E#特殊符號(hào)被添加至序列頭和序列尾。根據(jù)問題字典，每個(gè)字詞可表示為密集字詞嵌入向量。在實(shí)施方式中，LSTM被應(yīng)用于字詞嵌入序列以通過使用存儲(chǔ)門(memory gate)c_t和遺忘門(forget gate)f_t從每個(gè)向量v_t生成隱藏狀態(tài)h_t(等式3，如以下所示)：

i_t＝σ(W_viv_t+W_hih_t-1+b_i)

f_t＝σ(W_vfv_t+W_hfh_t-1+b_f)

o_t＝σ(W_vov_t+W_hoh_t-1+b_o)

g_t＝φ(W_vgv_t+W_hgh_t-1+b_g)

c_t＝f_t⊙c_t-1+i_t⊙g_t

h_t＝o_t⊙φ(c_t) (3)

其中φ是雙曲正切函數(shù)，并且⊙表示在兩個(gè)向量之間的按元素的乘積。圖3中示出了用于詢問過程的LSTM框架的實(shí)施方式的細(xì)節(jié)。輸入問題q的語義信息s通過在所有時(shí)間步長(zhǎng)上求LSTM狀態(tài){h_t}的平均值來獲得。

3.圖像特征提取

在實(shí)施方式中，每個(gè)圖像中的視覺信息被表示為N×N×D的圖像特征圖。特征圖可通過將圖像分成N×N的網(wǎng)格并在網(wǎng)格中的每個(gè)單元中提取的D維特征向量f來提取。在實(shí)施方式中，在原始圖像和左右翻轉(zhuǎn)圖像的每個(gè)單元中的中心、左上、右上、左下和右下角落提取五個(gè)(5個(gè))窗口，從而針對(duì)每個(gè)單元產(chǎn)生總共十個(gè)(10個(gè))窗口。在實(shí)施方式中，VGG-19深度卷積神經(jīng)網(wǎng)絡(luò)對(duì)每個(gè)窗口提取D維特征。在實(shí)施方式中，每個(gè)單元的D維特征向量是所有十個(gè)(10個(gè))D維特征向量的平均。最終N×N×D圖像特征圖是N×N×D維特征向量的串聯(lián)。

也可以利用完全卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)來更有效地提取圖像特征圖。在實(shí)施方式中，在PASCAL 2007分段數(shù)據(jù)集上預(yù)訓(xùn)練的分段模型[L·C·陳(L.C.Chen)、G·帕潘多斯(G.Papandreou)、I·柯基諾斯(I.Kokkinos)、A·K·穆菲(K.Murphy)和A·L·于勒(A.L.Yuille)，“利用深度卷積網(wǎng)絡(luò)和全連接的CRFS的語義圖像分段”(Semantic image segmentation with deep convolutional nets and fully connected CRFS)，arXiv預(yù)印本arXiv:1412.7062，2014]被使用，并且產(chǎn)生稍好的性能。

4.答案生成

在實(shí)施方式中，答案生成部分是用于原始圖像特征圖、密集問題嵌入和經(jīng)關(guān)注加權(quán)的圖像特征圖的多類別分類器。在實(shí)施方式中，關(guān)注圖用于在空間上加權(quán)圖像特征圖I。加權(quán)的圖像特征圖集中于與問題對(duì)應(yīng)的對(duì)象上。在實(shí)施方式中，在空間上的加權(quán)通過圖像特征圖和關(guān)注圖的每個(gè)通道之間的按元素的乘積實(shí)現(xiàn)。

I′_i＝I_i⊙m (4)

其中⊙表示按元素的乘積，I′_i和I_i分別表示經(jīng)關(guān)注加權(quán)的圖像特征圖I′_i和原始圖像特征圖I的第i通道。經(jīng)關(guān)注加權(quán)的圖像特征圖降低與問題不相關(guān)的區(qū)域的權(quán)重。在實(shí)施方式中，為了避免過度擬合，1×1卷積被應(yīng)用于經(jīng)關(guān)注加權(quán)的圖像特征圖以減少通道數(shù)量，從而得到減小的特征圖I_r。在實(shí)施方式中，問題或詢問的語義信息、圖像特征圖I和減小的特征圖I_r通過非線性投影融合：

h＝g(W_ihI+W_rhI_r+W_shs+b_h) (5)

其中h表示最終投影特征，并且g(.)是按元素逐個(gè)標(biāo)定的雙曲正切函數(shù)：該函數(shù)使得梯度進(jìn)入值的最為非線性的范圍，并且實(shí)現(xiàn)更高的訓(xùn)練速度。

在實(shí)施方式中，具有Softmax激活的多類別分類器在最終投影特征h上訓(xùn)練。答案id可以在答案字典中指定。ABC-CNN所生成的答案是具有最大概率的字詞：

其中V_a是答案字典中的所有字詞的集合。

應(yīng)注意的是，對(duì)于實(shí)施方式，用于問題和答案的字典并不共享。這意味著，用于相同字詞的表示可能對(duì)于問題和答案是不同。

圖4描繪根據(jù)本公開的實(shí)施方式的用于使用ABC-CNN架構(gòu)生成答案的示例性流程圖。在實(shí)施方式中，ABC-CNN架構(gòu)在步驟405中使用深度卷積神經(jīng)網(wǎng)絡(luò)從包括多個(gè)像素的輸入圖像提取圖像特征圖，并且在步驟410中使用長(zhǎng)短期存儲(chǔ)器(LSTM)層從與輸入圖像相關(guān)的輸入問題中獲得密集問題嵌入。在步驟415處，通過將密集問題嵌入從語義空間投影到視覺空間產(chǎn)生多個(gè)經(jīng)問題配置的內(nèi)核。在步驟420處，通過將經(jīng)問題配置的內(nèi)核與圖像特征圖卷積生成經(jīng)問題引導(dǎo)的關(guān)注圖。在步驟425處，通過使用經(jīng)問題引導(dǎo)的關(guān)注圖在空間上加權(quán)圖像特征圖，在多類別分類器處獲得經(jīng)關(guān)注加權(quán)的圖像特征圖。經(jīng)關(guān)注加權(quán)的圖像特征圖用于降低與問題不相關(guān)的區(qū)域的權(quán)重，或者集中于與問題關(guān)聯(lián)的區(qū)域上。在實(shí)施方式中，在空間上的加權(quán)通過圖像特征圖和經(jīng)問題引導(dǎo)的關(guān)注圖的每個(gè)通道之間的按元素的乘積來實(shí)現(xiàn)。最后，在步驟430處，基于圖像特征圖、深度問題嵌入和將關(guān)注加權(quán)的圖像特征圖的融合生成問題的答案。

圖5描繪根據(jù)本公開的實(shí)施方式的用于使用ABC-CNN架構(gòu)生成經(jīng)問題引導(dǎo)的關(guān)注圖的示例性流程圖。在實(shí)施方式中，關(guān)注圖生成部分在步驟505中接收從圖像輸入提取的圖像特征圖，并且在步驟510中接收使用LSTM從問題輸入獲得的密集問題嵌入。在步驟515中，通過將問題嵌入從語義空間投影到視覺空間，產(chǎn)生一組可配置卷積內(nèi)核。在步驟520處，空間上的關(guān)注分布通過經(jīng)問題配置的內(nèi)核與圖像特征圖之間的卷積運(yùn)算生成。在實(shí)施方式中，ABC-CNN框架具有初始權(quán)重，該初始權(quán)重在預(yù)訓(xùn)練期間隨機(jī)調(diào)整為確保在ABC-CNN框架內(nèi)的所有層(包括CNN層和LSTM層等)的每個(gè)維度的激活具有0均值以及一個(gè)標(biāo)準(zhǔn)導(dǎo)數(shù)。在步驟525中，將Softmax歸一化應(yīng)用至空間上的關(guān)注分布以生成經(jīng)問題引導(dǎo)的關(guān)注圖。

5.訓(xùn)練和測(cè)試

在實(shí)施方式中，整個(gè)框架可利用隨機(jī)梯度下降和adadelta[參見M·D·齊勒，“Adadelta：自適應(yīng)的學(xué)習(xí)速率方法”(Adadelta:An adaptive learning rate method)，arXiv預(yù)印本arXiv:1212.5701，2012]算法以端對(duì)端的方式訓(xùn)練。每批隨機(jī)梯度下降獨(dú)立隨機(jī)采樣64個(gè)圖像問題對(duì)，并且向后傳播可被應(yīng)用以學(xué)習(xí)ABC-CNN架構(gòu)的所有權(quán)重。在實(shí)施方式中，所有層的初始權(quán)重可以隨機(jī)調(diào)整為確保所有層的每個(gè)維度的激活具有0均值以及一個(gè)標(biāo)準(zhǔn)導(dǎo)數(shù)。在實(shí)施方式中，初始學(xué)習(xí)速率設(shè)為0.1。在實(shí)驗(yàn)中，雖然在ABC-CNN實(shí)施方式中以端對(duì)端的方式來訓(xùn)練所有權(quán)重是有可能的，但是圖像特征提取部分中的權(quán)重可固定以允許更快的訓(xùn)練速度。

在測(cè)試階段期間，在實(shí)施方式中，針對(duì)每個(gè)圖像提取圖像特征圖。在實(shí)施方式中，在給定問題的情況下，產(chǎn)生該問題的密集問題嵌入，并且問題嵌入用于配置卷積內(nèi)核，以生成關(guān)注圖。在實(shí)施方式中，多類別分類器使用原始特征圖、問題嵌入和經(jīng)關(guān)注加權(quán)的圖像特征圖的融合生成答案。

D.實(shí)驗(yàn)

本模型的實(shí)施方式在以下數(shù)據(jù)集上進(jìn)行評(píng)估：Toronto COCOQA數(shù)據(jù)集[M·瑞恩(M.Ren)、R·吉洛斯(R.Kiros)和R·澤內(nèi)爾(R.Zemel)，“探索用于圖像問答的模型和數(shù)據(jù)”(Exploring models and data for image question answering)，arXiv:1505.02074.2015]；DAQUAR數(shù)據(jù)集[M·馬里諾維斯基(M.Malinowski)和M·弗利特茲(M.Fritz)，“基于不確定的輸入進(jìn)行真實(shí)世界場(chǎng)景的問答的多世界性方法”(A multi-world approach to question answering about real-world scenes based on uncertain input)，《神經(jīng)信息處理系統(tǒng)發(fā)展》(Advances in Neural Information Processing Systems)，第1682–1690頁，2014]；以及VQA數(shù)據(jù)集[S·安托(S.Antol)、A·阿格拉瓦(A.Agrawal)、J·路(J.Lu)、M·米歇爾(M.Mitchell)、D·巴塔(D.Batra)、C·L·齊特尼科(C.L.Zitnick)和D·帕里克(D.Parikh)，“VQA：視覺問答”(VQA:Visual question answering)，arXiv預(yù)印本arXiv:1505.00468，2015]。實(shí)施方式針對(duì)具有單字詞答案的QA對(duì)進(jìn)行評(píng)估，其分別考慮到Toronto-QA數(shù)據(jù)集、VQA數(shù)據(jù)集和DAQUAR數(shù)據(jù)集的(100％、85％、90％)。它還符合M·瑞恩(M.Ren)、R·吉洛斯(R.Kiros)和R·澤內(nèi)爾(R.Zemel)，“探索用于圖像問答的模型和數(shù)據(jù)”(Exploring models and data for image question answering)(arXiv:1505.02074.2015)中的評(píng)估。除此之外，ABC-CNN框架的實(shí)施方式可容易地?cái)U(kuò)展成通過在答案生成部分中使用RNN解碼器來生成完整句子作為答案。

應(yīng)注意的是，本專利文獻(xiàn)中引用的實(shí)驗(yàn)和結(jié)果(在本章節(jié)或任何其他章節(jié)中)以說明的方式提供，并且使用具體實(shí)施方式或多個(gè)具體實(shí)施方式在具體條件下執(zhí)行；因此，這些實(shí)驗(yàn)或其結(jié)果不應(yīng)當(dāng)用于限制本專利文獻(xiàn)的公開的范圍。

1.實(shí)現(xiàn)細(xì)節(jié)

在實(shí)驗(yàn)中，圖像特征圖和關(guān)注圖兩者的分辨率選擇為3×3，ATT-SEG-HSV模型除外，該ATT-SEG-HSV模型使用從完全卷積分段網(wǎng)絡(luò)提取的特征(16×16)。每個(gè)圖像單元使用預(yù)訓(xùn)練過的VGG網(wǎng)絡(luò)[參見K·查特菲德、K·西蒙亞恩、A·威達(dá)爾迪和A·齊塞曼，“魔鬼藏于細(xì)節(jié)之中：深入探究卷積網(wǎng)絡(luò)”(Return of the devil in the details:Delving deep into convolutional nets)，arXiv預(yù)印本arXiv:1405.3531，2014]生成4096維圖像特征向量。來自所有圖像單元的圖像特征向量構(gòu)成具有4096×3×3維度的圖像特征圖。為了避免過度擬合，圖像特征圖的維度使用1×1卷積被減小至256×3×3。密集問題嵌入的維度是256。另外，HSV顏色特征圖被添加至圖像特征圖(ATT-HSV)。每個(gè)單元中的顏色特征被編碼為該每個(gè)單元中像素的HSV直方圖。在PASCAL 2007分段數(shù)據(jù)集上預(yù)訓(xùn)練的完全卷積神經(jīng)網(wǎng)絡(luò)[L·C·陳(L.C.Chen)、G·帕潘多斯(G.Papandreou)、I·柯基諾斯(I.Kokkinos)、A·K·穆菲(K.Murphy)和A·L·于勒(A.L.Yuille)，“利用深度卷積網(wǎng)絡(luò)和全連接的CRFS的語義圖像分段”(Semantic image segmentation with deep convolutional nets and fully connected CRFS)，arXiv預(yù)印本arXiv:1412.7062，2014]也被用于生成16×16×1024特征圖，并且將它們與HSV顏色特征圖串接為圖像特征圖(ATT-SEG-HSV)。使用4個(gè)K40Nvidia GPU在Toronto COCO-QA數(shù)據(jù)集上訓(xùn)練網(wǎng)絡(luò)ATT-HSV需要花費(fèi)約24小時(shí)。系統(tǒng)可以在單個(gè)K40GPU上以每個(gè)問題9.89ms的速度生成答案。

2.數(shù)據(jù)集

根據(jù)本公開的模型的實(shí)施方式在三個(gè)數(shù)據(jù)集上進(jìn)行評(píng)估：DAQUAR、Toronto COCO-QA和VQA。

DAQUAR數(shù)據(jù)集具有兩種版本：完整的數(shù)據(jù)集(DQ-Full)和減少的數(shù)據(jù)集(DQ-Reduced)。DQ-Reduced具有37個(gè)對(duì)象類的問題答案對(duì)，這是具有894個(gè)對(duì)象類的DQ-Full數(shù)據(jù)集的子集。兩種版本使用來自NYU-Depth V2數(shù)據(jù)集[參見N·希爾伯曼、D·霍伊埃姆、P·科里和R·弗古斯，來自RGBD圖像的室內(nèi)分段和支持推測(cè)(Indoor segmentation and support inference from RGBD images)，計(jì)算機(jī)視覺—ECCV 2012，第746–760頁，斯普林格出版公司，2012(Computer Vision–ECCV 2012,pages 746–760.Springer,2012)]的室內(nèi)場(chǎng)景圖像。DQ-Full數(shù)據(jù)集包含具有6794個(gè)QA對(duì)的795個(gè)訓(xùn)練圖像和具有5674個(gè)QA對(duì)的654個(gè)測(cè)試圖像。DQ-Reduced數(shù)據(jù)集包含具有3825個(gè)QA對(duì)的781個(gè)訓(xùn)練圖像和具有286個(gè)QA對(duì)的25個(gè)測(cè)試圖像。在實(shí)驗(yàn)中，DAQUAR數(shù)據(jù)集僅針對(duì)具有單字詞答案的QA對(duì)進(jìn)行測(cè)試以及訓(xùn)練，這符合于由瑞恩(Ren)等人[參見M·瑞恩(M.Ren)、R·吉洛斯(R.Kiros)和R·澤內(nèi)爾(R.Zemel)，“探索用于圖像問答的模型和數(shù)據(jù)”(Exploring models and data for image question answering)，arXiv:1505.02074.2015]進(jìn)行的評(píng)估。這種QA對(duì)分別構(gòu)成DQ-Full數(shù)據(jù)集和DQ-Reduced數(shù)據(jù)集的訓(xùn)練集合和測(cè)試集合中的(90.6％,89.5％)和(98.7％,97.6％)。

Toronto COCO-QA數(shù)據(jù)集使用來自Microsoft COCO數(shù)據(jù)集(MS-COCO)的圖像。它的QA對(duì)僅包含單字詞答案。它的基本統(tǒng)計(jì)總結(jié)于表1中。

表1.Toronto COCO-QA問題類型分解[參見P·賽馬內(nèi)特(P.Sermanet)、A·福姆(A.Frome)和E·瑞爾(E.Real)，“用于精細(xì)的分類的關(guān)注”(Attention for fine-grained categorization)，arXiv預(yù)印本arXiv:1412.7054，2014]。

VQA數(shù)據(jù)集是最近收集的數(shù)據(jù)集，其還利用MS-COCO數(shù)據(jù)集中的圖像構(gòu)建。針對(duì)VQA數(shù)據(jù)集中的VQA真實(shí)圖像(開放式的)任務(wù)的建議模型被評(píng)估。其包含了82783個(gè)訓(xùn)練圖像、40504個(gè)驗(yàn)證圖像和81434個(gè)測(cè)試圖像。MS-COCO數(shù)據(jù)集中的每個(gè)圖像注有三個(gè)(3個(gè))問題，并且每個(gè)問題具有十個(gè)(10個(gè))候選答案。用于訓(xùn)練、測(cè)試和驗(yàn)證的QA對(duì)的總數(shù)分別為248349、121512、244302。本模型的實(shí)施方式針對(duì)VQA數(shù)據(jù)集中的單字詞答案QA對(duì)進(jìn)行評(píng)估，單字詞答案QA對(duì)構(gòu)成數(shù)據(jù)集中的總QA對(duì)的86.88％。圖6中示出了來自三個(gè)數(shù)據(jù)集的一些樣本。

3.評(píng)估度量

VQA模型的性能根據(jù)“答案的準(zhǔn)確性”和“吳-帕爾馬相似性測(cè)量集(Wu-Palmer similarity measure Set)(WUPS)”評(píng)分來評(píng)估。答案的準(zhǔn)確性(ACC)計(jì)算準(zhǔn)確匹配參考答案的所生成的答案的百分比。WUPS評(píng)分從吳-帕爾馬(WUP)相似性[參見，Z·吳(Z.Wu)和M·帕爾馬(M.Palmer)，“動(dòng)詞語義和詞匯選擇”(Verbs semantics and lexical selection)，《計(jì)算語言協(xié)會(huì)第32屆年會(huì)會(huì)刊》(Proceedings of the 32nd annual meeting on Association for Computational Linguistics)，第133–138頁，計(jì)算語言協(xié)會(huì)出版，1994]得出，其值在[0,1]的范圍內(nèi)。WUP相似性基于兩個(gè)字詞在分類樹中的最低共同祖先的深度測(cè)量?jī)蓚€(gè)字詞的相似性。具有閾值的WUP評(píng)分是針對(duì)所有的所生成的答案和參考答案的向下加權(quán)的WUPS評(píng)分的平均值。如果兩個(gè)字詞的WUPS評(píng)分S_wups低于閾值，那么其向下加權(quán)的WUPS評(píng)分為0.1S_wups。否則，其向下加權(quán)的WUPS是S_wups。在實(shí)驗(yàn)中，具有閾值0.0和0.9的WUPS評(píng)分被使用。

4.基線方法

將本方法的實(shí)施方式與不同基準(zhǔn)方法進(jìn)行比較。以下列出所有基線模型：

1.VIS+LSTM(VL)：它是由瑞恩(Ren)等人所提出的框架[參見M·瑞恩(M.Ren)、R·吉洛斯(R.Kiros)和R·澤內(nèi)爾(R.Zemel)，“探索用于圖像問答的模型和數(shù)據(jù)”(Exploring models and data for image question answering)，arXiv:1505.02074.2015]，該框架具有提取圖像特征的CNN，在該CNN后接著的是維度減小層。然后，圖像特征被插入進(jìn)問題字詞嵌入序列頭部作為問題LSTM的輸入。

2.2-VIS+BLSTM(2VB)：圖像特征在字詞嵌入序列的頭和尾處編碼。除此之外，瑞恩(Ren)等人提出的框架中的LSTM設(shè)為在向前和向后方向行進(jìn)。

3.IMG+BOW(IB)：瑞恩(Ren)等人使用Bag-of-Words特征生成密集問題嵌入。

4.IMG：僅圖像特征被用于回答問題。它被稱為“聾”模型。

5.LSTM：僅使用來自LTM的密集問題嵌入生成答案。它被稱為“盲”模型。

6.ENSEMBLE：瑞恩(Ren)等人通過使用所有以上方法組合來對(duì)融合模型進(jìn)行評(píng)估。

7.Q+I：安托(Antol)等人[S·安托(S.Antol)、A·阿格拉瓦(A.Agrawal)、J·路(J.Lu)、M·米歇爾(M.Mitchell)、D·巴塔(D.Batra)、C·L·齊特尼科(C.L.Zitnick)和D·帕里克(D.Parikh)，“VQA：視覺問答”(VQA:Visual question answering)，arXiv預(yù)印本arXiv:1505.00468，2015]使用密集問題嵌入和圖像特征兩者訓(xùn)練多類別分類器以實(shí)現(xiàn)問答。

8.Q+I+C：類似于Q+I模型，Q+I+C模型采用標(biāo)記的圖像說明的密集嵌入作為附加輸入。

9.ASK：馬里諾維斯基(Malinowski)等人[M·馬里諾維斯基(M.Malinowski)和M·弗利特茲(M.Fritz)，“詢問您的神經(jīng)：用于回答關(guān)于圖像的問題的基于神經(jīng)的方法(Ask your neurons:A neural-based approach to answering questions about images)，arXiv預(yù)印本arXiv:1505.01121，2014]在LSTM解碼器中將CNN特征和問題嵌入線性組合以生成答案。

5.結(jié)果和分析

表2、4和5總結(jié)了不同模型分別在Toronto COCO-QA數(shù)據(jù)集、DQ-Reduced數(shù)據(jù)集和DQ-Full數(shù)據(jù)集上的性能。表3分解每個(gè)分類中的不同方法在Toronto COCO-QA數(shù)據(jù)集上的性能。

在表2中，僅使用VGG特征圖(AYY)的ABC-CNN優(yōu)于瑞恩(Ren)等人[參見M·瑞恩(M.Ren)、R·吉洛斯(R.Kiros)和R·澤內(nèi)爾(R.Zemel)，“探索用于圖像問答的模型和數(shù)據(jù)”(Exploring models and data for image question answering)，arXiv:1505.02074.2015]的單模型中的大多數(shù)。通過組合HSV特征圖與VGG特征圖(ATT-HSV)，ABC-CNN的性能超越所有基線模型。雖然我們僅采用單模型，但是ABC-CNN甚至在答案準(zhǔn)確性上比ENSEMBLE模型高0.2％。ABC-CNN在“對(duì)象”、“數(shù)量”和“位置”分類上優(yōu)于基線方法，因?yàn)榻?jīng)問題引導(dǎo)的關(guān)注發(fā)掘問題語義以及圖像中的情景信息來回答問題。ABC-CNN的準(zhǔn)確性在“顏色”分類上略微低于IB和ENSEMBLE模型。

還發(fā)現(xiàn)，完全卷積模型ATT-SEG-HSV的性能略好于VGG模型ATT-HSV，但是利用完全卷積神經(jīng)網(wǎng)絡(luò)提取特征圖要快得多。使用VGG,SEG和HSV特征一起(ATT-VGG-SEG-HSV)得到最佳性能。具體來說，完全卷積模型的添加幫助正確回答位置問題。ABC-CNN中的關(guān)注(NO-ATT)也被去除以作為燒蝕實(shí)驗(yàn)(ablative experiment)，并且這分別會(huì)造成準(zhǔn)確性上1.34％、0.85％和0.35％的損失、WUPS 0.9和WUPS 0.0的評(píng)分。

在表4中，ABC-CNN模型與基線模型在DQ-Reduced數(shù)據(jù)集上進(jìn)行比較。ABC-CNN模型的性能在所有度量上高于所有單模型。在WUPS 0.9測(cè)量上，ABC-CNN模型僅比的ENSEMBLE模型低0.53％。

在DQ-Full和VQA數(shù)據(jù)集上，ABC-CNN在表5和6的數(shù)據(jù)集上優(yōu)于現(xiàn)有技術(shù)方案。在DQ-Full數(shù)據(jù)集上，ABC-CNN模型與Toronto COCO-QA數(shù)據(jù)集和DQ-Reduced數(shù)據(jù)集上的模型相同。在VQA數(shù)據(jù)集上，為了進(jìn)行公平評(píng)估，使用與安托(Antol)等人[S·安托(S.Antol)、A·阿格拉瓦(A.Agrawal)、J·路(J.Lu)、M·米歇爾(M.Mitchell)、D·巴塔(D.Batra)、C·L·齊特尼科(C.L.Zitnick)和D·帕里克(D.Parikh)，“VQA：視覺問答”(VQA:Visual question answering)，arXiv預(yù)印本arXiv:1505.00468，2015]相同的包含1000個(gè)最頻繁答案(ATT 1000)的答案字典。ABC-CNN模型還使用包含所有答案(ATT Full)的答案字典進(jìn)行評(píng)估。

圖7中示出了所生成的經(jīng)問題引導(dǎo)的關(guān)注圖及其對(duì)應(yīng)的圖像和問題的一些?？捎^察到，經(jīng)問題引導(dǎo)的關(guān)注圖成功捕獲具有不同關(guān)注區(qū)域的不同問題的意向。利用這些關(guān)注圖，通過將其關(guān)注集中于重要區(qū)域上并過濾掉不相關(guān)的信息，ABC-CNN能夠生成更準(zhǔn)確的答案。由于原始特征圖在預(yù)測(cè)答案時(shí)也被提供，因此如果詢問對(duì)象僅為圖像中的對(duì)象(例如“躺在山坡上草地中的是什么？”)，那么ABC-CNN可以在不使用關(guān)注圖的情況下回答問題。

表3每類別的Toronto COCO-QA準(zhǔn)確性

表4關(guān)于DAQUAR-Reduce數(shù)據(jù)集的結(jié)果

表5關(guān)于DAQUAR-Full數(shù)據(jù)集的結(jié)果

表6不同模型的在VQA數(shù)據(jù)集上的性能

E.系統(tǒng)實(shí)施方式

在實(shí)施方式中，本專利文獻(xiàn)的方面可涉及到信息處理系統(tǒng)/計(jì)算系統(tǒng)或者使用信息處理系統(tǒng)/計(jì)算系統(tǒng)實(shí)施。出于本公開的目的，計(jì)算系統(tǒng)可以包括出于商業(yè)、科學(xué)、控制或其他目的可操作來計(jì)算、運(yùn)算、確定、分類、處理、傳輸、接收、檢索、發(fā)起、路由、交換、存儲(chǔ)、顯示、通信、顯現(xiàn)、檢測(cè)、記錄、再現(xiàn)、處理或利用任何形式信息、智能或數(shù)據(jù)的任何手段或手段的組合。例如，計(jì)算系統(tǒng)可為個(gè)人計(jì)算機(jī)(例如，膝上型計(jì)算機(jī))、平板電腦、平板手機(jī)、個(gè)人數(shù)字助理(PDA)、智能手機(jī)、智能手表、智能包裝、服務(wù)器(例如，刀片式服務(wù)器或機(jī)架式服務(wù)器)、網(wǎng)絡(luò)存儲(chǔ)設(shè)備或任何其他合適設(shè)備，并且可在大小、形狀、性能、功能和價(jià)格方面改變。計(jì)算系統(tǒng)可以包括隨機(jī)存取存儲(chǔ)器(RAM)、一個(gè)或多個(gè)處理資源(例如中央處理單元(CPU)或硬件或軟件控制邏輯)、ROM和/或其他類型的存儲(chǔ)器。計(jì)算系統(tǒng)的另外組件可以包括一個(gè)或多個(gè)盤驅(qū)動(dòng)器、用于與外部設(shè)備通信的一個(gè)或多個(gè)網(wǎng)絡(luò)端口、以及各種輸入和輸出(I/O)設(shè)備(例如鍵盤、鼠標(biāo)、觸摸屏和/或視頻顯示器)。計(jì)算系統(tǒng)還可包括可操作為在各種硬件組件之間傳輸通信的一個(gè)或多個(gè)總線。

圖8描繪根據(jù)本公開的實(shí)施方式的計(jì)算設(shè)備/信息處理系統(tǒng)(或是計(jì)算系統(tǒng))的簡(jiǎn)化框圖。應(yīng)理解，信息處理系統(tǒng)可不同地配置并且包括不同組件，但應(yīng)理解，針對(duì)系統(tǒng)800所示出的功能可操作為支持信息處理系統(tǒng)的各種實(shí)施方式。

如圖8所示，系統(tǒng)800包括一個(gè)或多個(gè)中央處理單元(CPU)801，CPU 801提供計(jì)算資源并控制計(jì)算機(jī)。CPU 801可實(shí)施有微處理器等，并且還可包括一個(gè)或多個(gè)圖形處理單元(GPU)817和/或用于數(shù)學(xué)計(jì)算的浮點(diǎn)協(xié)處理器。系統(tǒng)800還可包括系統(tǒng)存儲(chǔ)器802，系統(tǒng)存儲(chǔ)器802可呈隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、或兩者的形式。

如圖8所示，還可提供多個(gè)控制器和外圍設(shè)備。輸入控制器803表示至各種輸入設(shè)備804的接口，例如鍵盤、鼠標(biāo)或觸筆。還可存在掃描儀控制器805，該掃描儀控制器805與掃描儀806通信。系統(tǒng)800還可包括存儲(chǔ)控制器807，該存儲(chǔ)控制器807用于與一個(gè)或多個(gè)存儲(chǔ)設(shè)備808對(duì)接，存儲(chǔ)設(shè)備中的每個(gè)包括存儲(chǔ)介質(zhì)(諸如磁帶或盤)或光學(xué)介質(zhì)(其可用于記錄用于操作系統(tǒng)、實(shí)用工具和應(yīng)用程序的指令的程序，它們可包括實(shí)施本發(fā)明的各方面的程序的實(shí)施方式)。存儲(chǔ)設(shè)備808還可用于存儲(chǔ)經(jīng)處理的數(shù)據(jù)或是將要根據(jù)本發(fā)明處理的數(shù)據(jù)。系統(tǒng)800還可包括顯示控制器809，該顯示控制器809用于為顯示設(shè)備811提供接口，顯示設(shè)備811可為陰極射線管(CRT)、薄膜晶體管(TFT)顯示器或其他類型的顯示器。計(jì)算系統(tǒng)800還可包括打印機(jī)控制器812，該打印機(jī)控制器812用于與打印機(jī)813通信。通信控制器814可與一個(gè)或多個(gè)通信設(shè)備815對(duì)接，這使系統(tǒng)800能夠通過各種網(wǎng)絡(luò)(包括互聯(lián)網(wǎng)、云資源(例如以太云、經(jīng)以太網(wǎng)的光纖通道(FCoE)/數(shù)據(jù)中心橋接(DCB)云等)、局域網(wǎng)(LAN)、廣域網(wǎng)(WAN)、存儲(chǔ)區(qū)域網(wǎng)絡(luò)(SAN))中的任一網(wǎng)絡(luò)，或通過任何合適電磁載波信號(hào)(包括紅外信號(hào))來連接至遠(yuǎn)程設(shè)備。

在示出的系統(tǒng)中，所有主要系統(tǒng)組件可連接至總線816，總線816可以表示多于一個(gè)的物理總線。然而，各種系統(tǒng)組件可在物理上彼此接近或可不在物理上彼此接近。例如，輸入數(shù)據(jù)和/或輸出數(shù)據(jù)可遠(yuǎn)程地從一個(gè)物理位置傳輸?shù)搅硪晃锢砦恢谩Ａ硗?，?shí)現(xiàn)本發(fā)明的各方面的程序可經(jīng)由網(wǎng)絡(luò)從遠(yuǎn)程位置(例如，服務(wù)器)訪問。此類數(shù)據(jù)和/或程序可通過各種機(jī)器可讀介質(zhì)中的任一機(jī)器可讀介質(zhì)來傳送，機(jī)器可讀介質(zhì)包括但不限于：諸如硬盤、軟盤和磁帶的磁性介質(zhì)；諸如CD-ROM和全息設(shè)備的光學(xué)介質(zhì)；磁光介質(zhì)；以及硬件設(shè)備，該硬件設(shè)備專門被配置成存儲(chǔ)或存儲(chǔ)并執(zhí)行程序代碼，該硬件設(shè)備例如專用集成電路(ASIC)、可編程邏輯器件(PLD)、閃存設(shè)備、以及ROM和RAM設(shè)備。

本發(fā)明的實(shí)施方式可以利用用于一個(gè)或多個(gè)處理器或處理單元以使步驟執(zhí)行的指令在一個(gè)或多個(gè)非暫態(tài)計(jì)算機(jī)可讀介質(zhì)上編碼。應(yīng)注意，一個(gè)或多個(gè)非暫態(tài)計(jì)算機(jī)可讀介質(zhì)應(yīng)當(dāng)包括易失性存儲(chǔ)器和非易失性存儲(chǔ)器。應(yīng)注意，替代實(shí)現(xiàn)方式是可能的，其包括硬件實(shí)現(xiàn)方式或軟件/硬件實(shí)現(xiàn)方式。硬件實(shí)施的功能可使用ASIC、可編程的陣列、數(shù)字信號(hào)處理電路等來實(shí)現(xiàn)。因此，任何權(quán)利要求中的術(shù)語“手段”旨在涵蓋軟件實(shí)現(xiàn)方式和硬件實(shí)現(xiàn)方式兩者。類似地，如本文使用的術(shù)語“計(jì)算機(jī)可讀媒介或介質(zhì)”包括具有實(shí)施在其上的指令程序的軟件和/或硬件或它們的組合。利用所構(gòu)想的這些替代實(shí)現(xiàn)方式，應(yīng)當(dāng)理解，附圖以及隨附描述提供本領(lǐng)域的技術(shù)人員編寫程序代碼(即，軟件)和/或制造電路(即，硬件)以執(zhí)行所需處理所要求的功能信息。

應(yīng)當(dāng)注意，本發(fā)明的實(shí)施方式還可涉及具有其上具有用于執(zhí)行各種計(jì)算機(jī)實(shí)施的操作的計(jì)算機(jī)代碼的非暫態(tài)有形計(jì)算機(jī)可讀介質(zhì)的計(jì)算機(jī)產(chǎn)品。介質(zhì)和計(jì)算機(jī)代碼可為出于本發(fā)明的目的而專門設(shè)計(jì)和構(gòu)造的介質(zhì)和計(jì)算機(jī)代碼，或者它們可為相關(guān)領(lǐng)域中的技術(shù)人員已知或可用的。有形計(jì)算機(jī)可讀介質(zhì)的示例包括但不限于：諸如硬盤、軟盤和磁帶的磁性介質(zhì)；諸如CD-ROM和全息設(shè)備的光學(xué)介質(zhì)；磁光介質(zhì)；以及專門配置成存儲(chǔ)或存儲(chǔ)并執(zhí)行程序代碼的硬件設(shè)備，例如，專用集成電路(ASIC)、可編程邏輯器件(PLD)、閃存設(shè)備、以及ROM和RAM設(shè)備。計(jì)算機(jī)代碼的示例包括機(jī)器代碼(例如，編譯器產(chǎn)生的代碼)以及包含可由計(jì)算機(jī)使用解釋器來執(zhí)行的更高級(jí)代碼的文件。本發(fā)明的實(shí)施方式可整體地或部分地實(shí)施為可在由處理設(shè)備執(zhí)行的程序模塊中的機(jī)器可執(zhí)行指令。程序模塊的示例包括庫、程序、例程、對(duì)象、組件和數(shù)據(jù)結(jié)構(gòu)。在分布的計(jì)算環(huán)境中，程序模塊可物理上定位在本地、遠(yuǎn)程或兩者的設(shè)定中。

本領(lǐng)域的技術(shù)人員將認(rèn)識(shí)到，計(jì)算系統(tǒng)或編程語言對(duì)本發(fā)明的實(shí)踐來說均不重要。本領(lǐng)域的技術(shù)人員將還將認(rèn)識(shí)到，多個(gè)上述元件可物理地和/或在功能上劃分成子模塊或組合在一起。

將理解，前文的示例、實(shí)施方式和實(shí)驗(yàn)是示例性的，并且出于清楚和理解的目的，而不限制本發(fā)明的范圍。旨在說明的是，在本領(lǐng)域的技術(shù)人員閱讀本說明書并研究附圖后將對(duì)本領(lǐng)域的技術(shù)人員顯而易見的本發(fā)明的所有替代、置換、增強(qiáng)、等同、組合或改進(jìn)包括在本發(fā)明的范圍內(nèi)。因此，旨在說明的是，權(quán)利要求書包括落在本發(fā)明的真實(shí)精神和范圍內(nèi)的所有此類替代、置換、增強(qiáng)、等同、組合或改進(jìn)，除非隨附權(quán)利要求書以其語言來另外明確說明。應(yīng)注意，隨附權(quán)利要求書的元素可不同地布置，包括具有多個(gè)從屬、配置和組合。例如，在實(shí)施方式中，各權(quán)利要求的主題可與其他權(quán)利要求組合。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2 3

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳侃;王江;徐偉
技術(shù)所有人：百度（美國(guó)）有限責(zé)任公司
我是此專利的發(fā)明人

上一篇：記錄閱讀進(jìn)度的方法、裝置及終端與制造工藝
上一篇：一種動(dòng)畫播放、生成方法及裝置與制造工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

ccd視覺系統(tǒng)相關(guān)技術(shù)

視覺檢測(cè)系統(tǒng)相關(guān)技術(shù)

視覺導(dǎo)航系統(tǒng)相關(guān)技術(shù)

視覺系統(tǒng)相關(guān)技術(shù)

企業(yè)視覺識(shí)別系統(tǒng)相關(guān)技術(shù)

視覺識(shí)別系統(tǒng)相關(guān)技術(shù)

機(jī)器視覺系統(tǒng)相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

用于視覺問答的系統(tǒng)和方法與流程