針對(duì)短不相關(guān)文本的檢測(cè)的上下文感知方法

文檔序號(hào)：9524182閱讀：492來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

針對(duì)短不相關(guān)文本的檢測(cè)的上下文感知方法
【技術(shù)領(lǐng)域】
[0001] 本文公開(kāi)的主題一般設(shè)及用于確定和移除不相關(guān)文本的系統(tǒng)和方法，并且，尤其設(shè)及基于周?chē)鄠€(gè)文本或在缺少足夠數(shù)量的文本時(shí)從類(lèi)似文本中確定的傳遞 (transferred)上下文來(lái)確定短文本是否不相關(guān)。
【背景技術(shù)】
[0002] 流行的在線(xiàn)內(nèi)容提供者每天吸引數(shù)百萬(wàn)的訪(fǎng)問(wèn)者。內(nèi)容提供者可提供具有各種訪(fǎng) 問(wèn)者可讀取的內(nèi)容的一個(gè)或多個(gè)網(wǎng)頁(yè)。該一個(gè)或多個(gè)網(wǎng)頁(yè)可配置成允許訪(fǎng)問(wèn)者來(lái)提供對(duì)于該一個(gè)或多個(gè)網(wǎng)頁(yè)的主題的反饋（例如評(píng)論）。例如，網(wǎng)頁(yè)可W是新聞文章，并且在線(xiàn)內(nèi)容提供者可允許訪(fǎng)問(wèn)者來(lái)提供關(guān)于文章的評(píng)論。
[0003] 然而，為了促進(jìn)訪(fǎng)問(wèn)者間的討論，在線(xiàn)內(nèi)容提供者可能不會(huì)掩蔽（例如節(jié)制）由訪(fǎng) 問(wèn)者留下的評(píng)論。在運(yùn)種情況下，惡意訪(fǎng)問(wèn)者（例如垃圾郵件制作者或其他不可靠訪(fǎng)問(wèn)者）可能留下與給定網(wǎng)頁(yè)的話(huà)題不相關(guān)的評(píng)論。運(yùn)些評(píng)論可包括離家工作的提議、產(chǎn)品推廣、項(xiàng) 目推廣、廣告、營(yíng)銷(xiāo)材料W及其他運(yùn)樣的評(píng)論。由于它們貶低由在線(xiàn)內(nèi)容提供者推進(jìn)的開(kāi)放論壇并驅(qū)趕合法訪(fǎng)問(wèn)者（例如留下與網(wǎng)頁(yè)話(huà)題相關(guān)評(píng)論的訪(fǎng)問(wèn)者）離開(kāi)，運(yùn)些類(lèi)型的評(píng)論是有問(wèn)題的。運(yùn)反過(guò)來(lái)減少至在線(xiàn)內(nèi)容提供者的總體訪(fǎng)問(wèn)者通信量。由于在線(xiàn)內(nèi)容提供者典型地依賴(lài)訪(fǎng)問(wèn)者通信量來(lái)產(chǎn)生收入，合法訪(fǎng)問(wèn)者的減少影響在線(xiàn)內(nèi)容提供者來(lái)產(chǎn)生運(yùn)樣的收入。
【附圖說(shuō)明】
[0004] -些實(shí)施例通過(guò)示例的方式來(lái)例示，并不限于附圖中的圖形。
[000引圖1A-1B是例示在針對(duì)由在線(xiàn)內(nèi)容提供者公布的給定文章的評(píng)論集合中不相關(guān) 評(píng)論的比例的圖表。
[0006] 圖2是依照示例實(shí)施例的系統(tǒng)框圖，其包括用戶(hù)裝置和社交網(wǎng)絡(luò)服務(wù)器。
[0007] 圖3依照示例實(shí)施例、例示在在線(xiàn)內(nèi)容提供者公布的文章之后的不相關(guān)評(píng)論。
[0008] 圖4A-4C依照示例實(shí)施例、例示用于確定在所公布文章之后的給定評(píng)論是否不相關(guān)的各種技術(shù)。
[0009] 圖5是依照示例實(shí)施例、例示社交網(wǎng)絡(luò)服務(wù)器的各種組件的框圖。
[0010] 圖6A-6E是例示針對(duì)各種語(yǔ)言模型的準(zhǔn)確性改進(jìn)的圖表，其中改進(jìn)針對(duì)第一集合的文章使用依照示例實(shí)施例確定的、第一先天上下文感知特征。
[0011] 圖7A-7E是例示針對(duì)各種語(yǔ)言模型的準(zhǔn)確性改進(jìn)的圖表，其中改進(jìn)針對(duì)第二集合的文章使用依照示例實(shí)施例確定的、第二先天上下文感知特征。
[001引圖8A-8B是例示精度-召回率曲線(xiàn)的圖表，其中該精度-召回率曲線(xiàn)依照示例實(shí) 施例基于先天上下文感知特征。
[0013]圖9A-9C是例示針對(duì)給定話(huà)題模型的準(zhǔn)確性改進(jìn)的圖表，其中改進(jìn)基于評(píng)論數(shù)量W及依照示例實(shí)施例確定的、所確定傳遞上下文感知特征。
[0014] 圖lOA-lOB例示依照示例實(shí)施例用于確定從評(píng)論集合中選擇的評(píng)論是否不相關(guān) 的方法。
[0015] 圖11是例示機(jī)器的組件的框圖，其中該機(jī)器的組件依照示例實(shí)施例配置成從機(jī) 器可讀介質(zhì)中讀取指令。
【具體實(shí)施方式】
[0016] 檢測(cè)對(duì)文章或公告的不相關(guān)評(píng)論是困難的。第一，評(píng)論通常非常短，并且給定運(yùn)樣有限的信息，捕獲評(píng)論的語(yǔ)義和相關(guān)性是困難的。
[0017] 第二，在不同上下文的情況下，相同的單詞能夠具有完全不同的含義。例如，分別給定關(guān)于房地產(chǎn)和NASA的火星探測(cè)計(jì)劃的兩個(gè)新聞文章，在運(yùn)些文章的評(píng)論中使用的術(shù) 語(yǔ)"space"能夠指"作為營(yíng)業(yè)場(chǎng)所租用或出售的區(qū)域"或"超出地球大氣層的物理宇宙"，其是兩個(gè)完全不同的概念。特別地，評(píng)論的上下文在定義評(píng)論的語(yǔ)義和相關(guān)性中具有重要作用。
[0018] 第Ξ，在現(xiàn)實(shí)世界應(yīng)用中，存在不相關(guān)評(píng)論在文章發(fā)布后立即公布的情況，其中僅具有少量評(píng)論。為了例示，圖1A和1B是例示在針對(duì)由在線(xiàn)內(nèi)容提供者公布的給定文章的評(píng)論集合中不相關(guān)評(píng)論的比例的圖表。特別地，圖1A和1B演示大量文章在第一批10個(gè)評(píng) 論中（如圖1A所示）或在第一批20個(gè)評(píng)論中（如圖1B所示）具有至少一個(gè)不相關(guān)評(píng)論。運(yùn)些不相關(guān)評(píng)論越早被移除，至在線(xiàn)內(nèi)容提供者的訪(fǎng)問(wèn)者將被轉(zhuǎn)移得越少。然而，在早期場(chǎng) 景（例如，在從文章公布后的相對(duì)短時(shí)間內(nèi)）測(cè)量評(píng)論的上下文感知語(yǔ)義和相關(guān)性能夠是困難的，因?yàn)榭赡艽嬖谏儆谧銐驍?shù)量的評(píng)論來(lái)為正被討論的評(píng)論提供上下文。
[0019] 所公開(kāi)的系統(tǒng)和方法針對(duì)導(dǎo)出短文本的上下文依賴(lài)（例如，上下文感知）的語(yǔ) 義，使得與在不考慮上下文（上下文不可知）情況下導(dǎo)出的那些相比，相關(guān)性測(cè)量更準(zhǔn)確。通過(guò)評(píng)論的語(yǔ)義環(huán)境（周?chē)谋荆┐_定評(píng)論的上下文依賴(lài)的語(yǔ)義（諸如上述示例中的詞 "space"的變化的含義）。運(yùn)個(gè)公開(kāi)從事于將評(píng)論的"先天（native)上下文"構(gòu)建為針對(duì) 相同文章和/或公告所公布的評(píng)論集合，因?yàn)檫\(yùn)些評(píng)論在諸如語(yǔ)言、話(huà)題、術(shù)語(yǔ)等的各種屬性之中更可能彼此相似。所構(gòu)建的先天上下文可與一種或多種語(yǔ)言模型禪合來(lái)從運(yùn)樣短評(píng) 論中導(dǎo)出上下文依賴(lài)的語(yǔ)義。
[0020] 在一個(gè)實(shí)施例中，所公開(kāi)系統(tǒng)和方法采用（leverage)先天上下文作為主體并使用各種語(yǔ)言模型，諸如潛在狄利克雷分配（"LDA")或奇異值分解（"SVD")，來(lái)找到評(píng)論的上下文依賴(lài)的潛在話(huà)題。在本文構(gòu)建的先天上下文假設(shè)存在針對(duì)一個(gè)文章所公布的足夠的評(píng)論來(lái)充當(dāng)評(píng)論的上下文。足夠評(píng)論的數(shù)量（例如評(píng)論闊值）可W事先預(yù)確定，并且，在各種實(shí)施例中，可W是特定數(shù)量的評(píng)論、所公布的評(píng)論的比例、所公布評(píng)論的總字?jǐn)?shù)，W及其他運(yùn)樣的度量。
[0021] 在文章被公布后不久，一般有相對(duì)少的評(píng)論。對(duì)于大多數(shù)語(yǔ)言模型而言，具有少量評(píng)論可能難于用來(lái)確定與運(yùn)樣的評(píng)論關(guān)聯(lián)的話(huà)題。然而，針對(duì)具有與正被討論的文章相類(lèi) 似話(huà)題的文章所公布的評(píng)論更可能具有類(lèi)似的語(yǔ)言用法。例如，在關(guān)于"房地產(chǎn)"的文章之后的評(píng)論更可能將術(shù)語(yǔ)"space"用于"住宅/商業(yè)區(qū)域"而不是"太空探索"的意義。因此，在一個(gè)實(shí)施例中，所公開(kāi)的系統(tǒng)和方法從事于從類(lèi)似話(huà)題的其他文章中傳遞類(lèi)似短文本來(lái) 構(gòu)建"傳遞上下文"，其繼承先天上下文的力量但避免了上下文信息的稀疏。已構(gòu)建傳遞上下文的情況下，所公開(kāi)語(yǔ)言模型可隨后導(dǎo)出上下文依賴(lài)的語(yǔ)義來(lái)確定與正被討論的文章關(guān) 聯(lián)的給定評(píng)論是否是相關(guān)的。
[0022] 鑒于前述內(nèi)容，W下示例系統(tǒng)和方法針對(duì)于確定在文章或公告之后的評(píng)論（例如，短段落文本）是否與文章或公告不相關(guān)。特別地，所公開(kāi)系統(tǒng)和方法采用針對(duì)評(píng)論集合的所確定上下文來(lái)基于所確定上下文確定給定評(píng)論是否與該評(píng)論集合不相關(guān)。此外，所確定上下文可W是從該評(píng)論集合中確定的先天上下文，或從話(huà)題相似的第二評(píng)論集合中確定的傳遞上下文。運(yùn)樣所確定上下文的技術(shù)效果，無(wú)論其是先天的或是傳遞的，是存在通過(guò)語(yǔ) 言分類(lèi)器確定從評(píng)論集合中選擇的評(píng)論是否不相關(guān)的總體精確性的增加。
[0023] 在一個(gè)實(shí)施例中，運(yùn)個(gè)公開(kāi)提供用于檢測(cè)不相關(guān)文本的方法，其中該方法包括從多個(gè)文章中選擇興趣文章，該文章與先前從已訪(fǎng)問(wèn)該文章的一個(gè)或多個(gè)實(shí)體中提供的第一批多個(gè)評(píng)論關(guān)聯(lián)，W及提取第一批多個(gè)評(píng)論。響應(yīng)于第一批多個(gè)評(píng)論超過(guò)評(píng)論闊值的確定，該方法還包括基于上下文感知話(huà)題分布W及所選評(píng)論與所選文章之間的相似性為從所提取第一批多個(gè)評(píng)論中選擇的評(píng)論確定上下文感知特征，使用所確定上下文感知特征將文本分類(lèi)器應(yīng)用于所提取一個(gè)或多個(gè)評(píng)論，該文本分類(lèi)器提供來(lái)自所提取多個(gè)評(píng)論的給定評(píng)論是否不相關(guān)的指示，W及響應(yīng)于所應(yīng)用的文本分類(lèi)器，基于所提供指示對(duì)給定評(píng)論采取行動(dòng)。
[0024] 另外，響應(yīng)于所提取一個(gè)或多個(gè)評(píng)論并未超過(guò)評(píng)論闊值的確定，該方法也包括從選自于多個(gè)文章的文章子集中提取第二批多個(gè)評(píng)論，所提取第二批多個(gè)評(píng)論與所提取第一批多個(gè)評(píng)論話(huà)題相似，定義傳遞上下文為所提取第一批多個(gè)評(píng)論和所提取第二批多個(gè)評(píng)論的組合，基于傳遞上下文及所選評(píng)論與所選文章之間的相似性為選自于第一批多個(gè)評(píng)論中的評(píng)論確定傳遞上下文感知特征，使用所確定傳遞上下文感知特征將文本分類(lèi)器應(yīng)用于所提取第一批多個(gè)評(píng)論，該文本分類(lèi)器提供來(lái)自所提取第一批多個(gè)評(píng)論中的給定評(píng)論是否不相關(guān)的指示，W及響應(yīng)于所應(yīng)用的文本分類(lèi)器，基于所提供指示對(duì)給定評(píng)論采取行動(dòng)。
[0025] 在該方法的另一實(shí)施例中，該方法包括確定與傳遞上下文關(guān)聯(lián)的話(huà)題的傳遞上下文感知話(huà)題分布，其中，傳遞上下文感知特征的確定是基于所確定的傳遞上下文感知話(huà)題分布。
[0026] 在該方法的又一實(shí)施例中，該方法包括為第一批多個(gè)評(píng)論確定術(shù)語(yǔ)-評(píng)論矩陣，術(shù)語(yǔ)-評(píng)論矩陣識(shí)別存在于第一批多個(gè)評(píng)論中的多個(gè)術(shù)語(yǔ)，W及將矩陣因子分解應(yīng)用到術(shù) 語(yǔ)-評(píng)論矩陣來(lái)獲取與第一批多個(gè)評(píng)論關(guān)聯(lián)的話(huà)題的上下文感知話(huà)題分布。
[0027] 在該方法的又一實(shí)施例中，應(yīng)用到術(shù)語(yǔ)-評(píng)論矩陣的矩陣因子分解包括非負(fù)矩陣因子分解。
[0028] 在該方法的又一實(shí)施例中，所選評(píng)論與所選文章之間的相似性定義為
其中： /、；；:{、；是通過(guò)使用單值分解矩陣因子分解來(lái)分解術(shù)語(yǔ)-評(píng)論矩陣所獲得的矢量-矢量變換；是從選自于多個(gè)文章中的第d個(gè)文章的所提取一個(gè)或多個(gè)評(píng)論中選取的第k個(gè)評(píng) 論；化及 1?定義為
其中 Qd是針對(duì)選自于多個(gè)文章中的第d個(gè)文章從所提取一個(gè)或多個(gè)評(píng)論來(lái)構(gòu)建的術(shù)語(yǔ)-文檔矩陣； q是從所提取一個(gè)或多個(gè)評(píng)論中選取的評(píng)論；W及Cd是與所選文章關(guān)聯(lián)的所提取一個(gè)或多個(gè)評(píng)論的數(shù)量。
[0029] 在該方法的另一實(shí)施例中，所采取行動(dòng)包括基于超過(guò)先前設(shè)立的闊值的指示將給定評(píng)論識(shí)別為不相關(guān)評(píng)論，W及移除給定評(píng)論與所選文章的關(guān)聯(lián)。
[0030] 在該方法的又一實(shí)施例中，所采取行動(dòng)包括基于超過(guò)第一先前設(shè)立的闊值的指示將給定評(píng)論識(shí)別為不相關(guān)評(píng)論，W及基于未超過(guò)第二先前設(shè)立的闊值的指示來(lái)識(shí)別給定評(píng) 論W供由審查者進(jìn)行的節(jié)制（moderation)。
[0031] 本公開(kāi)也描述用于檢測(cè)不相關(guān)文本的系統(tǒng)。在一個(gè)實(shí)施例中，該系統(tǒng)包括具有儲(chǔ) 存于其上的計(jì)算機(jī)可執(zhí)行指令的非暫時(shí)性、計(jì)算機(jī)可讀介質(zhì)，W及已執(zhí)行計(jì)算機(jī)可執(zhí)行指令、與非暫時(shí)性、計(jì)算機(jī)可讀介質(zhì)通信的一個(gè)或多個(gè)處理器，其配置成從多個(gè)文章中選擇興趣文章，所選文章與先前從已訪(fǎng)問(wèn)所選文章的一個(gè)或多個(gè)實(shí)體中提供的第一批多個(gè)評(píng)論關(guān) 聯(lián)，W及提取該第一批多個(gè)評(píng)論。該一個(gè)或多個(gè)處理器還配置成，響應(yīng)于第一批多個(gè)評(píng)論超過(guò)評(píng)論闊值的確定，基于上下文感知話(huà)題分布及所選評(píng)論與所選文章之間的相似性為從所提取第一批多個(gè)評(píng)論中選擇的評(píng)論確定上下文感知特征，使用所確定上下文感知特征將文本分類(lèi)器應(yīng)用于所提取一個(gè)或多個(gè)評(píng)論，文本分類(lèi)器提供來(lái)自所提取多個(gè)評(píng)論中的給定評(píng) 論是否不相關(guān)的指示，W及響應(yīng)于所應(yīng)用的文本分類(lèi)器，基于所提供的指示對(duì)給定評(píng)論采取行動(dòng)。
[0

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3 4 5 6

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：M.S.阿明;B.嚴(yán);A.巴辛;
技術(shù)所有人：鄰客音公司;
我是此專(zhuān)利的發(fā)明人

上一篇：一種譯員稿件快速匹配方法
上一篇：一種計(jì)算機(jī)語(yǔ)義工程系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

上下文感知相關(guān)技術(shù)

上下文感知推薦系統(tǒng)相關(guān)技術(shù)

上下文感知計(jì)算相關(guān)技術(shù)

上下文感知技術(shù)相關(guān)技術(shù)

上下文感知推薦相關(guān)技術(shù)

上下文相關(guān)技術(shù)

上下文無(wú)關(guān)文法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

針對(duì)短不相關(guān)文本的檢測(cè)的上下文感知方法