針對(duì)短不相關(guān)文本的檢測(cè)的上下文感知方法
【技術(shù)領(lǐng)域】
[0001] 本文公開(kāi)的主題一般設(shè)及用于確定和移除不相關(guān)文本的系統(tǒng)和方法,并且, 尤其設(shè)及基于周?chē)鄠€(gè)文本或在缺少足夠數(shù)量的文本時(shí)從類(lèi)似文本中確定的傳遞 (transferred)上下文來(lái)確定短文本是否不相關(guān)。
【背景技術(shù)】
[0002] 流行的在線(xiàn)內(nèi)容提供者每天吸引數(shù)百萬(wàn)的訪(fǎng)問(wèn)者。內(nèi)容提供者可提供具有各種訪(fǎng) 問(wèn)者可讀取的內(nèi)容的一個(gè)或多個(gè)網(wǎng)頁(yè)。該一個(gè)或多個(gè)網(wǎng)頁(yè)可配置成允許訪(fǎng)問(wèn)者來(lái)提供對(duì)于 該一個(gè)或多個(gè)網(wǎng)頁(yè)的主題的反饋(例如評(píng)論)。例如,網(wǎng)頁(yè)可W是新聞文章,并且在線(xiàn)內(nèi)容 提供者可允許訪(fǎng)問(wèn)者來(lái)提供關(guān)于文章的評(píng)論。
[0003] 然而,為了促進(jìn)訪(fǎng)問(wèn)者間的討論,在線(xiàn)內(nèi)容提供者可能不會(huì)掩蔽(例如節(jié)制)由訪(fǎng) 問(wèn)者留下的評(píng)論。在運(yùn)種情況下,惡意訪(fǎng)問(wèn)者(例如垃圾郵件制作者或其他不可靠訪(fǎng)問(wèn)者) 可能留下與給定網(wǎng)頁(yè)的話(huà)題不相關(guān)的評(píng)論。運(yùn)些評(píng)論可包括離家工作的提議、產(chǎn)品推廣、項(xiàng) 目推廣、廣告、營(yíng)銷(xiāo)材料W及其他運(yùn)樣的評(píng)論。由于它們貶低由在線(xiàn)內(nèi)容提供者推進(jìn)的開(kāi)放 論壇并驅(qū)趕合法訪(fǎng)問(wèn)者(例如留下與網(wǎng)頁(yè)話(huà)題相關(guān)評(píng)論的訪(fǎng)問(wèn)者)離開(kāi),運(yùn)些類(lèi)型的評(píng)論 是有問(wèn)題的。運(yùn)反過(guò)來(lái)減少至在線(xiàn)內(nèi)容提供者的總體訪(fǎng)問(wèn)者通信量。由于在線(xiàn)內(nèi)容提供者 典型地依賴(lài)訪(fǎng)問(wèn)者通信量來(lái)產(chǎn)生收入,合法訪(fǎng)問(wèn)者的減少影響在線(xiàn)內(nèi)容提供者來(lái)產(chǎn)生運(yùn)樣 的收入。
【附圖說(shuō)明】
[0004] -些實(shí)施例通過(guò)示例的方式來(lái)例示,并不限于附圖中的圖形。
[000引圖1A-1B是例示在針對(duì)由在線(xiàn)內(nèi)容提供者公布的給定文章的評(píng)論集合中不相關(guān) 評(píng)論的比例的圖表。
[0006] 圖2是依照示例實(shí)施例的系統(tǒng)框圖,其包括用戶(hù)裝置和社交網(wǎng)絡(luò)服務(wù)器。
[0007] 圖3依照示例實(shí)施例、例示在在線(xiàn)內(nèi)容提供者公布的文章之后的不相關(guān)評(píng)論。
[0008] 圖4A-4C依照示例實(shí)施例、例示用于確定在所公布文章之后的給定評(píng)論是否不相 關(guān)的各種技術(shù)。
[0009] 圖5是依照示例實(shí)施例、例示社交網(wǎng)絡(luò)服務(wù)器的各種組件的框圖。
[0010] 圖6A-6E是例示針對(duì)各種語(yǔ)言模型的準(zhǔn)確性改進(jìn)的圖表,其中改進(jìn)針對(duì)第一集合 的文章使用依照示例實(shí)施例確定的、第一先天上下文感知特征。
[0011] 圖7A-7E是例示針對(duì)各種語(yǔ)言模型的準(zhǔn)確性改進(jìn)的圖表,其中改進(jìn)針對(duì)第二集合 的文章使用依照示例實(shí)施例確定的、第二先天上下文感知特征。
[001引圖8A-8B是例示精度-召回率曲線(xiàn)的圖表,其中該精度-召回率曲線(xiàn)依照示例實(shí) 施例基于先天上下文感知特征。
[0013]圖9A-9C是例示針對(duì)給定話(huà)題模型的準(zhǔn)確性改進(jìn)的圖表,其中改進(jìn)基于評(píng)論數(shù)量W及依照示例實(shí)施例確定的、所確定傳遞上下文感知特征。
[0014] 圖lOA-lOB例示依照示例實(shí)施例用于確定從評(píng)論集合中選擇的評(píng)論是否不相關(guān) 的方法。
[0015] 圖11是例示機(jī)器的組件的框圖,其中該機(jī)器的組件依照示例實(shí)施例配置成從機(jī) 器可讀介質(zhì)中讀取指令。
【具體實(shí)施方式】
[0016] 檢測(cè)對(duì)文章或公告的不相關(guān)評(píng)論是困難的。第一,評(píng)論通常非常短,并且給定運(yùn)樣 有限的信息,捕獲評(píng)論的語(yǔ)義和相關(guān)性是困難的。
[0017] 第二,在不同上下文的情況下,相同的單詞能夠具有完全不同的含義。例如,分別 給定關(guān)于房地產(chǎn)和NASA的火星探測(cè)計(jì)劃的兩個(gè)新聞文章,在運(yùn)些文章的評(píng)論中使用的術(shù) 語(yǔ)"space"能夠指"作為營(yíng)業(yè)場(chǎng)所租用或出售的區(qū)域"或"超出地球大氣層的物理宇宙",其 是兩個(gè)完全不同的概念。特別地,評(píng)論的上下文在定義評(píng)論的語(yǔ)義和相關(guān)性中具有重要作 用。
[0018] 第Ξ,在現(xiàn)實(shí)世界應(yīng)用中,存在不相關(guān)評(píng)論在文章發(fā)布后立即公布的情況,其中僅 具有少量評(píng)論。為了例示,圖1A和1B是例示在針對(duì)由在線(xiàn)內(nèi)容提供者公布的給定文章的 評(píng)論集合中不相關(guān)評(píng)論的比例的圖表。特別地,圖1A和1B演示大量文章在第一批10個(gè)評(píng) 論中(如圖1A所示)或在第一批20個(gè)評(píng)論中(如圖1B所示)具有至少一個(gè)不相關(guān)評(píng)論。 運(yùn)些不相關(guān)評(píng)論越早被移除,至在線(xiàn)內(nèi)容提供者的訪(fǎng)問(wèn)者將被轉(zhuǎn)移得越少。然而,在早期場(chǎng) 景(例如,在從文章公布后的相對(duì)短時(shí)間內(nèi))測(cè)量評(píng)論的上下文感知語(yǔ)義和相關(guān)性能夠是 困難的,因?yàn)榭赡艽嬖谏儆谧銐驍?shù)量的評(píng)論來(lái)為正被討論的評(píng)論提供上下文。
[0019] 所公開(kāi)的系統(tǒng)和方法針對(duì)導(dǎo)出短文本的上下文依賴(lài)(例如,上下文感知)的語(yǔ) 義,使得與在不考慮上下文(上下文不可知)情況下導(dǎo)出的那些相比,相關(guān)性測(cè)量更準(zhǔn)確。 通過(guò)評(píng)論的語(yǔ)義環(huán)境(周?chē)谋荆┐_定評(píng)論的上下文依賴(lài)的語(yǔ)義(諸如上述示例中的詞 "space"的變化的含義)。運(yùn)個(gè)公開(kāi)從事于將評(píng)論的"先天(native)上下文"構(gòu)建為針對(duì) 相同文章和/或公告所公布的評(píng)論集合,因?yàn)檫\(yùn)些評(píng)論在諸如語(yǔ)言、話(huà)題、術(shù)語(yǔ)等的各種屬 性之中更可能彼此相似。所構(gòu)建的先天上下文可與一種或多種語(yǔ)言模型禪合來(lái)從運(yùn)樣短評(píng) 論中導(dǎo)出上下文依賴(lài)的語(yǔ)義。
[0020] 在一個(gè)實(shí)施例中,所公開(kāi)系統(tǒng)和方法采用(leverage)先天上下文作為主體并使 用各種語(yǔ)言模型,諸如潛在狄利克雷分配("LDA")或奇異值分解("SVD"),來(lái)找到評(píng)論的 上下文依賴(lài)的潛在話(huà)題。在本文構(gòu)建的先天上下文假設(shè)存在針對(duì)一個(gè)文章所公布的足夠的 評(píng)論來(lái)充當(dāng)評(píng)論的上下文。足夠評(píng)論的數(shù)量(例如評(píng)論闊值)可W事先預(yù)確定,并且,在各 種實(shí)施例中,可W是特定數(shù)量的評(píng)論、所公布的評(píng)論的比例、所公布評(píng)論的總字?jǐn)?shù),W及其 他運(yùn)樣的度量。
[0021] 在文章被公布后不久,一般有相對(duì)少的評(píng)論。對(duì)于大多數(shù)語(yǔ)言模型而言,具有少量 評(píng)論可能難于用來(lái)確定與運(yùn)樣的評(píng)論關(guān)聯(lián)的話(huà)題。然而,針對(duì)具有與正被討論的文章相類(lèi) 似話(huà)題的文章所公布的評(píng)論更可能具有類(lèi)似的語(yǔ)言用法。例如,在關(guān)于"房地產(chǎn)"的文章之 后的評(píng)論更可能將術(shù)語(yǔ)"space"用于"住宅/商業(yè)區(qū)域"而不是"太空探索"的意義。因此, 在一個(gè)實(shí)施例中,所公開(kāi)的系統(tǒng)和方法從事于從類(lèi)似話(huà)題的其他文章中傳遞類(lèi)似短文本來(lái) 構(gòu)建"傳遞上下文",其繼承先天上下文的力量但避免了上下文信息的稀疏。已構(gòu)建傳遞上 下文的情況下,所公開(kāi)語(yǔ)言模型可隨后導(dǎo)出上下文依賴(lài)的語(yǔ)義來(lái)確定與正被討論的文章關(guān) 聯(lián)的給定評(píng)論是否是相關(guān)的。
[0022] 鑒于前述內(nèi)容,W下示例系統(tǒng)和方法針對(duì)于確定在文章或公告之后的評(píng)論(例 如,短段落文本)是否與文章或公告不相關(guān)。特別地,所公開(kāi)系統(tǒng)和方法采用針對(duì)評(píng)論集合 的所確定上下文來(lái)基于所確定上下文確定給定評(píng)論是否與該評(píng)論集合不相關(guān)。此外,所確 定上下文可W是從該評(píng)論集合中確定的先天上下文,或從話(huà)題相似的第二評(píng)論集合中確定 的傳遞上下文。運(yùn)樣所確定上下文的技術(shù)效果,無(wú)論其是先天的或是傳遞的,是存在通過(guò)語(yǔ) 言分類(lèi)器確定從評(píng)論集合中選擇的評(píng)論是否不相關(guān)的總體精確性的增加。
[0023] 在一個(gè)實(shí)施例中,運(yùn)個(gè)公開(kāi)提供用于檢測(cè)不相關(guān)文本的方法,其中該方法包括從 多個(gè)文章中選擇興趣文章,該文章與先前從已訪(fǎng)問(wèn)該文章的一個(gè)或多個(gè)實(shí)體中提供的第一 批多個(gè)評(píng)論關(guān)聯(lián),W及提取第一批多個(gè)評(píng)論。響應(yīng)于第一批多個(gè)評(píng)論超過(guò)評(píng)論闊值的確定, 該方法還包括基于上下文感知話(huà)題分布W及所選評(píng)論與所選文章之間的相似性為從所提 取第一批多個(gè)評(píng)論中選擇的評(píng)論確定上下文感知特征,使用所確定上下文感知特征將文本 分類(lèi)器應(yīng)用于所提取一個(gè)或多個(gè)評(píng)論,該文本分類(lèi)器提供來(lái)自所提取多個(gè)評(píng)論的給定評(píng)論 是否不相關(guān)的指示,W及響應(yīng)于所應(yīng)用的文本分類(lèi)器,基于所提供指示對(duì)給定評(píng)論采取行 動(dòng)。
[0024] 另外,響應(yīng)于所提取一個(gè)或多個(gè)評(píng)論并未超過(guò)評(píng)論闊值的確定,該方法也包括從 選自于多個(gè)文章的文章子集中提取第二批多個(gè)評(píng)論,所提取第二批多個(gè)評(píng)論與所提取第一 批多個(gè)評(píng)論話(huà)題相似,定義傳遞上下文為所提取第一批多個(gè)評(píng)論和所提取第二批多個(gè)評(píng)論 的組合,基于傳遞上下文及所選評(píng)論與所選文章之間的相似性為選自于第一批多個(gè)評(píng)論中 的評(píng)論確定傳遞上下文感知特征,使用所確定傳遞上下文感知特征將文本分類(lèi)器應(yīng)用于所 提取第一批多個(gè)評(píng)論,該文本分類(lèi)器提供來(lái)自所提取第一批多個(gè)評(píng)論中的給定評(píng)論是否不 相關(guān)的指示,W及響應(yīng)于所應(yīng)用的文本分類(lèi)器,基于所提供指示對(duì)給定評(píng)論采取行動(dòng)。
[0025] 在該方法的另一實(shí)施例中,該方法包括確定與傳遞上下文關(guān)聯(lián)的話(huà)題的傳遞上下 文感知話(huà)題分布,其中,傳遞上下文感知特征的確定是基于所確定的傳遞上下文感知話(huà)題 分布。
[0026] 在該方法的又一實(shí)施例中,該方法包括為第一批多個(gè)評(píng)論確定術(shù)語(yǔ)-評(píng)論矩陣, 術(shù)語(yǔ)-評(píng)論矩陣識(shí)別存在于第一批多個(gè)評(píng)論中的多個(gè)術(shù)語(yǔ),W及將矩陣因子分解應(yīng)用到術(shù) 語(yǔ)-評(píng)論矩陣來(lái)獲取與第一批多個(gè)評(píng)論關(guān)聯(lián)的話(huà)題的上下文感知話(huà)題分布。
[0027] 在該方法的又一實(shí)施例中,應(yīng)用到術(shù)語(yǔ)-評(píng)論矩陣的矩陣因子分解包括非負(fù)矩陣 因子分解。
[0028] 在該方法的又一實(shí)施例中,所選評(píng)論與所選文章之間的相似性定義為
其中: /、;;:{、;是通過(guò)使用單值分解矩陣因子分解來(lái)分解術(shù)語(yǔ)-評(píng)論矩陣所獲得的矢量-矢 量變換; 是從選自于多個(gè)文章中的第d個(gè)文章的所提取一個(gè)或多個(gè)評(píng)論中選取的第k個(gè)評(píng) 論;化及 1?定義為
其中 Qd是針對(duì)選自于多個(gè)文章中的第d個(gè)文章從所提取一個(gè)或多個(gè)評(píng)論來(lái)構(gòu)建的術(shù)語(yǔ)-文 檔矩陣; q是從所提取一個(gè)或多個(gè)評(píng)論中選取的評(píng)論;W及Cd是與所選文章關(guān)聯(lián)的所提取一個(gè)或多個(gè)評(píng)論的數(shù)量。
[0029] 在該方法的另一實(shí)施例中,所采取行動(dòng)包括基于超過(guò)先前設(shè)立的闊值的指示將給 定評(píng)論識(shí)別為不相關(guān)評(píng)論,W及移除給定評(píng)論與所選文章的關(guān)聯(lián)。
[0030] 在該方法的又一實(shí)施例中,所采取行動(dòng)包括基于超過(guò)第一先前設(shè)立的闊值的指示 將給定評(píng)論識(shí)別為不相關(guān)評(píng)論,W及基于未超過(guò)第二先前設(shè)立的闊值的指示來(lái)識(shí)別給定評(píng) 論W供由審查者進(jìn)行的節(jié)制(moderation)。
[0031] 本公開(kāi)也描述用于檢測(cè)不相關(guān)文本的系統(tǒng)。在一個(gè)實(shí)施例中,該系統(tǒng)包括具有儲(chǔ) 存于其上的計(jì)算機(jī)可執(zhí)行指令的非暫時(shí)性、計(jì)算機(jī)可讀介質(zhì),W及已執(zhí)行計(jì)算機(jī)可執(zhí)行指 令、與非暫時(shí)性、計(jì)算機(jī)可讀介質(zhì)通信的一個(gè)或多個(gè)處理器,其配置成從多個(gè)文章中選擇興 趣文章,所選文章與先前從已訪(fǎng)問(wèn)所選文章的一個(gè)或多個(gè)實(shí)體中提供的第一批多個(gè)評(píng)論關(guān) 聯(lián),W及提取該第一批多個(gè)評(píng)論。該一個(gè)或多個(gè)處理器還配置成,響應(yīng)于第一批多個(gè)評(píng)論超 過(guò)評(píng)論闊值的確定,基于上下文感知話(huà)題分布及所選評(píng)論與所選文章之間的相似性為從所 提取第一批多個(gè)評(píng)論中選擇的評(píng)論確定上下文感知特征,使用所確定上下文感知特征將文 本分類(lèi)器應(yīng)用于所提取一個(gè)或多個(gè)評(píng)論,文本分類(lèi)器提供來(lái)自所提取多個(gè)評(píng)論中的給定評(píng) 論是否不相關(guān)的指示,W及響應(yīng)于所應(yīng)用的文本分類(lèi)器,基于所提供的指示對(duì)給定評(píng)論采 取行動(dòng)。
[0