用于問(wèn)答社區(qū)中屏蔽廣告內(nèi)容的裝置和方法

文檔序號(hào)：6517747閱讀：239來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

用于問(wèn)答社區(qū)中屏蔽廣告內(nèi)容的裝置和方法
【專利摘要】本發(fā)明公開(kāi)了一種問(wèn)答社區(qū)中屏蔽廣告內(nèi)容的裝置和方法，其中該方法包括：接收發(fā)布者在問(wèn)答社區(qū)中編輯的待提問(wèn)/答案文本；提取所述待提問(wèn)/答案文本中包含的一個(gè)或多個(gè)特征向量；根據(jù)所述特征向量，識(shí)別所述待提問(wèn)/答案文本是否與廣告特征數(shù)據(jù)庫(kù)中的一個(gè)或多個(gè)記錄匹配；當(dāng)識(shí)別出上述匹配時(shí)，將所述待提問(wèn)/答案文本作為廣告內(nèi)容進(jìn)行屏蔽處理。使用本發(fā)明的裝置和方法，可以由待提問(wèn)/答案文本提取出特征向量，以及根據(jù)特征向量識(shí)別待提問(wèn)/答案文本是否與廣告特征數(shù)據(jù)庫(kù)中的一個(gè)或多個(gè)記錄匹配，從而能夠準(zhǔn)確識(shí)別待提問(wèn)/答案文本中的廣告。
【專利說(shuō)明】用于問(wèn)答社區(qū)中屏蔽廣告內(nèi)容的裝置和方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)領(lǐng)域，具體涉及一種用于問(wèn)答社區(qū)中屏蔽廣告內(nèi)容的裝置和方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)的發(fā)展，網(wǎng)絡(luò)，尤其是問(wèn)答社區(qū)，成為人們獲取信息、交流信息的重要渠道，問(wèn)答社區(qū)的基本形式是信息發(fā)布者發(fā)布待提問(wèn)文本/答案文本。然而在問(wèn)答社區(qū)中，存在相當(dāng)量的廣告內(nèi)容，給用戶帶來(lái)了諸多不便，同時(shí)也降低了問(wèn)答社區(qū)的質(zhì)量。為了解決這個(gè)問(wèn)題，問(wèn)答社區(qū)中屏蔽廣告內(nèi)容的研究工作逐漸開(kāi)展起來(lái)，以期望能夠屏蔽廣告內(nèi)容。

【發(fā)明內(nèi)容】

[0003]鑒于上述問(wèn)題，提出了本發(fā)明以便提供一種克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的一種問(wèn)答社區(qū)中屏蔽廣告內(nèi)容的裝置和相應(yīng)的一種問(wèn)答社區(qū)中屏蔽廣告內(nèi)容的方法。
[0004]依據(jù)本發(fā)明的一個(gè)方面，提供了一種問(wèn)答社區(qū)中屏蔽廣告內(nèi)容的裝置，包括:文本獲取單元，適于接收發(fā)布者在問(wèn)答社區(qū)中編輯的待提問(wèn)/答案文本；特征向量提取單元，適于提取所述待提問(wèn)/答案文本中包含的一個(gè)或多個(gè)特征向量；識(shí)別單元，適于根據(jù)所述特征向量，識(shí)別所述待提問(wèn)/答案文本是否與廣告特征數(shù)據(jù)庫(kù)中的一個(gè)或多個(gè)記錄匹配；屏蔽單元，適于在識(shí)別單元識(shí)別出上述匹配時(shí)，將所述待提問(wèn)/答案文本作為廣告內(nèi)容進(jìn)行屏蔽處理。
[0005]可選地，所述識(shí)別單元，適于對(duì)所述特征向量中的每個(gè)特征，檢測(cè)廣告特征數(shù)據(jù)庫(kù)中是否多次出現(xiàn)該特征；所述識(shí)別單元，適于判斷所述特征向量中的在廣告特征數(shù)據(jù)庫(kù)中多次出現(xiàn)的特征占該特征向量的全部特征的比例是否達(dá)到第一閾值，是則確定所述待提問(wèn)/答案文本與廣告特征數(shù)據(jù)庫(kù)中的記錄匹配，否則不匹配。
[0006]可選地，所述識(shí)別單元，適于對(duì)所述特征向量中的每個(gè)特征，從廣告特征數(shù)據(jù)庫(kù)中查找是否存在該特征，如果存在，則進(jìn)一步查看該特征的權(quán)值，如果該特征的權(quán)值大于或等于第二閾值，則廣告特征數(shù)據(jù)庫(kù)中多次出現(xiàn)該特征。
[0007]可選地，該裝置進(jìn)一步包括廣告特征數(shù)據(jù)庫(kù)更新單元，所述廣告特征數(shù)據(jù)庫(kù)更新單元，適于在確定所述待提問(wèn)/答案文本與廣告特征數(shù)據(jù)庫(kù)中的記錄匹配時(shí)，對(duì)于所述特征向量中的每個(gè)特征，如果檢測(cè)到廣告特征數(shù)據(jù)庫(kù)中存在該特征，則將廣告特征數(shù)據(jù)庫(kù)中該特征的權(quán)值加I。
[0008]可選地，所述識(shí)別單元，適于在對(duì)于所述特征向量中的每個(gè)特征，檢測(cè)廣告特征數(shù)據(jù)庫(kù)中是否存在該特征之前，判斷所述特征向量中的特征的數(shù)目是否小于第三閾值，是則所述待提問(wèn)/答案文本與廣告特征數(shù)據(jù)庫(kù)中的記錄不匹配并結(jié)束判斷操作，否則對(duì)于所述特征向量中的每個(gè)特征，檢測(cè)廣告特征數(shù)據(jù)庫(kù)中是否多次出現(xiàn)該特征。
[0009]可選地，所述特征向量提取單元包括:中文文本獲取子單元，適于對(duì)待提問(wèn)/答案文本進(jìn)行文本處理以獲取中文文本；拼音文本獲取子單元，適于將獲取的中文文本中的漢字轉(zhuǎn)為拼音得到拼音文本；指紋獲取子單元，適于提取所述拼音文本的特征，將提取的特征形成所述拼音文本的特征向量。
[0010]可選地，所述中文文本獲取子單元，適于對(duì)待提問(wèn)/答案文本進(jìn)行數(shù)據(jù)清洗操作，將文本中的內(nèi)容轉(zhuǎn)換為規(guī)則字符；將拼音轉(zhuǎn)化為漢字；以及將保留常用的漢字。
[0011]可選地，所述中文文本獲取子單元，適于識(shí)別并丟棄HTML標(biāo)記，將繁體字轉(zhuǎn)換為簡(jiǎn)體字，將全角字符轉(zhuǎn)換為半角字符，將大寫英文字母轉(zhuǎn)換為小寫英文字母，以及識(shí)別并丟棄url和標(biāo)點(diǎn)符號(hào)，以將待提問(wèn)/答案文本中的內(nèi)容轉(zhuǎn)換為規(guī)則字符；所述中文文本獲取子單元，適于使用雙向最大匹配算法將文本中的拼音轉(zhuǎn)換為漢字，如果一個(gè)拼音對(duì)應(yīng)多個(gè)漢字，則從對(duì)應(yīng)的多個(gè)漢字中任選一個(gè)，以將文本中的拼音轉(zhuǎn)化為漢字；所述中文文本獲取子單元，適于使用GBK編碼表中的常用漢字對(duì)待提問(wèn)/答案文本進(jìn)行過(guò)濾，丟棄所有不屬于常用漢字的字符，以保留常用的漢字。
[0012]可選地，所述拼音文本獲取子單元，適于使用拼音漢字對(duì)照表，將每個(gè)漢字轉(zhuǎn)換為對(duì)應(yīng)的拼音串，以得到拼音文本。
[0013]可選地，所述指紋獲取子單元，適于以單個(gè)漢字為切分粒度提取所述拼音文本的特征，并使用向量空間模型將提取的特征形成所述拼音文本的特征向量。
[0014]依據(jù)本發(fā)明的另一個(gè)方面，提供了一種答社區(qū)中屏蔽廣告內(nèi)容的方法，包括:接收發(fā)布者在問(wèn)答社區(qū)中編輯的待提問(wèn)/答案文本；提取所述待提問(wèn)/答案文本中包含的一個(gè)或多個(gè)特征向量；根據(jù)所述特征向量，識(shí)別所述待提問(wèn)/答案文本是否與廣告特征數(shù)據(jù)庫(kù)中的一個(gè)或多個(gè)記錄匹配；當(dāng)識(shí)別出上述匹配時(shí)，將所述待提問(wèn)/答案文本作為廣告內(nèi)容進(jìn)行屏蔽處理。
[0015]可選地，所述根據(jù)所述特征向量，識(shí)別待提問(wèn)/答案文本是否與廣告特征數(shù)據(jù)庫(kù)中的一個(gè)或多個(gè)記錄匹配，具體包括:對(duì)所述特征向量中的每個(gè)特征，檢測(cè)廣告特征數(shù)據(jù)庫(kù)中是否多次出現(xiàn)該特征；判斷所述特征向量中的在廣告特征數(shù)據(jù)庫(kù)中多次出現(xiàn)的特征占該特征向量的全部特征的比例是否達(dá)到第一閾值，是則確定所述待提問(wèn)/答案文本與廣告特征數(shù)據(jù)庫(kù)中的記錄匹配，否則不匹配。
[0016]可選地，所述檢測(cè)廣告特征數(shù)據(jù)庫(kù)中是否多次出現(xiàn)該特征包括:從廣告特征數(shù)據(jù)庫(kù)中查找是否存在該特征，如果存在，則進(jìn)一步查看該特征的權(quán)值，如果該特征的權(quán)值大于或等于第二閾值，則廣告特征數(shù)據(jù)庫(kù)中多次出現(xiàn)該特征。
[0017]可選地，在確定所述待提問(wèn)/答案文本與廣告特征數(shù)據(jù)庫(kù)中的記錄匹配時(shí)，該方法進(jìn)一步包括:對(duì)于所述特征向量中的每個(gè)特征，如果檢測(cè)到廣告特征數(shù)據(jù)庫(kù)中存在該特征，則該將廣告特征數(shù)據(jù)庫(kù)中該特征的權(quán)值加I。
[0018]可選地，在對(duì)于所述特征向量中的每個(gè)特征，檢測(cè)廣告特征數(shù)據(jù)庫(kù)中是否存在該特征之前，所述判斷待提問(wèn)/答案文本是否與廣告特征數(shù)據(jù)庫(kù)中的記錄匹配進(jìn)一步包括:判斷所述特征向量中的特征的數(shù)目是否小于第三閾值，是則所述待提問(wèn)/答案文本與廣告特征數(shù)據(jù)庫(kù)中的記錄不匹配并結(jié)束判斷操作，否則對(duì)于所述特征向量中的每個(gè)特征，檢測(cè)廣告特征數(shù)據(jù)庫(kù)中是否多次出現(xiàn)該特征。
[0019]可選地，所述提取所述待提問(wèn)/答案文本中包含的一個(gè)或多個(gè)特征向量，具體包括:對(duì)待提問(wèn)/答案文本進(jìn)行文本處理以獲取中文文本；將獲取的中文文本中的漢字轉(zhuǎn)為拼音得到拼音文本；提取所述拼音文本的特征，將提取的特征形成所述拼音文本的特征向量。
[0020]可選地，所述對(duì)文本進(jìn)行文本處理以獲取中文文本，具體包括:對(duì)文本進(jìn)行數(shù)據(jù)清洗操作，將待提問(wèn)/答案文本中的內(nèi)容轉(zhuǎn)換為規(guī)則字符；將拼音轉(zhuǎn)化為漢字；保留常用的漢字。
[0021]可選地，所述對(duì)待提問(wèn)/答案文本進(jìn)行數(shù)據(jù)清洗操作，具體包括:識(shí)別并丟棄HTML標(biāo)記，將繁體字轉(zhuǎn)換為簡(jiǎn)體字，將全角字符轉(zhuǎn)換為半角字符，將大寫英文字母轉(zhuǎn)換為小寫英文字母，以及識(shí)別并丟棄url和標(biāo)點(diǎn)符號(hào)；所述將文本中的拼音轉(zhuǎn)化為漢字，具體包括:使用雙向最大匹配算法將文本中的拼音轉(zhuǎn)換為漢字，如果一個(gè)拼音對(duì)應(yīng)多個(gè)漢字，則從對(duì)應(yīng)的多個(gè)漢字中任選一個(gè)；所述保留常用的漢字，具體包括:使用GBK編碼表中的常用漢字對(duì)待提問(wèn)/答案文本進(jìn)行過(guò)濾，丟棄所有不屬于常用漢字的字符。
[0022]可選地，所述將獲取的中文文本中的漢字轉(zhuǎn)為拼音得到拼音文本，具體包括:使用拼音漢字對(duì)照表，將每個(gè)漢字轉(zhuǎn)換為對(duì)應(yīng)的拼音串，得到拼音文本。
[0023]可選地，所述提取所述拼音文本的特征，將提取的特征形成所述拼音文本的特征向量，具體包括:以單個(gè)漢字為切分粒度提取所述拼音文本的特征，并使用向量空間模型將提取的特征形成所述拼音文本的特征向量。
[0024]根據(jù)本發(fā)明的問(wèn)答社區(qū)中屏蔽廣告內(nèi)容的裝置和方法，可以由發(fā)布者在問(wèn)答社區(qū)中待提問(wèn)/答案文本得到特征向量，進(jìn)而根據(jù)特征向量識(shí)別待提問(wèn)/答案文本是否與廣告特征數(shù)據(jù)庫(kù)中的一個(gè)或多個(gè)記錄匹配，以及識(shí)別出上述匹配時(shí)對(duì)待提問(wèn)/答案文本作為廣告內(nèi)容進(jìn)行屏蔽處理，能夠有效地從發(fā)布者在問(wèn)答社區(qū)中發(fā)布的待提問(wèn)/答案文本中識(shí)別出廣告內(nèi)容并屏蔽相應(yīng)的待提問(wèn)/答案文本。
[0025]上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述，為了能夠更清楚了解本發(fā)明的技術(shù)手段，而可依照說(shuō)明書的內(nèi)容予以實(shí)施，并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂，以下特舉本發(fā)明的【具體實(shí)施方式】。
【專利附圖】

【附圖說(shuō)明】
[0026]通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述，各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的，而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中，用相同的參考符號(hào)表示相同的部件。在附圖中:
[0027]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的問(wèn)答社區(qū)中屏蔽廣告內(nèi)容的方法的流程圖；
[0028]圖2示出了如圖1所示的步驟S200的詳細(xì)的流程圖；
[0029]圖3示出了如圖2所示的步驟S210、步驟S220和步驟S230的詳細(xì)的流程圖；
[0030]圖4示出了如圖1所示的步驟S300的詳細(xì)的流程圖；
[0031]圖5示出了根據(jù)本發(fā)明第一實(shí)施例的問(wèn)答社區(qū)中屏蔽廣告內(nèi)容的裝置的框圖；
[0032]圖6示出了根據(jù)本發(fā)明第一實(shí)施例的問(wèn)答社區(qū)中屏蔽廣告內(nèi)容的裝置的詳細(xì)的框圖；以及
[0033]圖7示出了根據(jù)本發(fā)明第二實(shí)施例的問(wèn)答社區(qū)中屏蔽廣告內(nèi)容的裝置的詳細(xì)的框圖?！揪唧w實(shí)施方式】
[0034]下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi)的示例性實(shí)施例，然而應(yīng)當(dāng)理解，可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例所限制。相反，提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi)，并且能夠?qū)⒈竟_(kāi)的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0035]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的問(wèn)答社區(qū)中屏蔽廣告內(nèi)容的方法的流程圖。該方法包括以下的步驟S100、S200、S300和S400。
[0036]S100、接收發(fā)布者在問(wèn)答社區(qū)中編輯的待提問(wèn)/答案文本。本領(lǐng)域技術(shù)人員容易了解的是，通過(guò)檢測(cè)發(fā)布者編輯待提問(wèn)/答案文本的事件，可以進(jìn)一步抓取得到待提問(wèn)/答案文本。
[0037]S200、提取所述待提問(wèn)/答案文本中包含的一個(gè)或多個(gè)特征向量。本實(shí)施例中，可以通過(guò)檢測(cè)斷句符號(hào)，將待提問(wèn)/答案文本切分為多段文本，進(jìn)而得到多個(gè)特征向量；也可以不切分待提問(wèn)/答案文本，進(jìn)而得到一個(gè)特征向量。
[0038]S300、根據(jù)所述特征向量，識(shí)別所述待提問(wèn)/答案文本是否與廣告特征數(shù)據(jù)庫(kù)中的一個(gè)或多個(gè)記錄匹配。
[0039]本實(shí)施例中，對(duì)特征向量中的每一個(gè)特征，會(huì)檢測(cè)在一個(gè)預(yù)設(shè)的廣告特征數(shù)據(jù)庫(kù)中是否多次出現(xiàn)該特征。檢測(cè)了特征向量中的所有特征之后，判斷特征向量中的在廣告特征數(shù)據(jù)庫(kù)中多次出現(xiàn)的特征占特征向量的全部特征的比例，從而判斷待提問(wèn)/答案文本與廣告特征數(shù)據(jù)庫(kù)中的記錄是否匹配。本實(shí)施例中預(yù)設(shè)的廣告特征數(shù)據(jù)庫(kù)使用Redis廣告特征數(shù)據(jù)庫(kù)，可以是通過(guò)對(duì)海量的網(wǎng)絡(luò)廣告文本(例如抓取收集的網(wǎng)絡(luò)廣告等垃圾信息)進(jìn)行分析得到海量的特征，并統(tǒng)計(jì)得到的各個(gè)特征的數(shù)目而得到權(quán)值，令特征(Shingle)和權(quán)值(Value)構(gòu)成廣告特征數(shù)據(jù)庫(kù)。
[0040]S400、當(dāng)識(shí)別出上述匹配時(shí)，將所述待提問(wèn)/答案文本作為廣告內(nèi)容進(jìn)行屏蔽處理。
[0041]本發(fā)明的步驟S200和步驟S300，實(shí)現(xiàn)了通過(guò)與廣告特征數(shù)據(jù)庫(kù)中的記錄進(jìn)行相似文本監(jiān)測(cè)，識(shí)別待提問(wèn)/答案文本中廣告。不同于本發(fā)明步驟S200和步驟S300的一種相似文本檢測(cè)方法為:首先提取文本的特征(例如對(duì)文本進(jìn)行分詞，提取實(shí)體詞)并使用各種技術(shù)對(duì)特征進(jìn)行擴(kuò)展(例如使用同義詞詞林，近義詞詞典等知識(shí)庫(kù)進(jìn)行詞匯擴(kuò)展)，并使用VSM模型來(lái)描述文本(例如使用VSM模型將一篇文本表示為一個(gè)向量)，然后使用聚類方法對(duì)文本進(jìn)行聚類(例如對(duì)于兩篇文本，經(jīng)過(guò)向量化表示后，計(jì)算兩個(gè)向量的余弦?jiàn)A角用于表征兩篇文本的相似性，如果相似度大于一定閾值，則認(rèn)為兩篇文本是相似的)，被聚到一起的文本是相似的。
[0042]然而，在網(wǎng)絡(luò)應(yīng)用中，存在著大量的相似文本的變種，如使用繁體字、適用拼音代替文字、用同音字代替原字、加入大量無(wú)意義的干擾字符，等等，上述技術(shù)存在以下缺點(diǎn):(一)分詞結(jié)果存在誤差；(二)同音不同字的文本無(wú)法判斷為相似；(三)無(wú)法將經(jīng)過(guò)拼音化處理的兩篇文本識(shí)別為相似文本；(四)對(duì)文本的計(jì)算復(fù)雜度太高(例如，將文本表示為向量，需要較大的運(yùn)算量)。因此，這種方法無(wú)法滿足當(dāng)前大數(shù)據(jù)量情況下的運(yùn)算實(shí)時(shí)性要求。
[0043]圖2示出了如圖1所示的步驟S200的詳細(xì)的流程圖。該方法包括以下的步驟S210、S220 和 S230。[0044] S210、對(duì)待提問(wèn)/答案文本進(jìn)行文本處理以獲取中文文本。
[0045]通過(guò)由待提問(wèn)/答案文本獲取中文文本，可以消除包括有無(wú)意義的干擾字符、繁體字等相似文本的變種對(duì)本實(shí)施例的識(shí)別效果的影響。
[0046]S220、將獲取的中文文本中的漢字轉(zhuǎn)為拼音得到拼音文本。
[0047]通過(guò)將中文文本中的漢字統(tǒng)一轉(zhuǎn)化為拼音，可以消除用拼音代替文字、用同音字代替原字等相似文本的變種對(duì)本實(shí)施例的識(shí)別效果的影響。
[0048]S230、提取所述拼音文本的特征，將提取的特征形成所述拼音文本的特征向量。
[0049]本實(shí)施例中，可以采用N元語(yǔ)言模型(N-gram)提起拼音文本的特征向量，基于步驟S210獲取的中文文本中的漢字粒度，對(duì)步驟S220獲取的拼音文本提取N-gram特征SHINGLE^ SHINGLE^…SHINGLEm。例如，如果步驟S210獲取的中文文本為“我愛(ài)北京天安門”，漢字粒度為“我”、“愛(ài)”、“北”、“京”、“天”，“安”，“門”，步驟S220獲取的拼音文本為“wo ai bei jing tian an 111611”,那么拼音串被切分為“￥0”、“&;[”、％6；[”、“」;[1^”、“1:1&11”、“an”、“men”，如果令 N=6 則步驟 S230 中，獲取的 N-gram 特征 SHINGLei 為“wo ai bei jingtian an”、SHINGLe2 為“ai bei jing tian an men”,依次類推。并使用向量空間模型(VSM,Vector Space Model)形成特征向量 DMSHINGLEi, SHINGLE2，…，SHINGLEJ。
[0050]圖3示出了如圖2所示的步驟S210、步驟S220和步驟S230的詳細(xì)的流程圖。步驟S210具體包括:
[0051]S211、對(duì)待提問(wèn)/答案文本進(jìn)行數(shù)據(jù)清洗操作，將待提問(wèn)/答案文本中的內(nèi)容轉(zhuǎn)換為規(guī)則字符。
[0052]其中，對(duì)待提問(wèn)/答案文本進(jìn)行數(shù)據(jù)清洗操作，具體包括:識(shí)別并丟棄HTML標(biāo)記，將繁體字轉(zhuǎn)換為簡(jiǎn)體字，將全角字符轉(zhuǎn)換為半角字符，將大寫英文字母轉(zhuǎn)換為小寫英文字母，以及識(shí)別并丟棄url和標(biāo)點(diǎn)符號(hào)。
[0053]S212、將拼音轉(zhuǎn)化為漢字。
[0054]其中，將經(jīng)過(guò)步驟S211處理的文本中的拼音轉(zhuǎn)化為漢字，具體包括:使用雙向最大匹配算法將文本中的拼音轉(zhuǎn)換為漢字，如果一個(gè)拼音對(duì)應(yīng)多個(gè)漢字，則從對(duì)應(yīng)的多個(gè)漢字中任選一個(gè)。
[0055]S213、保留常用的漢字。
[0056]其中，保留常用的漢字，具體包括:使用GBK編碼表中的常用漢字對(duì)文本進(jìn)行過(guò)濾，丟棄所有不屬于常用漢字的字符，即只保留漢字GBK編碼在OxBOAO~0xF7FE中的漢字。
[0057]步驟S220具體包括:使用拼音漢字對(duì)照表，將每個(gè)漢字轉(zhuǎn)換為對(duì)應(yīng)的拼音串，得到拼音文本。
[0058]通過(guò)步驟S210由待提問(wèn)/答案文本獲取中文文本，以及通過(guò)步驟S220將獲取的中文文本中的漢字轉(zhuǎn)為拼音得到拼音文本，可以將相似文本的不同變種，識(shí)別為相同的拼音文本。例如將如表1所示的待提問(wèn)/答案文本和三種變種，通過(guò)步驟S210和S220得到相同的拼音文本。
[0059]表1待提問(wèn)/答案文本及三種變種
[0060]
【權(quán)利要求】
1.一種問(wèn)答社區(qū)中屏蔽廣告內(nèi)容的裝置，包括: 文本獲取單元，適于接收發(fā)布者在問(wèn)答社區(qū)中編輯的待提問(wèn)/答案文本；特征向量提取單元，適于提取所述待提問(wèn)/答案文本中包含的一個(gè)或多個(gè)特征向量；識(shí)別單元，適于根據(jù)所述特征向量，識(shí)別所述待提問(wèn)/答案文本是否與廣告特征數(shù)據(jù)庫(kù)中的一個(gè)或多個(gè)記錄匹配；屏蔽單元，適于在識(shí)別單元識(shí)別出上述匹配時(shí)，將所述待提問(wèn)/答案文本作為廣告內(nèi)容進(jìn)行屏蔽處理。
2.根據(jù)權(quán)利要求1所述的裝置，其中，所述識(shí)別單元，適于對(duì)所述特征向量中的每個(gè)特征，檢測(cè)廣告特征數(shù)據(jù)庫(kù)中是否多次出現(xiàn)該特征；所述識(shí)別單元，適于判斷所述特征向量中的在廣告特征數(shù)據(jù)庫(kù)中多次出現(xiàn)的特征占該特征向量的全部特征的比例是否達(dá)到第一閾值，是則確定所述待提問(wèn)/答案文本與廣告特征數(shù)據(jù)庫(kù)中的記錄匹配，否則不匹配。
3.根據(jù)權(quán)利要求1或2所述的裝置，其中，所述識(shí)別單元，適于對(duì)所述特征向量中的每個(gè)特征，從廣告特征數(shù)據(jù)庫(kù)中查找是否存在該特征，如果存在，則進(jìn)一步查看該特征的權(quán)值，如果該特征的權(quán)值大于或等于第二閾值，則廣告特征數(shù)據(jù)庫(kù)中多次出現(xiàn)該特征。
4.根據(jù)權(quán)利要求1-3任一項(xiàng)所述的裝置，其中，該裝置進(jìn)一步包括廣告特征數(shù)據(jù)庫(kù)更新單元，所述廣告特征數(shù)據(jù)庫(kù)更新單元，適于在確定所述待提問(wèn)/答案文本與廣告特征數(shù)據(jù)庫(kù)中的記錄匹配時(shí)，對(duì)于所述特征向量中的每個(gè)特征，如果檢測(cè)到廣告特征數(shù)據(jù)庫(kù)中存在該特征，則將廣告特征數(shù)據(jù)庫(kù)中該特征的權(quán)值加I。
5.根據(jù)權(quán)利要求1-4任一項(xiàng)所述的裝置，其中，所述識(shí)別單元，適于在對(duì)于所述特征向量中的每個(gè)特征，檢測(cè)廣告特征數(shù)據(jù)庫(kù)中是否存在該特征之前，判斷所述特征向量中的特征的數(shù)目是否小于第三閾值，是則所述待提問(wèn)/答案文本與廣告特征數(shù)據(jù)庫(kù)中的記錄不匹配并結(jié)束判斷操作，否則對(duì)于所述特征向量中的每個(gè)特征，檢測(cè)廣告特征數(shù)據(jù)庫(kù)中是否多次出現(xiàn)該特征。
6.一種問(wèn)答社區(qū)中屏蔽廣告內(nèi)容的方法，包括: 接收發(fā)布者在問(wèn)答社區(qū)中編輯的待提問(wèn)/答案文本；提取所述待提問(wèn)/答案文本中包含的一個(gè)或多個(gè)特征向量；根據(jù)所述特征向量，識(shí)別所述待提問(wèn)/答案文本是否與廣告特征數(shù)據(jù)庫(kù)中的一個(gè)或多個(gè)記錄匹配；當(dāng)識(shí)別出上述匹配時(shí)，將所述待提問(wèn)/答案文本作為廣告內(nèi)容進(jìn)行屏蔽處理。
7.根據(jù)權(quán)利要求6所述的方法，其中，所述根據(jù)所述特征向量，識(shí)別待提問(wèn)/答案文本是否與廣告特征數(shù)據(jù)庫(kù)中的一個(gè)或多個(gè)記錄匹配，具體包括: 對(duì)所述特征向量中的每個(gè)特征，檢測(cè)廣告特征數(shù)據(jù)庫(kù)中是否多次出現(xiàn)該特征；判斷所述特征向量中的在廣告特征數(shù)據(jù)庫(kù)中多次出現(xiàn)的特征占該特征向量的全部特征的比例是否達(dá)到第一閾值，是則確定所述待提問(wèn)/答案文本與廣告特征數(shù)據(jù)庫(kù)中的記錄匹配，否則不匹配。
8.根據(jù)權(quán)利要求6或7所述的方法，其中，所述檢測(cè)廣告特征數(shù)據(jù)庫(kù)中是否多次出現(xiàn)該特征包括: 從廣告特征數(shù)據(jù)庫(kù)中查找是否存在該特征，如果存在，則進(jìn)一步查看該特征的權(quán)值，如果該特征的權(quán)值大于或等于第二閾值，則廣告特征數(shù)據(jù)庫(kù)中多次出現(xiàn)該特征。
9.根據(jù)權(quán)利要求6-8任一項(xiàng)所述的方法，其中，在確定所述待提問(wèn)/答案文本與廣告特征數(shù)據(jù)庫(kù)中的記錄匹配時(shí)，該方法進(jìn)一步包括: 對(duì)于所述特征向量中的每個(gè)特征，如果檢測(cè)到廣告特征數(shù)據(jù)庫(kù)中存在該特征，則該將廣告特征數(shù)據(jù)庫(kù)中該特征的權(quán)值加I。
10.根據(jù)權(quán)利要求6-9任一項(xiàng)所述的方法，其中，在對(duì)于所述特征向量中的每個(gè)特征，檢測(cè)廣告特征數(shù)據(jù)庫(kù)中是否存在該特征之前，所述判斷待提問(wèn)/答案文本是否與廣告特征數(shù)據(jù)庫(kù)中的記錄匹配進(jìn)一步包括: 判斷所述特征向量中的特征的數(shù)目是否小于第三閾值，是則所述待提問(wèn)/答案文本與廣告特征數(shù)據(jù)庫(kù)中的記錄不匹配并結(jié)束判斷操作，否則對(duì)于所述特征向量中的每個(gè)特征，檢測(cè)廣告特征數(shù)據(jù)庫(kù)中是否多次出現(xiàn)該特征。
【文檔編號(hào)】G06F17/30GK103605692SQ201310537963
【公開(kāi)日】2014年2月26日申請(qǐng)日期:2013年11月4日優(yōu)先權(quán)日:2013年11月4日
【發(fā)明者】孫林, 陳培軍, 秦吉?jiǎng)? 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件（北京）有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：孫林;陳培軍;秦吉?jiǎng)?/span>
技術(shù)所有人：北京奇虎科技有限公司;奇智軟件（北京）有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

防雷屏蔽裝置相關(guān)技術(shù)

漏電保護(hù)裝置主要用于相關(guān)技術(shù)

漏電保護(hù)裝置用于相關(guān)技術(shù)

如圖所示裝置用于測(cè)定相關(guān)技術(shù)

用于室內(nèi)高壓配電裝置相關(guān)技術(shù)

下圖所示裝置均可用于相關(guān)技術(shù)

裝置類數(shù)字廣告相關(guān)技術(shù)

霓虹燈廣告屏裝置相關(guān)技術(shù)

互動(dòng)裝置廣告相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

用于問(wèn)答社區(qū)中屏蔽廣告內(nèi)容的裝置和方法