關(guān)鍵詞擴(kuò)展方法及系統(tǒng)、及分類語料標(biāo)注方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種關(guān)鍵詞擴(kuò)展方法,通過使用初始關(guān)鍵詞進(jìn)行檢索,檢索獲得關(guān)鍵詞作為下一次檢索的基礎(chǔ),通過關(guān)鍵詞迭代的方式進(jìn)行檢索,當(dāng)前后兩次檢索的關(guān)鍵詞誤差在一定范圍內(nèi)時(shí),將檢索后的關(guān)鍵詞作為所述初始關(guān)鍵詞的擴(kuò)展關(guān)鍵詞,通過這種方式,獲得了所述初始關(guān)鍵詞的多種表達(dá)方式以及多方面含義的詞義,將初始關(guān)鍵詞進(jìn)行了有效并合理的擴(kuò)展,解決了現(xiàn)有技術(shù)中需要人工建立詞庫的問題,是一種實(shí)現(xiàn)方便、準(zhǔn)確率高的關(guān)鍵詞擴(kuò)展方法。此外,還提供一種分類語料自動(dòng)標(biāo)注方法,為每個(gè)分類確定一個(gè)或多個(gè)初始核心關(guān)鍵詞;通過所述初始核心關(guān)鍵詞擴(kuò)展獲取每個(gè)分類的擴(kuò)展關(guān)鍵詞;利用分類對(duì)應(yīng)的所述擴(kuò)展關(guān)鍵詞進(jìn)行檢索,從中選擇分類語料,并進(jìn)行標(biāo)注。
【專利說明】關(guān)鍵詞擴(kuò)展方法及系統(tǒng)、及分類語料標(biāo)注方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種關(guān)鍵詞擴(kuò)展方法及分類語料自動(dòng)標(biāo)注方法,屬于電數(shù)字?jǐn)?shù)據(jù)處理【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]關(guān)鍵詞一般是對(duì)一類相關(guān)術(shù)語的集中表達(dá)的詞語,為了提高其表達(dá)內(nèi)容的全面性,一般關(guān)鍵詞會(huì)有相關(guān)的多種表達(dá)意思,為了提高關(guān)鍵詞檢索的命中率,一般會(huì)將一個(gè)設(shè)定的初始關(guān)鍵詞進(jìn)行擴(kuò)展,獲得多種該關(guān)鍵詞對(duì)應(yīng)的相關(guān)的詞語,同時(shí)進(jìn)行檢索?,F(xiàn)有技術(shù)中提供了一種關(guān)鍵詞擴(kuò)展方法,首先建立一數(shù)據(jù)庫:該數(shù)據(jù)庫包含關(guān)鍵詞、詞匯和識(shí)別碼;然后將關(guān)鍵詞與至少一詞匯對(duì)應(yīng);再將相關(guān)的關(guān)鍵詞與一識(shí)別碼對(duì)應(yīng);通過用戶輸入的關(guān)鍵詞,確定數(shù)據(jù)庫中與該關(guān)鍵詞對(duì)應(yīng)的識(shí)別碼;通過該識(shí)別碼提取該識(shí)別碼對(duì)應(yīng)相關(guān)的關(guān)鍵詞;通過相關(guān)的關(guān)鍵詞,查詢出與每一相關(guān)的關(guān)鍵詞對(duì)應(yīng)的詞匯。該方案中提供的關(guān)鍵詞自動(dòng)擴(kuò)展查詢方法,建立在預(yù)先設(shè)置的詞語庫的基礎(chǔ)上,當(dāng)詞庫建立不當(dāng)時(shí),嚴(yán)重影響了關(guān)鍵詞擴(kuò)展的準(zhǔn)確性,此外,該詞庫的建立需要大量的人工經(jīng)驗(yàn),主觀性較大,也影響了其分類的準(zhǔn)確性。
[0003]語料標(biāo)注是記錄語料的類別特征信息,也是對(duì)語料進(jìn)行淺層次分析的主要內(nèi)容,它可以應(yīng)用到信息檢索、機(jī)器翻譯、主題內(nèi)容分析和文本處理等領(lǐng)域,語料標(biāo)注的準(zhǔn)確性直接關(guān)系到文本分析和文本處理的正確性。
[0004]在有監(jiān)督的文本分類技術(shù)中,例如使用SVM (Support Vector Machine,支持向量機(jī))做文本分類,在確定分類體系之后,需要為分類體系中的每個(gè)分類準(zhǔn)備標(biāo)注語料,用于訓(xùn)練分類模型。目前分類語料的標(biāo)注通常采用人工方法實(shí)現(xiàn),即語料標(biāo)注人員根據(jù)自身的知識(shí)判斷語料所屬的分類。然而,當(dāng)需要標(biāo)注的語料數(shù)目龐大時(shí),人工判定語料所屬分類通常有以下幾個(gè)問題:一是人工代價(jià)高;二是人工標(biāo)注周期長;三是人工標(biāo)注存在主觀因素影響,即對(duì)于同一個(gè)語料,不同的人可能會(huì)將其分到不同的類別;四是由于語料數(shù)目龐大,因?yàn)闃?biāo)注疲勞,容易導(dǎo)致標(biāo)注錯(cuò)誤。
[0005]現(xiàn)有技術(shù)中公開了一種基于BP神經(jīng)網(wǎng)絡(luò)的語料標(biāo)注系統(tǒng),包括語料庫存儲(chǔ)器、待標(biāo)注語料緩沖存儲(chǔ)器、語料標(biāo)注結(jié)果比較器、BP神經(jīng)網(wǎng)絡(luò)處理單元,在標(biāo)注的過程中,所述BP神經(jīng)處理單元對(duì)所述語料庫存儲(chǔ)器中的待標(biāo)注的語料進(jìn)行標(biāo)注,并將標(biāo)注結(jié)果存入所述待標(biāo)注語料緩沖存儲(chǔ)器,所述語料標(biāo)注結(jié)果比較器對(duì)緩沖器中的結(jié)果進(jìn)行比較。在上述公開的技術(shù)方案中,所述BP神經(jīng)網(wǎng)絡(luò)處理單元中包括有至少兩個(gè)分類處理器,在對(duì)標(biāo)注結(jié)果進(jìn)行處理時(shí),只有當(dāng)至少兩個(gè)分類處理器對(duì)待標(biāo)注語料的標(biāo)注結(jié)果依照設(shè)定滿足一定比較系數(shù),才可以對(duì)待標(biāo)注語料進(jìn)行標(biāo)注,并存入語料庫存儲(chǔ)器,該技術(shù)方案基于BP神經(jīng)網(wǎng)絡(luò)算法,該算法的算法復(fù)雜,運(yùn)算量大,收斂速度慢,在處理大量的語料信息時(shí)耗時(shí)長;并且還需要至少兩個(gè)分類處理器進(jìn)行分類處理,占用內(nèi)存大;同時(shí),為了訓(xùn)練神經(jīng)網(wǎng)絡(luò),需要提前準(zhǔn)備一批大規(guī)模的標(biāo)注語料,這種準(zhǔn)備標(biāo)注語料的代價(jià)仍然很高。
【發(fā)明內(nèi)容】
[0006]本發(fā)明所要解決的技術(shù)問題是現(xiàn)有技術(shù)中關(guān)鍵詞擴(kuò)展方法主觀性較大、詞庫建立工作量大、關(guān)鍵詞擴(kuò)展的準(zhǔn)確性低的問題,提出一種客觀、簡便、準(zhǔn)確的關(guān)鍵詞擴(kuò)展方法。
[0007]本發(fā)明所要解決的另外一個(gè)技術(shù)問題是現(xiàn)有技術(shù)中采用基于BP神經(jīng)網(wǎng)絡(luò)算法的語料標(biāo)注方法,其算法復(fù)雜,運(yùn)算量大,收斂速度慢,占用內(nèi)存大;同時(shí)在進(jìn)行語料標(biāo)注時(shí)需要人工提前準(zhǔn)備一批大規(guī)模的標(biāo)注語料來訓(xùn)練分類處理器,準(zhǔn)備所需標(biāo)注語料的代價(jià)仍然很高,從而提供一種利用機(jī)器協(xié)助實(shí)現(xiàn)的分類語料自動(dòng)標(biāo)注方法。
[0008]為解決上述技術(shù)問題,本發(fā)明是通過以下技術(shù)方案實(shí)現(xiàn)的:
[0009]一種關(guān)鍵詞擴(kuò)展方法,包括:
[0010]根據(jù)預(yù)先給定的初始關(guān)鍵詞進(jìn)行檢索,檢索獲得關(guān)鍵詞;
[0011]將檢索獲得的關(guān)鍵詞作為下一次檢索的基礎(chǔ),通過關(guān)鍵詞迭代的方式進(jìn)行循環(huán)檢索;
[0012]當(dāng)一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞誤差在預(yù)設(shè)誤差閾值內(nèi)時(shí),檢索結(jié)束,將本次檢索得到的關(guān)鍵詞確定為擴(kuò)展后的關(guān)鍵詞。
[0013]所述的關(guān)鍵詞擴(kuò)展方法,所述檢索獲得關(guān)鍵詞的過程為:分別統(tǒng)計(jì)檢索獲得的詞語出現(xiàn)的次數(shù),將次數(shù)大于預(yù)設(shè)閾值的詞語作為檢索獲得的關(guān)鍵詞。
[0014]所述的關(guān)鍵詞擴(kuò)展方法,所述檢索獲得關(guān)鍵詞的過程為:統(tǒng)計(jì)檢索獲得的詞語的個(gè)數(shù)以及各個(gè)詞語出現(xiàn)的次數(shù),按照次數(shù)的多少降序排列,將排列在前的一定比例的詞語作為檢索獲得的關(guān)鍵詞。
[0015]所述的關(guān)鍵詞擴(kuò)展方法,獲取所述檢索獲得的詞語的方法為:
[0016]使用預(yù)設(shè)關(guān)鍵詞在文章庫中進(jìn)行檢索,得到相關(guān)度高的文章,然后將這些文章進(jìn)行分詞,將分詞后的結(jié)果作為檢索獲得的詞語。
[0017]所述的關(guān)鍵詞擴(kuò)展方法,分詞后還進(jìn)行去停用詞操作,然后獲取與所述預(yù)設(shè)關(guān)鍵詞同時(shí)出現(xiàn)的同現(xiàn)詞,將所述同現(xiàn)詞作為檢索獲得的詞語。
[0018]所述的關(guān)鍵詞擴(kuò)展方法,一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞的誤差為:一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞存在差別的關(guān)鍵詞的個(gè)數(shù)占本次檢索得到的關(guān)鍵詞的個(gè)數(shù)的比值。
[0019]所述的關(guān)鍵詞擴(kuò)展方法,一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞,分別取前η個(gè)關(guān)鍵詞,進(jìn)行誤差的統(tǒng)計(jì),5 SnS 10。
[0020]所述的關(guān)鍵詞擴(kuò)展方法,所述預(yù)設(shè)誤差閾值小于20%。
[0021]所述的關(guān)鍵詞擴(kuò)展方法,當(dāng)一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞相同時(shí),將本次檢索得到的關(guān)鍵詞確定為擴(kuò)展后的關(guān)鍵詞。
[0022]使用所述的關(guān)鍵詞擴(kuò)展方法進(jìn)行分類語料標(biāo)注方法,步驟包括:
[0023]為每個(gè)分類確定一個(gè)或多個(gè)初始核心關(guān)鍵詞;
[0024]通過所述初始核心關(guān)鍵詞采用所述關(guān)鍵詞擴(kuò)展方法獲取每個(gè)分類的擴(kuò)展關(guān)鍵詞;
[0025]利用分類對(duì)應(yīng)的所述擴(kuò)展關(guān)鍵詞進(jìn)行檢索,從中選擇分類語料,并進(jìn)行標(biāo)注。
[0026]一種關(guān)鍵詞擴(kuò)展系統(tǒng),包括:
[0027]獲取單元:根據(jù)預(yù)先給定的初始關(guān)鍵詞進(jìn)行檢索,檢索獲得關(guān)鍵詞;
[0028]循環(huán)檢索單元:將檢索獲得的關(guān)鍵詞作為下一次檢索的基礎(chǔ),通過關(guān)鍵詞迭代的方式進(jìn)行循環(huán)檢索;
[0029]判斷單元:當(dāng)一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞誤差在預(yù)設(shè)誤差閾值內(nèi)時(shí),檢索結(jié)束,將本次檢索得到的關(guān)鍵詞確定為擴(kuò)展后的關(guān)鍵詞。
[0030]所述的關(guān)鍵詞擴(kuò)展系統(tǒng),所述獲取單元中,還包括檢索獲得關(guān)鍵詞模塊:分別統(tǒng)計(jì)檢索獲得的詞語出現(xiàn)的次數(shù),將次數(shù)大于預(yù)設(shè)閾值的詞語作為檢索獲得的關(guān)鍵詞。
[0031]所述的關(guān)鍵詞擴(kuò)展系統(tǒng),所述獲取單元中,還包括檢索比較獲得關(guān)鍵詞模塊:統(tǒng)計(jì)檢索獲得的詞語的個(gè)數(shù)以及各個(gè)詞語出現(xiàn)的次數(shù),按照次數(shù)的多少降序排列,將排列在前的一定比例的詞語作為檢索獲得的關(guān)鍵詞。
[0032]所述的關(guān)鍵詞擴(kuò)展系統(tǒng),所述檢索獲得關(guān)鍵詞模塊或所述檢索比較獲得關(guān)鍵詞模塊中,獲取所述檢索獲得的詞語的方法為:
[0033]使用預(yù)設(shè)的關(guān)鍵詞在文章庫中進(jìn)行檢索,得到相關(guān)度高的文章,然后將這些文章進(jìn)行分詞,將分詞后的結(jié)果作為檢索獲得的詞語。
[0034]所述的關(guān)鍵詞擴(kuò)展系統(tǒng),分詞后還進(jìn)行去停用詞操作,然后獲取與所述預(yù)設(shè)關(guān)鍵詞同時(shí)出現(xiàn)的同現(xiàn)詞,將所述同現(xiàn)詞作為檢索獲得的詞語。
[0035]所述的關(guān)鍵詞擴(kuò)展系統(tǒng),一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞的誤差為:一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞存在差別的關(guān)鍵詞的個(gè)數(shù)占本次檢索得到的關(guān)鍵詞的個(gè)數(shù)的比值。
[0036]所述的關(guān)鍵詞擴(kuò)展系統(tǒng),一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞,分別取前η個(gè)關(guān)鍵詞,進(jìn)行誤差的統(tǒng)計(jì),5 SnS 10。
[0037]所述的關(guān)鍵詞擴(kuò)展系統(tǒng),所述預(yù)設(shè)誤差閾值小于20%。
[0038]所述的關(guān)鍵詞擴(kuò)展系統(tǒng),當(dāng)一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞相同時(shí),將本次檢索得到的關(guān)鍵詞確定為擴(kuò)展后的關(guān)鍵詞。
[0039]一種使用所述的關(guān)鍵詞擴(kuò)展系統(tǒng)的分類語料標(biāo)注系統(tǒng),包括:
[0040]確定關(guān)鍵詞單元:為每個(gè)分類確定一個(gè)或多個(gè)初始核心關(guān)鍵詞;
[0041]關(guān)鍵詞擴(kuò)展單元:通過所述初始核心關(guān)鍵詞采用所述關(guān)鍵詞擴(kuò)展方法獲取每個(gè)分類的擴(kuò)展關(guān)鍵詞;
[0042]標(biāo)注單元:利用分類對(duì)應(yīng)的所述擴(kuò)展關(guān)鍵詞進(jìn)行檢索,從中選擇分類語料,并進(jìn)行標(biāo)注。
[0043]本發(fā)明的上述技術(shù)方案相比現(xiàn)有技術(shù)具有以下優(yōu)點(diǎn):
[0044](I)本發(fā)明所述的關(guān)鍵詞擴(kuò)展方法,通過使用初始關(guān)鍵詞進(jìn)行檢索,檢索獲得關(guān)鍵詞作為下一次檢索的基礎(chǔ),通過關(guān)鍵詞迭代的方式進(jìn)行檢索,當(dāng)前后兩次檢索的關(guān)鍵詞誤差在一定范圍內(nèi)時(shí),將檢索后的關(guān)鍵詞作為所述初始關(guān)鍵詞的擴(kuò)展關(guān)鍵詞,通過這種方式,獲得了所述初始關(guān)鍵詞的多種表達(dá)方式以及多方面含義的詞義,將初始關(guān)鍵詞進(jìn)行了有效并合理的擴(kuò)展,解決了現(xiàn)有技術(shù)中需要人工建立詞庫的問題,是一種實(shí)現(xiàn)方便、準(zhǔn)確率高的關(guān)鍵詞擴(kuò)展方法。
[0045](2)所述的關(guān)鍵詞擴(kuò)展方法,統(tǒng)計(jì)檢索獲得的詞語出現(xiàn)的次數(shù),將次數(shù)大于預(yù)設(shè)閾值的詞語作為檢索獲得的關(guān)鍵詞?;蛘呓y(tǒng)計(jì)檢索獲得的詞語的個(gè)數(shù)以及各個(gè)詞語出現(xiàn)的次數(shù),按照次數(shù)的多少降序排列,將排列在前的一定比例的詞語作為檢索獲得的關(guān)鍵詞,通過這種方式將獲得關(guān)鍵詞,具有一定的統(tǒng)計(jì)意義,便于找到與關(guān)鍵詞的各個(gè)含義相關(guān)的詞語。
[0046](3)所述的關(guān)鍵詞擴(kuò)展方法,獲取所述檢索獲得的詞語的方法為通過在文章庫中檢索,得到相關(guān)度高的文章,進(jìn)行分詞、去停用詞、獲取同現(xiàn)詞的方式獲得檢索后的詞語。通過上述一步一步過濾,將不需要的多余的詞語去除,得到有效的詞語。
[0047](4)所述的關(guān)鍵詞擴(kuò)展方法,一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞的誤差在一定范圍內(nèi)則認(rèn)為檢索結(jié)束,獲得了擴(kuò)展后的關(guān)鍵詞,通過迭代檢索關(guān)鍵詞收斂的方式獲得了所需的關(guān)鍵詞,加快了處理速度,提高了工作效率。
[0048](5)所述的關(guān)鍵詞擴(kuò)展方法,當(dāng)一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞相同時(shí),將本次檢索得到的關(guān)鍵詞確定為擴(kuò)展后的關(guān)鍵詞,此時(shí)擴(kuò)展后的關(guān)鍵詞的準(zhǔn)確度更高。
[0049](6)本發(fā)明還提供一種分類語料標(biāo)注方法,通過擴(kuò)展后的關(guān)鍵詞進(jìn)行檢索,獲得分類語料,提高了分類語料標(biāo)注的效率和準(zhǔn)確度。上述分類語料自動(dòng)標(biāo)注方法有效避免了現(xiàn)有技術(shù)中采用基于BP神經(jīng)網(wǎng)絡(luò)算法的語料標(biāo)注方法,其算法復(fù)雜,運(yùn)算量大,收斂速度慢,在處理大量的語料信息時(shí)耗時(shí)長;并且還需要至少兩個(gè)分類處理器進(jìn)行分類處理,占用內(nèi)存大;同時(shí)在進(jìn)行語料標(biāo)注時(shí)需要人工提前準(zhǔn)備一批大規(guī)模的標(biāo)注語料來訓(xùn)練分類處理器,準(zhǔn)備所需標(biāo)注語料的代價(jià)仍然很高的問題。
【專利附圖】
【附圖說明】
[0050]為了使本發(fā)明的內(nèi)容更容易被清楚的理解,下面結(jié)合附圖,對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明,其中,
[0051]圖1是本發(fā)明所述關(guān)鍵詞擴(kuò)展方法的流程圖
[0052]圖2是本發(fā)明所述分類語料自動(dòng)標(biāo)注方法的流程圖。
【具體實(shí)施方式】
[0053]實(shí)施例1:
[0054]本實(shí)施例提供一種關(guān)鍵詞擴(kuò)展方法,流程圖如圖1所示,包括如下步驟:
[0055](I)根據(jù)預(yù)先給定的初始關(guān)鍵詞進(jìn)行檢索,檢索獲得關(guān)鍵詞。此實(shí)例中,使用初始關(guān)鍵詞在文章庫中進(jìn)行檢索,得到相關(guān)度高的文章,然后將這些文章進(jìn)行分詞,將分詞后的結(jié)果作為檢索獲得的詞語。統(tǒng)計(jì)檢索獲得的詞語出現(xiàn)的次數(shù),將次數(shù)大于預(yù)設(shè)閾值50次(此處的次數(shù)根據(jù)文章庫的大小以及檢索的關(guān)鍵詞的普遍使用程度來設(shè)置)的詞語作為檢索獲得的關(guān)鍵詞。通過這種方式將獲得關(guān)鍵詞,具有一定的統(tǒng)計(jì)意義,便于找到與關(guān)鍵詞的各個(gè)含義相關(guān)的詞語。
[0056](2)將檢索獲得的關(guān)鍵詞作為下一次檢索的基礎(chǔ),通過關(guān)鍵詞迭代的方式進(jìn)行循環(huán)檢索。檢索的過程與步驟(I)中的具體過程類似。在此步驟中,將上一次檢索的關(guān)鍵詞,作為本次檢索的關(guān)鍵詞,進(jìn)行檢索,檢索后獲得的關(guān)鍵詞又作為下一次檢索的關(guān)鍵詞,通過這種關(guān)鍵詞迭代的方式進(jìn)行檢索。在每次檢索后,針對(duì)本次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞進(jìn)行比較,當(dāng)兩次檢索的關(guān)鍵詞一致時(shí),將本次檢索得到的關(guān)鍵詞確定為擴(kuò)展后的關(guān)鍵詞,此時(shí)擴(kuò)展后的關(guān)鍵詞的準(zhǔn)確度更高。
[0057]本發(fā)明所述的關(guān)鍵詞擴(kuò)展方法,通過使用初始關(guān)鍵詞進(jìn)行檢索,檢索獲得關(guān)鍵詞作為下一次檢索的基礎(chǔ),通過關(guān)鍵詞迭代的方式進(jìn)行檢索,當(dāng)前后兩次檢索的關(guān)鍵詞誤差在一定范圍內(nèi)時(shí),將檢索后的關(guān)鍵詞作為所述初始關(guān)鍵詞的擴(kuò)展關(guān)鍵詞,通過這種方式,獲得了所述初始關(guān)鍵詞的多種表達(dá)方式以及多方面含義的詞義,將初始關(guān)鍵詞進(jìn)行了有效并合理的擴(kuò)展,解決了現(xiàn)有技術(shù)中需要人工建立詞庫的問題,是一種實(shí)現(xiàn)方便、準(zhǔn)確率高的關(guān)鍵詞擴(kuò)展方法。
[0058]作為其他可以變換的實(shí)施方式,針對(duì)本次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞進(jìn)行比較,當(dāng)有差別的關(guān)鍵詞占所有關(guān)鍵詞的比例小于一個(gè)預(yù)設(shè)閾值時(shí)如20%,則認(rèn)為本次檢索的關(guān)鍵詞為為擴(kuò)展后的關(guān)鍵詞。
[0059]實(shí)施例2:
[0060](I)根據(jù)預(yù)先給定的初始關(guān)鍵詞進(jìn)行檢索,檢索獲得關(guān)鍵詞。
[0061](2)將檢索獲得的關(guān)鍵詞作為下一次檢索的基礎(chǔ),通過關(guān)鍵詞迭代的方式進(jìn)行循環(huán)檢索。
[0062]在上述(I)和(2)的檢索過程中,檢索的方式如下:
[0063]使用預(yù)設(shè)的關(guān)鍵詞在文章庫中進(jìn)行檢索,得到相關(guān)度高的文章,然后將這些文章進(jìn)行分詞,分詞后還進(jìn)行去停用詞操作,然后獲取與所述預(yù)設(shè)關(guān)鍵詞同時(shí)出現(xiàn)的同現(xiàn)詞,可以通過滑窗的方法獲得同現(xiàn)詞,將所述同現(xiàn)詞作為檢索獲得的詞語。通過分詞、去停用詞、獲取同現(xiàn)詞的方式獲得檢索后的詞語,經(jīng)過上述一步一步過濾,將不需要的多余的詞語去除,得到有效的詞語。
[0064]統(tǒng)計(jì)檢索獲得的詞語的個(gè)數(shù)以及各個(gè)詞語出現(xiàn)的次數(shù),按照次數(shù)的多少降序排列,將排列在前的一定比例如50% (此處的比例可根據(jù)具體情況設(shè)置)的詞語作為檢索獲得的關(guān)鍵詞,如檢索獲得的詞語為100個(gè),則取次數(shù)較多的前20%個(gè)作為檢索獲得的關(guān)鍵詞。
[0065]此處,作為其他可以替換的實(shí)施方式,也可以提前對(duì)次數(shù)做歸一。歸一的方法為,對(duì)一個(gè)檢索獲得的詞語的序列,計(jì)算各個(gè)詞語次數(shù)累加值sum,將其中一個(gè)詞語出現(xiàn)的次數(shù)/sum做為該詞語歸一后的值,然后通過歸一后的值降序排列,取在先的一定數(shù)量或一定比例的值作為關(guān)鍵詞。
[0066]此過程中,定義一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞的誤差為:一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞存在差別的關(guān)鍵詞的個(gè)數(shù)占本次檢索得到的關(guān)鍵詞的個(gè)數(shù)的比值,當(dāng)誤差小于10%時(shí),則認(rèn)為檢索結(jié)束,本次檢索獲得的關(guān)鍵詞為展后的關(guān)鍵詞。
[0067]作為另外可以替換的實(shí)施方式,也可以取前η個(gè)關(guān)鍵詞進(jìn)行比較來計(jì)算誤差,如取前5個(gè)關(guān)鍵詞或前10個(gè)關(guān)鍵詞計(jì)算誤差,當(dāng)誤差小于20%時(shí),則認(rèn)為檢索結(jié)束,獲得了擴(kuò)展關(guān)鍵詞。
[0068]一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞的誤差在一定范圍內(nèi)則認(rèn)為檢索結(jié)束,獲得了擴(kuò)展后的關(guān)鍵詞,通過迭代檢索關(guān)鍵詞收斂的方式獲得了所需的關(guān)鍵詞,加快了處理速度,提高了工作效率。
[0069]實(shí)施例3:
[0070]一種關(guān)鍵詞擴(kuò)展系統(tǒng),包括:
[0071](I)獲取單元:根據(jù)預(yù)先給定的初始關(guān)鍵詞進(jìn)行檢索,檢索獲得關(guān)鍵詞。所述的關(guān)鍵詞擴(kuò)展系統(tǒng),所述獲取單元中,還包括檢索獲得關(guān)鍵詞模塊:統(tǒng)計(jì)檢索獲得的詞語出現(xiàn)的次數(shù),將次數(shù)大于預(yù)設(shè)閾值的詞語作為檢索獲得的關(guān)鍵詞。
[0072]作為其他可以替換的實(shí)施方式,所述獲取單元中,還包括檢索比較獲得關(guān)鍵詞模塊:統(tǒng)計(jì)檢索獲得的詞語的個(gè)數(shù)以及各個(gè)詞語出現(xiàn)的次數(shù),按照次數(shù)的多少降序排列,將排列在前的一定比例的詞語作為檢索獲得的關(guān)鍵詞。
[0073](2)循環(huán)檢索單元:將檢索獲得的關(guān)鍵詞作為下一次檢索的基礎(chǔ),通過關(guān)鍵詞迭代的方式進(jìn)行循環(huán)檢索。
[0074]上述檢索的過程為:使用預(yù)設(shè)的關(guān)鍵詞在文章庫中進(jìn)行檢索,得到相關(guān)度高的文章,然后將這些文章進(jìn)行分詞,將分詞后的結(jié)果作為檢索獲得的詞語。所述的關(guān)鍵詞擴(kuò)展系統(tǒng),分詞后還進(jìn)行去停用詞操作,然后獲取與所述預(yù)設(shè)關(guān)鍵詞同時(shí)出現(xiàn)的同現(xiàn)詞,將所述同現(xiàn)詞作為檢索獲得的詞語。然后,通過檢索獲得關(guān)鍵詞模塊或檢索比較獲得關(guān)鍵詞模塊對(duì)所述檢索獲得的詞語進(jìn)行統(tǒng)計(jì),獲得檢索后的關(guān)鍵詞。
[0075](3)判斷單元:當(dāng)一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞誤差在預(yù)設(shè)誤差閾值內(nèi)時(shí),所述預(yù)設(shè)誤差閾值小于10%,檢索結(jié)束,將本次檢索得到的關(guān)鍵詞確定為擴(kuò)展后的關(guān)鍵詞。所述一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞的誤差為:一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞存在差別的關(guān)鍵詞的個(gè)數(shù)占本次檢索得到的關(guān)鍵詞的個(gè)數(shù)的比值。作為替換的方式,可以分別取前η個(gè)關(guān)鍵詞,進(jìn)行誤差的統(tǒng)計(jì),如5 < η < 10。
[0076]作為其他實(shí)施方式,為了提高檢索精度,在判斷單元中,當(dāng)一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞相同時(shí),才將本次檢索得到的關(guān)鍵詞確定為擴(kuò)展后的關(guān)鍵詞。
[0077]實(shí)施例4:
[0078]給出一個(gè)具體的應(yīng)用實(shí)例。
[0079]如給定一個(gè)初始關(guān)鍵詞“杯子”進(jìn)行檢索,使用“杯子”這個(gè)詞在文章庫(500篇文章)中檢索,采用上述的檢索方法和獲得檢索后的關(guān)鍵詞的方法,獲得一系列的關(guān)鍵詞:水、水壺、茶杯、飲水機(jī)、飲料。
[0080]使用上述檢索得到的一系列關(guān)鍵詞進(jìn)行再次檢索,檢索后得到的關(guān)鍵詞為:水、茶杯、水壺、暖壺、水桶。
[0081]將兩次結(jié)果進(jìn)行比較,誤差為40%,因此繼續(xù)以上述檢索結(jié)果做為關(guān)鍵詞進(jìn)行檢索,檢索后的結(jié)果為:水、茶杯、水杯、玻璃杯、水壺。
[0082]將此次檢索的結(jié)果與上次檢索的結(jié)果比較,誤差為40%,不滿足閾值20%的要求,因此繼續(xù)檢索,以上述關(guān)鍵詞重新檢索,得到的檢索結(jié)果為水、茶杯、水杯、玻璃杯、水壺。
[0083]將本次檢索的結(jié)果與上次檢索的結(jié)果比較,誤差為20%,滿足誤差閾值的要求,因此檢索結(jié)束,將本次檢索的結(jié)果“水、茶杯、水杯、玻璃杯、水壺”作為關(guān)鍵詞“杯子”的擴(kuò)展后的關(guān)鍵詞。
[0084]實(shí)施例5:
[0085]本實(shí)施例提供一種使用所述的關(guān)鍵詞擴(kuò)展方法進(jìn)行分類語料標(biāo)注方法,流程圖如圖2所示,步驟包括:
[0086]為每個(gè)分類確定一個(gè)或多個(gè)初始核心關(guān)鍵詞;
[0087]通過所述初始核心關(guān)鍵詞采用所述關(guān)鍵詞擴(kuò)展方法獲取每個(gè)分類的擴(kuò)展關(guān)鍵詞;
[0088]利用分類對(duì)應(yīng)的所述擴(kuò)展關(guān)鍵詞進(jìn)行檢索,從中選擇分類語料,并進(jìn)行標(biāo)注。
[0089]實(shí)施例6:
[0090]一種使用所述的關(guān)鍵詞擴(kuò)展系統(tǒng)的分類語料標(biāo)注系統(tǒng),包括:
[0091](I)確定關(guān)鍵詞單元:為每個(gè)分類確定一個(gè)或多個(gè)初始核心關(guān)鍵詞;
[0092](2)關(guān)鍵詞擴(kuò)展單元:通過所述初始核心關(guān)鍵詞采用所述關(guān)鍵詞擴(kuò)展方法獲取每個(gè)分類的擴(kuò)展關(guān)鍵詞,包括:
[0093]獲取子單元:根據(jù)預(yù)先給定的初始核心關(guān)鍵詞進(jìn)行檢索,檢索獲得關(guān)鍵詞;
[0094]循環(huán)檢索子單元:將檢索獲得的關(guān)鍵詞作為下一次檢索的基礎(chǔ),通過關(guān)鍵詞迭代的方式進(jìn)行循環(huán)檢索;
[0095]判斷子單元:當(dāng)一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞誤差在預(yù)設(shè)誤差閾值內(nèi)時(shí),檢索結(jié)束,將本次檢索得到的關(guān)鍵詞確定為擴(kuò)展后的關(guān)鍵詞。
[0096](3)標(biāo)注單元:利用分類對(duì)應(yīng)的所述擴(kuò)展關(guān)鍵詞進(jìn)行檢索,從中選擇分類語料,并進(jìn)行標(biāo)注。
[0097]實(shí)施例7:
[0098]結(jié)合一個(gè)應(yīng)用實(shí)例說明使用所述的關(guān)鍵詞擴(kuò)展方法進(jìn)行分類語料標(biāo)注方法,流程圖如圖2所示。
[0099]S1:為每個(gè)分類確定一個(gè)或多個(gè)初始核心關(guān)鍵詞。
[0100]設(shè)分類體系中有三個(gè)分類{軍事,經(jīng)濟(jì),體育},人工為每一個(gè)分類確定一個(gè)或多個(gè)初始核心關(guān)鍵詞。以軍事為例,確定初始核心關(guān)鍵詞為{戰(zhàn)爭,難民,傷亡}。建設(shè)文章全文庫,全文庫中的每篇文章來自報(bào)刊數(shù)據(jù)庫。
[0101]S2:通過所述初始核心關(guān)鍵詞擴(kuò)展獲取每個(gè)分類的擴(kuò)展關(guān)鍵詞。
[0102]所述步驟S2采用迭代方法進(jìn)行反復(fù)檢索獲取每個(gè)分類的擴(kuò)展關(guān)鍵詞,包括如下步驟:
[0103]S21:取一個(gè)分類中的初始核心關(guān)鍵詞,通過檢索獲取該分類的候選擴(kuò)展關(guān)鍵詞。
[0104]S210:取分類軍事中的初始核心關(guān)鍵詞{戰(zhàn)爭,難民,傷亡};
[0105]S211:使用所述核心關(guān)鍵詞{戰(zhàn)爭,難民,傷亡}進(jìn)行檢索,根據(jù)相關(guān)度得到前1000篇文章。
[0106]在其他實(shí)施例中,所述文章的篇數(shù)為n,其中η > 2,η為整數(shù),所述η的取值為30 ^ n ^ 2000。所述η可以選擇50、100、500、700、1200、1700、2000等不同的值,根據(jù)用戶的需求以及該分類信息的類別特征來選擇。
[0107]S212:對(duì)分類軍事得到的1000篇文章進(jìn)行分詞和去停用詞。
[0108]在本實(shí)施例中對(duì)所述η篇文章進(jìn)行分詞和去停用詞采用NLPIR分詞器,可以通過分詞后使用停用詞典過濾停用詞。選用NLPIR分詞器,包括中文分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、用戶詞典、微博分詞、新詞發(fā)現(xiàn)與關(guān)鍵詞提取的功能,支持GBK編碼、UTF8編碼、BIG5編碼等,該分詞器功能齊全,運(yùn)算速度快,穩(wěn)定可靠。
[0109]在其他的實(shí)施例中,對(duì)所述η篇文章進(jìn)行分詞和去停用詞采用CJK分詞器或IK分詞器,可以通過分詞后使用停用詞典過濾停用詞。針對(duì)中文語料庫可以選用CJK分詞器,該分詞器專門用于處理中文文檔,運(yùn)算速度快,穩(wěn)定可靠。也可以選用IK分詞器,通過分詞后使用停用詞典過濾停用詞,或通過配置IK分詞器的停用詞典實(shí)現(xiàn)停用詞過濾,能夠?qū)崿F(xiàn)了以詞典分詞為基礎(chǔ)的正反向全切分,以及正反向最大匹配切分,該分詞器優(yōu)化了詞典存儲(chǔ),占用內(nèi)存小,運(yùn)算速度快,穩(wěn)定可靠。
[0110]S213:通過滑窗方法得到關(guān)鍵詞附近滑窗窗口大小為7的詞語作為所述候選擴(kuò)展關(guān)鍵詞。則取所述核心關(guān)鍵詞前3個(gè)詞語和后3個(gè)詞語以及所述核心關(guān)鍵詞本身作為所述候選擴(kuò)展關(guān)鍵詞;若所述核心關(guān)鍵詞前或后的詞語不足3個(gè),則取所述核心關(guān)鍵詞前或后的所有詞語。
[0111]在其他實(shí)施例中,可以取所述核心關(guān)鍵詞前6個(gè)詞語以及所述核心關(guān)鍵詞本身作為所述候選擴(kuò)展關(guān)鍵詞;或取關(guān)鍵詞前4個(gè)詞語和后2個(gè)詞語以及所述核心關(guān)鍵詞本身作為所述候選擴(kuò)展關(guān)鍵詞;或取所述核心關(guān)鍵詞前2個(gè)詞語和后4個(gè)詞語以及所述核心關(guān)鍵詞本身作為所述候選擴(kuò)展關(guān)鍵詞等方式進(jìn)行取詞。若所述核心關(guān)鍵詞前或后的詞語個(gè)數(shù)不足所取詞的個(gè)數(shù)時(shí),則取所述核心關(guān)鍵詞前或后的所有詞語。
[0112]作為其他可替換的實(shí)施方式,所述滑窗窗口大小為S,其中S ^ 2,S為整數(shù)。所述滑窗窗口大小S的取值為3彡S彡10。所述滑窗窗口大小S可以取4、5、6、8、9、10等不同的值,根據(jù)用戶的需求來選擇。
[0113]本發(fā)明所述的分類語料自動(dòng)標(biāo)注方法,通過滑窗的方法獲取關(guān)鍵詞,該方法是通過限制窗口內(nèi)所能接收的最大詞數(shù)進(jìn)行控制,算法簡單,運(yùn)算處理速度快,準(zhǔn)確率高。
[0114]S22:利用每次獲取的所述候選擴(kuò)展關(guān)鍵詞得到新的核心關(guān)鍵詞進(jìn)行檢索,直到獲取的所述候選擴(kuò)展關(guān)鍵詞不再變化,并保存為關(guān)鍵詞集合。S221:統(tǒng)計(jì)所述候選擴(kuò)展關(guān)鍵詞出現(xiàn)次數(shù),按次數(shù)倒序排列所述候選擴(kuò)展關(guān)鍵詞;
[0115]S222:取出前10個(gè)所述候選擴(kuò)展關(guān)鍵詞作為新的核心關(guān)鍵詞。
[0116]在其他實(shí)施例中,取出前m個(gè)所述候選擴(kuò)展關(guān)鍵詞作為新的核心關(guān)鍵詞,其中m彡2,m為整數(shù),所述m的取值為5彡m彡30,所述m可以取5、7、13、17、25、27、30等不同的值,根據(jù)用戶的需求以及該分類信息的類別特征來選擇。
[0117]S223:返回步驟S211,使用所述新的核心關(guān)鍵詞進(jìn)行檢索,直到所述新的核心關(guān)鍵詞不會(huì)變化,收斂到特定的關(guān)鍵詞集合。
[0118]對(duì)分類軍事利用初始核心關(guān)鍵詞擴(kuò)展得到的10個(gè)關(guān)鍵詞是根據(jù)初始核心關(guān)鍵詞通過迭代方法獲取的擴(kuò)展關(guān)鍵詞{難民,伊拉克,戰(zhàn)爭,非洲,家園,被迫,阿富汗,約旦,沖關(guān),接收}。
[0119]S23:核對(duì)所述關(guān)鍵詞集合,刪除不符合類別特征的關(guān)鍵詞后作為該分類的所述擴(kuò)展關(guān)鍵詞。
[0120]假設(shè)該用戶是為了進(jìn)行軍事研究,則可從中刪除不符合類型特征的關(guān)鍵詞{家園,接收I。
[0121]通過核對(duì)所述關(guān)鍵詞集合,刪除一些不符合類別特征的關(guān)鍵詞,使獲得的擴(kuò)展關(guān)鍵詞集合更加的準(zhǔn)確。
[0122]S3:利用分類對(duì)應(yīng)的所述擴(kuò)展關(guān)鍵詞進(jìn)行檢索,從中選擇分類語料,并進(jìn)行標(biāo)注。包括如下步驟:
[0123]S31:利用分類對(duì)應(yīng)的擴(kuò)展關(guān)鍵詞{難民,伊拉克,戰(zhàn)爭,非洲,被迫,阿富汗,約旦,沖突}從全文庫中檢索,根據(jù)相關(guān)度降序排序。
[0124]S32:取前1000篇文章進(jìn)行核對(duì),從中選擇分類語料,并標(biāo)注為“軍事”。
[0125]在其它的實(shí)施例中,取前k篇文章進(jìn)行核對(duì),其中K > 10,所述K為正整數(shù),所述K的取值為10SKS 2000。所述K可以選擇1500、1700、2000等不同的取值,根據(jù)該分類的語料類別特征來選擇。
[0126]在核對(duì)所述前K篇文章時(shí),從中刪除一些不符合類別特征的文章,將剩余符合類別特征的文章作為該分類的語料進(jìn)行標(biāo)注。
[0127]本發(fā)明所述的分類語料自動(dòng)標(biāo)注方法,通過對(duì)每次檢索后獲得文章數(shù)量進(jìn)行限定,減少了處理文章的數(shù)量,提高了處理速度,同時(shí)也對(duì)一些相關(guān)度較低文章進(jìn)行過濾,使獲取的新的核心關(guān)鍵詞更加準(zhǔn)確。
[0128]本發(fā)明所述的分類語料自動(dòng)標(biāo)注方法,每次檢索為全文檢索,能夠從文章的全文進(jìn)行匹配,查全率高,使獲得的標(biāo)注語料準(zhǔn)確率高。
[0129]本發(fā)明所述的分類語料自動(dòng)標(biāo)注方法,對(duì)通過擴(kuò)展關(guān)鍵詞進(jìn)行檢索到的語料進(jìn)行核對(duì),從中刪除一些不符合類別特征的文章,將剩余符合類別特征的文章作為該分類的語料進(jìn)行標(biāo)注,使標(biāo)注的語料更加準(zhǔn)確。
[0130]實(shí)施例8:
[0131]本實(shí)施例提供另外一種分類語料標(biāo)注方法的【具體實(shí)施方式】。
[0132]第一步,設(shè)分類體系中有三個(gè)分類{軍事,經(jīng)濟(jì),體育},人工為每一個(gè)分類確定一個(gè)或多個(gè)核心關(guān)鍵詞。以軍事為例,確定初始核心關(guān)鍵詞為{戰(zhàn)爭,難民,傷亡}。建設(shè)文章全文庫,全文庫中的每篇文章來自報(bào)刊數(shù)據(jù)庫。
[0133]第二步,對(duì)于分類軍事,利用核心關(guān)鍵詞{戰(zhàn)爭,難民,傷亡}進(jìn)行全文檢索,得到前1000篇文章。
[0134]第三步,對(duì)得到的1000篇文章進(jìn)行分詞和去停用詞。
[0135]第四步,通過滑窗方法得到關(guān)鍵詞附近窗口大小為6的關(guān)鍵詞。
[0136]第五步,統(tǒng)計(jì)關(guān)鍵詞出現(xiàn)次數(shù),按次數(shù)倒序排列關(guān)鍵詞。
[0137]第六步,從第五步的關(guān)鍵詞中,取出前10個(gè)關(guān)鍵詞做為新的核心關(guān)鍵詞。
[0138]第七步,重復(fù)第二步到第六步,直到前10個(gè)關(guān)鍵詞不會(huì)變化,即收斂到特定的關(guān)鍵詞集合。得到的10個(gè)關(guān)鍵詞是根據(jù)初始核心關(guān)鍵詞通過迭代方法獲取的擴(kuò)展關(guān)鍵詞{難民,伊拉克,戰(zhàn)爭,非洲,家園,被迫,阿富汗,約旦,沖突,接收}。
[0139]第八步,人工核對(duì)擴(kuò)展關(guān)鍵詞,從中刪除不符合類型特征的關(guān)鍵詞{家園,接收}。
[0140]第九步,利用分類對(duì)應(yīng)的擴(kuò)展關(guān)鍵詞{難民,伊拉克,戰(zhàn)爭,非洲,被迫,阿富汗,約旦,沖突}從全文庫中檢索。得到前1000篇文章,這1000篇文章做為候選的該分類語料。
[0141]第十步,人工核對(duì)1000篇文章,從中選擇分類語料。
[0142]第十一步,對(duì)于所有分類,重復(fù)第二步到第十步。從而為分類體系中的每個(gè)分類得到標(biāo)注語料。
[0143]顯然,上述實(shí)施例僅僅是為清楚地說明所作的舉例,而并非對(duì)實(shí)施方式的限定。對(duì)于所屬領(lǐng)域的普通技術(shù)人員來說,在上述說明的基礎(chǔ)上還可以做出其它不同形式的變化或變動(dòng)。這里無需也無法對(duì)所有的實(shí)施方式予以窮舉。而由此所引伸出的顯而易見的變化或變動(dòng)仍處于本發(fā)明創(chuàng)造的保護(hù)范圍之中。
[0144]本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器、CD-ROM、光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
[0145]本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
[0146]這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
[0147]這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
[0148]盡管已描述了本發(fā)明的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。
【權(quán)利要求】
1.一種關(guān)鍵詞擴(kuò)展方法,其特征在于,包括: 根據(jù)預(yù)先給定的初始關(guān)鍵詞進(jìn)行檢索,檢索獲得關(guān)鍵詞; 將檢索獲得的關(guān)鍵詞作為下一次檢索的基礎(chǔ),通過關(guān)鍵詞迭代的方式進(jìn)行循環(huán)檢索; 當(dāng)一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞誤差在預(yù)設(shè)誤差閾值內(nèi)時(shí),檢索結(jié)束,將本次檢索得到的關(guān)鍵詞確定為擴(kuò)展后的關(guān)鍵詞。
2.根據(jù)權(quán)利要求1所述的關(guān)鍵詞擴(kuò)展方法,其特征在于,所述檢索獲得關(guān)鍵詞的過程為:分別統(tǒng)計(jì)檢索獲得的詞語出現(xiàn)的次數(shù),將次數(shù)大于預(yù)設(shè)閾值的詞語作為檢索獲得的關(guān)鍵詞。
3.根據(jù)權(quán)利要求1所述的關(guān)鍵詞擴(kuò)展方法,其特征在于,所述檢索獲得關(guān)鍵詞的過程為:統(tǒng)計(jì)檢索獲得的詞語的個(gè)數(shù)以及各個(gè)詞語出現(xiàn)的次數(shù),按照次數(shù)的多少降序排列,將排列在前的一定比例的詞語作為檢索獲得的關(guān)鍵詞。
4.根據(jù)權(quán)利要求2或3所述的關(guān)鍵詞擴(kuò)展方法,其特征在于,獲取所述檢索獲得的詞語的方法為: 使用預(yù)設(shè)關(guān)鍵詞在文章庫中進(jìn)行檢索,得到相關(guān)度高的文章,然后將這些文章進(jìn)行分詞,將分詞后的結(jié)果作為檢索獲得的詞語。
5.根據(jù)權(quán)利要求4所述的關(guān)鍵詞擴(kuò)展方法,其特征在于,分詞后還進(jìn)行去停用詞操作,然后獲取與所述預(yù)設(shè)關(guān)鍵詞同時(shí)出現(xiàn)的同現(xiàn)詞,將所述同現(xiàn)詞作為檢索獲得的詞語。
6.根據(jù)權(quán)利要求1-5中任一所述的關(guān)鍵詞擴(kuò)展方法,其特征在于,一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞的誤差為:一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞存在差別的關(guān)鍵詞的個(gè)數(shù)占本次檢索得到的關(guān)鍵詞的個(gè)數(shù)的比值。
7.根據(jù)權(quán)利要求6所述的關(guān)鍵詞擴(kuò)展方法,其特征在于,一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞,分別取前η個(gè)關(guān)鍵詞,進(jìn)行誤差的統(tǒng)計(jì),5 < η ( 10。
8.根據(jù)權(quán)利要求1所述的關(guān)鍵詞擴(kuò)展方法,其特征在于,所述預(yù)設(shè)誤差閾值小于20%。
9.根據(jù)權(quán)利要求1所述的關(guān)鍵詞擴(kuò)展方法,其特征在于,當(dāng)一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞相同時(shí),將本次檢索得到的關(guān)鍵詞確定為擴(kuò)展后的關(guān)鍵詞。
10.一種使用上述權(quán)利要求1-9所述的關(guān)鍵詞擴(kuò)展方法進(jìn)行分類語料標(biāo)注方法,其特征在于,步驟包括: 為每個(gè)分類確定一個(gè)或多個(gè)初始核心關(guān)鍵詞; 通過所述初始核心關(guān)鍵詞采用所述關(guān)鍵詞擴(kuò)展方法獲取每個(gè)分類的擴(kuò)展關(guān)鍵詞; 利用分類對(duì)應(yīng)的所述擴(kuò)展關(guān)鍵詞進(jìn)行檢索,從中選擇分類語料,并進(jìn)行標(biāo)注。
11.一種關(guān)鍵詞擴(kuò)展系統(tǒng),其特征在于,包括: 獲取單元:根據(jù)預(yù)先給定的初始關(guān)鍵詞進(jìn)行檢索,檢索獲得關(guān)鍵詞; 循環(huán)檢索單元:將檢索獲得的關(guān)鍵詞作為下一次檢索的基礎(chǔ),通過關(guān)鍵詞迭代的方式進(jìn)行循環(huán)檢索; 判斷單元:當(dāng)一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞誤差在預(yù)設(shè)誤差閾值內(nèi)時(shí),檢索結(jié)束,將本次檢索得到的關(guān)鍵詞確定為擴(kuò)展后的關(guān)鍵詞。
12.根據(jù)權(quán)利要求11所述的關(guān)鍵詞擴(kuò)展系統(tǒng),其特征在于,所述獲取單元中,還包括檢索獲得關(guān)鍵詞模塊:分別統(tǒng)計(jì)檢索獲得的詞語出現(xiàn)的次數(shù),將次數(shù)大于預(yù)設(shè)閾值的詞語作為檢索獲得的關(guān)鍵詞。
13.根據(jù)權(quán)利要求11所述的關(guān)鍵詞擴(kuò)展系統(tǒng),其特征在于,所述獲取單元中,還包括檢索比較獲得關(guān)鍵詞模塊:統(tǒng)計(jì)檢索獲得的詞語的個(gè)數(shù)以及各個(gè)詞語出現(xiàn)的次數(shù),按照次數(shù)的多少降序排列,將排列在前的一定比例的詞語作為檢索獲得的關(guān)鍵詞。
14.根據(jù)權(quán)利要求12或13所述的關(guān)鍵詞擴(kuò)展系統(tǒng),其特征在于,所述檢索獲得關(guān)鍵詞模塊或所述檢索比較獲得關(guān)鍵詞模塊中,獲取所述檢索獲得的詞語的方法為: 使用預(yù)設(shè)關(guān)鍵詞在文章庫中進(jìn)行檢索,得到相關(guān)度高的文章,然后將這些文章進(jìn)行分詞,將分詞后的結(jié)果作為檢索獲得的詞語。
15.根據(jù)權(quán)利要求14所述的關(guān)鍵詞擴(kuò)展系統(tǒng),其特征在于,分詞后還進(jìn)行去停用詞操作,然后獲取與所述預(yù)設(shè)關(guān)鍵詞同時(shí)出現(xiàn)的同現(xiàn)詞,將所述同現(xiàn)詞作為檢索獲得的詞語。
16.根據(jù)權(quán)利要求11-15中任一所述的關(guān)鍵詞擴(kuò)展系統(tǒng),其特征在于,一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞的誤差為:一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞存在差別的關(guān)鍵詞的個(gè)數(shù)占本次檢索得到的關(guān)鍵詞的個(gè)數(shù)的比值。
17.根據(jù)權(quán)利要求16所述的關(guān)鍵詞擴(kuò)展系統(tǒng),其特征在于,一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞,分別取前η個(gè)關(guān)鍵詞,進(jìn)行誤差的統(tǒng)計(jì),5 < η ( 10。
18.根據(jù)權(quán)利要求11-17任一所述的關(guān)鍵詞擴(kuò)展系統(tǒng),其特征在于,所述預(yù)設(shè)誤差閾值小于20%ο
19.根據(jù)權(quán)利要求1-18任一所述的關(guān)鍵詞擴(kuò)展系統(tǒng),其特征在于,當(dāng)一次檢索得到的關(guān)鍵詞與前一次檢索得到的關(guān)鍵詞相同時(shí),將本次檢索得到的關(guān)鍵詞確定為擴(kuò)展后的關(guān)鍵
ο
20.一種使用所述的關(guān)鍵詞擴(kuò)展系統(tǒng)的分類語料標(biāo)注系統(tǒng),其特征在于,包括: 確定關(guān)鍵詞單元:為每個(gè)分類確定一個(gè)或多個(gè)初始核心關(guān)鍵詞; 關(guān)鍵詞擴(kuò)展單元:通過所述初始核心關(guān)鍵詞采用所述關(guān)鍵詞擴(kuò)展方法獲取每個(gè)分類的擴(kuò)展關(guān)鍵詞; 標(biāo)注單元:利用分類對(duì)應(yīng)的所述擴(kuò)展關(guān)鍵詞進(jìn)行檢索,從中選擇分類語料,并進(jìn)行標(biāo)注。
【文檔編號(hào)】G06F17/30GK104516903SQ201310456381
【公開日】2015年4月15日 申請(qǐng)日期:2013年9月29日 優(yōu)先權(quán)日:2013年9月29日
【發(fā)明者】葉茂, 湯幟, 徐劍波, 雷超, 金立峰 申請(qǐng)人:北大方正集團(tuán)有限公司, 北京方正阿帕比技術(shù)有限公司, 北京大學(xué)