語義信息獲取方法及其對應(yīng)的關(guān)鍵詞擴展方法和檢索方法
【專利摘要】本發(fā)明提供一種語義信息獲取方法及系統(tǒng),及對應(yīng)的關(guān)鍵詞擴展、檢索方法及系統(tǒng),包括檢索并對檢索后的文章分類,然后根據(jù)分類后的文章進行分詞獲得該分類中的詞語,將所述分類及詞語作為該關(guān)鍵詞的語義信息,以及應(yīng)用語義信息獲取方法進行關(guān)鍵詞擴展的方法及系統(tǒng),應(yīng)用關(guān)鍵詞擴展進行檢索的方法及系統(tǒng)。通過上述語義信息獲取方法有效避免了現(xiàn)有技術(shù)只能獲取英文詞匯的語義信息;由于同義詞詞林難以及時更新,導(dǎo)致基于同義詞詞林并不能很好地準確獲取這些詞的語義信息;同時不能按按類別信息歸類語義信息的技術(shù)問題。特別適用于利用關(guān)鍵詞搜索、在大量文本中進行檢索以及大量相關(guān)數(shù)據(jù)信息的整合處理。
【專利說明】語義信息獲取方法及其對應(yīng)的關(guān)鍵詞擴展方法和檢索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種詞語的語義信息獲取方法。具體地說是基于文本分類和詞語統(tǒng)計來獲取詞語的語義信息的方法,屬于電數(shù)字數(shù)據(jù)處理【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]隨著信息化建設(shè)的快速發(fā)展,目前各類應(yīng)用系統(tǒng)數(shù)量已經(jīng)日趨龐大,隨著應(yīng)用系統(tǒng)的運行,數(shù)據(jù)和信息資源也快速增長。由于早期信息化建設(shè)缺乏統(tǒng)籌規(guī)劃,各信息應(yīng)用系統(tǒng)也普遍缺乏統(tǒng)籌規(guī)劃,相互之間沒有一個標準化的數(shù)據(jù)信息定義,因此難免會出現(xiàn)各種各樣的信息孤島。例如,目前的搜索引擎在進行信息查詢處理時,無法根據(jù)輸入的關(guān)鍵詞直接精確獲得所需要的信息,特別是當用戶提供的詞語為多義詞或同形異義詞時,搜索結(jié)果更是無法滿足用戶的需求。在日常生活工作當中進行信息搜索查找時,若在多個應(yīng)用系統(tǒng)之間進行信息交換,獲取的信息并不是自己想要的,不但不完全,反而有大量不相關(guān)的信息需要一一篩選,這說明在人機交互的過程中機器不能理解或難以理解用戶的意思。在整個互聯(lián)網(wǎng)中常有各個系統(tǒng)之間的信息交流,可以通過對各個系統(tǒng)的信息進行分析并獲取語義信息將成為現(xiàn)今階段以及未來研究的重要課題。
[0003]常用的詞語的語義信息獲取是使用WordNet (單詞網(wǎng)絡(luò)),WordNet是由Princeton大學的心理學家,語言學家和計算機工程師聯(lián)合設(shè)計的一種基于認知語言學的英語詞匯語義網(wǎng)?;赪ordNet方法的不足之處是該方法只能獲取英文詞匯的語義信息。現(xiàn)有技術(shù)中還有一種詞語的語義信息獲取方法是基于中文同義詞詞林獲取詞語的語義信息,但是,有較多新出現(xiàn)的詞并沒有加入同義詞詞林,導(dǎo)致同義詞詞林并不能很好地準確獲取詞語的語義信息。另外,以上兩種方法,都無法按類別信息歸類語義信息。
【發(fā)明內(nèi)容】
[0004]為此,本發(fā)明所要解決的技術(shù)問題在于現(xiàn)有技術(shù)只能獲取英文詞匯的語義信息;或由于同義詞詞林難以及時更新,導(dǎo)致基于同義詞詞林并不能很好地準確獲取這些詞的語義信息;同時不能按按類別信息歸類語義信息。從而提出一種基于文本分類和詞語統(tǒng)計來獲取詞語的語義信息的方法。
[0005]為解決上述技術(shù)問題,本發(fā)明的技術(shù)方案如下:
[0006]一種關(guān)鍵詞的語義信息獲取方法,包括:
[0007]根據(jù)預(yù)先給定的關(guān)鍵詞進行檢索,獲取與所述關(guān)鍵詞相關(guān)的文章;
[0008]對所述文章進行分類,確定與每個分類相關(guān)的文章;
[0009]針對至少一個分類,對該分類中的文章進行分詞,將得到的多個詞語確定為所述關(guān)鍵詞在該分類中的語義信息。
[0010]所述的語義信息獲取方法,所述將得到的多個詞語確定為所述關(guān)鍵詞在該分類中的語義信息之后,所述方法還包括:
[0011]對所述多個詞語進行去停用詞操作;
[0012]將進行去停用詞操作后得到的多個詞語,確定為更新后的語義信息。
[0013]所述方法還包括:
[0014]得到所述關(guān)鍵詞附近的同現(xiàn)詞語的過程,將所述同現(xiàn)詞語作為更新后的語義信肩、O
[0015]所述方法還包括:計算所述同現(xiàn)詞語與所述關(guān)鍵詞的關(guān)系強度,將關(guān)系強度較強的同現(xiàn)詞語作為更新后的語義信息。
[0016]在得到目標詞語附近的同現(xiàn)詞語的過程中,還包括統(tǒng)計所述同現(xiàn)詞語出現(xiàn)次數(shù)的過程。
[0017]所述語義信息還包括所述詞語的次數(shù)信息,其中所述次數(shù)信息該詞語在所有本分類文章中出現(xiàn)的次數(shù)。
[0018]還包括:將所述分類作為所述關(guān)鍵詞的語義信息。
[0019]一種基于語義信息的關(guān)鍵詞擴展方法,包括:
[0020]根據(jù)用戶輸入的關(guān)鍵詞,獲取所述關(guān)鍵詞的至少一個分類;
[0021]將獲取的分類及其所包含的詞語確定為所述關(guān)鍵詞的擴展關(guān)鍵詞。
[0022]所述的關(guān)鍵詞擴展方法,根據(jù)用戶輸入的關(guān)鍵詞,獲取所述關(guān)鍵詞的至少一個分類時,通過將用戶輸入的關(guān)鍵詞與所述語義信息獲取方法中的所述關(guān)鍵詞進行比較,獲得所述語義信息中的相同的關(guān)鍵詞對應(yīng)的至少一個分類。
[0023]所述的關(guān)鍵詞擴展方法,在所述獲取所述關(guān)鍵詞的至少一個分類時,獲取所述關(guān)鍵詞的所有分類。
[0024]所述的關(guān)鍵詞擴展方法,將獲取的分類及其所包含的詞語確定為所述關(guān)鍵詞的擴展關(guān)鍵詞的過程,包括:
[0025]將所述關(guān)鍵詞對應(yīng)的所有的分類的所有詞語作為所述關(guān)鍵詞的擴展關(guān)鍵詞。
[0026]一種基于所述關(guān)鍵詞擴展方法的檢索方法,將用戶輸入的關(guān)鍵詞和所述確定為所述關(guān)鍵詞的擴展關(guān)鍵詞同時作為檢索詞進行檢索。
[0027]—種基于所述關(guān)鍵詞擴展方法的檢索方法,根據(jù)用戶輸入的關(guān)鍵詞將所述關(guān)鍵詞的擴展關(guān)鍵詞作為推薦關(guān)鍵詞展現(xiàn)給用戶,供用戶從全語義信息中選擇。
[0028]所述的檢索方法,在展現(xiàn)給用戶時,所述擴展關(guān)鍵詞中每個分類的詞語按照所述次數(shù)信息降序排列。
[0029]所述的關(guān)鍵詞擴展方法的檢索方法,所述供用戶從全語義信息中選擇的過程包括:
[0030]根據(jù)用戶選擇的一個詞語單獨作為檢索詞進行檢索;
[0031]或根據(jù)用戶選擇的多個詞語共同作為檢索詞進行檢索;
[0032]或根據(jù)用戶選擇的多個詞語與用戶輸入的所述關(guān)鍵詞共同作為檢索詞進行檢索;
[0033]或根據(jù)用戶選擇的一個分類所包含的詞語共同作為檢索詞進行檢索;
[0034]或根據(jù)用戶選擇的多個分類及其包含詞語共同作為檢索詞進行檢索。
[0035]一種語義信息的關(guān)鍵詞擴展方法,包括:
[0036]根據(jù)用戶輸入的多個關(guān)鍵詞,獲取所述每個關(guān)鍵詞的至少一個分類;
[0037]將獲取的每個分類及其包含的詞語確定為所述關(guān)鍵詞的擴展關(guān)鍵詞。
[0038]所述的語義信息的關(guān)鍵詞擴展方法,在所述獲取所述每個關(guān)鍵詞的至少一個分類時,獲取每個關(guān)鍵詞的所有分類,當所述分類有重復(fù)時,去掉重復(fù)的分類并將所述重復(fù)分類優(yōu)先顯示。
[0039]一種關(guān)鍵詞的語義信息獲取裝置,包括:
[0040]檢索單元:根據(jù)預(yù)先給定的關(guān)鍵詞進行檢索,獲取與所述關(guān)鍵詞相關(guān)的文章;
[0041]分類單元:對所述文章進行分類,確定與每個分類相關(guān)的文章;
[0042]獲取單元:針對至少一個分類,對該分類中的文章進行分詞,將得到的多個詞語確定為所述關(guān)鍵詞在該分類中的語義信息。
[0043]所述的語義信息獲取裝置,所述獲取單元中還包括:
[0044]去停用詞子單元:對所述多個詞語進行去停用詞操作;
[0045]更新單元:將進行去停用詞操作后得到的多個詞語,確定為更新后的語義信息。
[0046]所述的語義信息獲取裝置,所述獲取單元中還包括:
[0047]同現(xiàn)詞獲得子單元:得到所述關(guān)鍵詞附近的同現(xiàn)詞語,將所述同現(xiàn)詞語作為更新后的語義信息。
[0048]所述的語義信息獲取裝置,所述獲取單元中還包括關(guān)系強度計算子單元:計算所述同現(xiàn)詞語與所述關(guān)鍵詞的關(guān)系強度,將關(guān)系強度較強的同現(xiàn)詞語作為更新后的語義信肩、O
[0049]所述的語義信息獲取裝置,所述同現(xiàn)詞獲得子單元中,在得到目標詞語附近的同現(xiàn)詞語的過程中,還統(tǒng)計所述同現(xiàn)詞語出現(xiàn)次數(shù)的過程。
[0050]所述的語義信息獲取裝置,所述語義信息還包括所述詞語的次數(shù)信息,其中所述次數(shù)信息為該詞語在所有本分類文章中出現(xiàn)的次數(shù)。
[0051]所述的語義信息獲取裝置,還包括:將所述分類作為所述關(guān)鍵詞的語義信息。
[0052]一種基于語義信息的關(guān)鍵詞擴展系統(tǒng),包括:
[0053]分類獲取單元:根據(jù)用戶輸入的關(guān)鍵詞,獲取所述關(guān)鍵詞的至少一個分類;
[0054]關(guān)鍵詞擴展單元:將獲取的分類及其所包含的詞語確定為所述關(guān)鍵詞的擴展關(guān)鍵
ο
[0055]所述的基于語義信息的關(guān)鍵詞擴展系統(tǒng),所述分類獲取單元中,通過將用戶輸入的關(guān)鍵詞與所述語義信息獲取方法中的所述關(guān)鍵詞進行比較,獲得所述語義信息中的相同的關(guān)鍵詞對應(yīng)的至少一個分類。
[0056]所述的基于語義信息的關(guān)鍵詞擴展系統(tǒng),在所述獲取所述關(guān)鍵詞的至少一個分類時,獲取所述關(guān)鍵詞的所有分類。
[0057]所述的關(guān)鍵詞擴展系統(tǒng),所述關(guān)鍵詞擴展單元中,將所述關(guān)鍵詞對應(yīng)的所有的分類的所有詞語作為所述關(guān)鍵詞的擴展關(guān)鍵詞。
[0058]一種基于所述關(guān)鍵詞擴展方法的檢索系統(tǒng),包括檢索單元:將用戶輸入的關(guān)鍵詞和所述確定為所述關(guān)鍵詞的擴展關(guān)鍵詞同時作為檢索詞進行檢索。
[0059]一種基于所述關(guān)鍵詞擴展方法的檢索系統(tǒng),包括推薦單元:根據(jù)用戶輸入的關(guān)鍵詞將所述關(guān)鍵詞的擴展關(guān)鍵詞作為推薦關(guān)鍵詞展現(xiàn)給用戶,供用戶從全語義信息中選擇。
[0060]所述的基于所述關(guān)鍵詞擴展方法的檢索系統(tǒng),所述推薦單元中,在展現(xiàn)給用戶時,所述擴展關(guān)鍵詞中每個分類的詞語按照所述次數(shù)信息降序排列。
[0061]所述的關(guān)鍵詞擴展方法的檢索系統(tǒng),所述供用戶從全語義信息中選擇包括以下子單元:
[0062]第一子單元:根據(jù)用戶選擇的一個詞語單獨作為檢索詞進行檢索;
[0063]第二子單元:根據(jù)用戶選擇的多個詞語共同作為檢索詞進行檢索;
[0064]第三子單元:根據(jù)用戶選擇的多個詞語與用戶輸入的所述關(guān)鍵詞共同作為檢索詞進行檢索;
[0065]第四子單元:根據(jù)用戶選擇的一個分類所包含的詞語共同作為檢索詞進行檢索;
[0066]第五子單元:根據(jù)用戶選擇的多個分類及其包含詞語共同作為檢索詞進行檢索。
[0067]一種語義信息的關(guān)鍵詞擴展系統(tǒng),包括:
[0068]分類獲取單元:根據(jù)用戶輸入的多個關(guān)鍵詞,獲取所述每個關(guān)鍵詞的至少一個分類;
[0069]關(guān)鍵詞擴展單元:將獲取的每個分類及其包含的詞語確定為所述關(guān)鍵詞的擴展關(guān)鍵詞。
[0070]所述的語義信息的關(guān)鍵詞擴展系統(tǒng),在所述分類獲取單元時,獲取每個關(guān)鍵詞的所有分類,當所述分類有重復(fù)時,去掉重復(fù)的分類并將所述重復(fù)分類優(yōu)先顯示。
[0071]本發(fā)明的上述技術(shù)方案相比現(xiàn)有技術(shù)具有以下優(yōu)點:
[0072](I)本發(fā)明所述的語義信息獲取方法,包括檢索并對檢索后的文章分類,然后根據(jù)分類后的文章進行分詞獲得該分類中的詞語,將所述分類及詞語作為該關(guān)鍵詞的語義信息,通過上述語義信息獲取方法有效避免了現(xiàn)有技術(shù)只能獲取英文詞匯的語義信息;由于同義詞詞林難以及時更新,導(dǎo)致基于同義詞詞林并不能很好地準確獲取這些詞的語義信息;同時不能按按類別信息歸類語義信息的技術(shù)問題。特別適用于利用關(guān)鍵詞搜索、在大量文本中進行檢索以及大量相關(guān)數(shù)據(jù)信息的整合處理。
[0073](2)本發(fā)明所述的語義信息獲取方法,通過去停用詞操作,然后采用滑窗的方法獲得同現(xiàn)詞語,以及針對所述同現(xiàn)詞語計算與所述關(guān)鍵詞的關(guān)系強度,通過一步步過濾,可以去除意義不大的詞語,使得保留的詞語更具有針對性,提高了所述關(guān)鍵詞的分類中詞語的精度。
[0074](3)本發(fā)明所述的語義信息獲取方法,還包括統(tǒng)計詞語出現(xiàn)次數(shù)的過程,通過統(tǒng)計可以獲得次數(shù)出現(xiàn)的頻率,通過出現(xiàn)頻率可以更好的標識該分類中該詞語表達信息的普遍性。
[0075](4)本發(fā)明還提供一種基于語義信息的關(guān)鍵詞擴展方法,采用上述語義信息獲取方法,將語義信息中的至少一個分類及分類中的詞語作為擴展的關(guān)鍵詞,通過這種方式將用戶輸入的關(guān)鍵詞進行擴展,從而提高了檢索的覆蓋率,有益于獲得更全面的檢索信息,也有益于更好的得到用戶的檢索結(jié)果。
[0076](5)本發(fā)明所述的關(guān)鍵詞擴展方法,通過將用戶輸入的關(guān)鍵詞與獲取所述語義信息時使用的關(guān)鍵詞進行比較,選擇相同的關(guān)鍵詞對應(yīng)的語義信息作為用戶輸入的關(guān)鍵詞的擴展,使得單一的關(guān)鍵詞在其包含的各個義項中進行意義擴展,更好的涵蓋了其各方面的信息。
[0077](6)本發(fā)明提供一種基于所述關(guān)鍵詞擴展方法的檢索方法,通過將用戶輸入的關(guān)鍵詞擴展后進行檢索,提高了檢索的覆蓋率。
[0078](7)本發(fā)明提供一種基于所述關(guān)鍵詞擴展方法的檢索方法,可以根據(jù)用戶的選擇來確定檢索詞,將用戶的選擇與擴展的關(guān)鍵詞相結(jié)合,可以幫助發(fā)現(xiàn)用戶搜索請求中所蘊含的語義信息,同時加深搜索引擎對待匹配的大量文本的語義理解,提升搜索技術(shù)對用戶特定需求響應(yīng)的精準度,降低用戶在搜索結(jié)果中進行篩查和驗證的時間。
【專利附圖】
【附圖說明】
[0079]為了使本發(fā)明的內(nèi)容更容易被清楚的理解,下面根據(jù)本發(fā)明的具體實施例并結(jié)合附圖,對本發(fā)明作進一步詳細的說明,其中
[0080]圖1是本發(fā)明一個實施例的一種詞語的語義信息獲取方法流程圖。
【具體實施方式】
[0081]實施例1:
[0082]本發(fā)明提供一種關(guān)鍵詞的語義信息獲取方法,包括:根據(jù)預(yù)先給定的關(guān)鍵詞進行檢索,獲取與所述關(guān)鍵詞相關(guān)的文章;對所述文章進行分類,確定與每個分類相關(guān)的文章;針對至少一個分類,對該分類中的文章進行分詞,將得到的一系列詞語確定為所述關(guān)鍵詞在該分類的詞語,將所述分類和其對應(yīng)的詞語作為所述關(guān)鍵詞的語義信息。本發(fā)明所述的語義信息獲取方法,包括檢索并對檢索后的文章分類,然后根據(jù)分類后的文章進行分詞獲得該分類中的詞語,將所述詞語作為該關(guān)鍵詞在該分類中的語義信息,通過上述語義信息獲取方法有效避免了現(xiàn)有技術(shù)只能獲取英文詞匯的語義信息;由于同義詞詞林難以及時更新,導(dǎo)致基于同義詞詞林并不能很好地準確獲取這些詞的語義信息;同時不能按按類別信息歸類語義信息的技術(shù)問題。特別適用于利用關(guān)鍵詞搜索、在大量文本中進行檢索以及大量相關(guān)數(shù)據(jù)信息的整合處理。
[0083]作為其他的實施方式,將獲得的所有分類和每個分類下的詞語作為該關(guān)鍵詞的語義信息,可以更好的表達該關(guān)鍵詞在各種含義下對應(yīng)的詞語的信息。
[0084]實施例2:
[0085](I)根據(jù)預(yù)先給定的關(guān)鍵詞進行檢索,獲取與所述關(guān)鍵詞相關(guān)的文章。
[0086](2)對所述文章進行分類,確定與每個分類相關(guān)的文章。此處的分類可以是根據(jù)需要制定的分類。對所述多個詞語進行去停用詞操作。
[0087](3)針對至少一個分類,對該分類中的文章進行分詞,然后進行去停用詞操作,再通過滑窗的方法得到所述關(guān)鍵詞附近的同現(xiàn)詞語,計算所述同現(xiàn)詞語與所述關(guān)鍵詞的關(guān)系強度,將關(guān)系強度較強的同現(xiàn)詞語作為語義信息。
[0088]作為可以替換的實施方式,上述分詞后、去停用詞后或者獲得同現(xiàn)詞語后,都可以將得到的詞語作為語義信息,但是經(jīng)過上述整個處理過程后的詞語應(yīng)該是與所述關(guān)鍵詞最相關(guān)的詞語。
[0089]作為進一步優(yōu)選的實施方式,還包括統(tǒng)計作為語義信息的詞語出現(xiàn)次數(shù)的過程,如統(tǒng)計所述同現(xiàn)詞語出現(xiàn)次數(shù)。將作為語義信息的詞語的次數(shù)信息作為語義信息,次數(shù)信息為該詞語在所有本分類文章中出現(xiàn)的次數(shù)。同時還可以將所述的分類信息也作為關(guān)鍵詞的語義信息,將檢索獲得的相關(guān)的文章數(shù)目較多的分類作為優(yōu)先選擇的分類。此時的語義信息最為完整,不僅包括各個分類以及各個分類中的詞語,還包括各個分類中的詞語的次數(shù)信息,將出現(xiàn)次數(shù)多的詞語作為優(yōu)先選擇的詞語。
[0090]實施例3:
[0091]本實施例提供一種基于語義信息的關(guān)鍵詞擴展方法,包括:
[0092](I)根據(jù)用戶輸入的關(guān)鍵詞,獲取所述關(guān)鍵詞的至少一個分類。通過將用戶輸入的關(guān)鍵詞與所述語義信息獲取方法中的所述關(guān)鍵詞進行比較,獲得所述語義信息中的相同的關(guān)鍵詞對應(yīng)的至少一個分類,作為優(yōu)先方式可以獲取所述關(guān)鍵詞的所有分類,也可以根據(jù)需要獲得所有分類中相關(guān)文章數(shù)目較多的部分分類,此處用戶都可以根據(jù)具體的使用情況來設(shè)置或選擇。
[0093](2)將獲取的分類及其所包含的詞語確定為所述關(guān)鍵詞的擴展關(guān)鍵詞。此處選擇的每個分類的詞語的個數(shù)可以根據(jù)需要來設(shè)置,如顯示10-50個。
[0094]實施例4:
[0095]一種基于所述關(guān)鍵詞擴展方法的檢索方法,將用戶輸入的關(guān)鍵詞和所述確定為所述關(guān)鍵詞的擴展關(guān)鍵詞同時作為檢索詞進行檢索。
[0096]作為可以變換的另外一種實施方式,一種基于所述關(guān)鍵詞擴展方法的檢索方法,根據(jù)用戶輸入的關(guān)鍵詞將所述關(guān)鍵詞的擴展關(guān)鍵詞作為推薦關(guān)鍵詞展現(xiàn)給用戶,供用戶從全語義信息中選擇。在展現(xiàn)給用戶時,所述擴展關(guān)鍵詞中每個分類的詞語按照所述次數(shù)信息降序排列。供用戶從全語義信息中選擇的過程如下:
[0097]根據(jù)用戶選擇的一個詞語單獨作為檢索詞進行檢索;
[0098]或根據(jù)用戶選擇的多個詞語共同作為檢索詞進行檢索;
[0099]或根據(jù)用戶選擇的多個詞語與用戶輸入的所述關(guān)鍵詞共同作為檢索詞進行檢索;
[0100]或根據(jù)用戶選擇的一個分類所包含的詞語共同作為檢索詞進行檢索;
[0101]或根據(jù)用戶選擇的多個分類及其包含詞語共同作為檢索詞進行檢索。
[0102]實施例5:
[0103]本實施例提供一種輸入多個關(guān)鍵詞時的擴展方法,即一種基于語義信息的關(guān)鍵詞擴展方法,包括:
[0104](I)根據(jù)用戶輸入的多個關(guān)鍵詞,獲取所述每個關(guān)鍵詞的至少一個分類。作為替換的實施方式,可以獲取每個關(guān)鍵詞的所有分類或優(yōu)先選擇的部分分類。當所述分類有重復(fù)時,去掉重復(fù)的分類并將所述重復(fù)分類優(yōu)先顯示
[0105](2)將獲取的每個分類及其包含的詞語確定為所述關(guān)鍵詞的擴展關(guān)鍵詞。此處也就是將不同的分類進行疊加后獲得每個分類中的詞語,至于每個分類中的詞語的個數(shù)可以根據(jù)具體情況來進行取舍和設(shè)置。
[0106]實施例6:
[0107]一種關(guān)鍵詞的語義信息獲取裝置,包括:
[0108]檢索單元:根據(jù)預(yù)先給定的關(guān)鍵詞進行檢索,獲取與所述關(guān)鍵詞相關(guān)的文章;
[0109]分類單元:對所述文章進行分類,確定與每個分類相關(guān)的文章;
[0110]獲取單元:針對至少一個分類,對該分類中的文章進行分詞,將得到的多個詞語確定為所述關(guān)鍵詞在該分類中的語義信息。
[0111]作為可以變換的實施方式,所述獲取單元中還包括:去停用詞子單元:對所述多個詞語進行去停用詞操作;更新單元:將進行去停用詞操作后得到的多個詞語,確定為更新后的語義信息。
[0112]進一步,所述獲取單元中還包括:同現(xiàn)詞獲得子單元:得到所述關(guān)鍵詞附近的同現(xiàn)詞語,將所述同現(xiàn)詞語作為更新后的語義信息。更進一步,所述獲取單元中還包括關(guān)系強度計算子單元:計算所述同現(xiàn)詞語與所述關(guān)鍵詞的關(guān)系強度,將關(guān)系強度較強的同現(xiàn)詞語作為更新后的語義信息。
[0113]作為可以變換的實施方式,所述同現(xiàn)詞獲得子單元中,在得到目標詞語附近的同現(xiàn)詞語的過程中,還統(tǒng)計所述同現(xiàn)詞語出現(xiàn)次數(shù)。所述語義信息還包括所述詞語的次數(shù)信息,其中所述次數(shù)信息為該詞語在所有本分類文章中出現(xiàn)的次數(shù)。將所述分類作為所述關(guān)鍵詞的語義信息。
[0114]實施例7:
[0115]一種基于語義信息的關(guān)鍵詞擴展系統(tǒng),包括:
[0116]分類獲取單元:根據(jù)用戶輸入的關(guān)鍵詞,獲取所述關(guān)鍵詞的至少一個分類。所述分類獲取單元中,通過將用戶輸入的關(guān)鍵詞與所述語義信息獲取方法中的所述關(guān)鍵詞進行比較,獲得所述語義信息中的相同的關(guān)鍵詞對應(yīng)的至少一個分類。作為替換的實施方式,可以獲取所述關(guān)鍵詞的所有分類或部分分類。
[0117]關(guān)鍵詞擴展單元:將獲取的分類及其所包含的詞語確定為所述關(guān)鍵詞的擴展關(guān)鍵
ο
[0118]作為另外一種實施方式,當用戶輸入多個關(guān)鍵詞時,提供一種語義信息的關(guān)鍵詞擴展系統(tǒng),包括:
[0119]分類獲取單元:根據(jù)用戶輸入的多個關(guān)鍵詞,獲取所述每個關(guān)鍵詞的至少一個分類。作為可以替換的方式,可以獲取每個關(guān)鍵詞的所有分類或部分分類,當所述分類有重復(fù)時,去掉重復(fù)的分類并將所述重復(fù)分類優(yōu)先顯示。
[0120]關(guān)鍵詞擴展單元:將獲取的每個分類及其包含的詞語確定為所述關(guān)鍵詞的擴展關(guān)鍵詞。
[0121]實施例8:
[0122]一種基于所述關(guān)鍵詞擴展方法的檢索系統(tǒng),包括檢索單元:將用戶輸入的關(guān)鍵詞和所述確定為所述關(guān)鍵詞的擴展關(guān)鍵詞同時作為檢索詞進行檢索。
[0123]另外一個實施方式,一種基于所述關(guān)鍵詞擴展方法的檢索系統(tǒng),包括推薦單兀:根據(jù)用戶輸入的關(guān)鍵詞將所述關(guān)鍵詞的擴展關(guān)鍵詞作為推薦關(guān)鍵詞展現(xiàn)給用戶,供用戶從全語義信息中選擇。所述推薦單元中,在展現(xiàn)給用戶時,所述擴展關(guān)鍵詞中每個分類的詞語按照所述次數(shù)信息降序排列。所述的關(guān)鍵詞擴展方法的檢索系統(tǒng),所述供用戶從全語義信息中選擇的功能通過以下子單元實現(xiàn):
[0124]第一子單元:根據(jù)用戶選擇的一個詞語單獨作為檢索詞進行檢索;
[0125]第二子單元:根據(jù)用戶選擇的多個詞語共同作為檢索詞進行檢索;
[0126]第三子單元:根據(jù)用戶選擇的多個詞語與用戶輸入的所述關(guān)鍵詞共同作為檢索詞進行檢索;
[0127]第四子單元:根據(jù)用戶選擇的一個分類所包含的詞語共同作為檢索詞進行檢索;
[0128]第五子單元:根據(jù)用戶選擇的多個分類及其包含詞語共同作為檢索詞進行檢索。
[0129]實施例9 =(關(guān)鍵詞的語義信息獲取方法)
[0130]預(yù)先給定關(guān)鍵詞為蘋果,然后通過檢索獲得與“蘋果”相關(guān)的200篇文章,然后對文章進行分類,類別的個數(shù)根據(jù)各種不同情況的需要來制定,對于分類項目較多的,可以根據(jù)需要優(yōu)先選擇一些分類來獲取詞語,對于文章數(shù)量很少的分類可以不進行詞語的獲取,直接舍去。本實施例中,類別分別為《食品》80篇、《電子產(chǎn)品》100篇、《娛樂產(chǎn)品》20篇;
[0131]針對電子產(chǎn)品的100篇文章進行分詞,此時會得到一系列的詞語,這時蘋果的語義信息為:《電子產(chǎn)品》分類中的上述一系列詞語。
[0132]為了提高所述實施例1中得到的一系列詞語與關(guān)鍵詞蘋果的相關(guān)性,在針對電子產(chǎn)品的100篇文章進行分詞后,還會進行去停用詞操作,去掉沒有實際意義的停用詞,然后通過滑窗方法得到目標詞語附近的同現(xiàn)詞語,計算所述同現(xiàn)詞語與所述關(guān)鍵詞的關(guān)系強度,將關(guān)系強度較強的同現(xiàn)詞語作為所述詞語。此處選擇的詞語的個數(shù)根據(jù)需要來設(shè)置,一般設(shè)置在3-50個左右。經(jīng)過上述計算后獲得的詞語為:“蘋果手機”、“蘋果電腦”、“ipad”。
[0133]為了保證“蘋果”這個關(guān)鍵詞的信息更全面,需要針對所有的分類《食品》80篇、《娛樂產(chǎn)品》20篇進行上述類似的各個分類的詞語獲取。針對所有分類處理后,得到的語義信息為:
[0134]蘋果食品:蘋果、蘋果梨、紅富士
[0135]電子產(chǎn)品:蘋果手機、蘋果電腦、ipad
[0136]娛樂廣品:平果手機、ipod、平果商店。
[0137]此外,為了提供更多的各個詞語的使用程度,還統(tǒng)計了各個詞語在對應(yīng)分類中所有文章中出現(xiàn)的次數(shù)信息作為語義信息的一部分,如:
[0138]蘋果食品:蘋果(500)、蘋果梨(320)、紅富士(200)
[0139]電子產(chǎn)品:蘋果手機(400)、蘋果電腦(200)、ipad (150)
[0140]娛樂產(chǎn)品:蘋果手機(200)、ipod (100)、蘋果商店(50)。
[0141]實施例10:(基于語義信息的關(guān)鍵詞擴展方法)
[0142]根據(jù)實施例1中的語義信息獲取方法,獲取了語義信息后,當用戶輸入關(guān)鍵詞“蘋果”后,獲取所述“蘋果”在語義信息中的至少一個分類,此處為了保證信息的覆蓋率,獲取所有分類,然后將所有分類及包含的詞語作為擴展的關(guān)鍵詞,即“蘋果”的擴展關(guān)鍵詞為:
[0143]食品:蘋果、蘋果梨、紅富士
[0144]電子產(chǎn)品:蘋果手機、蘋果電腦、ipad
[0145]娛樂產(chǎn)品:蘋果手機、ipod、蘋果商店。
[0146]當用戶輸入“蘋果”進行檢索時,將上述所有分類和詞語作為檢索詞進行檢索,提高了用戶輸入的關(guān)鍵詞的檢索覆蓋程度,更有益于獲得包含用戶所需結(jié)果的檢索信息。
[0147]實施例U:
[0148]除上述“蘋果”建立語義信息外,還針對“聯(lián)想”建立了語義信息,當用戶輸入同時輸入“蘋果”、“聯(lián)想”兩個詞語時,對所述兩個關(guān)鍵詞分別擴展,首先,分別獲得各個關(guān)鍵詞所有的語義信息,然后所有的語義信息去重后疊加作為擴展關(guān)鍵詞。針對上述擴展呈現(xiàn)給用戶后,此處用戶可以自行選擇,然后根據(jù)用戶的選擇自動生成檢索詞進行檢索,如:根據(jù)用戶選擇的一個詞語單獨作為檢索詞進行檢索;或根據(jù)用戶選擇的多個詞語共同作為檢索詞進行檢索;或根據(jù)用戶選擇的多個詞語與用戶輸入的所述關(guān)鍵詞共同作為檢索詞進行檢索;或根據(jù)用戶選擇的一個分類所包含的詞語共同作為檢索詞進行檢索;或根據(jù)用戶選擇的多個分類及其包含詞語共同作為檢索詞進行檢索。
[0149]實施例12:
[0150]本實施例中提供一種關(guān)鍵詞的語義信息獲取方法。詞語展現(xiàn)形式只是一種隨意約定的符號,而用戶在使用這個符號時所指的概念則是這個詞語所擁有的語義信息。如果需要充分理解一個查詢,那么獲得每一個詞語的語義信息就是一個極為重要的前提。我們使用文本分類和詞語統(tǒng)計的方法來進行詞語語義擴充,從而達到獲取語義信息的效果。
[0151 ] 本實施例中語義信息獲取方法步驟如下。
[0152]第一步、給定一個訓(xùn)練語料庫和一個目標詞語,此處的目標詞語即為我們希望獲取其語義信息的關(guān)鍵詞,通過全文檢索技術(shù)獲取包含目標詞語的文章。這些文章可以作為這個詞語的粗語義范圍,但是因為文章本身內(nèi)部的雜亂數(shù)據(jù)和信息非常多,常常對有效信息有非常強烈的遮罩作用,因此對這些文章還要繼續(xù)進行處理。
[0153]第二步、使用文本分類器對挑選出來的文章進行分類。由于詞語在使用過程中對其使用的環(huán)境有比較明顯的要求,而且一個詞語不同的意義對語境也有著不同的要求,因此使用文本分類器,例如SVM分類器,可以根據(jù)不同的語境特點將篩選出來的文章分入一個給定的分類體系中,為每一篇文章都標記上所屬的領(lǐng)域或者類別信息。
[0154]第三步、根據(jù)每個分類包含的文章數(shù)倒序排列。
[0155]第四步、在排列完成后,取前m個分類,意義在于排除由于訓(xùn)練語料本身的雜質(zhì)和分類器所帶來的偏誤所造成的誤差數(shù)據(jù),留存語境信息較為明顯的分類項。在判斷m的取值時,需要考慮的是選取的m個分類項中所含的文章總數(shù)與所有與該詞語相關(guān)的文章數(shù)之比應(yīng)大于一個給定的閾值α,以保證語義信息能夠在去雜的同時盡量按照應(yīng)用的要求進行保留。α的經(jīng)驗取值為80%到90%之間。
[0156]第五步、獲得這些帶有目標詞語語境信息并屬于前m個分類項的文章以后,對這些文章進行分詞和去停用詞操作,過濾掉文本中一些不帶語義的信息;使用窗口大小為k的滑窗對目標詞語出現(xiàn)位置附近被窗口所包含的詞語進行提取操作,并使用某種詞間關(guān)系統(tǒng)計計算算法對目標詞語和同現(xiàn)詞語之間的關(guān)系強度進行計算,獲得與目標詞語語義相關(guān)的同現(xiàn)詞語以及它們跟目標詞語之間的關(guān)系強度數(shù)值?;暗拇笮控制了一個詞語的語義輻射范圍。k的經(jīng)驗取值為6。
[0157]第六步、對目標詞語的同現(xiàn)詞語集合依據(jù)它們的關(guān)系強度數(shù)值以及它們所從屬的文章類別進行倒序排序,也就是說,獲得m個類別中每一個類別下與目標詞語強度從高到低排列的前η個共現(xiàn)詞語。每一個類別的詞語集合即是目標詞語在這個類別中的語義信息,它們標示出了目標詞語一個獨特的、有辨別度的分類,而所有語義信息之和即是目標詞語的總語義信息。因為應(yīng)用的目標是為了獲得分類以分解用戶的搜索語句中所包含的詞語,因此分類的語義信息是最重要的。
[0158]第七步、為關(guān)注的每個目標詞語,執(zhí)行第一步到第六步操作,得到每個目標詞語的分類以及每個分類下的詞語作為該目標詞語的語義信息,從而建立語義信息庫。
[0159]實施例13:
[0160]在所述實施例12的基礎(chǔ)上,進行關(guān)鍵詞擴展和推薦搜索關(guān)鍵字并檢索。
[0161]利用實施例12中所得到的語義信息,針對用戶所提交的搜索關(guān)鍵字,為用戶提供多類的語義信息選項,獲取用戶更精準的意義表述,從而獲得更精準的檢索結(jié)果。具體步驟如下。
[0162]第一步、將用戶所輸入的關(guān)鍵字反饋到語義信息庫中,獲得該關(guān)鍵字的語義信息,也就是第一階段中計算得到的這個詞語的所有分類的語義信息。
[0163]第二步、因為用戶輸入的目標詞語的語義信息中包含有m個分類或稱分類項,而每一個分類中又含有η個共現(xiàn)詞語,那么為用戶提供的語義提示就會形成m行,且每一行顯示η’(η’小于等于η)個詞語,作為推薦給用戶的搜索關(guān)鍵字,要求用戶進行選擇,進一步清晰化他的搜索條件語義。
[0164]第三步、當用戶選擇了 m行中的某一行或該行的某一個詞語以后,將這一個分類中所攜帶的同現(xiàn)詞語信息或用戶選擇的詞語自動加入到用戶的搜索關(guān)鍵字中作為其擴展關(guān)鍵字參與檢索。
[0165]實施例14:
[0166]以“蘋果”這個詞語為例,說明搜索關(guān)鍵字推薦技術(shù)是如何獲取該詞語的語義信息并提供給用戶使用的。
[0167]第一階段,獲取詞語的語義信息。
[0168]第一步、使用內(nèi)部報刊庫的精選語料集作為選定的語料來源,將“蘋果”這個詞語通過全文檢索技術(shù)在整個語料集中進行檢索,獲得出現(xiàn)了 “蘋果”這個詞語的相關(guān)文章約7000篇,作為后續(xù)語義分析的基礎(chǔ)數(shù)據(jù)。
[0169]第二步、通過SVM文本分類器在預(yù)設(shè)的分類體系下將7000篇文章分類,每一篇文章都獲得一個分類標簽。
[0170]第三步、通過對所有分類中分入的文章數(shù)進行統(tǒng)計,獲得統(tǒng)計結(jié)果。
[0171]第四步、觀察分類結(jié)果可以發(fā)現(xiàn),含有“蘋果”一詞的文章被分入類別“科技”和“食品”的最多,而其他類別相對而言含有的文章數(shù)都比較少,取α值為80%,那么可以獲得“蘋果”的m值為2,也就是前2個分類包含了 80%以上的相關(guān)文章。
[0172]第五步、對選定的這2個分類中所包含的所有文章進行分詞和去停用詞,并采用滑窗大小為6,且詞語間關(guān)系強度計算算法為絕對出現(xiàn)頻率的規(guī)則對文章的所有分詞進行處理,得到“蘋果”的兩個分類:第一個分類是分類為“科技”以及相關(guān)同現(xiàn)詞語和強度的向量;第二個分類是分類為“食品”以及相關(guān)同現(xiàn)詞語和強度的向量。
[0173]第六步、對上述步驟生成的2個向量進行倒序排序,只取前20個詞語作為這一個分類的真正語義信息,而“蘋果”本身的語義信息則是由2個分類以及每一個分類下20個詞語和絕對頻率值所構(gòu)成的。
[0174]第二個階段,推薦搜索關(guān)鍵字。
[0175]第一步、當用戶輸入“蘋果”作為搜索關(guān)鍵字時,系統(tǒng)對已有的語義信息庫進行搜索,獲得“蘋果”的語義表達。
[0176]第二步、由于“蘋果”本身有兩個分類,系統(tǒng)并不清楚用戶需要哪一個分類,因此系統(tǒng)將語義信息庫返回的2個類別“科技”和“食品”做成2個提示行,每一個行再提供20個詞語中的5個詞語作為輔助選擇信息,供用戶自己選擇他想要檢索的分類。
[0177]第三步、當用戶選擇其中I個類別時,系統(tǒng)將整個20個同現(xiàn)詞語以及它們的強度都提交給搜索引擎,作為用戶搜索關(guān)鍵字的推薦擴展;當用戶選擇I個類別中的某個詞時,系統(tǒng)將改詞提交給搜索引擎,作為用戶搜索關(guān)鍵字的推薦擴展。
[0178]作為其他實施方式,該方法不單基于語義信息進行推薦搜索關(guān)鍵字,也可以通過其他的方式為用戶展現(xiàn)一種新的多維度搜索關(guān)鍵詞界面。
[0179]第一步、將用戶所輸入的關(guān)鍵字反饋到語義信息庫中,獲得該關(guān)鍵字的語義信息,也就是第一階段中計算得到的這個詞語的所有分類的語義信息,該語義信息包含了關(guān)系強度數(shù)值。
[0180]第二步、因為用戶輸入的目標詞語的語義信息中包含有m個分類或稱分類,而每一個分類中又含有η個共現(xiàn)詞語,那么為用戶提供的語義提示就會形成m行,且每一行顯示η’(η’小于等于η)個詞語,作為推薦給用戶的搜索關(guān)鍵字,要求用戶進行選擇,進一步清晰化他的搜索條件語義。提示框的形式為下拉框,下拉框包含m行,每行包含η’個詞語,每一行的所有詞語都屬于同一個分類。
[0181]第三步、當用戶選擇了 m行中的某一行,或選擇該行的某一個或多個詞語以后,將這一個分類中所攜帶的所有同現(xiàn)詞語信息或用戶所選擇的詞語信息自動加入到用戶的搜索關(guān)鍵字中作為其擴展關(guān)鍵字參與檢索。
[0182]實施例15:
[0183]本實施例提供一種關(guān)鍵詞擴展方法的具體應(yīng)用實例。
[0184]第一步、當用戶輸入“蘋果”作為搜索關(guān)鍵字時,系統(tǒng)對已有的語義信息庫進行搜索,獲得“蘋果”的語義表達。
[0185]第二步、由于“蘋果”本身有兩個分類,每一個分類包含20個詞語。系統(tǒng)并不清楚用戶需要哪一個分類,因此系統(tǒng)將語義信息庫返回的2個類別“科技”和“食品”做成2個提示行,每一個行再提供20個詞語中的5個詞語作為輔助選擇信息,供用戶自己選擇他想要檢索的分類或詞語。每一行的所有詞語都屬于同一個分類。
[0186]第三步、當用戶選擇其中I個分類時,系統(tǒng)將整個20個同現(xiàn)詞語以及它們的強度都提交給搜索引擎,作為用戶搜索關(guān)鍵字的推薦擴展;當用戶選擇I個分類中的一個或多個詞時,系統(tǒng)將用戶選擇的詞提交給搜索引擎,作為用戶搜索關(guān)鍵字的擴展。
[0187]顯然,上述實施例僅僅是為清楚地說明所作的舉例,而并非對實施方式的限定。對于所屬領(lǐng)域的普通技術(shù)人員來說,在上述說明的基礎(chǔ)上還可以做出其它不同形式的變化或變動。這里無需也無法對所有的實施方式予以窮舉。而由此所引伸出的顯而易見的變化或變動仍處于本發(fā)明創(chuàng)造的保護范圍之中。
[0188]本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產(chǎn)品的形式。
[0189]本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
[0190]這些計算機程序指令也可存儲在能引導(dǎo)計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
[0191]這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
[0192]盡管已描述了本發(fā)明的優(yōu)選實施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。
【權(quán)利要求】
1.一種關(guān)鍵詞的語義信息獲取方法,其特征在于,包括: 根據(jù)預(yù)先給定的關(guān)鍵詞進行檢索,獲取與所述關(guān)鍵詞相關(guān)的文章; 對所述文章進行分類,確定與每個分類相關(guān)的文章; 針對至少一個分類,對該分類中的文章進行分詞,將得到的多個詞語確定為所述關(guān)鍵詞在該分類中的語義信息。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述將得到的多個詞語確定為所述關(guān)鍵詞在該分類中的語義信息之后,所述方法還包括: 對所述多個詞語進行去停用詞操作; 將進行去停用詞操作后得到的多個詞語,確定為更新后的語義信息。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述方法還包括: 得到所述關(guān)鍵詞附近的同現(xiàn)詞語的過程,將所述同現(xiàn)詞語作為更新后的語義信息。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述方法還包括:計算所述同現(xiàn)詞語與所述關(guān)鍵詞的關(guān)系強度,將關(guān)系強度較強的同現(xiàn)詞語作為更新后的語義信息。
5.根據(jù)權(quán)利要求3或4所述的方法,其特征在于,在得到目標詞語附近的同現(xiàn)詞語的過程中,還包括統(tǒng)計所述同現(xiàn)詞語出現(xiàn)次數(shù)的過程。
6.根據(jù)權(quán)利要求1-5任一所述的方法,其特征在于,所述語義信息還包括所述詞語的次數(shù)信息,其中所述次數(shù)信息為該詞語在所有本分類文章中出現(xiàn)的次數(shù)。
7.根據(jù)權(quán)利要求1-6任一所述的方法,其特征在于,還包括:將所述分類作為所述關(guān)鍵詞的語義信息。
8.一種基于語義信息的關(guān)鍵詞擴展方法,其特征在于,包括: 根據(jù)用戶輸入的關(guān)鍵詞,獲取所述關(guān)鍵詞的至少一個分類; 將獲取的分類及其所包含的詞語確定為所述關(guān)鍵詞的擴展關(guān)鍵詞。
9.根據(jù)權(quán)利要求8所述的關(guān)鍵詞擴展方法,其特征在于,根據(jù)用戶輸入的關(guān)鍵詞,獲取所述關(guān)鍵詞的至少一個分類時,通過將用戶輸入的關(guān)鍵詞與所述語義信息獲取方法中的所述關(guān)鍵詞進行比較,獲得所述語義信息中的相同的關(guān)鍵詞對應(yīng)的至少一個分類。
10.根據(jù)權(quán)利要求8或9所述的關(guān)鍵詞擴展方法,其特征在于,在所述獲取所述關(guān)鍵詞的至少一個分類時,獲取所述關(guān)鍵詞的所有分類。
11.根據(jù)權(quán)利要求8-10中任一所述的關(guān)鍵詞擴展方法,其特征在于,將獲取的分類及其所包含的詞語確定為所述關(guān)鍵詞的擴展關(guān)鍵詞的過程,包括: 將所述關(guān)鍵詞對應(yīng)的所有的分類的所有詞語作為所述關(guān)鍵詞的擴展關(guān)鍵詞。
12.一種基于所述關(guān)鍵詞擴展方法的檢索方法,其特征在于,將用戶輸入的關(guān)鍵詞和所述確定為所述關(guān)鍵詞的擴展關(guān)鍵詞同時作為檢索詞進行檢索。
13.一種基于所述關(guān)鍵詞擴展方法的檢索方法,其特征在于,根據(jù)用戶輸入的關(guān)鍵詞,將所述關(guān)鍵詞的擴展關(guān)鍵詞作為推薦關(guān)鍵詞展現(xiàn)給用戶,供用戶從全語義信息中選擇。
14.根據(jù)權(quán)利要求13所述的檢索方法,其特征在于,在展現(xiàn)給用戶時,所述擴展關(guān)鍵詞中每個分類的詞語按照所述次數(shù)信息降序排列。
15.根據(jù)權(quán)利要求13或14所述的關(guān)鍵詞擴展方法的檢索方法,其特征在于,所述供用戶從全語義信息中選擇的過程包括: 根據(jù)用戶選擇的一個詞語單獨作為檢索詞進行檢索; 或根據(jù)用戶選擇的多個詞語共同作為檢索詞進行檢索; 或根據(jù)用戶選擇的多個詞語與用戶輸入的所述關(guān)鍵詞共同作為檢索詞進行檢索; 或根據(jù)用戶選擇的一個分類所包含的詞語共同作為檢索詞進行檢索; 或根據(jù)用戶選擇的多個分類及其包含詞語共同作為檢索詞進行檢索。
16.一種語義信息的關(guān)鍵詞擴展方法,其特征在于,包括: 根據(jù)用戶輸入的多個關(guān)鍵詞,獲取所述每個關(guān)鍵詞的至少一個分類; 將獲取的每個分類及其包含的詞語確定為所述關(guān)鍵詞的擴展關(guān)鍵詞。
17.根據(jù)權(quán)利要求16所述的語義信息的關(guān)鍵詞擴展方法,其特征在于,在所述獲取所述每個關(guān)鍵詞的至少一個分類時,獲取每個關(guān)鍵詞的所有分類,當所述分類有重復(fù)時,去掉重復(fù)的分類并將所述重復(fù)分類優(yōu)先顯示。
18.一種關(guān)鍵詞的語義信息獲取裝置,其特征在于,包括: 檢索單元:根據(jù)預(yù)先給定的關(guān)鍵詞進行檢索,獲取與所述關(guān)鍵詞相關(guān)的文章; 分類單元:對所述文章進行分類,確定與每個分類相關(guān)的文章; 獲取單元:針對至少一個分類,對該分類中的文章進行分詞,將得到的多個詞語確定為所述關(guān)鍵詞在該分類中的語義信息。
19.根據(jù)權(quán)利要求18所述的語義信息獲取裝置,其特征在于,所述獲取單元中還包括: 去停用詞子單元:對所述多個詞語進行去停用詞操作; 更新單元:將進行去停用詞操作后得到的多個詞語,確定為更新后的語義信息。
20.根據(jù)權(quán)利要求19所述的語義信息獲取裝置,其特征在于,所述獲取單元中還包括: 同現(xiàn)詞獲得子單元:得到所述關(guān)鍵詞附近的同現(xiàn)詞語,將所述同現(xiàn)詞語作為更新后的語義息。
21.根據(jù)權(quán)利要求20所述的語義信息獲取裝置,其特征在于,所述獲取單元中還包括關(guān)系強度計算子單元:計算所述同現(xiàn)詞語與所述關(guān)鍵詞的關(guān)系強度,將關(guān)系強度較強的同現(xiàn)詞語作為更新后的語義信息。
22.根據(jù)權(quán)利要求21所述的語義信息獲取裝置,其特征在于,所述同現(xiàn)詞獲得子單元中,在得到目標詞語附近的同現(xiàn)詞語的過程中,還統(tǒng)計所述同現(xiàn)詞語出現(xiàn)次數(shù)的過程。
23.根據(jù)權(quán)利要求22任一所述的語義信息獲取裝置,其特征在于,所述語義信息還包括所述詞語的次數(shù)信息,其中所述次數(shù)信息為該詞語在所有本分類文章中出現(xiàn)的次數(shù)。
24.根據(jù)權(quán)利要求23任一所述的語義信息獲取裝置,其特征在于,還包括:將所述分類作為所述關(guān)鍵詞的語義信息。
25.—種基于語義信息的關(guān)鍵詞擴展系統(tǒng),其特征在于,包括: 分類獲取單元:根據(jù)用戶輸入的關(guān)鍵詞,獲取所述關(guān)鍵詞的至少一個分類; 關(guān)鍵詞擴展單元:將獲取的分類及其所包含的詞語確定為所述關(guān)鍵詞的擴展關(guān)鍵詞。
26.根據(jù)權(quán)利要求25所述的基于語義信息的關(guān)鍵詞擴展系統(tǒng),其特征在于,所述分類獲取單元中,通過將用戶輸入的關(guān)鍵詞與所述語義信息獲取方法中的所述關(guān)鍵詞進行比較,獲得所述語義信息中的相同的關(guān)鍵詞對應(yīng)的至少一個分類。
27.根據(jù)權(quán)利要求26所述的基于語義信息的關(guān)鍵詞擴展系統(tǒng),其特征在于,在所述獲取所述關(guān)鍵詞的至少一個分類時,獲取所述關(guān)鍵詞的所有分類。
28.根據(jù)權(quán)利要求27所述的關(guān)鍵詞擴展系統(tǒng),其特征在于,所述關(guān)鍵詞擴展單元中,將所述關(guān)鍵詞對應(yīng)的所有的分類的所有詞語作為所述關(guān)鍵詞的擴展關(guān)鍵詞。
29.一種基于所述關(guān)鍵詞擴展方法的檢索系統(tǒng),其特征在于,包括檢索單元:將用戶輸入的關(guān)鍵詞和所述確定為所述關(guān)鍵詞的擴展關(guān)鍵詞同時作為檢索詞進行檢索。
30.一種基于所述關(guān)鍵詞擴展方法的檢索系統(tǒng),其特征在于,包括推薦單元:根據(jù)用戶輸入的關(guān)鍵詞將所述關(guān)鍵詞的擴展關(guān)鍵詞作為推薦關(guān)鍵詞展現(xiàn)給用戶,供用戶從全語義信息中選擇。
31.根據(jù)權(quán)利要求30所述的基于所述關(guān)鍵詞擴展方法的檢索系統(tǒng),其特征在于,所述推薦單元中,在展現(xiàn)給用戶時,所述擴展關(guān)鍵詞中每個分類的詞語按照所述次數(shù)信息降序排列。
32.根據(jù)權(quán)利要求31所述的關(guān)鍵詞擴展方法的檢索系統(tǒng),其特征在于,所述供用戶從全語義信息中選擇包括以下子單元: 第一子單元:根據(jù)用戶選擇的一個詞語單獨作為檢索詞進行檢索; 第二子單元:根據(jù)用戶選擇的多個詞語共同作為檢索詞進行檢索; 第三子單元:根據(jù)用戶選擇的多個詞語與用戶輸入的所述關(guān)鍵詞共同作為檢索詞進行檢索; 第四子單元:根據(jù)用戶選擇的一個分類所包含的詞語共同作為檢索詞進行檢索; 第五子單元:根據(jù)用戶選擇的多個分類及其包含詞語共同作為檢索詞進行檢索。
33.一種語義信息的關(guān)鍵詞擴展系統(tǒng),其特征在于,包括: 分類獲取單元:根據(jù)用戶輸入的多個關(guān)鍵詞,獲取所述每個關(guān)鍵詞的至少一個分類; 關(guān)鍵詞擴展單元:將獲取的每個分類及其包含的詞語確定為所述關(guān)鍵詞的擴展關(guān)鍵
ο
34.根據(jù)權(quán)利要求33所述的語義信息的關(guān)鍵詞擴展系統(tǒng),其特征在于,在所述分類獲取單元時,獲取每個關(guān)鍵詞的所有分類,當所述分類有重復(fù)時,去掉重復(fù)的分類并將所述重復(fù)分類優(yōu)先顯示。
【文檔編號】G06F17/27GK104516902SQ201310456256
【公開日】2015年4月15日 申請日期:2013年9月29日 優(yōu)先權(quán)日:2013年9月29日
【發(fā)明者】葉茂, 湯幟, 徐劍波, 金立峰, 萬巍 申請人:北大方正集團有限公司, 北京方正阿帕比技術(shù)有限公司, 北京大學