亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

語義脈絡(luò)文檔查詢方法

文檔序號(hào):6471508閱讀:384來源:國知局
專利名稱:語義脈絡(luò)文檔查詢方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種通過語義分析進(jìn)行文檔查詢的計(jì)算機(jī)檢索方法,尤其是能在文檔
查詢中將用戶輸入的查詢要求轉(zhuǎn)換成表現(xiàn)用戶文檔查詢意圖的語義脈絡(luò)語句,然后利用該 語義脈絡(luò)進(jìn)行檢索,與傳統(tǒng)的關(guān)鍵詞查詢和語義網(wǎng)絡(luò)、本體論等語義查詢方法不同。
背景技術(shù)
基于計(jì)算機(jī)的文檔即電子文檔查詢特別是網(wǎng)頁文檔查詢?cè)谌藗兊娜粘I詈涂?學(xué)研究工作中起著重要作用。目前,雖然已有許多著名的查詢引擎,如百度、搜狐等,為文檔 的查詢提供了極大的方便,但是由于網(wǎng)絡(luò)上的文章數(shù)量眾多,用戶在搜索文檔時(shí)往往出現(xiàn) 信息迷向、信息過載和詞不匹配等問題,大大降低查全率和查準(zhǔn)率。造成這些問題的根本原 因是自然語言的極端復(fù)雜性,因?yàn)椴樵兿到y(tǒng)既很難理解用戶的查詢意圖,也很難理解被查 詢文檔的語義。例如,在自然語言中常常出現(xiàn)同義、多義、近義和上下義等語義現(xiàn)象。同義 就是指多個(gè)詞具有相同含義,多義就是指一個(gè)詞具有多個(gè)含義,近義一般指不同動(dòng)詞或形 容詞之間所具有相似語義的現(xiàn)象,但其他類型的詞也有近義關(guān)系。對(duì)動(dòng)詞而言,嚴(yán)格的同義 詞一般少見,總存在一定的差異,例如紀(jì)念孫中山、懷念孫中山等。上下義一般指名詞之間 具有的上下分類關(guān)系,下位詞可以繼承上位詞所有特征/性質(zhì),例如car和vehicle之間是 上下義關(guān)系,下位詞car具有上位詞vehicle的所有特征和性質(zhì)。 傳統(tǒng)的文檔查詢方法是一種關(guān)鍵詞搜索方法,即采用倒排索引文件以及布爾查詢 技術(shù)和基于關(guān)鍵詞的機(jī)械式的符號(hào)匹配。這種方法的特點(diǎn)就是使用用戶輸入的關(guān)鍵詞及其 布爾組合去對(duì)整個(gè)文檔進(jìn)行搜索,如果文檔中存在用戶輸入的關(guān)鍵詞并符合布爾關(guān)系則返 回該文檔。由于檢索是針對(duì)全文的,所以許多無關(guān)的文檔都被檢索出來。由于網(wǎng)絡(luò)文檔數(shù) 量驚人,檢索結(jié)果可以達(dá)到成千上萬篇,查準(zhǔn)率相當(dāng)?shù)?。顯然,讓用戶閱讀這樣多的文檔以 獲取有用知識(shí)是非常困難的。如果輸入較多的關(guān)鍵詞并將其作為一個(gè)整體進(jìn)行搜索,雖然 查準(zhǔn)率很高,檢索出來的幾乎全部是用戶所需的,但由于自然語言使用的靈活多變,查全率 將很低。 為了解決這些問題,開展基于語義的文檔查詢工作意義非常重大,因此這方面的 工作非常熱門。語義網(wǎng)絡(luò)的核心思想是通過對(duì)文檔中語義的理解來選取符合用戶查詢意圖 的文檔。這方面的工作主要在兩個(gè)層次展開。第一個(gè)層次是進(jìn)行關(guān)鍵詞查詢的擴(kuò)展,即通 過對(duì)查詢輸入進(jìn)行分析,將輸入的關(guān)鍵詞進(jìn)行同義詞、近義詞和上下義詞的擴(kuò)展,獲得更加 多的查詢輸入,然后用這些查詢輸入代替原來的查詢輸入進(jìn)行關(guān)鍵詞查詢,將所有的關(guān)鍵 詞查詢結(jié)果返回給用戶。第二個(gè)層次就是將文檔進(jìn)行語義分析,用某種語義結(jié)構(gòu)來描述文 檔。當(dāng)用戶輸入查詢要求時(shí)首先將查詢輸入轉(zhuǎn)換成一種語義描述,然后與文檔的語義結(jié)構(gòu) 進(jìn)行匹配。如果兩者實(shí)現(xiàn)了匹配,則該文檔就是用戶要查找的文檔。 基于語義文檔查詢的研究工作取得了非常明顯的成果。首先第一個(gè)層次的工作是 必不可少的,因?yàn)闉榱私鉀Q自然語言中的同義、多義、近義和上下義等語義現(xiàn)象,必須建立 語義知識(shí)詞典,包括通用語義知識(shí)詞典和領(lǐng)域語義知識(shí)詞典。通用語義知識(shí)詞典適用范圍
3極其廣泛,可大大提高知識(shí)的共享性,降低重復(fù)勞動(dòng)。例如WordNet、 HowNet等著名的語義 知識(shí)辭典已經(jīng)存儲(chǔ)了大量公用的知識(shí)。而領(lǐng)域語義知識(shí)詞典則將語義知識(shí)限制于某一具體 領(lǐng)域即建立領(lǐng)域語義知識(shí)詞典,這樣可以有效地克服通用語義知識(shí)詞典建立的難度。但是 第一層次的工作主要是傳統(tǒng)關(guān)鍵詞查詢功能的一種簡(jiǎn)單擴(kuò)展,不能克服查詢結(jié)果過于龐大 的缺點(diǎn),所以盡管技術(shù)上已不存在難度,但是在常用的查詢引擎上并沒有發(fā)現(xiàn)這樣的功能。
第一個(gè)層次的工作是第二個(gè)層次工作的基礎(chǔ),第二個(gè)層次的工作更能反映用戶的 查詢意圖。目前比較流行的語義網(wǎng)絡(luò)、本體論都是這個(gè)層次工作所研究的主要對(duì)象,取得了 非常顯著的成績(jī)。從理論上說,第二個(gè)層次的工作的完成可以實(shí)現(xiàn)語義查詢,但是需要以下 g石出 參完備的語義知識(shí)字典
參用戶查詢輸入的語義轉(zhuǎn)換
參所有文檔的語義化處理
參語義匹配的準(zhǔn)確性和快速性 盡管目前已經(jīng)存在非常強(qiáng)大的語義處理工具,但由于網(wǎng)頁數(shù)量巨大、自然語言無 法實(shí)現(xiàn)機(jī)器理解,所以第二個(gè)層次的工作成果目前只能停留在實(shí)驗(yàn)室中,實(shí)用價(jià)值比較小。
通過在國家知識(shí)產(chǎn)權(quán)局專利檢索網(wǎng)頁上使用關(guān)鍵詞"查詢"、"語義"等進(jìn)行檢索, 沒有發(fā)現(xiàn)本發(fā)明所提出的語義脈絡(luò)文檔查詢方法。
主要參考文獻(xiàn) [1]Rijsbergen Van. A new theoretical framework for information retrieval[C]. In Proceedings of1986 ACM Confefence on Research and Development in Information Retrieval, 1986 :194-200. [2]李莉,高慶獅。 一種基于語義單元的查詢擴(kuò)展方法。計(jì)算機(jī)科學(xué),2008,35(2): 201-204 [3]Sparck J K. Automatic Keyword Classifieation for Information Retfieval. London :Butterworths,1971 [4]Deerwester S,Dumai S T,F(xiàn)urnas G W,et al.Indexing by latent semantic analysis. Journalof ACM Transactions On Information Systems,2000,18(1) :79-112
[5]Jing Y,Croft W B An association thesaurus for information retrieval. In -Proceedings of thelntelligent Multimedia Information Retrieval Systems, 1994 :146-160 [6]Qiu Y,F(xiàn)reib H. Concept based query expansion. In :Korfhage R,Rasmussen E M, WillettP.eds. Proceedings of the 16th Annual International ACM SIGIR Co nference on Research andDevelopment in Information Retrieval. New York :ACM Press,1993 :160-169 [7]Rocchio Jr JJ. Relevance feedback in information retrieval In :Salton G.ed. The SMARTRetrieval System -Experiments in Automatic Document Processing. Englewood aiffS,Newjersey :Prentice_Hall,1971 :313-323 [8]黃名選,嚴(yán)小衛(wèi),張師超。查詢擴(kuò)展技術(shù)進(jìn)展與展望。計(jì)算機(jī)應(yīng)用與軟件,2007, 24(11) :1-4
[9]Gerard Sahon, James Allan, Chris Buckley. Automatic structuring and retrieval of large textfiles[J] CACM,1994,37(2) :97. [10]Chen H,Hsu P,0rwig L,et al. Automatic concept classification of text from electronicmeetings[J]. Communications of the ACM,1994,37(10) :56.
[ll]Chen H. Concept Space Approach to addressing the vocabulary problem in scientificinformation retrieval :An experiment on the worm community system[J]. J American Socinformation Science,1997,48 (6) ;17. [12]Navigli R. Velardi P An analysis of ontology-based query expansion strategies. In :Proceedingsof the 14th European Co nference on Machine Learning, Workshop on Adaptive TextExtraction and Mining, Cavtat Dubrovnik,Croatia,2003
[13]顧榕,王小平,曹立明一種基于潛在語義分析的查詢擴(kuò)展算法.計(jì)算機(jī)工程 與應(yīng)用,2004(18) :23-25 [14]岳文,陳治平,林亞平.基于查詢擴(kuò)展和分類的信息檢索算法.系統(tǒng)仿真學(xué) 報(bào),2006, 18(7) :1926-1929 [15]崔航,文繼榮,李敏強(qiáng).基于用戶日志的查詢擴(kuò)展統(tǒng)計(jì)模型.軟件學(xué)報(bào),2003, 14(9) :1593-1599 [16]張映海,何中市?;陉P(guān)鍵詞與語義概念結(jié)合的信息檢索研究。計(jì)算機(jī)應(yīng)用, 2006,26(12) :2964-2966 [17]鄧漢成,王瑛,王敏芳。從檢索實(shí)例看查全率與查準(zhǔn)率之間的關(guān)系。情報(bào)學(xué) 報(bào),2000, 19 (3) :237-24
發(fā)明內(nèi)容
為了克服現(xiàn)有的基于計(jì)算機(jī)的文檔查詢方法中的基于關(guān)鍵詞查詢方法查準(zhǔn)率較 低和基于語義查詢方法不成熟的不足,本發(fā)明采用本發(fā)明人提出的一種語義脈絡(luò)概念,依 據(jù)這種概念提出了語義脈絡(luò)文檔查詢方法。該方法首先將用戶的查詢輸入轉(zhuǎn)換成查詢語義 脈絡(luò),然后用該語義脈絡(luò)與被測(cè)試的文檔進(jìn)行語義脈絡(luò)匹配,不僅可以有效地讓用戶描述
自己的查詢意圖,而且由于不用進(jìn)行文檔的準(zhǔn)確語義分析,所以具有很快的查詢速度,在查 全率降低比較少或不降低的情況下得到查準(zhǔn)率很高的查詢結(jié)果。 本發(fā)明采用的語義脈絡(luò)概念是如果一個(gè)句子r所有的組成成分(表現(xiàn)為構(gòu)成句 子語法成分的詞或詞組),在另一個(gè)句子s中存在,并且對(duì)應(yīng)詞或詞組的詞類相同,則稱句 子r是句子s的語義脈絡(luò)。其中,如果s中所有組成部分的順序都與r中對(duì)應(yīng)部分相同,則 稱r和s為有序語義脈絡(luò)匹配,否則稱r和s為無序語義脈絡(luò)匹配。
本發(fā)明所采用的技術(shù)方案如圖1所示 步驟101 :在接受用戶輸入的查詢?cè)~時(shí)約定用戶輸入的關(guān)鍵詞是按照規(guī)定的順序 和要求輸入的,即用戶以合乎邏輯的詞、短語或句子進(jìn)行輸入,并且設(shè)定用戶語義脈絡(luò)匹配 要求,從而反映他的查詢意圖; 步驟102 :將用戶的輸入分解為基本的詞,即關(guān)鍵詞。根據(jù)預(yù)先建立的同義詞、近 義詞和上下義詞電子詞典,對(duì)關(guān)鍵詞的同義、近義和上下義語義關(guān)系進(jìn)行關(guān)鍵詞擴(kuò)展,將所 有的同義詞、近義詞和上下義詞加入到對(duì)應(yīng)的關(guān)鍵詞集合中;
5
步驟103 :對(duì)每一個(gè)文檔,標(biāo)記出所有的句子、關(guān)鍵詞、代詞; 步驟104 :對(duì)所有代詞進(jìn)行代詞分析,如果一個(gè)代詞所替代的詞在關(guān)鍵詞集合中, 就將它用對(duì)應(yīng)的關(guān)鍵詞取代,否則將其丟棄; 步驟105 :以每條句子為單位,進(jìn)行語義脈絡(luò)的匹配檢測(cè),如果該句子中存在與用 戶輸入的查詢語義脈絡(luò)相同的詞,而且詞的類型和順序也是相一致的,則文檔就被選為查 詢結(jié)果文檔。 本發(fā)明所帶來的有益效果是,既可以使用戶采用與現(xiàn)有關(guān)鍵詞查詢方法一致的方 法來表達(dá)自己的查詢意圖,操作簡(jiǎn)單方便,避免復(fù)雜的語義分析,又可以有效地提高文檔查 詢的查準(zhǔn)率,減少無關(guān)文檔的閱讀量。因?yàn)檎Z義脈絡(luò)是以語句的形式反映用戶的查詢意圖, 用戶對(duì)語義脈絡(luò)查詢的多次使用就意味著一種知識(shí)獲取的操作,對(duì)于用戶從網(wǎng)頁文檔中獲 取知識(shí)有重要幫助。


下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明進(jìn)一步說明。
圖l是本發(fā)明的流程圖。
圖2是查詢子句界面的示意圖。
圖3是代詞分析與替換流程圖。
具體實(shí)施例方式
如圖1所示,以漢語電子文檔作為說明對(duì)象,根據(jù)本發(fā)明所揭示的語義脈絡(luò)文檔 查詢方法的流程圖和實(shí)現(xiàn)方案為 步驟101 :獲得用戶的查詢意圖。用戶的查詢意圖是通過輸入一串詞或詞組來實(shí) 現(xiàn)的。實(shí)現(xiàn)該目的的界面稱為查詢子句界面。圖2是一個(gè)參考的查詢子句界面,主要由一 個(gè)查詢輸入編輯框(201)、3個(gè)選擇按鈕(202,203,204)、同義詞操作按鈕(205,209)、近義 詞操作按鈕(206,210)、上下義詞操作的按鈕(207,211)和查詢操作按鈕(208)組成。用戶 在編輯框(201)中輸入查詢?cè)~(各個(gè)詞以空格分隔),并且約定用戶輸入的關(guān)鍵詞的順序 是有意義的,反映了他的查詢意圖。例如用戶如果輸入一個(gè)關(guān)鍵詞,則等同于傳統(tǒng)的關(guān)鍵詞 查詢;如果用戶輸入多個(gè)詞則等同于輸入一個(gè)詞組,它們之間存在順序關(guān)系;如果用戶輸 入的多個(gè)詞包含并且僅包含一個(gè)動(dòng)詞或形容詞時(shí),則等同于輸入一個(gè)句子。全部三種情況 獲得的輸入統(tǒng)稱為查詢語義脈絡(luò)。將查詢語義脈絡(luò)的各個(gè)關(guān)鍵詞按順序用一個(gè)對(duì)象數(shù)組記 錄,其中對(duì)象的屬性值包括關(guān)鍵詞編碼、詞類等,同時(shí)用一個(gè)結(jié)構(gòu)體記錄查詢語義脈絡(luò)的 句子結(jié)構(gòu)關(guān)系。 可選按鈕(202, 203, 204)選擇語義脈絡(luò)匹配方式,即選擇查詢語義脈絡(luò)與被測(cè)試 文檔匹配的測(cè)試要求。它是通過查詢語義脈絡(luò)與被測(cè)試文檔中的每條語句進(jìn)行比較來進(jìn)行 的。圖2中僅列出了3個(gè)可選按鈕,其中可選按鈕(202)表明無序匹配,即只要在被測(cè)試 文檔中同一句子出現(xiàn)用戶輸入的關(guān)鍵詞即認(rèn)為匹配成功;可選按鈕(203)表明嚴(yán)格有序匹 配,只有文檔中存在一條包含查詢語義脈絡(luò)中所有詞的句子,而且這些詞的詞類相同,其順 序也完全相同才算匹配;可選按鈕(204)表明可以認(rèn)可被動(dòng)句,即主謂賓和賓主謂都是一 樣的。還可以根據(jù)需要設(shè)置其他可選按鈕,以適應(yīng)語義脈絡(luò)中謂詞的變化。也可以設(shè)置可選
6按鈕,將當(dāng)前句子所屬的段落標(biāo)題也并入當(dāng)前句子中。用戶在輸入查詢語句時(shí),還可在并列 的主語或賓語成分中間加入特殊符號(hào)"I "、"'"以表明這些主語或賓語是否需要同時(shí)存在。
如果用戶需要查看編輯框(201)中各詞的同義詞、近義詞、上下義詞,可以點(diǎn)擊按 鈕(205,206,207)打開對(duì)話框進(jìn)行查看。如果用戶需要增加或刪除編輯框(201)中各詞的 同義詞、近義詞、上下義詞,可以點(diǎn)擊按鈕(209,210,211)打開對(duì)話框進(jìn)行增加或刪除。
步驟102 :識(shí)別關(guān)鍵詞并對(duì)關(guān)鍵詞進(jìn)行擴(kuò)展。因?yàn)榧s定每個(gè)詞以空格加以分隔,所 以可以直接用字符串分析方法以空格分隔出不同的關(guān)鍵詞。如果詞之間沒有空格,則需要 調(diào)用詞組切分算法。在系統(tǒng)運(yùn)行前必須預(yù)先使用數(shù)據(jù)庫系統(tǒng)建立一個(gè)同義詞、近義詞和上 下義詞電子字典,即記錄每一個(gè)詞的同義詞、近義詞和上下義詞,或者引用一個(gè)他人開發(fā)的 電子字典。用戶在查詢子句界面(圖2)中點(diǎn)擊查詢操作按鈕(208)后,系統(tǒng)進(jìn)入查詢運(yùn)算 狀態(tài)。 查詢運(yùn)算的第一步是進(jìn)行關(guān)鍵詞擴(kuò)展。關(guān)鍵詞擴(kuò)展的方法是對(duì)每一個(gè)關(guān)鍵詞,根
據(jù)字典查找它的同義詞、近義詞和上下義詞,將每個(gè)關(guān)鍵詞及它所有的同義詞、近義詞和上
下義詞都加入到對(duì)應(yīng)的關(guān)鍵詞集合中,并且記錄它的編碼和詞類。關(guān)鍵詞的擴(kuò)展特別是近
義詞的擴(kuò)展不能遞歸進(jìn)行,否則得到的關(guān)鍵詞集合太大,不利于查詢的進(jìn)行。 步驟103 :對(duì)數(shù)據(jù)庫中所有的文檔進(jìn)行標(biāo)記。取出數(shù)據(jù)庫中每一個(gè)文檔,將其轉(zhuǎn)換
成文本字符串,然后對(duì)文檔從頭至尾搜索關(guān)鍵詞、代詞以及用于分隔句子的句號(hào)、段落標(biāo)識(shí)
符等,用一個(gè)對(duì)象數(shù)組記錄下所有的句子、關(guān)鍵詞、代詞的類型、編碼、詞類和位置等數(shù)據(jù)。 如果是對(duì)網(wǎng)頁文件進(jìn)行處理,可以在文檔轉(zhuǎn)化成文本字符串時(shí)通過HTML文件中
的標(biāo)識(shí)識(shí)別并標(biāo)記文檔中的標(biāo)題,并且用一棵樹記錄全文中標(biāo)題的層次關(guān)系及起止位置,
這樣在后面語義脈絡(luò)測(cè)試時(shí)可以根據(jù)當(dāng)前句子選擇合適的標(biāo)題。 步驟104 :對(duì)所有的代詞進(jìn)行代詞分析并替換。如圖3所示,代詞替換的依據(jù)是,如 果前一句中(包括當(dāng)前復(fù)合句中的前句)存在詞類和指代類型相同的關(guān)鍵詞(步驟302), 就用該關(guān)鍵詞的類型、編碼、詞類替換該代詞的數(shù)據(jù)(步驟305),如果前一句中對(duì)應(yīng)位置仍 然是相同的代詞(步驟303),則上溯到前一句的前一句(步驟301),否則消除當(dāng)前代詞標(biāo) 記(步驟304)。 步驟105 :對(duì)數(shù)據(jù)庫中每個(gè)文檔,以每條句子為單位,進(jìn)行語義脈絡(luò)的匹配檢測(cè)。
根據(jù)步驟103所得到的句子標(biāo)記可以確定每個(gè)文檔中任一條句子的起止位置,即前后兩個(gè)
句子標(biāo)記就是當(dāng)前句子的起止位置。然后在當(dāng)前句子的起止位置內(nèi)進(jìn)行句子的語義脈絡(luò)的
匹配,即如果該句子中存在與用戶輸入的查詢語義脈絡(luò)相同的詞的標(biāo)記,而且詞的詞類和
順序也與用戶設(shè)定的相一致,則它們?cè)谡Z義脈絡(luò)上匹配,該文檔就被選為所需文檔。 如果用戶選擇段落標(biāo)題也屬于匹配的范圍,則從記錄標(biāo)題的樹上取對(duì)應(yīng)的標(biāo)題,
將其也作為匹配檢測(cè)對(duì)象進(jìn)行測(cè)試。 本具體實(shí)施步驟特別適合漢語文檔的檢索,因?yàn)闈h字沒有字形的變化,作定語時(shí) 順序位置也比較固定。對(duì)于其他語言則需要進(jìn)行補(bǔ)充和修改。例如,如果是英語文檔的檢 索,由于英語的詞在使用過程中有變化,作定語時(shí)在句子中的順序也可以變化,所以需要調(diào) 用詞或詞組切分程序?qū)υ~或詞組進(jìn)行切分,并且選擇無序語義脈絡(luò)匹配或者特定關(guān)鍵詞無 序的語義脈絡(luò)匹配。 對(duì)本領(lǐng)域的普通技術(shù)人員而言,本發(fā)明所涉及的數(shù)據(jù)結(jié)構(gòu)和算法可以在一般的計(jì)算機(jī)系統(tǒng)中實(shí)現(xiàn),舉例而言,可以使用高級(jí)程序設(shè)計(jì)語言VC++和數(shù)據(jù)庫系統(tǒng)Access加以實(shí) 現(xiàn)。如果需要在網(wǎng)絡(luò)搜索引擎實(shí)現(xiàn)本發(fā)明,則需要在記錄關(guān)鍵詞的數(shù)據(jù)結(jié)構(gòu)中增加該關(guān)鍵 詞的位置數(shù)據(jù),并且增加一個(gè)樹來記錄每一篇文檔的標(biāo)題信息。 以上所述,僅為本發(fā)明其中的較佳實(shí)施例而已,并非用來限制本發(fā)明的實(shí)施范圍; 即凡依本發(fā)明申請(qǐng)專利范圍所作的均等變化與修飾,皆為本發(fā)明專利范圍所涵蓋。
權(quán)利要求
一種語義脈絡(luò)文檔查詢方法,應(yīng)用于基于計(jì)算機(jī)的文檔查詢特別是網(wǎng)絡(luò)文檔查詢,其特征是將用戶輸入的查詢要求轉(zhuǎn)換成查詢語義脈絡(luò),即一組關(guān)鍵詞及其順序關(guān)系,將全部被測(cè)試文檔中的每一個(gè)文檔分解成句子,記錄這些文檔中的句子、關(guān)鍵詞、代詞、段落標(biāo)題等編碼、類型和位置等信息,對(duì)每個(gè)句子中的代詞進(jìn)行分析,用它所代表的關(guān)鍵詞進(jìn)行替換,用查詢語義脈絡(luò)中的關(guān)鍵詞及詞類、位置順序去與被測(cè)試文檔中的句子進(jìn)行匹配,將滿足關(guān)鍵詞及其順序關(guān)系相同的文檔選為用戶需要的文檔。
2. 根據(jù)權(quán)利要求1所述的語義脈絡(luò)文檔查詢方法,其特征是將用戶輸入的查詢要求 按照句子的結(jié)構(gòu)進(jìn)行查詢語義脈絡(luò)的轉(zhuǎn)換,用一個(gè)對(duì)象數(shù)組記錄下用戶輸入的各個(gè)詞的詞 類和順序關(guān)系。
3. 根據(jù)權(quán)利要求1所述的語義脈絡(luò)文檔查詢方法,其特征是對(duì)被測(cè)試文檔使用關(guān)鍵 詞、句子分隔符、代詞等作為搜索詞進(jìn)行字符串搜索,用一個(gè)對(duì)象數(shù)組標(biāo)記下每個(gè)關(guān)鍵詞、 句子分隔符、代詞等的類型、編碼、詞類和位置等數(shù)據(jù),將其分割成以句子為基本單位的片 斷組合。
4. 根據(jù)權(quán)利要求1所述的語義脈絡(luò)文檔查詢方法,其特征是對(duì)被標(biāo)記的測(cè)試文檔進(jìn) 行代詞分析,將當(dāng)前句子中的代詞用前面最近句子中對(duì)應(yīng)的關(guān)鍵詞替換,即替換或去掉權(quán) 利要求3中對(duì)象數(shù)組中代詞的數(shù)據(jù)。
5 根據(jù)權(quán)利要求1所述的語義脈絡(luò)文檔查詢方法,其特征是使用查詢語義脈絡(luò)與被 測(cè)試文檔進(jìn)行匹配測(cè)試時(shí),如果被測(cè)試文檔中存在一條句子,它包含了語義脈絡(luò)中所有的 詞,并且滿足用戶設(shè)定的順序和詞類匹配要求,則該文檔是用戶需要的文檔。
6. 根據(jù)權(quán)利要求5所述的語義脈絡(luò)文檔查詢方法,其特征是如果用戶設(shè)定語義脈絡(luò) 匹配為嚴(yán)格有序,則要求查詢語義脈絡(luò)與被測(cè)試文檔中句子的詞類代碼相同,詞的位置排 列順序也相同。
7. 根據(jù)權(quán)利要求5所述的語義脈絡(luò)文檔查詢方法,其特征是如果用戶設(shè)定語義脈絡(luò) 匹配為無序匹配,則只要求查詢語義脈絡(luò)與被測(cè)試文檔中句子的詞類代碼相同。
8. 根據(jù)權(quán)利要求5所述的語義脈絡(luò)文檔查詢方法,其特征是如果用戶設(shè)定語義脈絡(luò) 匹配為被動(dòng)語序,則允許被測(cè)試文檔句子中主語、賓語位置顛倒。
9. 根據(jù)權(quán)利要求5所述的語義脈絡(luò)文檔查詢方法,其特征是如果用戶設(shè)定段落標(biāo)題 也是被測(cè)試文檔中句子的一部分,則在進(jìn)行匹配運(yùn)算時(shí)可對(duì)當(dāng)前被測(cè)試句子進(jìn)行擴(kuò)展,將 它所屬的段落標(biāo)題也加入到該句子里參加測(cè)試。
全文摘要
一種基于語義的文檔查詢方法,應(yīng)用于文檔查詢特別是網(wǎng)絡(luò)文檔查詢。它將查詢用戶輸入的查詢要求轉(zhuǎn)換成查詢語義脈絡(luò),即將查詢輸入語句分解成不同關(guān)鍵詞及其結(jié)構(gòu)關(guān)系;然后對(duì)被查詢文檔按照關(guān)鍵詞、句子分隔符和代詞進(jìn)行標(biāo)記,并根據(jù)代詞指代關(guān)系將其替換為對(duì)應(yīng)的關(guān)鍵詞;最后按照用戶對(duì)這些關(guān)鍵詞及其結(jié)構(gòu)關(guān)系的設(shè)定對(duì)查詢語義脈絡(luò)與被測(cè)試文檔中的每條句子進(jìn)行匹配測(cè)試,只要被測(cè)試文檔中存在一條與查詢語義脈絡(luò)匹配的句子,則該文檔就是用戶所需文檔。這種方法不需要對(duì)文檔進(jìn)行復(fù)雜的語義分析,開發(fā)難度低,與目前通用的關(guān)鍵詞查詢使用方法一致。
文檔編號(hào)G06F17/30GK101751420SQ200810236750
公開日2010年6月23日 申請(qǐng)日期2008年12月10日 優(yōu)先權(quán)日2008年12月10日
發(fā)明者尹文生 申請(qǐng)人:華中科技大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1