一種法律數(shù)據(jù)庫構(gòu)建方法及法律檢索服務(wù)方法
【專利摘要】本發(fā)明提供一種法律數(shù)據(jù)庫構(gòu)建方法,包括:1)對于一個新的法律文本,按條目拆分所接收的法律文本,得到相應的法律條目文檔并創(chuàng)建相應的唯一標識;2)對每個法律條目文檔進行分詞,對于分詞所得的每個詞項,在基于內(nèi)容的倒排索引中建立或更新該詞項所對應的唯一一條記錄,所述基于內(nèi)容的倒排索引的每條記錄均包括:內(nèi)容中出現(xiàn)該條記錄所對應詞項的每個法律條目文檔及相應的索引信息;3)回到步驟1)處理下一個法律文本直至所有法律文本均處理完畢。本發(fā)明還提供了相應的檢索服務(wù)方法。本發(fā)明使得一次檢索即可獲得精確到法律條目的檢索結(jié)果。
【專利說明】一種法律數(shù)據(jù)庫構(gòu)建方法及法律檢索服務(wù)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計算機文本信息檢索,具體地說,本發(fā)明涉及一種法律數(shù)據(jù)庫構(gòu)建方法及法律檢索服務(wù)方法。
【背景技術(shù)】
[0002]信息檢索是指將記錄信息的資料按一定的方式組織和存儲起來,并根據(jù)用戶的需要找出有關(guān)信息的過程。利用信息檢索技術(shù),人們可以更加容易的從海量的資料中尋找到需要的知識,提高了知識獲取的效率。
[0003]法律檢索系統(tǒng)是將信息檢索技術(shù)作用于法律法規(guī)文本的一種應用,可以幫助各級人大機關(guān)、黨政機關(guān),法院、檢察院、律師事務(wù)所等法律從業(yè)機構(gòu)的工作人員,快速找到所需的法律法規(guī)信息。同時,法律檢索系統(tǒng)也向社會大眾提供法律檢索服務(wù)。
[0004]目前的法律檢索系統(tǒng),如全國人大的“中國法律法規(guī)檢索系統(tǒng)”,北京大學的“北大法寶”等,都是針對法律法規(guī)全文及其標題、日期、發(fā)布部門、法規(guī)分類、效力級別、時效性等元數(shù)據(jù)組合信息進行檢索,返回的檢索結(jié)果以法律法規(guī)全文為基本單位。然而用戶往往需要找到案情可能適用的法條,所以在獲得檢索結(jié)果后,用戶還需要進一步地自行查找相關(guān)法條。
[0005]另一方面,用戶往往期望找到與案情相關(guān)的所有相關(guān)法條,目前的法律檢索都是對關(guān)鍵字的精確匹配,如果關(guān)鍵字不夠準確,檢索出的結(jié)果就可能存在遺漏,有的相關(guān)法條可能不在檢索結(jié)果范圍之內(nèi)。因此為找到更多的相關(guān)法條,用戶往往需要嘗試使用多種關(guān)鍵字或關(guān)鍵字組合,進行多次、反復檢索,才能最終找到所需的多個相關(guān)法律條目。因此,現(xiàn)有法律檢索的便捷性亟待提高。
[0006]因此,當前迫切需要一種能夠幫助用戶更快速地找到所需的法律法規(guī)信息的法律檢索服務(wù)方案。
【發(fā)明內(nèi)容】
[0007]因此,本發(fā)明的任務(wù)是克服現(xiàn)有技術(shù)的不足,提供一種能夠幫助用戶更快速地找到所需的法律法規(guī)信息的法律檢索服務(wù)方案。
[0008]本發(fā)明提供了一種法律數(shù)據(jù)庫構(gòu)建方法,包括下列步驟:
[0009]I)法律數(shù)據(jù)庫接收一個新的法律文本,按條目拆分所接收的法律文本,得到相應的法律條目文檔并創(chuàng)建相應的唯一標識;
[0010]2)對每個法律條目文檔進行分詞,對于分詞所得的每個詞項,在基于內(nèi)容的倒排索引中建立或更新該詞項所對應的唯一一條記錄,所述基于內(nèi)容的倒排索引的每條記錄均包括:內(nèi)容中出現(xiàn)該條記錄所對應詞項的每個法律條目文檔及相應的索引信息;
[0011]3)回到步驟I)接收下一個法律文本并進行相應的處理,直至所有法律文本均處
理完畢。
[0012]其中,所述步驟2)中,所述索引信息包括:所對應詞項的逆文檔頻率,以及所對應詞項出現(xiàn)在每個法律條目文檔的詞頻;其中,所述逆文檔頻率是基于法律數(shù)據(jù)庫中的法律條目文檔的逆文檔頻率。
[0013]其中,所述步驟2)包括下列子步驟:
[0014]21)遍歷拆分得到的每個法律條目文檔,對于當前法律條目文檔,對其進行分詞;
[0015]22)遍歷分詞得到的所有詞項,對每一個詞項,計算當前詞項出現(xiàn)在所述當前法律條目文檔中的詞頻,在基于內(nèi)容的倒排索引中查找對應于所述當前詞項的記錄,如果查找到已存的所述當前詞項的記錄,在記錄中增加所述當前法律條目文檔的標識,以及所述當前詞項在所述當前法律條目文檔中出現(xiàn)的詞頻,并更新所述當前詞項的逆文檔頻率;如果未查找到已存的所述當前詞項的記錄,則在所述基于內(nèi)容的倒排索引的詞典中增加所述當前詞項,同時增加一條新的記錄,所述新的記錄包括所述當前詞項的逆文檔頻率,所述當前法律條目文檔的標識,以及所述當前詞項在所述當前法律條目文檔中出現(xiàn)的詞頻。
[0016]本發(fā)明還提供了一種基于上述法律數(shù)據(jù)庫的法律檢索服務(wù)方法,包括下列步驟:
[0017]4)獲取作用于內(nèi)容域的檢索向量;
[0018]5)對于檢索向量中的每個關(guān)鍵詞,根據(jù)基于內(nèi)容的倒排索引,找到內(nèi)容中出現(xiàn)該關(guān)鍵詞的每個法律條目文檔及相應的索引信息;
[0019]6)根據(jù)相應的索引信息對命中的法律條目文檔進行排序。
[0020]其中,所述步驟5)中,所述索引信息包括:所對應詞項的逆文檔頻率,以及所對應詞項出現(xiàn)在每個法律條目文檔的詞頻;其中,所述逆文檔頻率是基于法律數(shù)據(jù)庫中的法律條目文檔的逆文檔頻率。
[0021]其中,所述步驟6)包括下列子步驟:
[0022]61)對于步驟5)中命中的每個法律條目文檔,得到維度與所述檢索向量一致的法律條目文檔向量,所述法律條目文檔向量的每個元素對應于一個關(guān)鍵詞,每個元素的值根據(jù)步驟5)所找到的該關(guān)鍵詞的逆文檔頻率,以及該法律條目文檔的內(nèi)容中出現(xiàn)該關(guān)鍵詞的詞頻得出;
[0023]62)將法律條目文檔向量和檢索向量的相似度作為相應法律條目文檔的檢索相似度,根據(jù)所述檢索相似度對各個命中的法律條目文檔進行排序。
[0024]其中,所述步驟62)中,所述的法律條目文檔向量和檢索向量的相似度為法律條目文檔向量和檢索向量的余弦相似度。
[0025]其中,所述步驟6)中,所述法律條目文檔向量中,每個元素的值為步驟5)所找到的該元素所對應的關(guān)鍵詞的逆文檔頻率,和該法律條目文檔的內(nèi)容中出現(xiàn)該元素所對應的關(guān)鍵詞的詞頻的乘積。
[0026]其中,所述法律條目文檔包括元信息和內(nèi)容,所述元信息包括法律條目所屬法律文本的標題,以及法律條目在所屬法律文本中的所屬章節(jié)和編號。
[0027]其中,所述步驟6)還包括:將命中的法律條目文檔的所屬法律作為命中法律,根據(jù)各個命中的法律條目文檔的所述檢索相似度,得出每個命中法律的檢索相似度對各個命中法律進行排序,然后依排序顯示每個命中法律中的命中的各個法律條目文檔的內(nèi)容和元信息。
[0028]其中,所述法律檢索服務(wù)方法還包括步驟:
[0029]7)對于每個命中法律,根據(jù)該命中法律與所述法律數(shù)據(jù)庫中其它法律的相似度,查找并顯示該命中法律的相關(guān)法律;
[0030]所述相關(guān)法律根據(jù)法律之間的相似度確定,其中,兩個法律之間的相似度按下述方法得出:對所有法律標題進行分詞獲得一系列詞項,并根據(jù)詞性提取出標題中的屬于主語結(jié)構(gòu)、謂語結(jié)構(gòu)和賓語結(jié)構(gòu)的詞項,用所提取出的詞項構(gòu)成特征子空間,將所有法律標題都轉(zhuǎn)換為所述特征子空間上的詞項向量的表述形式,將兩個法律標題所對應的兩個詞項向量的在所述特征子空間的相似度作為所述兩個法律之間的相似度。
[0031]其中,所述步驟7)中,對于每個命中法律,顯示該命中法律與其相關(guān)法律的關(guān)聯(lián)關(guān)系圖,所述關(guān)聯(lián)關(guān)系圖包括:一系列點和連接各點的邊,每個點代表所述命中法律或者一個該命中法律的一個相關(guān)法律,每條邊上顯示其兩個端點所對應的兩個法律之間的相似度。
[0032]與現(xiàn)有技術(shù)相比,本發(fā)明具有下列技術(shù)效果:
[0033]1、一次檢索即可獲得精確到法律條目的檢索結(jié)果。
[0034]2、不僅能獲得與檢索語句匹配的法律條目,還可以進一步獲得所有相關(guān)法律,從而幫助用戶更全面地找到與案情相關(guān)的所有法條,降低了法律法規(guī)信息的檢索難度。
【專利附圖】
【附圖說明】
[0035]以下,結(jié)合附圖來詳細說明本發(fā)明的實施例,其中:
[0036]圖1示出了本發(fā)明一個實施例的整體流程示意圖;
[0037]圖2示出了本發(fā)明一個實施例中建立以法律條目文檔為存儲單元的法律數(shù)據(jù)庫的流程示意圖;
[0038]圖3示出了本發(fā)明一個實施例中的倒排索引中詞典與索引記錄表的結(jié)構(gòu)實例;
[0039]圖4示出了本發(fā)明一個實施例中的檢索服務(wù)的流程示意圖;
[0040]圖5示出了本發(fā)明一個實施例中的關(guān)聯(lián)檢索服務(wù)的流程示意圖;
[0041]圖6示出了本發(fā)明一個實施例中的命中法律及其相關(guān)法律的關(guān)聯(lián)關(guān)系圖示例。
【具體實施方式】
[0042]根據(jù)本發(fā)明的一個實施例提供了一種法律檢索服務(wù)方法,如圖1所示,它包括三個部分。第一部分是:建立以法律條目文檔為存儲單元的法律數(shù)據(jù)庫,以及相應的倒排索弓I。第二部分是:接收檢索語句,基于法律數(shù)據(jù)庫及相應的倒排索引,返回精確到法律條目的檢索結(jié)果。第三部分是:基于第二部分的檢索結(jié)果,進一步查找檢索結(jié)果所屬法律的相關(guān)法律,并將所找到的相關(guān)法律加入檢索結(jié)果。下面對這三個部分分別進行詳細描述。
[0043]一、建立以法律條目文檔為存儲單元的法律數(shù)據(jù)庫,以及相應的倒排索引?,F(xiàn)有技術(shù)中,通常由整部法律構(gòu)成一個法律文檔,法律數(shù)據(jù)庫通常以法律文檔為單位存儲法律數(shù)據(jù)。而本實施例中,法律數(shù)據(jù)庫中以法律條目文檔為基本存儲單元。即每個法律條目各自構(gòu)成一個文檔。為便于理解,下面以《中華人民共和國全國人民代表大會及地方各級人民代表大會選舉法》這一法律文檔為例進行說明。該法律文檔中,其文本主要包括:標題,題注,目錄,正文。
[0044]圖2示出了本發(fā)明一個實施例中建立以法律條目文檔為存儲單元的法律數(shù)據(jù)庫的流程示意圖,參考圖2,將法律文檔依次輸入法律數(shù)據(jù)庫,對于每個法律文檔,執(zhí)行下列步驟11至14。
[0045]步驟11:對法律文檔結(jié)構(gòu)進行識別及拆分。通過預先定義的規(guī)則,識別法律文檔的結(jié)構(gòu)信息,如篇、章、節(jié);進一步識別并定位法律文本中的每一條目,并將其按條目一一拆分。其中,將正文按條目拆分為N個子文檔,以《中華人民共和國全國人民代表大會及地方各級人民代表大會選舉法》的法律文檔為例,其條目共有66條,所以,將其拆分為66個子文檔。其中,每個子文檔均包括:法律條文內(nèi)容,所屬法律標題及其在所屬法律中的層次結(jié)構(gòu)。例如:《中華人民共和國全國人民代表大會及地方各級人民代表大會選舉法》第一條所對應的子文檔存儲有法律條文內(nèi)容:根據(jù)中國人民政治協(xié)商會議共同綱領(lǐng)第十二條,中華人民共和國全國人民代表大會及地方各級人民代表大會由各民族人民用普選方法產(chǎn)生之;所屬法律標題:中華人民共和國全國人民代表大會及地方各級人民代表大會選舉法;在所屬法律中的層次結(jié)構(gòu):第一章第一條。
[0046]步驟12:對拆分好的子文檔(即法律條目文檔)建立索引。經(jīng)過拆分后,將每一個條目作為一個子文檔,在內(nèi)容域上進行分詞(即對子文檔的內(nèi)容部分進行分詞),對于分詞得到的每個詞項(重復出現(xiàn)的詞匯被視作同一詞項),統(tǒng)計其詞頻(tf)及逆文檔頻率(idf),并在此基礎(chǔ)建立倒排索引。倒排索引分為詞典和倒排記錄表兩部分。圖3示出了一個倒排索引中詞典與索引記錄表的結(jié)構(gòu)實例。如圖3所示,對于一條記錄,由一個詞項作為其唯一標識,存儲在倒排索引的詞典中。同時,詞典中還存儲倒排記錄表中對應記錄的鏈接以及該條記錄的詞項在法律數(shù)據(jù)庫中的逆文檔頻率,需注意的是該逆文檔頻率是基于法律數(shù)據(jù)庫中的所有法律條目文檔所計算的逆文檔頻率,而非常見的基于法律文檔所計算的逆文檔頻率。在倒排記錄表中,每條記錄以鏈表的形式存儲,包含了所有出現(xiàn)該詞項的法律條目,如圖3的倒排記錄表中對應于詞項I的記錄,其四個節(jié)點分別代表法律條目文檔1,2,3,4,這表示法律條目文檔1,2,3,4中都出現(xiàn)了詞項I,對應于詞項2的記錄,其兩個節(jié)點分別代表法律條目文檔5,6表示法律條目文檔5,6中都出現(xiàn)了詞項2。其中,每個代表法律條目文檔的節(jié)點均記錄法律條目的id,詞項出現(xiàn)在該法律條目子文檔中的頻率,以及詞項出現(xiàn)在該法律條目子文檔中的位置等其他信息。
[0047]步驟13:對法律的標題,以及發(fā)布時間,發(fā)布機構(gòu)等其它信息域建立索引。其中,對標題進行分詞而后建立相應的倒排索引,其它各域不進行分詞,而是將每一個域的整體內(nèi)容作為一個詞項。例如:發(fā)布機構(gòu)為中央人民政府委員會時,在該倒排索引中,“中央人民政府委員會”整體作為一個詞項。
[0048]步驟14:將內(nèi)容域、標題域以及發(fā)布時間,發(fā)布機構(gòu)等其它元數(shù)據(jù)信息域的多個倒排索引以文件的形式存儲在系統(tǒng)中。
[0049]二、接收檢索語句,基于法律數(shù)據(jù)庫及相應的倒排索引,返回精確到法律條目的檢索結(jié)果。本實施例可以提供多域組合檢索服務(wù)。同時,它可以將屬于同一部法律法規(guī)的多條相關(guān)條目歸為一類,并組合顯示。通常來說,檢索服務(wù)分可為簡單和高級兩種模式。簡單模式是在標題和內(nèi)容域上檢索相同的檢索語句,該模式下用戶直接輸入檢索語句即可。高級模式則可以通過元數(shù)據(jù)信息域支持對于元數(shù)據(jù)的枚舉篩選,該模式下用戶需要指定需要檢索的域以及在該域上輸入檢索語句或選擇枚舉值。例如“內(nèi)容:消費權(quán)益保障&標題:保護法&發(fā)布機構(gòu)(枚舉值):全國人民代表大會”。檢索服務(wù)返回檢索相關(guān)的條目內(nèi)容與其元數(shù)據(jù)信息。檢索語句可以是詞匯(如“經(jīng)濟”)、詞匯集合(如“經(jīng)濟政策”)或短語(如“經(jīng)濟政策”)。針對不同的信息域,通常會有不同的檢索服務(wù)方式,例如,對內(nèi)容域和標題域,檢索語句通常需要進行分詞,而其它元信息域的檢索語句則不做分詞處理,直接把檢索語句作為相應元信息域的關(guān)鍵詞即可。本實施例的精確到法律條目的檢索主要是指作用于內(nèi)容域的檢索服務(wù)上,因此下文中主要對作用于內(nèi)容域的檢索服務(wù)進行描述,其余與本發(fā)明主旨無關(guān)的部分,本文中不再贅述。
[0050]圖4示出了本發(fā)明一個實施例中的檢索服務(wù)的流程示意圖,參考圖4,檢索服務(wù)包括下列步驟21至24。
[0051]步驟21:接收作用于內(nèi)容域的檢索語句。如前文所述,檢索語句可以是詞匯(如“經(jīng)濟”)、詞匯集合(如“經(jīng)濟政策”)或短語(如“經(jīng)濟政策”)。
[0052]步驟22:對檢索語句進行分詞,獲得相應的一個或多個檢索關(guān)鍵詞,組成檢索向量。
[0053]步驟23:在內(nèi)容域上,對于每個關(guān)鍵詞,基于該域的倒排索引,找到該關(guān)鍵詞的逆文檔頻率,出現(xiàn)該關(guān)鍵詞的每個法律條目文檔,以及該關(guān)鍵詞在相應法律條目文檔中的詞頻。倒排索引中存儲了法律數(shù)據(jù)庫中屬于該域的所有詞項的索引記錄,查找到關(guān)鍵詞對應的詞項的索引,就可得到所需的信息。例如關(guān)鍵詞為“經(jīng)濟”和“政策”時,在倒排索引分別查找到詞項“經(jīng)濟”的索引記錄以及“政策”的索引記錄,這樣就可以從“經(jīng)濟”的索引記錄中得到詞項“經(jīng)濟”的逆文檔頻率,含有“經(jīng)濟”的每個法律條目文檔,以及“經(jīng)濟”在每個法律條目文檔中出現(xiàn)的詞頻。同樣地,從“政策”的索引記錄中,獲取詞項“政策”的逆文檔頻率,含有“政策”的每個法律條目文檔,以及“政策”在每個法律條目文檔中出現(xiàn)的詞頻。此時,對詞項“經(jīng)濟”和“政策”的法律條目文檔列表取并集,就獲得了該域上所有的與檢索相關(guān)的文檔。如果所選擇的是高級檢索模式,則在所有域上基于對應的一個或多個關(guān)鍵詞進行檢索。
[0054]步驟24:計算查找到的每個法律條目文檔的檢索相關(guān)度,根據(jù)檢索相關(guān)度對查找到的各法律條目文檔進行排序,其中檢索相關(guān)度越大,排序越靠前。然后將排序后的所述查找到的各法律條目文檔的信息作為檢索結(jié)果。其中,對于僅作用于內(nèi)容域的檢索,基于步驟23得到維度與所述檢索向量一致的法律條目文檔向量,所述法律條目文檔向量的每個元素對應于一個關(guān)鍵詞,每個元素的值根據(jù)步驟23所找到的該關(guān)鍵詞的逆文檔頻率,以及該法律條目文檔的內(nèi)容中出現(xiàn)該關(guān)鍵詞的詞頻得出??梢灾苯訉⒎蓷l目文檔向量和檢索向量的相似度作為相應法律條目文檔的在內(nèi)容域的檢索相似度,根據(jù)所述檢索相似度對各個命中的法律條目文檔進行排序。這樣就能呈現(xiàn)出檢索語句在內(nèi)容域上的綜合檢索結(jié)果。所述的法律條目文檔向量和檢索向量的相似度為法律條目文檔向量和檢索向量的余弦相似度。所述法律條目文檔向量中,每個元素的值為步驟23所找到的該元素所對應的關(guān)鍵詞的逆文檔頻率和該法律條目文檔的內(nèi)容中出現(xiàn)該元素所對應的關(guān)鍵詞的詞頻的乘積。
[0055]而對于高級模式的檢索,一個法律條目文檔的檢索相關(guān)度是該法律條目文檔對應于各個域的相關(guān)度的線性加權(quán)和,一個法律條目文檔對應于一個域的相關(guān)度等于在文本的向量空間模型下,該域上的條目文檔的向量表示和檢索內(nèi)容的向量表示(即檢索向量)的余弦相似度。條目文檔的向量表示中,用詞項的逆文檔頻率與該詞項在該法律條目文檔中的詞頻的乘積作為每一維的數(shù)值,檢索內(nèi)容的向量表示中,則只用詞項的詞頻作為每一維的數(shù)值。這樣就能呈現(xiàn)出檢索語句的綜合檢索結(jié)果,并且其排序考慮了各個域,及各域上多個關(guān)鍵詞的不同影響。
[0056]進一步地,在一個實施例中,根據(jù)步驟24中查找到的法律條目文檔(即命中的法律條目文檔)的所屬法律,以法律為基礎(chǔ)的對法律條目文檔進行整合歸類。計算整個法律文本的檢索相關(guān)度并基于整個法律文本的檢索相關(guān)度參與檢索相關(guān)度排序,整個法律文本的檢索相關(guān)度等于所查找到的屬于它的各個法律條目文檔的檢索相關(guān)度之和。這樣就將檢索獲得的條目列表按照法律進行整合歸類,并在原有的條目相關(guān)度的基礎(chǔ)上,重新計算法律的相關(guān)度值,重新排序,達到以法律為單位集中顯示,并僅列出該部法律中相關(guān)條目而非全文,且法律中的條目按相關(guān)度有序的呈現(xiàn)效果。這種方案能夠使得檢索結(jié)果更有邏輯性,更加美觀且便于用戶瀏覽。
[0057]三、基于第二部分的檢索結(jié)果,進一步查找檢索結(jié)果所屬法律的相關(guān)法律,并將所找到的相關(guān)法律加入檢索結(jié)果。這一部分實質(zhì)上是一種關(guān)聯(lián)檢索服務(wù),它針對法律法規(guī)這種具有一定規(guī)范化結(jié)構(gòu)的文本,進行關(guān)聯(lián)度的計算,并提取出關(guān)聯(lián)的圖形化描述,從而更加直觀地展示法律法規(guī)直接的關(guān)聯(lián),以便于用戶查閱與檢索結(jié)果相關(guān)聯(lián)的信息。
[0058]圖5示出了本發(fā)明一個實施例中的關(guān)聯(lián)檢索服務(wù)的流程示意圖,參考圖5,關(guān)聯(lián)檢索服務(wù)包括下列步驟31至34。
[0059]步驟31:法律特征提取。由于法律文本具有一定的規(guī)范化結(jié)構(gòu),特別是其命名,很大程度上表明了法律法規(guī)所關(guān)心的領(lǐng)域和主題。因此,可以通過對其標題進行分析,獲取法律主題,并將其用特征向量子空間下的向量表示。其中,根據(jù)對法律法規(guī)標題的分析,其標題的語法結(jié)構(gòu)相對簡單,標題中的主語、賓語(名詞部分)和謂語(動詞部分)基本涵蓋了法律法規(guī)主要表達的內(nèi)容。通過分詞以及詞性分析,能夠容易的找到標題中的主、謂、賓語成分,并將其提取為代表標題的特征。
[0060]下面結(jié)合具體三篇法律標題的具體例子進行說明。首先經(jīng)過中文分詞,將法律的標題拆分成一個個詞項。其中,對于法律I的標題:中華人民共和國外商投資企業(yè)和外國企業(yè)所得稅法,其分詞結(jié)果為:
[0061]中華人民共和國外商投資企業(yè)和外國企業(yè)所得稅法
[0062]對于法律2的標題:關(guān)于外國投資者并購境內(nèi)企業(yè)的規(guī)定,其分詞結(jié)果
[0063]為:
[0064]關(guān)于外國投資者并購境內(nèi)企業(yè)的規(guī)定
[0065]對于法律3的標題:關(guān)于電子專利申請的規(guī)定,其分詞結(jié)果為:
[0066]關(guān)于電子專利申請的規(guī)定
[0067]這三篇法律標題組成的向量空間為所有詞項所構(gòu)成的集合,具體如下:{并購,的,電子,法,關(guān)于,規(guī)定,和,境內(nèi),企業(yè),申請,所得稅,投資,投資者,外國,外商,中華人民共和國,專利}。
[0068]將每篇法律標題均用屬于上述向量空間的向量表示,向量中每個元素代表一個詞項,該元素的值代表相應的詞頻。
[0069]具體地三篇法律標題的向量表示如下:
[0070]
【權(quán)利要求】
1.一種法律數(shù)據(jù)庫構(gòu)建方法,包括下列步驟: 1)對于一個新的法律文本,按條目拆分所接收的法律文本,得到相應的法律條目文檔并創(chuàng)建相應的唯一標識; 2)對每個法律條目文檔進行分詞,對于分詞所得的每個詞項,在基于內(nèi)容的倒排索引中建立或更新該詞項所對應的唯一一條記錄,所述基于內(nèi)容的倒排索引的每條記錄均包括:內(nèi)容中出現(xiàn)該條記錄所對應詞項的每個法律條目文檔及相應的索引信息; 3)回到步驟I)處理下一個法律文本直至所有法律文本均處理完畢。
2.根據(jù)權(quán)利要求1所述的法律數(shù)據(jù)庫構(gòu)建方法,其特征在于,所述步驟2)中,所述索引信息包括:所對應詞項的逆文檔頻率,以及所對應詞項出現(xiàn)在每個法律條目文檔的詞頻;其中,所述逆文檔頻率是基于法律數(shù)據(jù)庫中的法律條目文檔的逆文檔頻率。
3.根據(jù)權(quán)利要求2所述的法律數(shù)據(jù)庫構(gòu)建方法,其特征在于,所述步驟2)包括下列子步驟: 21)遍歷拆分得到的每個法律條目文檔,對于當前法律條目文檔,對其進行分詞; 22)遍歷分詞得到的所有詞項,對每一個詞項,計算當前詞項出現(xiàn)在所述當前法律條目文檔中的詞頻,在基于內(nèi)容的倒排索引中查找對應于所述當前詞項的記錄,如果查找到已存的所述當前詞項的記錄, 在記錄中增加所述當前法律條目文檔的標識,以及所述當前詞項在所述當前法律條目文檔中出現(xiàn)的詞頻,并更新所述當前詞項的逆文檔頻率;如果未查找到已存的所述當前詞項的記錄,則在所述基于內(nèi)容的倒排索引的詞典中增加所述當前詞項,同時增加一條新的記錄,所述新的記錄包括所述當前詞項的逆文檔頻率,所述當前法律條目文檔的標識,以及所述當前詞項在所述當前法律條目文檔中出現(xiàn)的詞頻。
4.一種基于權(quán)利要求1所述法律數(shù)據(jù)庫構(gòu)建方法的法律檢索服務(wù)方法,包括下列步驟: 4)獲取作用于內(nèi)容域的檢索向量; 5)對于檢索向量中的每個關(guān)鍵詞,根據(jù)基于內(nèi)容的倒排索引,找到內(nèi)容中出現(xiàn)該關(guān)鍵詞的每個法律條目文檔及相應的索引信息; 6)根據(jù)相應的索引信息對命中的法律條目文檔進行排序。
5.根據(jù)權(quán)利要求4所述的法律檢索服務(wù)方法,其特征在于,所述步驟5)中,所述索引信息包括:所對應詞項的逆文檔頻率,以及所對應詞項出現(xiàn)在每個法律條目文檔的詞頻;其中,所述逆文檔頻率是基于法律數(shù)據(jù)庫中的法律條目文檔的逆文檔頻率。
6.根據(jù)權(quán)利要求5所述的法律檢索服務(wù)方法,其特征在于,所述步驟6)包括下列子步驟: 61)對于步驟5)中命中的每個法律條目文檔,得到維度與所述檢索向量一致的法律條目文檔向量,所述法律條目文檔向量的每個元素對應于一個關(guān)鍵詞,每個元素的值根據(jù)步驟5)所找到的該關(guān)鍵詞的逆文檔頻率,以及該法律條目文檔的內(nèi)容中出現(xiàn)該關(guān)鍵詞的詞頻得出; 62)將法律條目文檔向量和檢索向量的相似度作為相應法律條目文檔在內(nèi)容域的檢索相似度,根據(jù)所述檢索相似度對各個命中的法律條目文檔進行排序。
7.根據(jù)權(quán)利要求6所述的法律檢索服務(wù)方法,其特征在于,所述步驟62)中,所述的法律條目文檔向量和檢索向量的相似度為法律條目文檔向量和檢索向量的余弦相似度。
8.根據(jù)權(quán)利要求7所述的法律檢索服務(wù)方法,其特征在于,所述步驟6)中,所述法律條目文檔向量中,每個元素的值為步驟5)所找到的該元素所對應的關(guān)鍵詞的逆文檔頻率,和該法律條目文檔的內(nèi)容中出現(xiàn)該元素所對應的關(guān)鍵詞的詞頻的乘積。
9.根據(jù)權(quán)利要求6所述的法律檢索服務(wù)方法,其特征在于,所述法律條目文檔包括元信息和內(nèi)容,所述元信息包括法律條目所屬法律文本的標題,以及法律條目在所屬法律文本中的所屬章節(jié)和編號。
10.根據(jù)權(quán)利要求9所述的法律檢索服務(wù)方法,其特征在于,所述步驟6)還包括:將命中的法律條目文檔的所屬法律作為命中法律,根據(jù)各個命中的法律條目文檔的所述檢索相似度,得出每個命中法律的檢索相似度對各個命中法律進行排序,然后依排序顯示每個命中法律中的命中的各個法律條目文檔的內(nèi)容和元信息。
11.根據(jù)權(quán)利要求10所述的法律檢索服務(wù)方法,其特征在于,所述法律檢索服務(wù)方法還包括步驟: 7)對于每個命中法律,根據(jù)該命中法律與所述法律數(shù)據(jù)庫中其它法律的相似度,查找并顯示該命中法律的相關(guān)法律; 所述相關(guān)法律根據(jù)法律之間的相似度確定,其中,兩個法律之間的相似度按下述方法得出:對所有法律標題進行分詞獲得一系列詞項,并根據(jù)詞性提取出標題中的屬于主語結(jié)構(gòu)、謂語結(jié)構(gòu)和賓語結(jié)構(gòu)的詞項,用所提取出的詞項構(gòu)成特征子空間,將所有法律標題都轉(zhuǎn)換為所述特征子空間上的詞項向量的表述形式,將兩個法律標題所對應的兩個詞項向量的在所述特征子空間的相似度作為所述兩個法律之間的相似度。
12.根據(jù)權(quán)利要求11 所述的法律檢索服務(wù)方法,其特征在于,所述步驟7)中,對于每個命中法律,顯示該命中法律與其相關(guān)法律的關(guān)聯(lián)關(guān)系圖,所述關(guān)聯(lián)關(guān)系圖包括:一系列點和連接各點的邊,每個點代表所述命中法律或者一個該命中法律的一個相關(guān)法律,每條邊上顯示其兩個端點所對應的兩個法律之間的相似度。
【文檔編號】G06F17/30GK104008171SQ201410242810
【公開日】2014年8月27日 申請日期:2014年6月3日 優(yōu)先權(quán)日:2014年6月3日
【發(fā)明者】劉婕, 張程, 趙曉芳 申請人:中國科學院計算技術(shù)研究所