亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的方法及裝置的制作方法

文檔序號(hào):6618910閱讀:245來源:國知局

專利名稱::一種自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的方法及裝置的制作方法
技術(shù)領(lǐng)域
:本發(fā)明涉及語言處理領(lǐng)域,尤其涉及一種自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的方法及裝置。
背景技術(shù)
:當(dāng)今互聯(lián)網(wǎng)上,擁有大量的信息,除了少部分圖片和視頻,絕大多數(shù)的信息是由文本來組織的,包括大量的新聞、介紹性文章等內(nèi)容。這些文本信息中,有相當(dāng)數(shù)量與產(chǎn)品有關(guān),例如現(xiàn)在互聯(lián)網(wǎng)硬件網(wǎng)站的介紹、評(píng)測(cè)性文章中都大量的出現(xiàn)產(chǎn)品信息。現(xiàn)有的技術(shù)不能有效自動(dòng)的從這些信息中識(shí)別出文章中出現(xiàn)的產(chǎn)品信息,更缺乏相關(guān)技術(shù),對(duì)文章的產(chǎn)品信息進(jìn)行提取。相關(guān)工作包括產(chǎn)品命名實(shí)體識(shí)別的研究,產(chǎn)品命名實(shí)體是指在文本(文章中)出現(xiàn)的用來表征產(chǎn)品信息的短語片段。產(chǎn)品命名實(shí)體識(shí)別屬于計(jì)算語言學(xué)的研究領(lǐng)域。目前有關(guān)文獻(xiàn)發(fā)表的方法主要為基于統(tǒng)計(jì)/概率模型的命名實(shí)體識(shí)別,采用隱馬爾可夫模型HMM、條件隨機(jī)場(chǎng)CRF等方法進(jìn)行命名實(shí)體識(shí)別。相關(guān)研究有中國科學(xué)院計(jì)算技術(shù)研究所張華平等的相關(guān)工作、富士通公司和中國科學(xué)院自動(dòng)化所的劉非凡等進(jìn)行的相關(guān)工作。這些識(shí)別方案是建立在一定的訓(xùn)練樣本的統(tǒng)計(jì)/概率模型的基礎(chǔ)之上,在學(xué)習(xí)/識(shí)別過程中不利用知識(shí)信息。同時(shí)其未對(duì)文本信息中潛在的命名實(shí)體進(jìn)4亍標(biāo)注,而不進(jìn)行與知識(shí)庫的對(duì)應(yīng);導(dǎo)致了知道這個(gè)是一個(gè)實(shí)體,但是不知道這個(gè)實(shí)體具體是什么的問題。
發(fā)明內(nèi)容本發(fā)明要解決的技術(shù)問題是提供一種自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的方法及裝置,能夠識(shí)別出文本中的產(chǎn)品命名實(shí)體,并將該產(chǎn)品命名實(shí)體與知識(shí)庫中的產(chǎn)品信息相對(duì)應(yīng)。為了解決上述問題,本發(fā)明提供了一種自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的方法,包括根據(jù)各產(chǎn)品的產(chǎn)品信息構(gòu)建產(chǎn)品知識(shí)庫;識(shí)別文本中的產(chǎn)品命名實(shí)體;將識(shí)別出的產(chǎn)品命名實(shí)體與所述產(chǎn)品知識(shí)庫中的產(chǎn)品進(jìn)行匹配,確定所述識(shí)別出的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的所述產(chǎn)品知識(shí)庫中的產(chǎn)品。進(jìn)一步地,所述根據(jù)各產(chǎn)品的產(chǎn)品信息構(gòu)建產(chǎn)品知識(shí)庫的步驟包括對(duì)互聯(lián)網(wǎng)上的產(chǎn)品庫的網(wǎng)頁進(jìn)行抓取,并從所抓取的網(wǎng)頁中分別提取出該網(wǎng)頁內(nèi)各產(chǎn)品的產(chǎn)品信息,包括產(chǎn)品名、公司名、技術(shù)參數(shù)和出現(xiàn)頻率,所述產(chǎn)品名包括廠家、品牌名、型號(hào)、系列名等信息中的一個(gè)或幾個(gè);計(jì)算產(chǎn)品名中各信息t對(duì)產(chǎn)品e的權(quán)重V(t|e):先得到出現(xiàn)各e,的概率P(e,)的總和,所述e,為包含t的產(chǎn)品;然后用出現(xiàn)e的概率P(e)除以所述總和得到V(t|e);以產(chǎn)品為條目,將產(chǎn)品信息和產(chǎn)品名中各信息的權(quán)重構(gòu)建為產(chǎn)品知識(shí)庫。進(jìn)一步地,所述識(shí)別文本中的產(chǎn)品命名實(shí)體的步驟包括根據(jù)具體領(lǐng)域產(chǎn)品命名實(shí)體的構(gòu)成規(guī)則,設(shè)定隱馬爾可夫模型的狀態(tài)集合以及產(chǎn)品命名實(shí)體的狀態(tài)模板;通過對(duì)語料庫的標(biāo)注和最大似然法獲取概率參數(shù),所述語料庫是指人工已經(jīng)標(biāo)注好狀態(tài)的文本資料;進(jìn)行狀態(tài)標(biāo)注時(shí)將詞性和知識(shí)信息作為基本狀態(tài)分類標(biāo)準(zhǔn);所述知識(shí)信息包括潛在的公司名、品牌名、型號(hào)和系列名中的一個(gè)或幾個(gè);將文本分割為句子;利用隱馬爾可夫模型計(jì)算出最大概率狀態(tài)序列,根據(jù)最大概率狀態(tài)序列匹配相應(yīng)的產(chǎn)品命名實(shí)體的狀態(tài)模板,識(shí)別出句子中所包括的產(chǎn)品命名實(shí)體。進(jìn)一步地,將識(shí)別出的產(chǎn)品命名實(shí)體與所述產(chǎn)品知識(shí)庫中的產(chǎn)品進(jìn)行匹配,確定所述識(shí)別出的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的所述產(chǎn)品知識(shí)庫中的產(chǎn)品的步驟包括6計(jì)算識(shí)別出來的產(chǎn)品命名實(shí)體對(duì)所述產(chǎn)品知識(shí)庫中的各產(chǎn)品的匹配度;當(dāng)計(jì)算該產(chǎn)品命名實(shí)體對(duì)于一個(gè)產(chǎn)品e的匹配度時(shí),在所述產(chǎn)品知識(shí)庫中查找該產(chǎn)品命名實(shí)體中每個(gè)詞對(duì)于該產(chǎn)品e的權(quán)重,然后相加得到對(duì)于該產(chǎn)品e的匹配度;對(duì)所述產(chǎn)品知識(shí)庫中的所有產(chǎn)品的匹配度進(jìn)行排序,確定匹配度最高的產(chǎn)品為所述識(shí)別出來的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的產(chǎn)品知識(shí)庫中的產(chǎn)品。進(jìn)一步地,所述的方法還包括當(dāng)計(jì)算對(duì)某個(gè)產(chǎn)品的匹配度時(shí),如果所述識(shí)別出來的產(chǎn)品命名實(shí)體前第d個(gè)詞為該產(chǎn)品的廠商信息,則將對(duì)該產(chǎn)品的匹配度增加l/d+4。本發(fā)明還提供了一種自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的裝置,包括構(gòu)建單元,用于根據(jù)各產(chǎn)品的產(chǎn)品信息構(gòu)建產(chǎn)品知識(shí)庫;識(shí)別單元,用于識(shí)別文本中的產(chǎn)品命名實(shí)體;對(duì)應(yīng)單元,用于將識(shí)別出的產(chǎn)品命名實(shí)體與所述產(chǎn)品知識(shí)庫中的產(chǎn)品進(jìn)行匹配,確定所述識(shí)別出的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的所述產(chǎn)品知識(shí)庫中的產(chǎn)印o進(jìn)一步地,所述構(gòu)建單元包括提取模塊,用于對(duì)互聯(lián)網(wǎng)上的產(chǎn)品庫的網(wǎng)頁進(jìn)行抓取,并從所抓取的網(wǎng)頁中分別提取出該網(wǎng)頁內(nèi)各產(chǎn)品的產(chǎn)品信息,包括產(chǎn)品名、公司名、技術(shù)參數(shù)和出現(xiàn)頻率,所述產(chǎn)品名包括廠家、品牌名、型號(hào)、系列名等信息中的一個(gè)或幾個(gè);權(quán)重計(jì)算模塊,用于計(jì)算產(chǎn)品名中各信息t對(duì)產(chǎn)品e的權(quán)重V(t|e):先得到出現(xiàn)各e,的概率P(e,)的總和,所述e,為包含t的產(chǎn)品;然后用出現(xiàn)e的概率P(e)除以所述總和得到V(t|e);建庫模塊,用于以產(chǎn)品為條目,將產(chǎn)品信息和產(chǎn)品名中各信息的權(quán)重構(gòu)建為產(chǎn)品知識(shí)庫。進(jìn)一步地,所述識(shí)別單元包括設(shè)置模塊,用于根據(jù)具體領(lǐng)域產(chǎn)品命名實(shí)體的構(gòu)成規(guī)則,設(shè)定隱馬爾可夫模型的狀態(tài)集合以及產(chǎn)品命名實(shí)體的狀態(tài)模板;參數(shù)計(jì)算模塊,通過對(duì)預(yù)存的語料庫的標(biāo)注和最大似然法獲取概率參數(shù),所述語料庫是指人工已經(jīng)標(biāo)注好狀態(tài)的文本資料;進(jìn)行狀態(tài)標(biāo)注時(shí)將詞性和知識(shí)信息作為基本狀態(tài)分類標(biāo)準(zhǔn);所述知識(shí)信息包括潛在的公司名、品牌名、型號(hào)和系列名中的一個(gè)或幾個(gè);識(shí)別模塊,用于將文本分割為句子,利用隱馬爾可夫模型計(jì)算出最大概率狀態(tài)序列,根據(jù)最大概率狀態(tài)序列匹配相應(yīng)的產(chǎn)品命名實(shí)體的狀態(tài)模板,分別識(shí)別出各句子中所包括的產(chǎn)品命名實(shí)體。進(jìn)一步地,所述對(duì)應(yīng)單元包括計(jì)算模塊,計(jì)算識(shí)別出來的產(chǎn)品命名實(shí)體對(duì)所述產(chǎn)品知識(shí)庫中的各產(chǎn)品的匹配度;該產(chǎn)品命名實(shí)體對(duì)于一個(gè)產(chǎn)品e的匹配度為所述產(chǎn)品知識(shí)庫中該產(chǎn)品命名實(shí)體中每個(gè)詞對(duì)于該產(chǎn)品e的權(quán)重之和;選擇模塊,用于對(duì)匹配度排序,選擇匹配度最高的產(chǎn)品為所述識(shí)別出來的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的產(chǎn)品知識(shí)庫中的產(chǎn)品。進(jìn)一步地,所述對(duì)應(yīng)單元還包括加權(quán)模塊,用于當(dāng)所述識(shí)別出來的產(chǎn)品命名實(shí)體前第d個(gè)詞為某個(gè)產(chǎn)品的廠商信息時(shí),將對(duì)該產(chǎn)品的匹配度增加1/d+4。本發(fā)明的技術(shù)方案能夠自動(dòng)的提取文本中關(guān)于產(chǎn)品命名實(shí)體的語義信息,并將其與產(chǎn)品知識(shí)庫中的相關(guān)數(shù)據(jù)項(xiàng)相對(duì)應(yīng),提高了識(shí)別的正確性,并圖1為實(shí)施例二中的自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的裝置的示意框圖。具體實(shí)施例方式下面將結(jié)合附圖及實(shí)施例對(duì)本發(fā)明的技術(shù)方案進(jìn)行更詳細(xì)的說明。本文中,產(chǎn)品知識(shí)庫是指存儲(chǔ)產(chǎn)品信息通過自動(dòng)、手工辦法維護(hù),并具有自更新能力的數(shù)據(jù)庫。其中每一數(shù)據(jù)項(xiàng)對(duì)應(yīng)一種具體的硬件產(chǎn)品,包含產(chǎn)品名、生產(chǎn)廠家等可以幫助識(shí)別的產(chǎn)品信息。實(shí)施例一,一種自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的方法,包括根據(jù)各產(chǎn)品的產(chǎn)品信息構(gòu)建產(chǎn)品知識(shí)庫;識(shí)別文本中的產(chǎn)品命名實(shí)體;將識(shí)別出的產(chǎn)品命名實(shí)體與所述產(chǎn)品知識(shí)庫中的產(chǎn)品進(jìn)行匹S己,確定所述識(shí)別出的產(chǎn)品命名實(shí)體為所述產(chǎn)品知識(shí)庫中匹配度最高的產(chǎn)品。本實(shí)施例中,所述根據(jù)各產(chǎn)品的產(chǎn)品信息構(gòu)建產(chǎn)品知識(shí)庫的步驟包括對(duì)互聯(lián)網(wǎng)上的產(chǎn)品庫的網(wǎng)頁進(jìn)行抓取,并從所抓取的網(wǎng)頁中分別提取出該網(wǎng)頁內(nèi)各產(chǎn)品的產(chǎn)品信息,包括產(chǎn)品名、公司名、技術(shù)參數(shù)、出現(xiàn)頻率(一般用相關(guān)文章數(shù)量來替換)等等,所述產(chǎn)品名包括廠家、品牌名、型號(hào)、系列名等信息中的一個(gè)或幾個(gè);以產(chǎn)品為條目,將產(chǎn)品信息構(gòu)建為產(chǎn)品知識(shí)庫,并自適應(yīng)調(diào)節(jié)產(chǎn)品名中各信息的權(quán)重。如一網(wǎng)頁中的文本標(biāo)題為"佳能EOS450D(CanonEos450D),,,標(biāo)注了實(shí)體標(biāo)準(zhǔn)名為佳能EOS450D,別名為CanonEos450D。而在該網(wǎng)頁后繼部分中標(biāo)注了相關(guān)文章。利用該信息及下一等式V(t|e)=P(t|g)P(e)~~可以計(jì)算出每個(gè)詞的權(quán)重,V(tle)為詞t對(duì)實(shí)體e(這里就是指產(chǎn)品)的權(quán)重,P(elt)為出現(xiàn)e在t下的概率,具體為后面的分式,其中P(e)為出現(xiàn)實(shí)體e的概率,e'為包含詞t的各實(shí)體,一個(gè)詞t可能包含在多個(gè)實(shí)體中,比如廠家名。在大量抓取網(wǎng)頁信息的時(shí)候,概率用所述出現(xiàn)頻率近似,也不排除用其它方式得到。建立好的產(chǎn)品知識(shí)庫以產(chǎn)品為條目,每個(gè)條目中包括該產(chǎn)品的產(chǎn)品名和其它產(chǎn)品信息,還包括構(gòu)成該產(chǎn)品名的各個(gè)組成部分的詞的權(quán)重信息。每個(gè)詞t在產(chǎn)品e的權(quán)重V(tle)即為上以等式所求。這里的詞t就是指上文所述的產(chǎn)品名中的一種信息,比如廠家、品牌名、型號(hào)或系列名。本實(shí)施例中,所述識(shí)別文本中的產(chǎn)品命名實(shí)體的步驟包括根據(jù)具體領(lǐng)域產(chǎn)品命名實(shí)體的主要構(gòu)成規(guī)則,設(shè)定隱馬爾可夫模型的狀態(tài)集合以及產(chǎn)品命名實(shí)體的狀態(tài)模板;對(duì)要識(shí)別的文本按句子切割,分割后分別按照各句子中相應(yīng)語義成分的相對(duì)位置、句子角色匹配所述狀態(tài)模塊,根據(jù)所述狀態(tài)模板對(duì)句子里的詞語進(jìn)行狀態(tài)標(biāo)注;進(jìn)行狀態(tài)標(biāo)注時(shí)除了將詞性作為基本狀態(tài)分類標(biāo)準(zhǔn)以外,本實(shí)施例中還利用了知識(shí)信息,對(duì)潛在的公司名、品牌名、型號(hào)和系列名進(jìn)行狀態(tài)分類。例如利用知識(shí)信息標(biāo)注潛在的品牌名、潛在系列名和潛在型號(hào)中的一個(gè)或幾個(gè)。潛在的品牌名、系列名、型號(hào)的列表是根據(jù)具體領(lǐng)域事先整理出來的。比如文本中的一個(gè)句子為"這款聯(lián)想天逸F31A-ST配備的250GB硬盤",其中"聯(lián)想"為實(shí)體內(nèi)品牌名,"天逸"為系列名,"F31A-ST"為型號(hào);將句子中相應(yīng)詞的狀態(tài)分別標(biāo)注為所述實(shí)體的品牌、系列名和型號(hào)。根據(jù)具體領(lǐng)域產(chǎn)品實(shí)體定義狀態(tài)集合,通過對(duì)語料庫的標(biāo)注和最大似然法獲取概率參數(shù),所述語料庫是指人工已經(jīng)標(biāo)注好狀態(tài)(就是實(shí)體)的文本資料,所述概率參數(shù)即概率矩陣,是隱馬爾可夫模型中的三要素之一,直觀來說就是代表什么樣的序列有多大概率是實(shí)體;然后將任意的文本作為觀察序列,利用隱馬爾可夫模型可以計(jì)算出最大概率狀態(tài)序列,根據(jù)最大概率狀態(tài)序列匹配相應(yīng)的產(chǎn)品命名實(shí)體的狀態(tài)模板,獲取相應(yīng)的識(shí)別結(jié)果,即識(shí)別出句子中所包括的產(chǎn)品命名實(shí)體。實(shí)際應(yīng)用中也可以利用其它模型進(jìn)行狀態(tài)模板的匹配。過機(jī)器學(xué)習(xí)來計(jì)算出概率參數(shù);之后利用概率參數(shù)和觀察值來計(jì)算最有可能的結(jié)果。需要注意的是,實(shí)際文本中出現(xiàn)的產(chǎn)品命名實(shí)體有可能是一個(gè)完整的實(shí)體中的一部分,有可能缺少廠家,型號(hào),系列名等產(chǎn)品信息中的一個(gè)或多個(gè)。本實(shí)施例中,所述將識(shí)別出的產(chǎn)品命名實(shí)體與所述產(chǎn)品知識(shí)庫中的產(chǎn)品進(jìn)行匹配,確定所述識(shí)別出的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的所述產(chǎn)品知識(shí)庫中的產(chǎn)品的步驟包括相應(yīng)的,對(duì)于識(shí)別出來的產(chǎn)品命名實(shí)體,通過計(jì)算權(quán)重V(tle)和,可以得到這個(gè)產(chǎn)品命名實(shí)體對(duì)知識(shí)庫中的產(chǎn)品e的匹配度。同時(shí)可以進(jìn)一步利用該產(chǎn)品命名實(shí)體所在文本上下文中出現(xiàn)的廠商信息對(duì)所述匹配度進(jìn)行加權(quán),加斥又辦法為1.0」,實(shí)體前第d個(gè)詞指示了產(chǎn)品e的廠商信息d+40,之前沒有指示產(chǎn)品e的廠商信息最后的Me即為所述識(shí)別出來的產(chǎn)品命名實(shí)體對(duì)產(chǎn)品e的匹配度。對(duì)產(chǎn)品知識(shí)庫中的所有產(chǎn)品el,e2,…,en做匹配度計(jì)算后排序,確定匹配度最高的產(chǎn)品為所述識(shí)別出來的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的產(chǎn)品知識(shí)庫中的產(chǎn)品。比如包含所述識(shí)別出來的產(chǎn)品命名實(shí)體的句子為Wlw2...wn,k就是該產(chǎn)品命名實(shí)體第一個(gè)詞的位置,l為該產(chǎn)品命名實(shí)體結(jié)束的詞的位置,即wkwk+1...Wl為一個(gè)實(shí)體,Wi就是所述識(shí)別出來的產(chǎn)品命名實(shí)體中的一個(gè)詞;也就是說當(dāng)計(jì)算所述識(shí)別出來的產(chǎn)品命名實(shí)體對(duì)于某個(gè)產(chǎn)品e的匹配度時(shí),在所述產(chǎn)品知識(shí)庫中查找該產(chǎn)品命名實(shí)體中每個(gè)詞對(duì)于該產(chǎn)品e的權(quán)重,然后相加得到對(duì)于該產(chǎn)品e的匹配度;如果進(jìn)行加權(quán),則當(dāng)所述識(shí)別出來的產(chǎn)品命名實(shí)體前第d個(gè)詞為某個(gè)產(chǎn)品的廠商信息時(shí),將對(duì)該產(chǎn)品e的匹配度增加1/d+4。實(shí)際應(yīng)用時(shí),還可以用別的產(chǎn)品信息來進(jìn)行加權(quán);加權(quán)的值也可以是其它計(jì)算式。下面用一個(gè)實(shí)例具體說明。例如規(guī)定可能的觀察值的集合如下將待識(shí)別的句子進(jìn)行中文分詞且按照PKU-POS規(guī)定的詞性集合進(jìn)行詞性標(biāo)注;每種詞性歸為一種觀察值。PKU-POS是一種由北京大學(xué)計(jì)算語言所創(chuàng)立的漢語詞性標(biāo)注標(biāo)準(zhǔn),例如名詞為n,人名nr等等。并利用知識(shí)信息標(biāo)注潛在的品牌名、潛在系列名和潛在型號(hào)中的一個(gè)或幾個(gè)。如果某個(gè)詞是一個(gè)已知的公司、商標(biāo)、組織的名稱,確定其觀察值為"CN,,;如果某個(gè)詞是一個(gè)字母、數(shù)字的組合,確定其觀察值為潛在的型號(hào)名"畫,,;如果某個(gè)詞是一個(gè)潛在的限制屬性,確定其觀察值為"LA"。將不同的觀察值作為不同的狀態(tài),利用觀察值來判斷哪一字段最有可能是實(shí)體;由出現(xiàn)過的多個(gè)狀態(tài)的各種連接方式得到不同的狀態(tài)模塊。得到如表1所示的狀態(tài)集合和如表2所示的產(chǎn)品命名實(shí)體的狀態(tài)模板表l、狀態(tài)集合<table>tableseeoriginaldocumentpage12</column></row><table>表2、產(chǎn)品命名實(shí)體的模板<table>tableseeoriginaldocumentpage12</column></row><table>通過以上一些要素可以利用隱馬爾可夫^t型進(jìn)行命名實(shí)體識(shí)別。然后通過從中關(guān)村在線zol.com.cn上獲取的信息,進(jìn)行與所述產(chǎn)品知識(shí)庫的對(duì)應(yīng)工作,例如如下一句"S550相機(jī)繼承了尼康COOLPIX系列產(chǎn)品的優(yōu)點(diǎn)"其中僅S550—詞被識(shí)別為實(shí)體。假設(shè)庫中擁有"尼康S550"和"紐曼S550"兩個(gè)產(chǎn)品,且這兩個(gè)產(chǎn)品的出現(xiàn)頻度一樣。根據(jù)上一等式,該實(shí)體仍能被正確識(shí)別為尼康S550,因?yàn)槠渖舷挛某霈F(xiàn)了"尼康",在和式1.0/(d+4)這一項(xiàng)中提供較高權(quán)重,對(duì)知識(shí)庫中所有實(shí)體排序后"尼康S550"的匹配度將最高,因此識(shí)別結(jié)果為尼康S550。實(shí)施例二,一種自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的裝置,如圖l所示,包括構(gòu)建單元,用于才艮據(jù)各產(chǎn)品的產(chǎn)品信息構(gòu)建產(chǎn)品知識(shí)庫;識(shí)別單元,用于識(shí)別文本中的產(chǎn)品命名實(shí)體;對(duì)應(yīng)單元,用于將識(shí)別出的產(chǎn)品命名實(shí)體與所述產(chǎn)品知識(shí)庫中的產(chǎn)品進(jìn)行匹配,確定所述識(shí)別出的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的所述產(chǎn)品知識(shí)庫中的產(chǎn)口Po本實(shí)施例中,所述構(gòu)建單元包括提取模塊,用于對(duì)互聯(lián)網(wǎng)上的產(chǎn)品庫的網(wǎng)頁進(jìn)行抓取,并從所抓取的網(wǎng)頁中分別提取出該網(wǎng)頁內(nèi)各產(chǎn)品的產(chǎn)品信息,包括產(chǎn)品名、公司名、技術(shù)參數(shù)和出現(xiàn)頻率,所述產(chǎn)品名包括廠家、品牌名、型號(hào)、系列名等信息中的一個(gè)或幾個(gè);權(quán)重計(jì)算模塊,用于計(jì)算產(chǎn)品名中各信息t對(duì)產(chǎn)品e的權(quán)重V(t|e):先得到出現(xiàn)各e,的概率P(e,)的總和,所述e,為包含t的產(chǎn)品;然后用出現(xiàn)e的概率P(e)除以所述總和得到V(t|e);所述概率可以但不限于為所述出現(xiàn)頻率;建庫模塊,用于以產(chǎn)品為條目,將產(chǎn)品信息和產(chǎn)品名中各信息的權(quán)重構(gòu)建為產(chǎn)品知識(shí)庫。本實(shí)施例中,所述識(shí)別單元包括設(shè)置模塊,用于根據(jù)具體領(lǐng)域產(chǎn)品命名實(shí)體的構(gòu)成規(guī)則,設(shè)定隱馬爾可夫模型的狀態(tài)集合以及產(chǎn)品命名實(shí)體的狀態(tài)模板;參數(shù)計(jì)算模塊,通過對(duì)預(yù)存的語料庫的標(biāo)注和最大似然法獲取概率參數(shù),所述語料庫是指人工已經(jīng)標(biāo)注好狀態(tài)的文本資料;進(jìn)行狀態(tài)標(biāo)注時(shí)將詞性和知識(shí)信息作為基本狀態(tài)分類標(biāo)準(zhǔn);所述知識(shí)信息包括潛在的公司名、品牌名、型號(hào)和系列名中的一個(gè)或幾個(gè);識(shí)別模塊,用于將文本分割為句子,利用隱馬爾可夫模型計(jì)算出最大概率狀態(tài)序列,根據(jù)最大概率狀態(tài)序列匹配相應(yīng)的產(chǎn)品命名實(shí)體的狀態(tài)模板,分別識(shí)別出各句子中所包括的產(chǎn)品命名實(shí)體。本實(shí)施例中,所述對(duì)應(yīng)單元包括計(jì)算模塊,計(jì)算識(shí)別出來的產(chǎn)品命名實(shí)體對(duì)所述產(chǎn)品知識(shí)庫中的各產(chǎn)品的匹配度;該產(chǎn)品命名實(shí)體對(duì)于一個(gè)產(chǎn)品e的匹配度為所述產(chǎn)品知識(shí)庫中該產(chǎn)品命名實(shí)體中每個(gè)詞對(duì)于該產(chǎn)品e的權(quán)重之和;選捧模塊,用于對(duì)產(chǎn)品知識(shí)庫中的所有產(chǎn)品做匹配度計(jì)算后排序,選擇匹配度最高的產(chǎn)品為所述識(shí)別出來的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的產(chǎn)品知識(shí)庫中的產(chǎn)品。本實(shí)施例中,所述對(duì)應(yīng)單元還可以包括加權(quán)模塊,用于當(dāng)所述識(shí)別出來的產(chǎn)品命名實(shí)體前第d個(gè)詞為某個(gè)產(chǎn)品的廠商信息時(shí),將對(duì)該產(chǎn)品的匹配度增加1/d+4。其它實(shí)現(xiàn)細(xì)節(jié)可以與實(shí)施例一相同。當(dāng)然,本發(fā)明還可有其他多種實(shí)施例,在不背離本明精神及其實(shí)質(zhì)的形,但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明的權(quán)利要求的保護(hù)范圍。權(quán)利要求1、一種自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的方法,包括根據(jù)各產(chǎn)品的產(chǎn)品信息構(gòu)建產(chǎn)品知識(shí)庫;識(shí)別文本中的產(chǎn)品命名實(shí)體;將識(shí)別出的產(chǎn)品命名實(shí)體與所述產(chǎn)品知識(shí)庫中的產(chǎn)品進(jìn)行匹配,確定所述識(shí)別出的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的所述產(chǎn)品知識(shí)庫中的產(chǎn)品。2、如權(quán)利要求l所述的方法,其特征在于,所述根據(jù)各產(chǎn)品的產(chǎn)品信息構(gòu)建產(chǎn)品知識(shí)庫的步驟包括對(duì)互聯(lián)網(wǎng)上的產(chǎn)品庫的網(wǎng)頁進(jìn)行抓取,并從所抓取的網(wǎng)頁中分別提取出該網(wǎng)頁內(nèi)各產(chǎn)品的產(chǎn)品信息,包括產(chǎn)品名、公司名、技術(shù)參數(shù)和出現(xiàn)頻率,所述產(chǎn)品名包括廠家、品牌名、型號(hào)、系列名等信息中的一個(gè)或幾個(gè);計(jì)算產(chǎn)品名中各信息t對(duì)產(chǎn)品e的權(quán)重V(t|e):先得到出現(xiàn)各e,的概率P(e,)的總和,所述e,為包含t的產(chǎn)品;然后用出現(xiàn)e的概率P(e)除以所述總和得到V(t|e);以產(chǎn)品為條目,將產(chǎn)品信息和產(chǎn)品名中各信息的權(quán)重構(gòu)建為產(chǎn)品知識(shí)庫。3、如權(quán)利要求1所述的方法,其特征在于,所述識(shí)別文本中的產(chǎn)品命名實(shí)體的步驟包括根據(jù)具體領(lǐng)域產(chǎn)品命名實(shí)體的構(gòu)成規(guī)則,設(shè)定隱馬爾可夫模型的狀態(tài)集合以及產(chǎn)品命名實(shí)體的狀態(tài)才莫板;通過對(duì)語料庫的標(biāo)注和最大似然法獲取概率參數(shù),所述語料庫是指人工已經(jīng)標(biāo)注好狀態(tài)的文本資料;進(jìn)行狀態(tài)標(biāo)注時(shí)將詞性和知識(shí)信息作為基本狀態(tài)分類標(biāo)準(zhǔn);所述知識(shí)信息包括潛在的公司名、品牌名、型號(hào)和系列名中的一個(gè)或幾個(gè);將文本分割為句子;利用隱馬爾可夫模型計(jì)算出最大概率狀態(tài)序列,根據(jù)最大概率狀態(tài)序列匹配相應(yīng)的產(chǎn)品命名實(shí)體的狀態(tài)模板,識(shí)別出句子中所包括的產(chǎn)品命名實(shí)體。4、如權(quán)利要求2所述的方法,其特征在于,將識(shí)別出的產(chǎn)品命名實(shí)體與所述產(chǎn)品知識(shí)庫中的產(chǎn)品進(jìn)行匹配,確定所述識(shí)別出的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的所述產(chǎn)品知識(shí)庫中的產(chǎn)品的步驟包括計(jì)算識(shí)別出來的產(chǎn)品命名實(shí)體對(duì)所述產(chǎn)品知識(shí)庫中的各產(chǎn)品的匹配度;當(dāng)計(jì)算產(chǎn)品命名實(shí)體對(duì)一個(gè)產(chǎn)品e的匹配度時(shí),在所述產(chǎn)品知識(shí)庫中查找該產(chǎn)品命名實(shí)體中每個(gè)詞對(duì)于該產(chǎn)品e的權(quán)重,然后相加得到對(duì)于該產(chǎn)品e的匹配度;對(duì)所述產(chǎn)品知識(shí)庫中的所有產(chǎn)品的匹配度進(jìn)行排序,確定匹配度最高的產(chǎn)品為所述識(shí)別出來的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的產(chǎn)品知識(shí)庫中的產(chǎn)品。5、如權(quán)利要求4所述的方法,其特征在于,還包括當(dāng)計(jì)算對(duì)某個(gè)產(chǎn)品的匹配度時(shí),如果所述識(shí)別出來的產(chǎn)品命名實(shí)體前第d個(gè)詞為該產(chǎn)品的廠商信息,則將對(duì)該產(chǎn)品的匹配度增加1/d+4。6、一種自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的裝置,其特征在于,包括構(gòu)建單元,用于根據(jù)各產(chǎn)品的產(chǎn)品信息構(gòu)建產(chǎn)品知識(shí)庫;識(shí)別單元,用于識(shí)別文本中的產(chǎn)品命名實(shí)體;對(duì)應(yīng)單元,用于將識(shí)別出的產(chǎn)品命名實(shí)體與所述產(chǎn)品知識(shí)庫中的產(chǎn)品進(jìn)行匹配,確定所述識(shí)別出的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的所述產(chǎn)品知識(shí)庫中的產(chǎn)品07、如權(quán)利要求6所述的裝置,其特征在于,所述構(gòu)建單元包括提取模塊,用于對(duì)互聯(lián)網(wǎng)上的產(chǎn)品庫的網(wǎng)頁進(jìn)行抓取,并從所抓取的網(wǎng)頁中分別提取出該網(wǎng)頁內(nèi)各產(chǎn)品的產(chǎn)品信息,包括產(chǎn)品名、公司名、技術(shù)參數(shù)和出現(xiàn)頻率,所述產(chǎn)品名包括廠家、品牌名、型號(hào)、系列名等信息中的一個(gè)或幾個(gè);權(quán)重計(jì)算模塊,用于計(jì)算產(chǎn)品名中各信息t對(duì)產(chǎn)品e的權(quán)重V(t|e):先得到出現(xiàn)各e,的概率P(e,)的總和,所述e,為包含t的產(chǎn)品;然后用出現(xiàn)e的概率P(e)除以所述總和得到V(t|e);建庫模塊,用于以產(chǎn)品為條目,將產(chǎn)品信息和產(chǎn)品名中各信息的權(quán)重構(gòu)建為產(chǎn)品知識(shí)庫。8、如權(quán)利要求6所述的裝置,其特征在于,所述識(shí)別單元包括設(shè)置模塊,用于根據(jù)具體領(lǐng)域產(chǎn)品命名實(shí)體的構(gòu)成規(guī)則,設(shè)定隱馬爾可夫模型的狀態(tài)集合以及產(chǎn)品命名實(shí)體的狀態(tài)模板;參數(shù)計(jì)算模塊,通過對(duì)預(yù)存的語料庫的標(biāo)注和最大似然法獲取概率參數(shù),所述語料庫是指人工已經(jīng)標(biāo)注好狀態(tài)的文本資料;進(jìn)行狀態(tài)標(biāo)注時(shí)將詞性和知識(shí)信息作為基本狀態(tài)分類標(biāo)準(zhǔn);所述知識(shí)信息包括潛在的公司名、品牌名、型號(hào)和系列名中的一個(gè)或幾個(gè);識(shí)別模塊,用于將文本分割為句子,利用隱馬爾可夫模型計(jì)算出最大概率狀態(tài)序列,根據(jù)最大概率狀態(tài)序列匹配相應(yīng)的產(chǎn)品命名實(shí)體的狀態(tài)模板,分別識(shí)別出各句子中所包括的產(chǎn)品命名實(shí)體。9、如權(quán)利要求7所述的裝置,其特征在于,所述對(duì)應(yīng)單元包括計(jì)算模塊,計(jì)算識(shí)別出來的產(chǎn)品命名實(shí)體對(duì)所述產(chǎn)品知識(shí)庫中的各產(chǎn)品的匹配度;該產(chǎn)品命名實(shí)體對(duì)于一個(gè)產(chǎn)品e的匹配度為所述產(chǎn)品知識(shí)庫中該產(chǎn)品命名實(shí)體中每個(gè)詞對(duì)于該產(chǎn)品e的權(quán)重之和;其中,k是所述識(shí)別出來的產(chǎn)品命名實(shí)體第一個(gè)詞在包含該產(chǎn)品命名實(shí)體的句子中的位置,1為該產(chǎn)品命名實(shí)體結(jié)束的詞在包含該產(chǎn)品命名實(shí)體的句子中的位置;Wi是所述識(shí)別出來的產(chǎn)品命名實(shí)體中的一個(gè)詞;選擇模塊,用于對(duì)匹配度排序,選擇匹配度最高的產(chǎn)品為所述識(shí)別出來的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的產(chǎn)品知識(shí)庫中的產(chǎn)品。10、如權(quán)利要求9所述的裝置,其特征在于,所述對(duì)應(yīng)單元還包括加權(quán)模塊,用于當(dāng)所述識(shí)別出來的產(chǎn)品命名實(shí)體前第d個(gè)詞為某個(gè)產(chǎn)品的廠商信息時(shí),將對(duì)該產(chǎn)品的匹配度增加1/d+4。全文摘要本發(fā)明公開了一種自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的方法及裝置;方法包括根據(jù)各產(chǎn)品的產(chǎn)品信息構(gòu)建產(chǎn)品知識(shí)庫;識(shí)別文本中的產(chǎn)品命名實(shí)體;將識(shí)別出的產(chǎn)品命名實(shí)體與所述產(chǎn)品知識(shí)庫中的產(chǎn)品進(jìn)行匹配,確定所述識(shí)別出的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的所述產(chǎn)品知識(shí)庫中的產(chǎn)品。本發(fā)明能夠識(shí)別出文本中的產(chǎn)品命名實(shí)體,并將該產(chǎn)品命名實(shí)體與知識(shí)庫中的產(chǎn)品信息相對(duì)應(yīng)。文檔編號(hào)G06F17/30GK101576910SQ200910085070公開日2009年11月11日申請(qǐng)日期2009年5月31日優(yōu)先權(quán)日2009年5月31日發(fā)明者于文淵申請(qǐng)人:北京學(xué)之途網(wǎng)絡(luò)科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1