一種自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的方法及裝置的制作方法

文檔序號(hào)：6618910閱讀：245來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：：一種自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的方法及裝置的制作方法
技術(shù)領(lǐng)域：
：本發(fā)明涉及語言處理領(lǐng)域，尤其涉及一種自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的方法及裝置。
背景技術(shù)：
：當(dāng)今互聯(lián)網(wǎng)上，擁有大量的信息，除了少部分圖片和視頻，絕大多數(shù)的信息是由文本來組織的，包括大量的新聞、介紹性文章等內(nèi)容。這些文本信息中，有相當(dāng)數(shù)量與產(chǎn)品有關(guān)，例如現(xiàn)在互聯(lián)網(wǎng)硬件網(wǎng)站的介紹、評(píng)測(cè)性文章中都大量的出現(xiàn)產(chǎn)品信息。現(xiàn)有的技術(shù)不能有效自動(dòng)的從這些信息中識(shí)別出文章中出現(xiàn)的產(chǎn)品信息，更缺乏相關(guān)技術(shù)，對(duì)文章的產(chǎn)品信息進(jìn)行提取。相關(guān)工作包括產(chǎn)品命名實(shí)體識(shí)別的研究，產(chǎn)品命名實(shí)體是指在文本(文章中)出現(xiàn)的用來表征產(chǎn)品信息的短語片段。產(chǎn)品命名實(shí)體識(shí)別屬于計(jì)算語言學(xué)的研究領(lǐng)域。目前有關(guān)文獻(xiàn)發(fā)表的方法主要為基于統(tǒng)計(jì)/概率模型的命名實(shí)體識(shí)別，采用隱馬爾可夫模型HMM、條件隨機(jī)場(chǎng)CRF等方法進(jìn)行命名實(shí)體識(shí)別。相關(guān)研究有中國科學(xué)院計(jì)算技術(shù)研究所張華平等的相關(guān)工作、富士通公司和中國科學(xué)院自動(dòng)化所的劉非凡等進(jìn)行的相關(guān)工作。這些識(shí)別方案是建立在一定的訓(xùn)練樣本的統(tǒng)計(jì)/概率模型的基礎(chǔ)之上，在學(xué)習(xí)/識(shí)別過程中不利用知識(shí)信息。同時(shí)其未對(duì)文本信息中潛在的命名實(shí)體進(jìn)4亍標(biāo)注，而不進(jìn)行與知識(shí)庫的對(duì)應(yīng)；導(dǎo)致了知道這個(gè)是一個(gè)實(shí)體，但是不知道這個(gè)實(shí)體具體是什么的問題。
發(fā)明內(nèi)容本發(fā)明要解決的技術(shù)問題是提供一種自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的方法及裝置，能夠識(shí)別出文本中的產(chǎn)品命名實(shí)體，并將該產(chǎn)品命名實(shí)體與知識(shí)庫中的產(chǎn)品信息相對(duì)應(yīng)。為了解決上述問題，本發(fā)明提供了一種自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的方法，包括根據(jù)各產(chǎn)品的產(chǎn)品信息構(gòu)建產(chǎn)品知識(shí)庫；識(shí)別文本中的產(chǎn)品命名實(shí)體；將識(shí)別出的產(chǎn)品命名實(shí)體與所述產(chǎn)品知識(shí)庫中的產(chǎn)品進(jìn)行匹配，確定所述識(shí)別出的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的所述產(chǎn)品知識(shí)庫中的產(chǎn)品。進(jìn)一步地，所述根據(jù)各產(chǎn)品的產(chǎn)品信息構(gòu)建產(chǎn)品知識(shí)庫的步驟包括對(duì)互聯(lián)網(wǎng)上的產(chǎn)品庫的網(wǎng)頁進(jìn)行抓取，并從所抓取的網(wǎng)頁中分別提取出該網(wǎng)頁內(nèi)各產(chǎn)品的產(chǎn)品信息，包括產(chǎn)品名、公司名、技術(shù)參數(shù)和出現(xiàn)頻率，所述產(chǎn)品名包括廠家、品牌名、型號(hào)、系列名等信息中的一個(gè)或幾個(gè)；計(jì)算產(chǎn)品名中各信息t對(duì)產(chǎn)品e的權(quán)重V(t|e):先得到出現(xiàn)各e，的概率P(e，)的總和，所述e，為包含t的產(chǎn)品；然后用出現(xiàn)e的概率P(e)除以所述總和得到V(t|e);以產(chǎn)品為條目，將產(chǎn)品信息和產(chǎn)品名中各信息的權(quán)重構(gòu)建為產(chǎn)品知識(shí)庫。進(jìn)一步地，所述識(shí)別文本中的產(chǎn)品命名實(shí)體的步驟包括根據(jù)具體領(lǐng)域產(chǎn)品命名實(shí)體的構(gòu)成規(guī)則，設(shè)定隱馬爾可夫模型的狀態(tài)集合以及產(chǎn)品命名實(shí)體的狀態(tài)模板；通過對(duì)語料庫的標(biāo)注和最大似然法獲取概率參數(shù)，所述語料庫是指人工已經(jīng)標(biāo)注好狀態(tài)的文本資料；進(jìn)行狀態(tài)標(biāo)注時(shí)將詞性和知識(shí)信息作為基本狀態(tài)分類標(biāo)準(zhǔn)；所述知識(shí)信息包括潛在的公司名、品牌名、型號(hào)和系列名中的一個(gè)或幾個(gè)；將文本分割為句子；利用隱馬爾可夫模型計(jì)算出最大概率狀態(tài)序列，根據(jù)最大概率狀態(tài)序列匹配相應(yīng)的產(chǎn)品命名實(shí)體的狀態(tài)模板，識(shí)別出句子中所包括的產(chǎn)品命名實(shí)體。進(jìn)一步地，將識(shí)別出的產(chǎn)品命名實(shí)體與所述產(chǎn)品知識(shí)庫中的產(chǎn)品進(jìn)行匹配，確定所述識(shí)別出的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的所述產(chǎn)品知識(shí)庫中的產(chǎn)品的步驟包括6計(jì)算識(shí)別出來的產(chǎn)品命名實(shí)體對(duì)所述產(chǎn)品知識(shí)庫中的各產(chǎn)品的匹配度；當(dāng)計(jì)算該產(chǎn)品命名實(shí)體對(duì)于一個(gè)產(chǎn)品e的匹配度時(shí)，在所述產(chǎn)品知識(shí)庫中查找該產(chǎn)品命名實(shí)體中每個(gè)詞對(duì)于該產(chǎn)品e的權(quán)重，然后相加得到對(duì)于該產(chǎn)品e的匹配度；對(duì)所述產(chǎn)品知識(shí)庫中的所有產(chǎn)品的匹配度進(jìn)行排序，確定匹配度最高的產(chǎn)品為所述識(shí)別出來的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的產(chǎn)品知識(shí)庫中的產(chǎn)品。進(jìn)一步地，所述的方法還包括當(dāng)計(jì)算對(duì)某個(gè)產(chǎn)品的匹配度時(shí)，如果所述識(shí)別出來的產(chǎn)品命名實(shí)體前第d個(gè)詞為該產(chǎn)品的廠商信息，則將對(duì)該產(chǎn)品的匹配度增加l/d+4。本發(fā)明還提供了一種自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的裝置，包括構(gòu)建單元，用于根據(jù)各產(chǎn)品的產(chǎn)品信息構(gòu)建產(chǎn)品知識(shí)庫；識(shí)別單元，用于識(shí)別文本中的產(chǎn)品命名實(shí)體；對(duì)應(yīng)單元，用于將識(shí)別出的產(chǎn)品命名實(shí)體與所述產(chǎn)品知識(shí)庫中的產(chǎn)品進(jìn)行匹配，確定所述識(shí)別出的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的所述產(chǎn)品知識(shí)庫中的產(chǎn)印o進(jìn)一步地，所述構(gòu)建單元包括提取模塊，用于對(duì)互聯(lián)網(wǎng)上的產(chǎn)品庫的網(wǎng)頁進(jìn)行抓取，并從所抓取的網(wǎng)頁中分別提取出該網(wǎng)頁內(nèi)各產(chǎn)品的產(chǎn)品信息，包括產(chǎn)品名、公司名、技術(shù)參數(shù)和出現(xiàn)頻率，所述產(chǎn)品名包括廠家、品牌名、型號(hào)、系列名等信息中的一個(gè)或幾個(gè)；權(quán)重計(jì)算模塊，用于計(jì)算產(chǎn)品名中各信息t對(duì)產(chǎn)品e的權(quán)重V(t|e):先得到出現(xiàn)各e，的概率P(e，)的總和，所述e，為包含t的產(chǎn)品；然后用出現(xiàn)e的概率P(e)除以所述總和得到V(t|e);建庫模塊，用于以產(chǎn)品為條目，將產(chǎn)品信息和產(chǎn)品名中各信息的權(quán)重構(gòu)建為產(chǎn)品知識(shí)庫。進(jìn)一步地，所述識(shí)別單元包括設(shè)置模塊，用于根據(jù)具體領(lǐng)域產(chǎn)品命名實(shí)體的構(gòu)成規(guī)則，設(shè)定隱馬爾可夫模型的狀態(tài)集合以及產(chǎn)品命名實(shí)體的狀態(tài)模板；參數(shù)計(jì)算模塊，通過對(duì)預(yù)存的語料庫的標(biāo)注和最大似然法獲取概率參數(shù)，所述語料庫是指人工已經(jīng)標(biāo)注好狀態(tài)的文本資料；進(jìn)行狀態(tài)標(biāo)注時(shí)將詞性和知識(shí)信息作為基本狀態(tài)分類標(biāo)準(zhǔn)；所述知識(shí)信息包括潛在的公司名、品牌名、型號(hào)和系列名中的一個(gè)或幾個(gè)；識(shí)別模塊，用于將文本分割為句子，利用隱馬爾可夫模型計(jì)算出最大概率狀態(tài)序列，根據(jù)最大概率狀態(tài)序列匹配相應(yīng)的產(chǎn)品命名實(shí)體的狀態(tài)模板，分別識(shí)別出各句子中所包括的產(chǎn)品命名實(shí)體。進(jìn)一步地，所述對(duì)應(yīng)單元包括計(jì)算模塊，計(jì)算識(shí)別出來的產(chǎn)品命名實(shí)體對(duì)所述產(chǎn)品知識(shí)庫中的各產(chǎn)品的匹配度；該產(chǎn)品命名實(shí)體對(duì)于一個(gè)產(chǎn)品e的匹配度為所述產(chǎn)品知識(shí)庫中該產(chǎn)品命名實(shí)體中每個(gè)詞對(duì)于該產(chǎn)品e的權(quán)重之和；選擇模塊，用于對(duì)匹配度排序，選擇匹配度最高的產(chǎn)品為所述識(shí)別出來的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的產(chǎn)品知識(shí)庫中的產(chǎn)品。進(jìn)一步地，所述對(duì)應(yīng)單元還包括加權(quán)模塊，用于當(dāng)所述識(shí)別出來的產(chǎn)品命名實(shí)體前第d個(gè)詞為某個(gè)產(chǎn)品的廠商信息時(shí)，將對(duì)該產(chǎn)品的匹配度增加1/d+4。本發(fā)明的技術(shù)方案能夠自動(dòng)的提取文本中關(guān)于產(chǎn)品命名實(shí)體的語義信息，并將其與產(chǎn)品知識(shí)庫中的相關(guān)數(shù)據(jù)項(xiàng)相對(duì)應(yīng)，提高了識(shí)別的正確性，并圖1為實(shí)施例二中的自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的裝置的示意框圖。具體實(shí)施例方式下面將結(jié)合附圖及實(shí)施例對(duì)本發(fā)明的技術(shù)方案進(jìn)行更詳細(xì)的說明。本文中，產(chǎn)品知識(shí)庫是指存儲(chǔ)產(chǎn)品信息通過自動(dòng)、手工辦法維護(hù)，并具有自更新能力的數(shù)據(jù)庫。其中每一數(shù)據(jù)項(xiàng)對(duì)應(yīng)一種具體的硬件產(chǎn)品，包含產(chǎn)品名、生產(chǎn)廠家等可以幫助識(shí)別的產(chǎn)品信息。實(shí)施例一，一種自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的方法，包括根據(jù)各產(chǎn)品的產(chǎn)品信息構(gòu)建產(chǎn)品知識(shí)庫；識(shí)別文本中的產(chǎn)品命名實(shí)體；將識(shí)別出的產(chǎn)品命名實(shí)體與所述產(chǎn)品知識(shí)庫中的產(chǎn)品進(jìn)行匹S己，確定所述識(shí)別出的產(chǎn)品命名實(shí)體為所述產(chǎn)品知識(shí)庫中匹配度最高的產(chǎn)品。本實(shí)施例中，所述根據(jù)各產(chǎn)品的產(chǎn)品信息構(gòu)建產(chǎn)品知識(shí)庫的步驟包括對(duì)互聯(lián)網(wǎng)上的產(chǎn)品庫的網(wǎng)頁進(jìn)行抓取，并從所抓取的網(wǎng)頁中分別提取出該網(wǎng)頁內(nèi)各產(chǎn)品的產(chǎn)品信息，包括產(chǎn)品名、公司名、技術(shù)參數(shù)、出現(xiàn)頻率(一般用相關(guān)文章數(shù)量來替換)等等，所述產(chǎn)品名包括廠家、品牌名、型號(hào)、系列名等信息中的一個(gè)或幾個(gè)；以產(chǎn)品為條目，將產(chǎn)品信息構(gòu)建為產(chǎn)品知識(shí)庫，并自適應(yīng)調(diào)節(jié)產(chǎn)品名中各信息的權(quán)重。如一網(wǎng)頁中的文本標(biāo)題為"佳能EOS450D(CanonEos450D)，，，標(biāo)注了實(shí)體標(biāo)準(zhǔn)名為佳能EOS450D,別名為CanonEos450D。而在該網(wǎng)頁后繼部分中標(biāo)注了相關(guān)文章。利用該信息及下一等式V(t|e)=P(t|g)P(e)~~可以計(jì)算出每個(gè)詞的權(quán)重，V(tle)為詞t對(duì)實(shí)體e(這里就是指產(chǎn)品)的權(quán)重，P(elt)為出現(xiàn)e在t下的概率，具體為后面的分式，其中P(e)為出現(xiàn)實(shí)體e的概率，e'為包含詞t的各實(shí)體，一個(gè)詞t可能包含在多個(gè)實(shí)體中，比如廠家名。在大量抓取網(wǎng)頁信息的時(shí)候，概率用所述出現(xiàn)頻率近似，也不排除用其它方式得到。建立好的產(chǎn)品知識(shí)庫以產(chǎn)品為條目，每個(gè)條目中包括該產(chǎn)品的產(chǎn)品名和其它產(chǎn)品信息，還包括構(gòu)成該產(chǎn)品名的各個(gè)組成部分的詞的權(quán)重信息。每個(gè)詞t在產(chǎn)品e的權(quán)重V(tle)即為上以等式所求。這里的詞t就是指上文所述的產(chǎn)品名中的一種信息，比如廠家、品牌名、型號(hào)或系列名。本實(shí)施例中，所述識(shí)別文本中的產(chǎn)品命名實(shí)體的步驟包括根據(jù)具體領(lǐng)域產(chǎn)品命名實(shí)體的主要構(gòu)成規(guī)則，設(shè)定隱馬爾可夫模型的狀態(tài)集合以及產(chǎn)品命名實(shí)體的狀態(tài)模板；對(duì)要識(shí)別的文本按句子切割，分割后分別按照各句子中相應(yīng)語義成分的相對(duì)位置、句子角色匹配所述狀態(tài)模塊，根據(jù)所述狀態(tài)模板對(duì)句子里的詞語進(jìn)行狀態(tài)標(biāo)注；進(jìn)行狀態(tài)標(biāo)注時(shí)除了將詞性作為基本狀態(tài)分類標(biāo)準(zhǔn)以外，本實(shí)施例中還利用了知識(shí)信息，對(duì)潛在的公司名、品牌名、型號(hào)和系列名進(jìn)行狀態(tài)分類。例如利用知識(shí)信息標(biāo)注潛在的品牌名、潛在系列名和潛在型號(hào)中的一個(gè)或幾個(gè)。潛在的品牌名、系列名、型號(hào)的列表是根據(jù)具體領(lǐng)域事先整理出來的。比如文本中的一個(gè)句子為"這款聯(lián)想天逸F31A-ST配備的250GB硬盤"，其中"聯(lián)想"為實(shí)體內(nèi)品牌名，"天逸"為系列名，"F31A-ST"為型號(hào)；將句子中相應(yīng)詞的狀態(tài)分別標(biāo)注為所述實(shí)體的品牌、系列名和型號(hào)。根據(jù)具體領(lǐng)域產(chǎn)品實(shí)體定義狀態(tài)集合，通過對(duì)語料庫的標(biāo)注和最大似然法獲取概率參數(shù)，所述語料庫是指人工已經(jīng)標(biāo)注好狀態(tài)(就是實(shí)體)的文本資料，所述概率參數(shù)即概率矩陣，是隱馬爾可夫模型中的三要素之一，直觀來說就是代表什么樣的序列有多大概率是實(shí)體；然后將任意的文本作為觀察序列，利用隱馬爾可夫模型可以計(jì)算出最大概率狀態(tài)序列，根據(jù)最大概率狀態(tài)序列匹配相應(yīng)的產(chǎn)品命名實(shí)體的狀態(tài)模板，獲取相應(yīng)的識(shí)別結(jié)果，即識(shí)別出句子中所包括的產(chǎn)品命名實(shí)體。實(shí)際應(yīng)用中也可以利用其它模型進(jìn)行狀態(tài)模板的匹配。過機(jī)器學(xué)習(xí)來計(jì)算出概率參數(shù)；之后利用概率參數(shù)和觀察值來計(jì)算最有可能的結(jié)果。需要注意的是，實(shí)際文本中出現(xiàn)的產(chǎn)品命名實(shí)體有可能是一個(gè)完整的實(shí)體中的一部分，有可能缺少廠家，型號(hào)，系列名等產(chǎn)品信息中的一個(gè)或多個(gè)。本實(shí)施例中，所述將識(shí)別出的產(chǎn)品命名實(shí)體與所述產(chǎn)品知識(shí)庫中的產(chǎn)品進(jìn)行匹配，確定所述識(shí)別出的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的所述產(chǎn)品知識(shí)庫中的產(chǎn)品的步驟包括相應(yīng)的，對(duì)于識(shí)別出來的產(chǎn)品命名實(shí)體，通過計(jì)算權(quán)重V(tle)和，可以得到這個(gè)產(chǎn)品命名實(shí)體對(duì)知識(shí)庫中的產(chǎn)品e的匹配度。同時(shí)可以進(jìn)一步利用該產(chǎn)品命名實(shí)體所在文本上下文中出現(xiàn)的廠商信息對(duì)所述匹配度進(jìn)行加權(quán)，加斥又辦法為1.0」，實(shí)體前第d個(gè)詞指示了產(chǎn)品e的廠商信息d+40,之前沒有指示產(chǎn)品e的廠商信息最后的Me即為所述識(shí)別出來的產(chǎn)品命名實(shí)體對(duì)產(chǎn)品e的匹配度。對(duì)產(chǎn)品知識(shí)庫中的所有產(chǎn)品el,e2,…，en做匹配度計(jì)算后排序，確定匹配度最高的產(chǎn)品為所述識(shí)別出來的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的產(chǎn)品知識(shí)庫中的產(chǎn)品。比如包含所述識(shí)別出來的產(chǎn)品命名實(shí)體的句子為Wlw2...wn,k就是該產(chǎn)品命名實(shí)體第一個(gè)詞的位置，l為該產(chǎn)品命名實(shí)體結(jié)束的詞的位置，即wkwk+1...Wl為一個(gè)實(shí)體，Wi就是所述識(shí)別出來的產(chǎn)品命名實(shí)體中的一個(gè)詞；也就是說當(dāng)計(jì)算所述識(shí)別出來的產(chǎn)品命名實(shí)體對(duì)于某個(gè)產(chǎn)品e的匹配度時(shí)，在所述產(chǎn)品知識(shí)庫中查找該產(chǎn)品命名實(shí)體中每個(gè)詞對(duì)于該產(chǎn)品e的權(quán)重，然后相加得到對(duì)于該產(chǎn)品e的匹配度；如果進(jìn)行加權(quán)，則當(dāng)所述識(shí)別出來的產(chǎn)品命名實(shí)體前第d個(gè)詞為某個(gè)產(chǎn)品的廠商信息時(shí)，將對(duì)該產(chǎn)品e的匹配度增加1/d+4。實(shí)際應(yīng)用時(shí)，還可以用別的產(chǎn)品信息來進(jìn)行加權(quán)；加權(quán)的值也可以是其它計(jì)算式。下面用一個(gè)實(shí)例具體說明。例如規(guī)定可能的觀察值的集合如下將待識(shí)別的句子進(jìn)行中文分詞且按照PKU-POS規(guī)定的詞性集合進(jìn)行詞性標(biāo)注；每種詞性歸為一種觀察值。PKU-POS是一種由北京大學(xué)計(jì)算語言所創(chuàng)立的漢語詞性標(biāo)注標(biāo)準(zhǔn)，例如名詞為n,人名nr等等。并利用知識(shí)信息標(biāo)注潛在的品牌名、潛在系列名和潛在型號(hào)中的一個(gè)或幾個(gè)。如果某個(gè)詞是一個(gè)已知的公司、商標(biāo)、組織的名稱，確定其觀察值為"CN，，；如果某個(gè)詞是一個(gè)字母、數(shù)字的組合，確定其觀察值為潛在的型號(hào)名"畫，，；如果某個(gè)詞是一個(gè)潛在的限制屬性，確定其觀察值為"LA"。將不同的觀察值作為不同的狀態(tài)，利用觀察值來判斷哪一字段最有可能是實(shí)體；由出現(xiàn)過的多個(gè)狀態(tài)的各種連接方式得到不同的狀態(tài)模塊。得到如表1所示的狀態(tài)集合和如表2所示的產(chǎn)品命名實(shí)體的狀態(tài)模板表l、狀態(tài)集合<table>tableseeoriginaldocumentpage12</column></row><table>表2、產(chǎn)品命名實(shí)體的模板<table>tableseeoriginaldocumentpage12</column></row><table>通過以上一些要素可以利用隱馬爾可夫^t型進(jìn)行命名實(shí)體識(shí)別。然后通過從中關(guān)村在線zol.com.cn上獲取的信息，進(jìn)行與所述產(chǎn)品知識(shí)庫的對(duì)應(yīng)工作，例如如下一句"S550相機(jī)繼承了尼康COOLPIX系列產(chǎn)品的優(yōu)點(diǎn)"其中僅S550—詞被識(shí)別為實(shí)體。假設(shè)庫中擁有"尼康S550"和"紐曼S550"兩個(gè)產(chǎn)品，且這兩個(gè)產(chǎn)品的出現(xiàn)頻度一樣。根據(jù)上一等式，該實(shí)體仍能被正確識(shí)別為尼康S550,因?yàn)槠渖舷挛某霈F(xiàn)了"尼康"，在和式1.0/(d+4)這一項(xiàng)中提供較高權(quán)重，對(duì)知識(shí)庫中所有實(shí)體排序后"尼康S550"的匹配度將最高，因此識(shí)別結(jié)果為尼康S550。實(shí)施例二，一種自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的裝置，如圖l所示，包括構(gòu)建單元，用于才艮據(jù)各產(chǎn)品的產(chǎn)品信息構(gòu)建產(chǎn)品知識(shí)庫；識(shí)別單元，用于識(shí)別文本中的產(chǎn)品命名實(shí)體；對(duì)應(yīng)單元，用于將識(shí)別出的產(chǎn)品命名實(shí)體與所述產(chǎn)品知識(shí)庫中的產(chǎn)品進(jìn)行匹配，確定所述識(shí)別出的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的所述產(chǎn)品知識(shí)庫中的產(chǎn)口Po本實(shí)施例中，所述構(gòu)建單元包括提取模塊，用于對(duì)互聯(lián)網(wǎng)上的產(chǎn)品庫的網(wǎng)頁進(jìn)行抓取，并從所抓取的網(wǎng)頁中分別提取出該網(wǎng)頁內(nèi)各產(chǎn)品的產(chǎn)品信息，包括產(chǎn)品名、公司名、技術(shù)參數(shù)和出現(xiàn)頻率，所述產(chǎn)品名包括廠家、品牌名、型號(hào)、系列名等信息中的一個(gè)或幾個(gè)；權(quán)重計(jì)算模塊，用于計(jì)算產(chǎn)品名中各信息t對(duì)產(chǎn)品e的權(quán)重V(t|e):先得到出現(xiàn)各e，的概率P(e，)的總和，所述e，為包含t的產(chǎn)品；然后用出現(xiàn)e的概率P(e)除以所述總和得到V(t|e);所述概率可以但不限于為所述出現(xiàn)頻率；建庫模塊，用于以產(chǎn)品為條目，將產(chǎn)品信息和產(chǎn)品名中各信息的權(quán)重構(gòu)建為產(chǎn)品知識(shí)庫。本實(shí)施例中，所述識(shí)別單元包括設(shè)置模塊，用于根據(jù)具體領(lǐng)域產(chǎn)品命名實(shí)體的構(gòu)成規(guī)則，設(shè)定隱馬爾可夫模型的狀態(tài)集合以及產(chǎn)品命名實(shí)體的狀態(tài)模板；參數(shù)計(jì)算模塊，通過對(duì)預(yù)存的語料庫的標(biāo)注和最大似然法獲取概率參數(shù)，所述語料庫是指人工已經(jīng)標(biāo)注好狀態(tài)的文本資料；進(jìn)行狀態(tài)標(biāo)注時(shí)將詞性和知識(shí)信息作為基本狀態(tài)分類標(biāo)準(zhǔn)；所述知識(shí)信息包括潛在的公司名、品牌名、型號(hào)和系列名中的一個(gè)或幾個(gè)；識(shí)別模塊，用于將文本分割為句子，利用隱馬爾可夫模型計(jì)算出最大概率狀態(tài)序列，根據(jù)最大概率狀態(tài)序列匹配相應(yīng)的產(chǎn)品命名實(shí)體的狀態(tài)模板，分別識(shí)別出各句子中所包括的產(chǎn)品命名實(shí)體。本實(shí)施例中，所述對(duì)應(yīng)單元包括計(jì)算模塊，計(jì)算識(shí)別出來的產(chǎn)品命名實(shí)體對(duì)所述產(chǎn)品知識(shí)庫中的各產(chǎn)品的匹配度；該產(chǎn)品命名實(shí)體對(duì)于一個(gè)產(chǎn)品e的匹配度為所述產(chǎn)品知識(shí)庫中該產(chǎn)品命名實(shí)體中每個(gè)詞對(duì)于該產(chǎn)品e的權(quán)重之和；選捧模塊，用于對(duì)產(chǎn)品知識(shí)庫中的所有產(chǎn)品做匹配度計(jì)算后排序，選擇匹配度最高的產(chǎn)品為所述識(shí)別出來的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的產(chǎn)品知識(shí)庫中的產(chǎn)品。本實(shí)施例中，所述對(duì)應(yīng)單元還可以包括加權(quán)模塊，用于當(dāng)所述識(shí)別出來的產(chǎn)品命名實(shí)體前第d個(gè)詞為某個(gè)產(chǎn)品的廠商信息時(shí)，將對(duì)該產(chǎn)品的匹配度增加1/d+4。其它實(shí)現(xiàn)細(xì)節(jié)可以與實(shí)施例一相同。當(dāng)然，本發(fā)明還可有其他多種實(shí)施例，在不背離本明精神及其實(shí)質(zhì)的形，但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明的權(quán)利要求的保護(hù)范圍。權(quán)利要求1、一種自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的方法，包括根據(jù)各產(chǎn)品的產(chǎn)品信息構(gòu)建產(chǎn)品知識(shí)庫；識(shí)別文本中的產(chǎn)品命名實(shí)體；將識(shí)別出的產(chǎn)品命名實(shí)體與所述產(chǎn)品知識(shí)庫中的產(chǎn)品進(jìn)行匹配，確定所述識(shí)別出的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的所述產(chǎn)品知識(shí)庫中的產(chǎn)品。2、如權(quán)利要求l所述的方法，其特征在于，所述根據(jù)各產(chǎn)品的產(chǎn)品信息構(gòu)建產(chǎn)品知識(shí)庫的步驟包括對(duì)互聯(lián)網(wǎng)上的產(chǎn)品庫的網(wǎng)頁進(jìn)行抓取，并從所抓取的網(wǎng)頁中分別提取出該網(wǎng)頁內(nèi)各產(chǎn)品的產(chǎn)品信息，包括產(chǎn)品名、公司名、技術(shù)參數(shù)和出現(xiàn)頻率，所述產(chǎn)品名包括廠家、品牌名、型號(hào)、系列名等信息中的一個(gè)或幾個(gè)；計(jì)算產(chǎn)品名中各信息t對(duì)產(chǎn)品e的權(quán)重V(t|e):先得到出現(xiàn)各e，的概率P(e，)的總和，所述e，為包含t的產(chǎn)品；然后用出現(xiàn)e的概率P(e)除以所述總和得到V(t|e);以產(chǎn)品為條目，將產(chǎn)品信息和產(chǎn)品名中各信息的權(quán)重構(gòu)建為產(chǎn)品知識(shí)庫。3、如權(quán)利要求1所述的方法，其特征在于，所述識(shí)別文本中的產(chǎn)品命名實(shí)體的步驟包括根據(jù)具體領(lǐng)域產(chǎn)品命名實(shí)體的構(gòu)成規(guī)則，設(shè)定隱馬爾可夫模型的狀態(tài)集合以及產(chǎn)品命名實(shí)體的狀態(tài)才莫板；通過對(duì)語料庫的標(biāo)注和最大似然法獲取概率參數(shù)，所述語料庫是指人工已經(jīng)標(biāo)注好狀態(tài)的文本資料；進(jìn)行狀態(tài)標(biāo)注時(shí)將詞性和知識(shí)信息作為基本狀態(tài)分類標(biāo)準(zhǔn)；所述知識(shí)信息包括潛在的公司名、品牌名、型號(hào)和系列名中的一個(gè)或幾個(gè)；將文本分割為句子；利用隱馬爾可夫模型計(jì)算出最大概率狀態(tài)序列，根據(jù)最大概率狀態(tài)序列匹配相應(yīng)的產(chǎn)品命名實(shí)體的狀態(tài)模板，識(shí)別出句子中所包括的產(chǎn)品命名實(shí)體。4、如權(quán)利要求2所述的方法，其特征在于，將識(shí)別出的產(chǎn)品命名實(shí)體與所述產(chǎn)品知識(shí)庫中的產(chǎn)品進(jìn)行匹配，確定所述識(shí)別出的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的所述產(chǎn)品知識(shí)庫中的產(chǎn)品的步驟包括計(jì)算識(shí)別出來的產(chǎn)品命名實(shí)體對(duì)所述產(chǎn)品知識(shí)庫中的各產(chǎn)品的匹配度；當(dāng)計(jì)算產(chǎn)品命名實(shí)體對(duì)一個(gè)產(chǎn)品e的匹配度時(shí)，在所述產(chǎn)品知識(shí)庫中查找該產(chǎn)品命名實(shí)體中每個(gè)詞對(duì)于該產(chǎn)品e的權(quán)重，然后相加得到對(duì)于該產(chǎn)品e的匹配度；對(duì)所述產(chǎn)品知識(shí)庫中的所有產(chǎn)品的匹配度進(jìn)行排序，確定匹配度最高的產(chǎn)品為所述識(shí)別出來的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的產(chǎn)品知識(shí)庫中的產(chǎn)品。5、如權(quán)利要求4所述的方法，其特征在于，還包括當(dāng)計(jì)算對(duì)某個(gè)產(chǎn)品的匹配度時(shí)，如果所述識(shí)別出來的產(chǎn)品命名實(shí)體前第d個(gè)詞為該產(chǎn)品的廠商信息，則將對(duì)該產(chǎn)品的匹配度增加1/d+4。6、一種自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的裝置，其特征在于，包括構(gòu)建單元，用于根據(jù)各產(chǎn)品的產(chǎn)品信息構(gòu)建產(chǎn)品知識(shí)庫；識(shí)別單元，用于識(shí)別文本中的產(chǎn)品命名實(shí)體；對(duì)應(yīng)單元，用于將識(shí)別出的產(chǎn)品命名實(shí)體與所述產(chǎn)品知識(shí)庫中的產(chǎn)品進(jìn)行匹配，確定所述識(shí)別出的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的所述產(chǎn)品知識(shí)庫中的產(chǎn)品07、如權(quán)利要求6所述的裝置，其特征在于，所述構(gòu)建單元包括提取模塊，用于對(duì)互聯(lián)網(wǎng)上的產(chǎn)品庫的網(wǎng)頁進(jìn)行抓取，并從所抓取的網(wǎng)頁中分別提取出該網(wǎng)頁內(nèi)各產(chǎn)品的產(chǎn)品信息，包括產(chǎn)品名、公司名、技術(shù)參數(shù)和出現(xiàn)頻率，所述產(chǎn)品名包括廠家、品牌名、型號(hào)、系列名等信息中的一個(gè)或幾個(gè)；權(quán)重計(jì)算模塊，用于計(jì)算產(chǎn)品名中各信息t對(duì)產(chǎn)品e的權(quán)重V(t|e):先得到出現(xiàn)各e，的概率P(e，)的總和，所述e，為包含t的產(chǎn)品；然后用出現(xiàn)e的概率P(e)除以所述總和得到V(t|e);建庫模塊，用于以產(chǎn)品為條目，將產(chǎn)品信息和產(chǎn)品名中各信息的權(quán)重構(gòu)建為產(chǎn)品知識(shí)庫。8、如權(quán)利要求6所述的裝置，其特征在于，所述識(shí)別單元包括設(shè)置模塊，用于根據(jù)具體領(lǐng)域產(chǎn)品命名實(shí)體的構(gòu)成規(guī)則，設(shè)定隱馬爾可夫模型的狀態(tài)集合以及產(chǎn)品命名實(shí)體的狀態(tài)模板；參數(shù)計(jì)算模塊，通過對(duì)預(yù)存的語料庫的標(biāo)注和最大似然法獲取概率參數(shù)，所述語料庫是指人工已經(jīng)標(biāo)注好狀態(tài)的文本資料；進(jìn)行狀態(tài)標(biāo)注時(shí)將詞性和知識(shí)信息作為基本狀態(tài)分類標(biāo)準(zhǔn)；所述知識(shí)信息包括潛在的公司名、品牌名、型號(hào)和系列名中的一個(gè)或幾個(gè)；識(shí)別模塊，用于將文本分割為句子，利用隱馬爾可夫模型計(jì)算出最大概率狀態(tài)序列，根據(jù)最大概率狀態(tài)序列匹配相應(yīng)的產(chǎn)品命名實(shí)體的狀態(tài)模板，分別識(shí)別出各句子中所包括的產(chǎn)品命名實(shí)體。9、如權(quán)利要求7所述的裝置，其特征在于，所述對(duì)應(yīng)單元包括計(jì)算模塊，計(jì)算識(shí)別出來的產(chǎn)品命名實(shí)體對(duì)所述產(chǎn)品知識(shí)庫中的各產(chǎn)品的匹配度；該產(chǎn)品命名實(shí)體對(duì)于一個(gè)產(chǎn)品e的匹配度為所述產(chǎn)品知識(shí)庫中該產(chǎn)品命名實(shí)體中每個(gè)詞對(duì)于該產(chǎn)品e的權(quán)重之和；其中，k是所述識(shí)別出來的產(chǎn)品命名實(shí)體第一個(gè)詞在包含該產(chǎn)品命名實(shí)體的句子中的位置，1為該產(chǎn)品命名實(shí)體結(jié)束的詞在包含該產(chǎn)品命名實(shí)體的句子中的位置；Wi是所述識(shí)別出來的產(chǎn)品命名實(shí)體中的一個(gè)詞；選擇模塊，用于對(duì)匹配度排序，選擇匹配度最高的產(chǎn)品為所述識(shí)別出來的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的產(chǎn)品知識(shí)庫中的產(chǎn)品。10、如權(quán)利要求9所述的裝置，其特征在于，所述對(duì)應(yīng)單元還包括加權(quán)模塊，用于當(dāng)所述識(shí)別出來的產(chǎn)品命名實(shí)體前第d個(gè)詞為某個(gè)產(chǎn)品的廠商信息時(shí)，將對(duì)該產(chǎn)品的匹配度增加1/d+4。全文摘要本發(fā)明公開了一種自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的方法及裝置；方法包括根據(jù)各產(chǎn)品的產(chǎn)品信息構(gòu)建產(chǎn)品知識(shí)庫；識(shí)別文本中的產(chǎn)品命名實(shí)體；將識(shí)別出的產(chǎn)品命名實(shí)體與所述產(chǎn)品知識(shí)庫中的產(chǎn)品進(jìn)行匹配，確定所述識(shí)別出的產(chǎn)品命名實(shí)體所對(duì)應(yīng)的所述產(chǎn)品知識(shí)庫中的產(chǎn)品。本發(fā)明能夠識(shí)別出文本中的產(chǎn)品命名實(shí)體，并將該產(chǎn)品命名實(shí)體與知識(shí)庫中的產(chǎn)品信息相對(duì)應(yīng)。文檔編號(hào)G06F17/30GK101576910SQ200910085070公開日2009年11月11日申請(qǐng)日期2009年5月31日優(yōu)先權(quán)日2009年5月31日發(fā)明者于文淵申請(qǐng)人:北京學(xué)之途網(wǎng)絡(luò)科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：于文淵
技術(shù)所有人：北京學(xué)之途網(wǎng)絡(luò)科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

實(shí)體防護(hù)裝置相關(guān)技術(shù)

命名實(shí)體識(shí)別相關(guān)技術(shù)

中文命名實(shí)體識(shí)別相關(guān)技術(shù)

命名實(shí)體識(shí)別工具相關(guān)技術(shù)

中文命名實(shí)體識(shí)別工具相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種自動(dòng)識(shí)別產(chǎn)品命名實(shí)體的方法及裝置的制作方法