專利名稱:信息抽取的方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及信息技術(shù)領(lǐng)域,尤其涉及一種信息抽取的方法及系統(tǒng)。
背景技術(shù):
信息抽取可以從網(wǎng)頁中找到所有與特定場所相關(guān)的事件信息,即把人們感興趣的事件信息以元組的形式呈現(xiàn)出來,如在什么時間,什么人在什么地方做了什么事。由于現(xiàn)實(shí)生活中的事件以不同的格式分布在互聯(lián)網(wǎng)上不同的網(wǎng)站中,通過事件抽取可以方便對特定場所的事件進(jìn)行歸類和分析?,F(xiàn)有技術(shù)中采用自動本地事件抽取技術(shù),使用概率抽取工具從電子文檔,如網(wǎng)頁中抽取事件信息。信息抽取的具體過程為訓(xùn)練階段和抽取階段。在訓(xùn)練階段首先接收人工標(biāo)注過的訓(xùn)練網(wǎng)頁,采用基于概率方法訓(xùn)練事件抽取模型,然后輸出事件抽取模型,即詞表、基于詞匯的轉(zhuǎn)移概率表和狀態(tài)轉(zhuǎn)移概率表。在事件抽取階段,首先接收包含事件的網(wǎng)頁,對接收的事件網(wǎng)頁進(jìn)行詞匯切分得到詞匯流,再根據(jù)事件抽取模型從詞匯流中抽取事件元素信息,最后輸出事件元素流。在實(shí)現(xiàn)上述事件抽取的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)中所使用的訓(xùn)練網(wǎng)頁需要耗費(fèi)大量的人工來標(biāo)注訓(xùn)練語料。
發(fā)明內(nèi)容
本發(fā)明的實(shí)施例提供一種信息抽取的方法及系統(tǒng),在實(shí)現(xiàn)網(wǎng)頁事件信息的抽取時,降低了人工標(biāo)注訓(xùn)練語料的工作量。為達(dá)到上述目的,本發(fā)明的實(shí)施例采用如下技術(shù)方案一種信息抽取的方法,包括從種子事件信息集合中提取事件名關(guān)鍵詞集合;利用所述事件名關(guān)鍵詞集合和預(yù)設(shè)場所名集合從事件網(wǎng)頁中抽取事件信息,并利用所述事件信息更新所述種子事件信息集合;利用所述更新后的種子事件信息集合和所述事件名關(guān)鍵詞集合從所述事件網(wǎng)頁中學(xué)習(xí)出事件抽取模式;利用所述事件抽取模式從所述事件網(wǎng)頁中抽取事件信息,并利用所述事件信息更新所述種子事件信息集合。一種信息抽取系統(tǒng),包括提取單元,用于從種子事件信息集合中提取事件名關(guān)鍵詞集合;第一更新單元,用于利用所述事件名關(guān)鍵詞集合和預(yù)設(shè)場所名集合從事件網(wǎng)頁中抽取事件信息,并利用所述事件信息更新所述種子事件信息集合;學(xué)習(xí)單元,用于利用所述更新后的種子事件信息集合和所述事件名關(guān)鍵詞集合從所述事件網(wǎng)頁中學(xué)習(xí)出事件抽取模式;第二更新單元,用于利用所述事件抽取模式從所述事件網(wǎng)頁中抽取事件信息,并利用所述事件信息更新所述種子事件信息集合。由上述技術(shù)方案所描述的本發(fā)明實(shí)施例中,首先通過從種子事件信息集合中提取事件名關(guān)鍵詞集合。然后利用所述事件名關(guān)鍵詞集合和預(yù)設(shè)場所名集合從事件網(wǎng)頁中抽取事件信息,并利用所述事件信息更新所述種子事件信息集合。所述更新后的種子事件名關(guān)鍵詞集合會被再次用于提取事件名關(guān)鍵詞集合。然后,利用所述更新后的種子事件信息集合和所述事件名關(guān)鍵詞集合從所述事件網(wǎng)頁中學(xué)習(xí)出事件抽取模式,并利用所述事件抽取模式從所述事件網(wǎng)頁中抽取事件信息,并利用所述事件信息更新所述種子事件信息集合, 該更新后的種子事件信息集合會被再次用于從所述事件網(wǎng)頁中學(xué)習(xí)出事件抽取模式。最后得出的事件名關(guān)鍵詞集合和事件抽取模式組成了事件抽取模型。與現(xiàn)有技術(shù)相比,本技術(shù)方案中只需少量的預(yù)設(shè)種子事件信息作為訓(xùn)練數(shù)據(jù),從該種子事件信息集合中提取事件名關(guān)鍵詞集合,通過將利用上述事件名關(guān)鍵詞集合從事件網(wǎng)頁中抽取出的事件信息來更新所述種子事件信息集合,進(jìn)而獲取事件抽取模式,整個過程不需要大量的人工去標(biāo)注訓(xùn)練語料。從而解決了現(xiàn)有技術(shù)中需要使用大量人工標(biāo)注的事件描述來訓(xùn)練事件抽取模型的問題。
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為實(shí)施例1中的信息抽取模型學(xué)習(xí)的流程圖;圖2為實(shí)施例1中的信息抽取的系統(tǒng)結(jié)構(gòu)圖;圖3為實(shí)施例2中的信息抽取模型學(xué)習(xí)的流程圖;圖4為實(shí)施例2中的信息抽取的系統(tǒng)結(jié)構(gòu)圖;圖5為實(shí)施例2中的信息抽取的流程圖。
具體實(shí)施例方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。實(shí)施例1 本發(fā)明實(shí)施例提供一種信息抽取的方法,如圖1所示,該方法包括如下步驟101、從種子事件信息集合中提取事件名關(guān)鍵詞集合。該種子事件信息集合中每個種子事件信息中包含了事件名信息,從上述事件名信息中可以通過計算組成事件名的每個詞的權(quán)重來提取出事件名關(guān)鍵詞,比如將所有計算出的權(quán)重值大于預(yù)定閾值的詞作為事件名關(guān)鍵詞,這些事件名關(guān)鍵詞組成了事件名關(guān)鍵詞集合。權(quán)重計算方法包含但不限于如下方法權(quán)重=(3*1呢((~&(3+1))。其中,C為種子事件信息集合中包含某詞的個數(shù);gc為該詞作為查詢項(xiàng)在搜索引擎中返回網(wǎng)頁的個數(shù);N為搜索引擎索引頁面的總數(shù)。102、利用所述事件名關(guān)鍵詞集合和預(yù)設(shè)場所名集合從事件網(wǎng)頁中抽取事件信息, 并利用所述事件信息更新所述種子事件信息集合。所述更新后的種子事件名關(guān)鍵詞集合會被再次用于提取事件名關(guān)鍵詞集合,通過不斷更新種子事件信息和提取事件名關(guān)鍵詞可以對所述事件名關(guān)鍵詞集合進(jìn)行擴(kuò)充。103、利用所述種子事件信息集合和所述提取出的事件名關(guān)鍵詞集合從所述事件網(wǎng)頁中學(xué)習(xí)出事件抽取模式。該事件抽取模式的訓(xùn)練方法可以采用基于模式的學(xué)習(xí)方法或者基于概率模型的訓(xùn)練方法。104、利用所述事件抽取模式從所述事件網(wǎng)頁中抽取事件信息,并利用所述事件信息更新所述種子事件信息集合。該更新后的種子事件信息集合會被再次用于從所述事件網(wǎng)頁中學(xué)習(xí)出事件抽取模式,通過不斷更新種子事件信息和學(xué)習(xí)事件抽取模式可以對所述事件抽取模式進(jìn)行擴(kuò)充。本發(fā)明實(shí)施例中,通過少量的種子事件信息集合作為訓(xùn)練數(shù)據(jù),從該種子事件信息集合中提取事件名關(guān)鍵詞集合,通過將利用上述事件名關(guān)鍵詞集合從事件網(wǎng)頁中抽取事件信息,并用上述事件信息來更新所述種子事件信息集合,可以對所述事件名關(guān)鍵詞集合進(jìn)行擴(kuò)充,進(jìn)而根據(jù)上述事件名關(guān)鍵詞集合獲取事件抽取模式,該事件名關(guān)鍵詞集合和事件抽取模式組成了事件抽取模型。整個過程不需要大量的人工去標(biāo)注訓(xùn)練語料就可以訓(xùn)練出事件抽取模型。從而解決了現(xiàn)有技術(shù)中需要使用大量人工標(biāo)注的事件描述來訓(xùn)練事件抽取模型的問題。為了實(shí)現(xiàn)上述方法,本發(fā)明實(shí)施例還提供一種信息抽取系統(tǒng),如圖2所示,該系統(tǒng)包括提取單元21、第一更新單元22、學(xué)習(xí)單元23和第二更新單元M。其中,提取單元21用于從種子事件信息集合中提取事件名關(guān)鍵詞集合。第一更新單元22用于利用所述事件名關(guān)鍵詞集合和預(yù)設(shè)場所名集合從事件網(wǎng)頁中抽取事件信息, 并利用所述事件信息更新所述種子事件信息集合。所述更新后的種子事件信息集合會被所述提取單元21再次用于提取事件名關(guān)鍵詞集合。學(xué)習(xí)單元23用于利用所述更新后的種子事件信息集合和事件名關(guān)鍵詞集合從所述事件網(wǎng)頁中學(xué)習(xí)出事件抽取模式。該學(xué)習(xí)單元所利用的更新后的種子事件信息集合為該第一更新單元最后一次得出的更新后的種子事件信息集合,該學(xué)習(xí)單元所利用的事件名關(guān)鍵詞集合為該提取單元最后提取出的事件名關(guān)鍵詞集合。然后,第二更新單元M用于利用所述事件抽取模式從所述事件網(wǎng)頁中抽取事件信息,并利用所述事件信息更新所述種子事件信息集合。所述更新后的種子事件集合將會再次被學(xué)習(xí)單元用于學(xué)習(xí)出事件抽取模式。該學(xué)習(xí)單元最終學(xué)習(xí)得出的事件抽取模式和上述提取單元最終提取出的事件名關(guān)鍵詞集合組成了事件抽取模型。該系統(tǒng)通過少量的種子事件信息集合作為訓(xùn)練數(shù)據(jù),從該種子事件信息集合中提取事件名關(guān)鍵詞集合,通過將利用上述事件名關(guān)鍵詞集合從事件網(wǎng)頁中抽取事件信息,并用上述事件信息來更新所述種子事件信息集合,可以對所述事件名關(guān)鍵詞集合進(jìn)行擴(kuò)充, 進(jìn)而根據(jù)上述事件名關(guān)鍵詞集合獲取事件抽取模式,該事件名關(guān)鍵詞集合和事件抽取模式組成了事件抽取模型。與現(xiàn)有技術(shù)相比,不需要大量的人工去標(biāo)注訓(xùn)練語料就可以訓(xùn)練出事件抽取模型。
實(shí)施例2 本發(fā)明實(shí)施例提供一種信息抽取的方法,如圖3所示,該方法包括如下步驟301、從種子事件信息集合中提取事件名關(guān)鍵詞集合。該種子事件信息集合中每個種子事件信息中包括事件名稱信息、場所名信息和時間信息,從上述事件名稱信息中可以通過計算組成事件名的每個詞的權(quán)重來提取出事件名關(guān)鍵詞,比如將所有計算出的權(quán)重值大于預(yù)定閾值的詞作為事件名關(guān)鍵詞,這些事件名關(guān)鍵詞組成了事件名關(guān)鍵詞集合。權(quán)重計算方法包含但不限于如下方法權(quán)重= c*log((N/(gc+l))。其中,c為種子事件信息集合中包含某詞的個數(shù);gc為該詞作為查詢項(xiàng)在搜索引擎中返回網(wǎng)頁的個數(shù);N為搜索引擎索引頁面的總數(shù)。302、利用所述事件名關(guān)鍵詞集合和預(yù)設(shè)場所名集合從事件網(wǎng)頁中抽取事件信息, 并利用所述事件信息更新所述種子事件信息集合。所述事件信息包括事件名稱、場所名和時間。該事件信息也可以稱之為事件三元組。上述抽取事件信息的方法可以采用基于DOM樹的事件抽取方法。在具體實(shí)施過程中,可以采用如下描述實(shí)現(xiàn)首先根據(jù)輸入的事件網(wǎng)頁,生成所述事件網(wǎng)頁的DOM樹結(jié)構(gòu)。 在所述事件網(wǎng)頁的DOM樹中查找包含了預(yù)定場所名的節(jié)點(diǎn),并且若在一條路徑上有多個這類節(jié)點(diǎn),只保留離根節(jié)點(diǎn)最遠(yuǎn)的那個。把保留下來的處于并列位置的節(jié)點(diǎn)合并,得出一個或者多個事件列表塊。所謂處于并列位置,指的是所有相鄰的兩個節(jié)點(diǎn)到其公共祖先的路徑之和相等。由于每個網(wǎng)頁的事件列表結(jié)構(gòu)是固定的,通過分析所述列表塊中的每列,就可以識別出場所列,時間列和事件列。所述場所列,時間列和事件列組成事件信息。如果無法在上述列表塊中識別出上述場所列,時間列和事件列三種列中的某一個列,則舍棄整個塊。在事件名關(guān)鍵詞集合的提取過程中,為了提取出更多的事件名關(guān)鍵詞,所述更新后的種子事件名關(guān)鍵詞集合會被再次用于提取事件名關(guān)鍵詞集合,從而可以對所述事件名關(guān)鍵詞集合進(jìn)行擴(kuò)充。具體實(shí)施過程可以通過如下描述實(shí)現(xiàn)利用所述事件名關(guān)鍵詞集合從事件網(wǎng)頁中抽取第一事件信息,并利用所述第一事件信息更新所述種子事件信息集合。 從更新后的種子事件信息集合中提取第一事件名關(guān)鍵詞集合。再次利用所述提取出的第一事件名關(guān)鍵詞集合從事件網(wǎng)頁中抽取第二事件信息,并利用所述第二事件信息更新所述種子事件信息集合。然后從更新后的種子事件信息集合中提取第二事件名關(guān)鍵詞集合,如此重復(fù)執(zhí)行,在滿足預(yù)設(shè)終止條件后,輸出最后得出的事件名關(guān)鍵詞集合。同時輸出最后得出的更新后的種子事件信息集合。上述滿足預(yù)設(shè)終止條件可以為重復(fù)執(zhí)行的次數(shù)滿足預(yù)定次數(shù);或者為所述事件網(wǎng)頁的數(shù)量滿足預(yù)定數(shù)量。303、利用上述最后輸出的種子事件信息集合和所述提取出的事件名關(guān)鍵詞集合從所述事件網(wǎng)頁中學(xué)習(xí)出事件抽取模式。該事件抽取模式的訓(xùn)練方法可以采用基于模式的學(xué)習(xí)方法或者基于概率模型的訓(xùn)練方法。本步驟在具體實(shí)施中,采用基于模式的學(xué)習(xí)方法包含但不限于以下方法事件抽取模式采用的格式可以定義為(tp,lp,印,order, endl,ml, m2,endr, urlpattern) 0該模式中的各項(xiàng)分別為tp 時間模式。取值范圍{1,2},分別表示符合預(yù)設(shè)時間表達(dá)式,或任意。Ip:場所名模式。取值范圍{1,2},分別表示符合預(yù)設(shè)場所名集合中的詞,或任
辰、ο
ep 事件名模式。取值范圍{1,2},分別表示包含事件名關(guān)鍵詞集合中的某個事件名關(guān)鍵詞中的串,或任意。order 事件三元素,即時間、場所名和事件名,在文本中出現(xiàn)的次序。取值范圍 { “tie”,“tel”,“l(fā)te”,“l(fā)et”,“etl”,“elt” },分別表示 6 種不同的排列次序。endl,endr:前綴,后綴。取值范圍取特定的1,…,或k個字的前綴或后綴。ml,m2 中間串。取值范圍空;或者取特定的1,'",或業(yè)個字;或者串頭(串尾) 取特定的1,…,或k個字,中間取任意(少于d)個字。urlpattern 該模式所適用的url模式。取值范圍符合某種url模式,或任意。首先,在事件網(wǎng)頁中定位更新后的種子事件信息集合中的事件三元組,找到距離最近的包含了事件三個元素即時間、場所名和事件名,并且元素間字的個數(shù)不超過業(yè)+d 的字串,其中前后各擴(kuò)k個字,若前綴后綴沒有足夠的字,則以特殊字符填充。然后,在上述找出的字串中,分別抽取前后綴字串和兩個中間字串,并且根據(jù)三元素出現(xiàn)的次序,對事件抽取元組(t,1,e,order, endl,ml, m2, endr,url)進(jìn)行填充。對于所有order相同的元組,把其url,前綴,后綴和中間串進(jìn)行合并,形成一個或多個類。并保證若串非空,每個串中的邊界字至少有1個,每個模式對應(yīng)的實(shí)例最少有2個。然后,分別判斷t是否符合預(yù)設(shè)時間表達(dá)式,1是否符合預(yù)設(shè)場所名集合中的詞,e 是否包含事件名關(guān)鍵詞集合中的事件名關(guān)鍵詞。若符合或包含,則同時對“任意”情況進(jìn)行擴(kuò)充。根據(jù)上述三個因素把類擴(kuò)充成一個或多個模式(一個類最多擴(kuò)充成8個)。把每個模式P在所有事件網(wǎng)頁上抽取事件三元組,正確抽取的事件三元組定義為t符合時間表達(dá)式,1在場所名列表中或者e包含事件名關(guān)鍵詞或在事件庫中。最后,對模式ρ進(jìn)行打分。分值計算方法為S(p) = (p.正確抽取個數(shù)/p.抽取總數(shù))*log2(p.正確抽取個數(shù))。輸出得分最高的幾個模式,或者得分大于特定閾值的模式。 該輸出的模式即為訓(xùn)練出的事件抽取模式。根據(jù)以下表2和表3中的兩個事件網(wǎng)頁,可以學(xué)習(xí)出表4中的事件抽取模式。其中,表2表示的內(nèi)容為www.tickets365.com.cn/tk2005/usr/ticket_detail.jsp ? ticketid = 57933 中的部分內(nèi)容。表3表示的內(nèi)容為www. tickets365. com. cn/tk2005/usr/ticket—detail·jsp ? ticketid = 58786 中的部分內(nèi)容。表 權(quán)利要求
1.一種信息抽取的方法,其特征在于,包括從種子事件信息集合中提取事件名關(guān)鍵詞集合;利用所述事件名關(guān)鍵詞集合和預(yù)設(shè)場所名集合從事件網(wǎng)頁中抽取事件信息,并利用所述事件信息更新所述種子事件信息集合;利用所述更新后的種子事件信息集合和所述事件名關(guān)鍵詞集合從所述事件網(wǎng)頁中學(xué)習(xí)出事件抽取模式;利用所述事件抽取模式從所述事件網(wǎng)頁中抽取事件信息,并利用所述事件信息更新所述種子事件信息集合。
2.根據(jù)權(quán)利要求1所述的信息抽取的方法,其特征在于,所述種子事件信息集合中的每個種子事件信息包括事件名稱、場所名和時間;所述事件信息包括事件名稱、場所名和時間。
3.根據(jù)權(quán)利要求1所述的信息抽取的方法,其特征在于,所述利用所述初始事件名關(guān)鍵詞集合從事件網(wǎng)頁中抽取事件信息的方法為基于DOM 樹的事件抽取方法。
4.根據(jù)權(quán)利要求1所述的信息抽取的方法,其特征在于,所述學(xué)習(xí)出事件抽取模式的方法包括基于模式的學(xué)習(xí)方法或者基于概率模型的訓(xùn)練方法。
5.根據(jù)權(quán)利要求1所述的信息抽取的方法,其特征在于,該方法還包括利用所述事件名關(guān)鍵詞集合,采用基于DOM樹的事件抽取方法從待抽取事件網(wǎng)頁中的 DOM樹結(jié)構(gòu)中抽取事件信息。
6.根據(jù)權(quán)利要求1或5所述的信息抽取的方法,其特征在于,該方法還包括利用所述事件名關(guān)鍵詞集合和事件抽取模式從待抽取的事件網(wǎng)頁中抽取事件信息。
7.一種信息抽取系統(tǒng),其特征在于,包括提取單元,用于從種子事件信息集合中提取事件名關(guān)鍵詞集合;第一更新單元,用于利用所述事件名關(guān)鍵詞集合和預(yù)設(shè)場所名集合從事件網(wǎng)頁中抽取事件信息,并利用所述事件信息更新所述種子事件信息集合;學(xué)習(xí)單元,用于利用所述更新后的種子事件信息集合和事件名關(guān)鍵詞集合從所述事件網(wǎng)頁中學(xué)習(xí)出事件抽取模式;第二更新單元,用于利用所述事件抽取模式從所述事件網(wǎng)頁中抽取事件信息,并利用所述事件信息更新所述種子事件信息集合。
8.根據(jù)權(quán)利要求7所述的信息抽取系統(tǒng),其特征在于,該系統(tǒng)還包括第一抽取單元,用于利用所述事件名關(guān)鍵詞集合,采用基于DOM樹的事件抽取方法從待抽取網(wǎng)頁的DOM樹結(jié)構(gòu)中抽取事件信息。
9.根據(jù)權(quán)利要求7所述的信息抽取系統(tǒng),其特征在于,該系統(tǒng)還包括第二抽取單元,用于利用所述事件名關(guān)鍵詞集合和事件抽取模式從待抽取的事件網(wǎng)頁中抽取事件信息。
全文摘要
本發(fā)明公開一種信息抽取的方法及系統(tǒng),涉及信息技術(shù)領(lǐng)域,該方法包括從種子事件信息集合中提取事件名關(guān)鍵詞集合;利用所述事件名關(guān)鍵詞集合和預(yù)設(shè)場所名集合從事件網(wǎng)頁中抽取事件信息,并利用所述事件信息更新所述種子事件信息集合;利用所述更新后的種子事件信息集合和所述事件名關(guān)鍵詞集合從所述事件網(wǎng)頁中學(xué)習(xí)出事件抽取模式;利用所述事件抽取模式從所述事件網(wǎng)頁中抽取事件信息,并利用所述事件信息更新所述種子事件信息集合。本發(fā)明實(shí)施例主要用于信息抽取領(lǐng)域,在實(shí)現(xiàn)網(wǎng)頁事件信息的抽取時,降低了人工標(biāo)注訓(xùn)練語料的工作量。
文檔編號G06F17/30GK102193951SQ201010127980
公開日2011年9月21日 申請日期2010年3月19日 優(yōu)先權(quán)日2010年3月19日
發(fā)明者何一鳴, 周雅倩, 姜孟晉, 譚衛(wèi)國 申請人:華為技術(shù)有限公司