互聯(lián)網(wǎng)海量數(shù)據(jù)中命名實(shí)體間關(guān)系提取方法及其系統(tǒng)的制作方法

文檔序號(hào)：9217305閱讀：323來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

互聯(lián)網(wǎng)海量數(shù)據(jù)中命名實(shí)體間關(guān)系提取方法及其系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種互聯(lián)網(wǎng)海量數(shù)據(jù)中命名實(shí)體間的關(guān)系提取技術(shù)，特別涉及一種互聯(lián)網(wǎng)海量數(shù)據(jù)中命名實(shí)體間關(guān)系提取方法及其系統(tǒng)，本發(fā)明是一種適應(yīng)于海量數(shù)據(jù)的基于頻繁詞和加權(quán)熵的關(guān)系提取方法和系統(tǒng)，同時(shí)為了適應(yīng)互聯(lián)網(wǎng)巨大的數(shù)據(jù)量和保持靈活的擴(kuò)展性，并且結(jié)合了Hadoop分布式技術(shù)。
【背景技術(shù)】
[0002] 目前，互聯(lián)網(wǎng)技術(shù)高速發(fā)展，堆積在互聯(lián)網(wǎng)中的數(shù)據(jù)呈爆炸性的指數(shù)型增長(zhǎng)，21世紀(jì)初以來(lái)，因?yàn)榫W(wǎng)絡(luò)硬件設(shè)施的快速發(fā)展以及存儲(chǔ)介質(zhì)愈來(lái)愈廉價(jià)，互聯(lián)網(wǎng)中數(shù)據(jù)的存儲(chǔ) 量更是達(dá)到了前所未有的巨大，世界中幾乎每一個(gè)人都為其源源不斷的貢獻(xiàn)著數(shù)據(jù)資源。在這種背景下，技術(shù)、商業(yè)、管理以及金融等領(lǐng)域都在悄然的發(fā)生著巨大的變化，人們的思潮也開始了新一輪的變革，正在迎接著"大數(shù)據(jù)"時(shí)代的來(lái)臨，正在體驗(yàn)和適應(yīng)著"大數(shù)據(jù)" 時(shí)代帶給生活方式乃至思考方式的大變革。
[0003] 然而，數(shù)據(jù)量的巨大是靜態(tài)的，如果沒有科學(xué)的方法和技術(shù)去"挖掘"其中所蘊(yùn)含的知識(shí)，將忽略這筆巨大的資源。本發(fā)明所探討的命名實(shí)體關(guān)系提取方法，就是面向互聯(lián)網(wǎng) 這些大量的結(jié)構(gòu)化、半結(jié)構(gòu)化甚至無(wú)結(jié)構(gòu)的文本，構(gòu)建一個(gè)迭代的分布式提取框架去完成對(duì)這些靜態(tài)數(shù)據(jù)資源的自動(dòng)解析和知識(shí)發(fā)現(xiàn)，用以實(shí)現(xiàn)互聯(lián)網(wǎng)下命名實(shí)體關(guān)系的提取，構(gòu) 建實(shí)體關(guān)系網(wǎng)絡(luò)。
[0004] 基于互聯(lián)網(wǎng)的命名實(shí)體關(guān)系提?。╓eb-basedEntityRelationExtraction)在當(dāng)前互聯(lián)網(wǎng)技術(shù)高速發(fā)展的今天已經(jīng)逐漸成為了一個(gè)極具潛力的研宄方向，從一個(gè)巨大的語(yǔ)料庫(kù)中探尋蘊(yùn)含在不同命名實(shí)體之間的關(guān)系是一項(xiàng)具有挑戰(zhàn)性并且很有意義的研宄，其在自然語(yǔ)言處理（NaturalLanguageProcessing)的眾多領(lǐng)域均有著廣泛的應(yīng)用，例如信息檢索（InformationRetrieval)、問(wèn)答系統(tǒng)（QuestionAnswering)、語(yǔ)義搜索（Semantic Search)和文本挖掘（TextualMining)等。命名實(shí)體的排歧作為對(duì)于命名實(shí)體中同名實(shí)體間歧義的消除，是使關(guān)系提取更為準(zhǔn)確從而面向語(yǔ)義層面的重要一步，使關(guān)系的提取對(duì)于之前更多的從字面層面出發(fā)進(jìn)化到對(duì)實(shí)體本身所代表意義的關(guān)注，從而使得實(shí)體之間的關(guān) 系更加牢固和可信。
[0005] 考慮到頻繁的詞語(yǔ)更能代表一個(gè)文檔的關(guān)鍵字，在基于頻繁詞的n元組方法中可以獲得一個(gè)關(guān)系類別中常出現(xiàn)的詞語(yǔ)，過(guò)濾掉那些沒意義且關(guān)系無(wú)關(guān)的詞語(yǔ)，提高關(guān)系查找能力?？紤]了類別對(duì)詞語(yǔ)權(quán)重影響的加權(quán)熵方法就是這樣一種獲得常用類別詞語(yǔ)的方法，這個(gè)方法改進(jìn)了頻繁詞不能完全代表文檔主題的問(wèn)題，進(jìn)一步提高了關(guān)系提取中的準(zhǔn) 確率。
[0006] 分布式計(jì)算理論和技術(shù)的飛速發(fā)展推動(dòng)了大量的對(duì)海量數(shù)據(jù)研宄的進(jìn)展，這些理論和技術(shù)中最具有劃時(shí)代意義的便是MapReduce計(jì)算模型和Hadoop框架，利用它們，可以構(gòu)建出靈活的高可擴(kuò)展的分布式計(jì)算框架，本發(fā)明正是借助MapReduce計(jì)算模型和Hadoop 框架構(gòu)建出了一個(gè)能夠穩(wěn)定運(yùn)行的分布式實(shí)體關(guān)系提取框架。
[0007] 對(duì)海量互聯(lián)網(wǎng)文本的獲取可以利用當(dāng)前成熟的爬蟲技術(shù)，互聯(lián)網(wǎng)爬蟲通過(guò)對(duì)由網(wǎng) 站內(nèi)的鏈接組成的網(wǎng)絡(luò)進(jìn)行廣泛遍歷，連續(xù)的獲得大量所需的信息，利用當(dāng)前成熟的網(wǎng)絡(luò) 爬蟲理論可以構(gòu)建出高效的網(wǎng)絡(luò)爬蟲。
[0008] 中文文本處理技術(shù)的發(fā)展為本研宄的開展奠定了堅(jiān)實(shí)的基礎(chǔ)，例如中文分詞和詞性標(biāo)注在目前學(xué)術(shù)界和工業(yè)界均有較為成熟的解決方案，對(duì)于這些理論和技術(shù)的掌握與應(yīng) 用是本發(fā)明順利開展的基礎(chǔ)。

【發(fā)明內(nèi)容】

[0009] 本發(fā)明的首要目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足，提供了一種互聯(lián)網(wǎng)海量數(shù)據(jù) 中命名實(shí)體間關(guān)系提取方法，該方法通過(guò)使用一種基于頻繁詞和加權(quán)熵的關(guān)系提取方法，并面向多對(duì)多的多元關(guān)系，提高了提取實(shí)體關(guān)系對(duì)的召回率，改進(jìn)了頻繁詞不能完全代表類別主題的問(wèn)題，提高了關(guān)系提取中的準(zhǔn)確率。
[0010] 本發(fā)明的另一目的在于克服現(xiàn)有技術(shù)的缺點(diǎn)與不足，提供一種互聯(lián)網(wǎng)海量數(shù)據(jù)中命名實(shí)體間關(guān)系提取方法的系統(tǒng)，該系統(tǒng)為了使得命名實(shí)體間關(guān)系的查找能夠持續(xù)運(yùn)行于當(dāng)今互聯(lián)網(wǎng)海量數(shù)據(jù)中，使得關(guān)系查找系統(tǒng)更加方便擴(kuò)展和具有較高的運(yùn)行效率，本系統(tǒng) 利用了開源的Hadoop分布式框架和MapReduce計(jì)算模型。
[0011] 本發(fā)明的首要目的通過(guò)下述技術(shù)方案實(shí)現(xiàn)：互聯(lián)網(wǎng)海量數(shù)據(jù)中命名實(shí)體間關(guān)系提取方法，包括以下步驟：
[0012] 網(wǎng)絡(luò)信息爬取和語(yǔ)料庫(kù)構(gòu)建，從百科網(wǎng)站上爬取命名實(shí)體以及關(guān)于實(shí)體的文本解釋，百科類網(wǎng)站上包含大量無(wú)結(jié)構(gòu)和半結(jié)構(gòu)化的實(shí)體細(xì)節(jié)描述信息，同時(shí)，互聯(lián)網(wǎng)中依然存在大量結(jié)構(gòu)化的實(shí)體數(shù)據(jù)，稱之為"種子"數(shù)據(jù)，即從結(jié)構(gòu)化互聯(lián)網(wǎng)文檔中提取的關(guān)系明確的實(shí)體對(duì)，這部分信息將作為訓(xùn)練數(shù)據(jù)指導(dǎo)更大量的實(shí)體關(guān)系標(biāo)注；
[0013] 文本預(yù)處理，將爬取到的文本進(jìn)行分詞、詞性標(biāo)注和去除停頓詞處理；
[0014] 提取多對(duì)多候選關(guān)系對(duì)，現(xiàn)實(shí)中的關(guān)系不是僅僅存在一對(duì)一的關(guān)系，例如一本書完全有可能有多個(gè)作者，一個(gè)導(dǎo)演完全有可能拍攝過(guò)多部影片，實(shí)體關(guān)系應(yīng)當(dāng)是可以組成網(wǎng)絡(luò)的多元關(guān)系，本發(fā)明在提取候選對(duì)的時(shí)候不再局限于二元關(guān)系；
[0015] 提取代表短文檔特征的關(guān)鍵詞，利用頻繁詞提取方法和改進(jìn)于其的加權(quán)熵方法可以獲得短文本中表示文本意義的關(guān)鍵詞；
[0016] 獲得代表實(shí)體關(guān)系的"實(shí)體-關(guān)系模式"，利用由結(jié)構(gòu)化數(shù)據(jù)獲取的"種子"數(shù)據(jù)和提取的短文本中的關(guān)鍵詞組成一個(gè)表達(dá)實(shí)體關(guān)系的"實(shí)體-關(guān)系模式"，所謂"實(shí)體-關(guān)系模式"就是包含這一對(duì)"種子"的短文本，例如在" #大張偉#_p在春節(jié)晚會(huì)上唱了《#倍兒爽#_3》這首歌"這段短文本中#'之間是命名實(shí)體和它的ID，之后是命名實(shí)體的屬性），包含了一個(gè)人物和一首歌曲，可以獲得"P在春節(jié)晚會(huì)上唱了S這首歌"這樣一段"實(shí) 體-關(guān)系模式"，并且由于"大張偉-倍兒爽"這個(gè)"實(shí)體關(guān)系對(duì)"的類別為"演唱者"，所以這段模式被劃分為"演唱者"關(guān)系的模式，這其中每一個(gè)模式被當(dāng)作一個(gè)向量，向量中每一個(gè)經(jīng)過(guò)中文分詞等預(yù)處理后的詞語(yǔ)都被賦予了權(quán)重，在系統(tǒng)中使用詞頻（Term-Frequency) 作為每一個(gè)詞語(yǔ)的權(quán)重，模式中的包含類別信息，例如人物（P)、電影電視?。∕)、音樂（S) 以及書籍⑶等。
[0017] 關(guān)系標(biāo)注，即獲取"實(shí)體關(guān)系對(duì)"，利用這些模式在大量的無(wú)結(jié)構(gòu)文本中去尋找新的"實(shí)體關(guān)系對(duì)"，例如以上"實(shí)體-關(guān)系模式"，當(dāng)包含有人物和歌曲的短文本出現(xiàn)，并且它們的文本和這條關(guān)系模式足夠"相似"的話，那么可以認(rèn)為這里的人物是這首歌曲的演唱者，這里的"相似"是利用之前文本預(yù)處理后為每一個(gè)詞語(yǔ)賦予的權(quán)重作為度量然后計(jì)算相似度相互比較得出的。
[0018] 實(shí)體關(guān)系對(duì)評(píng)估，對(duì)已經(jīng)產(chǎn)生的"實(shí)體-關(guān)系模式"以及候選"實(shí)體關(guān)系對(duì)"的評(píng) 價(jià)和篩選是本發(fā)明中極其重要的一環(huán)，認(rèn)為有價(jià)值的"實(shí)體-關(guān)系模式"才能產(chǎn)生有價(jià)值的 "實(shí)體關(guān)系對(duì)"，且有價(jià)值的"實(shí)體關(guān)系對(duì)"才能夠作為"種子"繼續(xù)服務(wù)于下一輪命名實(shí)體關(guān) 系的查找與提取。
[0019] 所述的網(wǎng)絡(luò)信息爬取和語(yǔ)料庫(kù)構(gòu)建為：
[0020] 當(dāng)前工業(yè)界存在有大量?jī)?yōu)秀的爬蟲框架，Scrapy是一個(gè)用Python語(yǔ)言編寫的開源爬蟲框架，用來(lái)抓取網(wǎng)站并從中提取數(shù)據(jù)，從數(shù)據(jù)挖掘到監(jiān)控和自動(dòng)化測(cè)試的領(lǐng)域都有廣泛的應(yīng)用。它實(shí)現(xiàn)了一個(gè)爬蟲的大部分模塊，并且把大部分爬蟲操作模塊化，從而對(duì)外提供各種接口，可以靈活地實(shí)現(xiàn)想要的功能，正是借助了Scrapy框架來(lái)完成對(duì)語(yǔ)料庫(kù)知識(shí)的構(gòu)建。
[0021] 因?yàn)榈娜蝿?wù)需要大量的包含命名實(shí)體數(shù)據(jù)且存在較多說(shuō)明性內(nèi)容的文本，然后可以利用的方法去挖掘文本中這些命名實(shí)體之間的關(guān)系，所以一般百科類的站點(diǎn)比較適合去使用，百度百科是中文信息知識(shí)庫(kù)較為全面的公共站點(diǎn)，它其中包含著大量的命名實(shí)體詞條，選擇它作為大量無(wú)結(jié)構(gòu)文本內(nèi)容的來(lái)源，這一部分也是機(jī)器學(xué)習(xí)算法主要的處理部分。
[0022] 同時(shí)，需要一些關(guān)系明確的訓(xùn)練數(shù)據(jù)，即明確了實(shí)體之間關(guān)系的數(shù)據(jù)，在本文中稱之為"種子"數(shù)據(jù)，使用這些由"種子"組成的訓(xùn)練數(shù)據(jù)去學(xué)習(xí)的命名實(shí)體關(guān)系提取模型。為了獲得這些"種子"數(shù)據(jù)組成的先驗(yàn)知識(shí)，還應(yīng)當(dāng)去抓取一些存在著結(jié)構(gòu)化數(shù)據(jù)的站點(diǎn)，這一部分站點(diǎn)主要是一些資訊網(wǎng)站，例如存在大量音樂、電影和書籍信息和數(shù)據(jù)的豆瓣網(wǎng)、存在大量電影電視劇資訊以及明星關(guān)系信息的時(shí)光網(wǎng)，以及眾多的電子商務(wù)網(wǎng)站，它們之中存在大量的出售的書籍的信息，例如京東書店。在以上站點(diǎn)中，成功獲取了大量關(guān)系明確的訓(xùn)練數(shù)據(jù)。
[0023] 所述的提取代表短文檔特征的關(guān)鍵詞為：
[0024] 在很多"實(shí)體_關(guān)系模式"中，有一些詞語(yǔ)并不能夠很好的表現(xiàn)一個(gè)關(guān)系類別，不屬于能夠代表特定關(guān)系的特征詞，比如春節(jié)晚會(huì)是一個(gè)專用詞語(yǔ)，它的出現(xiàn)不能夠代表所在的模式是能夠產(chǎn)生"演唱者"關(guān)系類別的，因?yàn)榇汗?jié)晚會(huì)不僅有唱歌，還有舞蹈、小品等等，所以這部分詞語(yǔ)在"演唱者"的關(guān)系模式中認(rèn)為屬于不重要的那一部分，甚至可能產(chǎn)生干擾，在有些經(jīng)過(guò)預(yù)處理過(guò)的包含多個(gè)實(shí)體的短文本中，比如"#喬羽_P#所著作的《#難忘今宵_s#》是春節(jié)晚會(huì)的結(jié)束曲"，從它之中可以提取的"實(shí)體-關(guān)系模式"為"〈{}，P，{:著作^}，5, {春節(jié)晚會(huì)_112,結(jié)束曲_n}，（)>"，在這兩段模式中，相同的詞語(yǔ)只包含了 "春節(jié) 晚會(huì)"，那么這個(gè)詞語(yǔ)對(duì)這二者之間相似度的貢獻(xiàn)最大，但是它不能代表第二段模式也會(huì)被標(biāo)記為"演唱者"（喬羽是該歌曲的作詞人），這樣的詞語(yǔ)對(duì)關(guān)系的查找產(chǎn)生了干擾。
[0025] 所以一個(gè)改進(jìn)的地方是去除這些不能代表關(guān)系特征的詞語(yǔ)，然后將剩余的詞語(yǔ)組成新的"實(shí)體_關(guān)系模式"，且認(rèn)為在一種關(guān)系類別中頻繁出現(xiàn)的詞語(yǔ)才可以代表這類關(guān)系的特征，但是頻繁詞在某些條件下也存在問(wèn)題，例如"〈{著名_a，歌唱家_n}，P，{演唱_v}， S，{}，（演唱者）>"，雖然"歌唱家"和"演唱"對(duì)于歌曲與歌手的"演唱者"關(guān)系具有明顯的代表作用，但是"著名"這個(gè)詞語(yǔ)在很多關(guān)系類別中均會(huì)頻繁出現(xiàn)，例如歌曲與作詞人的 "作詞者"關(guān)系，很多作詞人也十分著名

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3 4 5

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：蔡毅;李靖楠;閔華清;
技術(shù)所有人：華南理工大學(xué);
我是此專利的發(fā)明人

上一篇：數(shù)據(jù)篩選策略生成方法和裝置的制造方法
上一篇：一種基于社群的產(chǎn)品定制系統(tǒng)及方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

互聯(lián)網(wǎng)海量信息相關(guān)技術(shù)

命名實(shí)體識(shí)別相關(guān)技術(shù)

中文命名實(shí)體識(shí)別相關(guān)技術(shù)

命名實(shí)體識(shí)別工具相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

互聯(lián)網(wǎng)海量數(shù)據(jù)中命名實(shí)體間關(guān)系提取方法及其系統(tǒng)的制作方法