亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于畫像模型的對象識別方法

文檔序號:10570001閱讀:253來源:國知局
一種基于畫像模型的對象識別方法
【專利摘要】本發(fā)明公開了一種基于畫像模型的文本對象識別方法,包括:a)對象模型預(yù)定義:確定需要匹配的對象,為每個對象定義不同類型的屬性,對每一類型的屬性,均定義為一組包含不同分類詞語的集合;b)文本切分:對待處理文本對象進(jìn)行切詞處理,形成切詞集合;c)對象映射:計算切詞集合中出現(xiàn)的不同對象各類型屬性分類詞語的詞頻,并形成數(shù)據(jù)映射輸出鍵?值的鍵值對;d)匹配度計算:針對需要匹配的對象,如果鍵值不為零則確定為有效命中,否則確定為無效命中,計算有效命中的匹配對象的匹配度;e)數(shù)據(jù)歸一化計算:對所有計算完成的對象匹配度進(jìn)行歸一化計算,得到歸一化的結(jié)果。通過本發(fā)明,能夠?qū)崿F(xiàn)對海量大數(shù)據(jù)文本進(jìn)行快速對象識別,大幅提高對象的識別精準(zhǔn)度。
【專利說明】
一種基于畫像模型的對象識別方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其涉及大規(guī)模數(shù)據(jù)下的文本抽取及文本類型識 別方法。
【背景技術(shù)】
[0002] 從文本中識別對象的技術(shù),在眾多數(shù)據(jù)挖掘領(lǐng)域中都有著重要的價值,典型的技 術(shù)如"人物畫像識別",如從文本中抽取各種人名或人名定義詞,相關(guān)技術(shù)在輿情、新聞等應(yīng) 用領(lǐng)域較為廣泛,但目前該類型技術(shù)多以關(guān)鍵詞或基于關(guān)鍵詞庫的詞典方式來進(jìn)行處理, 但是該傳統(tǒng)方式存在兩個重要的缺陷,一來對詞表完整性的依賴過高,一旦詞表完整性不 足將直接影響抽取結(jié)果的準(zhǔn)確性,二來單純基于詞表的識別技術(shù)存在先天的不足,當(dāng)關(guān)鍵 詞本身存在歧義時其識別結(jié)果將面臨巨大的誤差,如目標(biāo)人物某科技公司管理者"雷軍", 由于重名的關(guān)系,待處理文本中出現(xiàn)的"雷軍"未必指的就是目標(biāo)"雷軍",此類錯誤在對"企 業(yè)"、"機(jī)構(gòu)"這類復(fù)雜對象的識別時尤為明顯,如將"小米粥"中的"小米"誤判為手機(jī)公司 "小米",將"聯(lián)想到這件事"中的"聯(lián)想"誤判為科技公司"聯(lián)想"。
[0003] 隨著近年大數(shù)據(jù)相關(guān)技術(shù)的發(fā)展及應(yīng)用,對文本中抽取對象的算法要求愈加提 高,傳統(tǒng)的基于關(guān)鍵詞詞典的方法已經(jīng)無法滿足現(xiàn)實的需求,傳統(tǒng)方法造成的大量識別錯 誤也為相關(guān)應(yīng)用的可用性及易用性帶來巨大的障礙。尤其是在輿情類產(chǎn)品、情報類產(chǎn)品等 對對象識別要求較高、計算量較大的應(yīng)用更是如此。

【發(fā)明內(nèi)容】

[0004] 因此,本發(fā)明提供一種基于畫像模型的對象識別技術(shù),能夠?qū)崿F(xiàn)對海量大數(shù)據(jù)文 本進(jìn)行快速對象識別,大幅提高對象的識別精準(zhǔn)度,形成一套高效的處理方法,為達(dá)到上述 目的,本發(fā)明的技術(shù)方案是這樣實現(xiàn)的:
[0005] -種基于畫像模型的文本對象識別方法,包括
[0006] a)對象模型預(yù)定義
[0007] b)文本切分
[0008] C)對象映射
[0009] d)匹配度計算 [0010] e)數(shù)據(jù)歸一化計算。
[0011] -種基于畫像模型的文本對象識別方法,包括:
[0012] a)對象模型預(yù)定義:確定需要匹配的對象,為每個對象定義不同類型的屬性,對每 一類型的屬性,均定義為一組包含不同分類詞語的集合;
[0013] b)文本切分:對待處理文本對象進(jìn)行切詞處理,形成切詞集合;
[0014] c)對象映射:計算切詞集合中出現(xiàn)的不同對象各類型屬性分類詞語的詞頻,并形 成數(shù)據(jù)映射輸出鍵-值的鍵值對;
[0015] d)匹配度計算:針對需要匹配的對象,如果鍵值不為零則確定為有效命中,否則確 定為無效命中,計算有效命中的匹配對象的匹配度;
[0016] e)數(shù)據(jù)歸一化計算:對所有計算完成的對象匹配度進(jìn)行歸一化計算,得到歸一化 的結(jié)果。
[0017] 所述的一種基于畫像模型的文本對象識別方法,優(yōu)選的:其中每類屬性包括強(qiáng)信 號和弱信號。
[0018] 所述的一種基于畫像模型的文本對象識別方法,優(yōu)選的:步驟d)中匹配對象的匹 配度計算具體為:
[0019] 依照下列公式對命中對象進(jìn)行匹配度計算:
[0021] 其中iG(〇,n),n為正整數(shù);(^為單篇文本命中的不同對象;a,0,K,A對應(yīng)不同對象 屬性的權(quán)重;,(t)=min(v(t),y)為修正的屬性詞命中量,其中y為限定系數(shù),v(t)為屬性 詞命中量,其中t為各種不同類型的屬性,包括b j、p j、g j、mj ; j = {x,y},x表示強(qiáng)信號,y表示 弱信號。
[0022] 如上所述的一種基于畫像模型的文本對象識別方法,優(yōu)選的:還包括以下步驟:
[0023] 對所有計算完成的對象匹配度S(Ci)進(jìn)行z-score歸一化計算,得到歸一化的結(jié)果
n為匹配成功 的對象的數(shù)量,為正整數(shù)。
[0024] 如上所述的一種基于畫像模型的文本對象識別方法,優(yōu)選的:還包括以下步驟:將 歸一化后的對象匹配值序列(C1)(c 2),. . .(cn)}進(jìn)行排序,高于閾值Std的對象均 為匹配符合對象。
【附圖說明】
[0025] 圖1為本發(fā)明基于畫像模型的文本對象識別方法流程示意圖;
[0026] 圖2為本發(fā)明對象模型預(yù)定義示意圖;
[0027] 圖3為本發(fā)明屬性定義實施例示意圖。
【具體實施方式】
[0028] 以下結(jié)合附圖1-3通過實施例對本發(fā)明作進(jìn)一步詳細(xì)說明:
[0029] 本發(fā)明提供一種基于畫像模型的文本對象識別方法,所述方法的具體流程圖如圖 1所示,包括:
[0030] a)對象模型預(yù)定義 [0031] b)文本切分 [0032] c)對象映射 [0033] d)匹配度計算 [0034] e)數(shù)據(jù)歸一化計算 [0035] 具體的:
[0036] 1.對象模型預(yù)定義(如圖2)
[0037] 1)該步驟工作在正式計算之前完成處理,實現(xiàn)工作是一次定義重復(fù)使用,如果沒 有新增的對象,不需要每次執(zhí)行預(yù)定義;
[0038] 2)假定需要匹配的對象個數(shù)共有n個(每個對象均用唯一的id進(jìn)行標(biāo)示),對每個 對象,均為其定義不同的屬性,包括品牌、產(chǎn)品、人物、綜合,每類屬性又包括強(qiáng)信號(+ )和弱 信號(_),強(qiáng)信號表示該屬性范圍與目標(biāo)對象高度關(guān)聯(lián),弱信號表示該屬性范圍與目標(biāo)對象 存在關(guān)聯(lián),但有一定的概率存在歧義,如"小米"可能指"小米科技有限責(zé)任公司",也可能代 表食品"小米",實際共有包括品牌+(定義bx)、品牌定義by)、廣品+ (定義Px)、廣品定義 Py)、人物+(定義gx)、人物-(定義gy)、綜合+(定義mx)、綜合_(定義my)等共計8種對象屬性;
[0039] 3)對每類屬性,均定義為一組包含不同詞語的集合,例如對象為"小米科技有限責(zé) 任公司",則其一個典型非充分的屬性定義如圖3所示。
[0040] 2.文本切分及鍵值映射
[0041] 1)本階段對處理文本進(jìn)行切詞處理,形成切詞集合s,所述切詞集合s={詞語1,詞 語2,……,詞語n},n為正整數(shù),并按照預(yù)處理階段定義的詞庫分類進(jìn)行歸類,歸類過程如 下:
[0042] la.即將切詞集合中的詞語與預(yù)定義的屬性詞庫進(jìn)行遍歷比較,找出匹配的結(jié)果, 切詞集合將被標(biāo)記成s' = {詞語1:屬性1,詞語2:屬性2,…,詞語n:屬性m},其中m是小于9的 正整數(shù);需要說明的是,存在一些詞語未命中任何已定義屬性,標(biāo)記為屬性〇,即未匹配; [0043] lb.按照不同屬性重新排列切詞結(jié)果,即按已定義的8類屬性詞歸類,形成
[0044] bx= {詞語 1,詞語2,,,,詞語n}
[0045] by= {詞語 1,詞語2,,,,詞語n}
[0046] px= {詞語 1,詞語2,,,,詞語n}
[0047] py= {詞語 1,詞語2,,,,詞語n}
[0048] gz= {詞語 1,詞語2,,,,詞語n}
[0049] gy= {詞語 1,詞語2,,,,詞語n}
[0050] mx= {詞語 1,詞語2,,,,詞語n}
[0051] my= {詞語 1,詞語2,,,,詞語n}
[0052] 2)計算不同對象屬性分類詞的詞頻,并形成數(shù)據(jù)映射輸出鍵-值(key,value)的鍵 值對,其中key代表屬性詞,value為屬性詞對應(yīng)命中詞頻,該過程需要以所有對象涉及的各 類型屬性詞為分詞依據(jù),其中key為一個包含了 8種不同對象屬性的二維數(shù)組,如 bx2 hx3' :" ^1 ^3 "* ^yn Pxl PX2 Pxi - Pm
[0053] intv[8]j>]= ~ ~ ~…化其中n為正整數(shù); ^2 Sm Sy.2 SyS' *** 嫩Xlmx2 _X3…辦m 脈yl所y2 俯y》?"辦yn
[0054] 3)計算完畢對每個企業(yè)對象Ci均形成鍵-值(key,value)對,比如對企業(yè)對象小米 公司,一個典型的鍵值對Ci如: -小米科技 小米公可小米之家 0 1 |~3 2 1 〇- 小米 紅米 0 _5 1 1 _0 米聊 MIUI 小米盒子小米加 0 1 0 1 F 碼 0 0 0 1 0 0 0
[0055]( 雷軍 雷布斯 黎萬強(qiáng): 老沉,2 2 0 0 ) 林斌 王川 劉德 洪鋒 0 10 0 Q106060666 為發(fā)燒而生 0 0 Q Q 0 0 _ 米粉 米黑 0 0 J [l 10 0
[0056] 4)從第一個定義對象ci循環(huán)處理至最后一個定義對象cn;
[0057] 3.對象匹配計算
[0058] 1)針對任意企業(yè)對象Ci,如果鍵值value不為零則確定為有效命中,按2)進(jìn)行計 算,否則為無效命中,文本與目標(biāo)企業(yè)完全無關(guān);
[0059] 2)定義v(t)為屬性詞命中量,其中t為各種不同類型的屬性,也即t的取值范圍為 {bji,pji,gji,mji},其中j = {x,y},i G (〇,n],對v(t),其計算方法為在目標(biāo)對象文本中分別 計算hup# A#,!!!#出現(xiàn)的頻次(也即將命中的屬性詞數(shù)量求和),其結(jié)果為大于等于零的正 整數(shù)。
[0060]定義v(t)=min(v(t),y)為修正的屬性詞命中量,其中y為限定系數(shù),可以依照下 列公式對命中企業(yè)Ci進(jìn)行匹配度計算, _ n
[0061 ] ?,) = Z $](以,%) + 以(6) + r,v (6) +V (%)) j=x,y i=l
[0062]其中iG(〇,n),Ci為單篇文本命中的不同企業(yè),a,0,K,A對應(yīng)不同對象屬性的權(quán)重 系數(shù),其取值為大于零的正數(shù);
[0063]式中的y的引入,是發(fā)明人在實際研究中發(fā)現(xiàn),對于待處理的文本對象,如在互聯(lián) 網(wǎng)頁面上的諸多文字信息,如博客、新聞、論壇發(fā)帖、評論等,既含有有用信息,又含有無用 的垃圾信息,如惡意謾罵等信息,這些信息中雖然會出現(xiàn)大量的關(guān)鍵詞,但是毫無疑問的, 這類信息在對象識別中是干擾項,因此為了排除這一類的干擾,設(shè)定了上述的限定系數(shù)y。
[0064] 3)得到所有匹配企業(yè)的匹配度計算結(jié)果,結(jié)果為序列值{S(C1), S(C2),...,S(Cn)}
[0065] 4 ?歸一化計算
[0066] 對所有計算完成的企業(yè)匹配度S(Ci)進(jìn)行z-score歸一化計算,得到歸一化的結(jié)果
[0067] 最終得到歸一化后的企業(yè)匹配值序列{V (C1),s' (c2),. . .,s' (cn)},同一篇文章 將被匹配到n個企業(yè),不同企業(yè)匹配度依得分進(jìn)行排序,高于閾值Std的企業(yè)均為匹配符合企 業(yè)。
[0068]本發(fā)明實現(xiàn)了對象識別模型化,為大規(guī)模文本分析提供了一種高效的對象識別方 法,可以應(yīng)用的領(lǐng)域還包括人名識別、地名識別、類型識別、情感分析等諸多領(lǐng)域,同時歸一 化得分還將量化對象識別的匹配度,為應(yīng)用的擴(kuò)展與利用提供充分的判斷依據(jù)。
【主權(quán)項】
1. 一種基于畫像模型的文本對象識別方法,其特征在于包括: a) 對象模型預(yù)定義:確定需要匹配的對象,為每個對象定義不同類型的屬性,對每一類 型的屬性,均定義為一組包含不同分類詞語的集合; b) 文本切分:對待處理文本對象進(jìn)行切詞處理,形成切詞集合; c) 對象映射:計算切詞集合中出現(xiàn)的不同對象各類型屬性分類詞語的詞頻,并形成數(shù) 據(jù)映射輸出鍵-值的鍵值對; d) 匹配度計算:針對需要匹配的對象,如果鍵值不為零則確定為有效命中,否則確定為 無效命中,計算有效命中的匹配對象的匹配度; e) 數(shù)據(jù)歸一化計算:對所有計算完成的對象匹配度進(jìn)行歸一化計算,得到歸一化的結(jié) 果。2. 根據(jù)權(quán)利要求1所述的一種基于畫像模型的文本對象識別方法,其特征在于:每類屬 性包括強(qiáng)信號和弱信號。3. 根據(jù)權(quán)利要求2所述的一種基于畫像模型的文本對象識別方法,其特征在于:步驟d) 中匹配對象的匹配度計算具體為: 依照下列公式對命中對象進(jìn)行匹配度計算:其中1£(〇,11),11為正整數(shù);(^為單篇文本命中的不同對象; (1,0,1〇,\對應(yīng)不同對象屬性的權(quán)重;/(1:)=1]1;[11(>(1:)4)為修正的屬性詞命中量,屬性 詞命中量v(t)中,t為各種不同類型的屬性,包括bj、pj、nj、mj,j = {X,y},X表示強(qiáng)信號,y表 示弱信號。
【文檔編號】G06F17/30GK105930435SQ201610245422
【公開日】2016年9月7日
【申請日】2016年4月19日
【發(fā)明人】黃玉麟, 朱克, 林春雨
【申請人】北京深度時代科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1