一種基于畫像模型的對象識別方法

文檔序號：10570001閱讀：253來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于畫像模型的對象識別方法
【專利摘要】本發(fā)明公開了一種基于畫像模型的文本對象識別方法，包括：a)對象模型預(yù)定義：確定需要匹配的對象，為每個對象定義不同類型的屬性，對每一類型的屬性，均定義為一組包含不同分類詞語的集合；b)文本切分：對待處理文本對象進(jìn)行切詞處理，形成切詞集合；c)對象映射：計算切詞集合中出現(xiàn)的不同對象各類型屬性分類詞語的詞頻，并形成數(shù)據(jù)映射輸出鍵?值的鍵值對；d)匹配度計算：針對需要匹配的對象，如果鍵值不為零則確定為有效命中，否則確定為無效命中，計算有效命中的匹配對象的匹配度；e)數(shù)據(jù)歸一化計算：對所有計算完成的對象匹配度進(jìn)行歸一化計算，得到歸一化的結(jié)果。通過本發(fā)明，能夠?qū)崿F(xiàn)對海量大數(shù)據(jù)文本進(jìn)行快速對象識別，大幅提高對象的識別精準(zhǔn)度。
【專利說明】
一種基于畫像模型的對象識別方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域，尤其涉及大規(guī)模數(shù)據(jù)下的文本抽取及文本類型識別方法。
【背景技術(shù)】
[0002] 從文本中識別對象的技術(shù)，在眾多數(shù)據(jù)挖掘領(lǐng)域中都有著重要的價值，典型的技術(shù)如"人物畫像識別"，如從文本中抽取各種人名或人名定義詞，相關(guān)技術(shù)在輿情、新聞等應(yīng) 用領(lǐng)域較為廣泛，但目前該類型技術(shù)多以關(guān)鍵詞或基于關(guān)鍵詞庫的詞典方式來進(jìn)行處理，但是該傳統(tǒng)方式存在兩個重要的缺陷，一來對詞表完整性的依賴過高，一旦詞表完整性不足將直接影響抽取結(jié)果的準(zhǔn)確性，二來單純基于詞表的識別技術(shù)存在先天的不足，當(dāng)關(guān)鍵詞本身存在歧義時其識別結(jié)果將面臨巨大的誤差，如目標(biāo)人物某科技公司管理者"雷軍"，由于重名的關(guān)系，待處理文本中出現(xiàn)的"雷軍"未必指的就是目標(biāo)"雷軍"，此類錯誤在對"企業(yè)"、"機(jī)構(gòu)"這類復(fù)雜對象的識別時尤為明顯，如將"小米粥"中的"小米"誤判為手機(jī)公司 "小米"，將"聯(lián)想到這件事"中的"聯(lián)想"誤判為科技公司"聯(lián)想"。
[0003] 隨著近年大數(shù)據(jù)相關(guān)技術(shù)的發(fā)展及應(yīng)用，對文本中抽取對象的算法要求愈加提高，傳統(tǒng)的基于關(guān)鍵詞詞典的方法已經(jīng)無法滿足現(xiàn)實的需求，傳統(tǒng)方法造成的大量識別錯誤也為相關(guān)應(yīng)用的可用性及易用性帶來巨大的障礙。尤其是在輿情類產(chǎn)品、情報類產(chǎn)品等對對象識別要求較高、計算量較大的應(yīng)用更是如此。

【發(fā)明內(nèi)容】

[0004] 因此，本發(fā)明提供一種基于畫像模型的對象識別技術(shù)，能夠?qū)崿F(xiàn)對海量大數(shù)據(jù)文本進(jìn)行快速對象識別，大幅提高對象的識別精準(zhǔn)度，形成一套高效的處理方法，為達(dá)到上述目的，本發(fā)明的技術(shù)方案是這樣實現(xiàn)的：
[0005] -種基于畫像模型的文本對象識別方法，包括
[0006] a)對象模型預(yù)定義
[0007] b)文本切分
[0008] C)對象映射
[0009] d)匹配度計算 [0010] e)數(shù)據(jù)歸一化計算。
[0011] -種基于畫像模型的文本對象識別方法，包括：
[0012] a)對象模型預(yù)定義:確定需要匹配的對象，為每個對象定義不同類型的屬性，對每一類型的屬性，均定義為一組包含不同分類詞語的集合；
[0013] b)文本切分:對待處理文本對象進(jìn)行切詞處理，形成切詞集合；
[0014] c)對象映射:計算切詞集合中出現(xiàn)的不同對象各類型屬性分類詞語的詞頻，并形成數(shù)據(jù)映射輸出鍵-值的鍵值對；
[0015] d)匹配度計算:針對需要匹配的對象，如果鍵值不為零則確定為有效命中，否則確定為無效命中，計算有效命中的匹配對象的匹配度；
[0016] e)數(shù)據(jù)歸一化計算:對所有計算完成的對象匹配度進(jìn)行歸一化計算，得到歸一化的結(jié)果。
[0017] 所述的一種基于畫像模型的文本對象識別方法，優(yōu)選的：其中每類屬性包括強(qiáng)信號和弱信號。
[0018] 所述的一種基于畫像模型的文本對象識別方法，優(yōu)選的：步驟d)中匹配對象的匹配度計算具體為：
[0019] 依照下列公式對命中對象進(jìn)行匹配度計算：
[0021] 其中iG(〇，n)，n為正整數(shù);(^為單篇文本命中的不同對象;a，0，K，A對應(yīng)不同對象屬性的權(quán)重;,（t)=min(v(t)，y)為修正的屬性詞命中量，其中y為限定系數(shù)，v(t)為屬性詞命中量，其中t為各種不同類型的屬性，包括b j、p j、g j、mj ; j = {x，y}，x表示強(qiáng)信號，y表示弱信號。
[0022] 如上所述的一種基于畫像模型的文本對象識別方法，優(yōu)選的：還包括以下步驟：
[0023] 對所有計算完成的對象匹配度S(Ci)進(jìn)行z-score歸一化計算，得到歸一化的結(jié)果
n為匹配成功的對象的數(shù)量，為正整數(shù)。
[0024] 如上所述的一種基于畫像模型的文本對象識別方法，優(yōu)選的：還包括以下步驟:將歸一化后的對象匹配值序列(C1)(c 2)，. . .(cn)}進(jìn)行排序，高于閾值Std的對象均為匹配符合對象。
【附圖說明】
[0025] 圖1為本發(fā)明基于畫像模型的文本對象識別方法流程示意圖；
[0026] 圖2為本發(fā)明對象模型預(yù)定義示意圖；
[0027] 圖3為本發(fā)明屬性定義實施例示意圖。
【具體實施方式】
[0028] 以下結(jié)合附圖1-3通過實施例對本發(fā)明作進(jìn)一步詳細(xì)說明：
[0029] 本發(fā)明提供一種基于畫像模型的文本對象識別方法，所述方法的具體流程圖如圖 1所示，包括：
[0030] a)對象模型預(yù)定義 [0031] b)文本切分 [0032] c)對象映射 [0033] d)匹配度計算 [0034] e)數(shù)據(jù)歸一化計算 [0035] 具體的：
[0036] 1.對象模型預(yù)定義(如圖2)
[0037] 1)該步驟工作在正式計算之前完成處理，實現(xiàn)工作是一次定義重復(fù)使用，如果沒有新增的對象，不需要每次執(zhí)行預(yù)定義；
[0038] 2)假定需要匹配的對象個數(shù)共有n個(每個對象均用唯一的id進(jìn)行標(biāo)示），對每個對象，均為其定義不同的屬性，包括品牌、產(chǎn)品、人物、綜合，每類屬性又包括強(qiáng)信號(+ )和弱信號(_)，強(qiáng)信號表示該屬性范圍與目標(biāo)對象高度關(guān)聯(lián)，弱信號表示該屬性范圍與目標(biāo)對象存在關(guān)聯(lián)，但有一定的概率存在歧義，如"小米"可能指"小米科技有限責(zé)任公司"，也可能代表食品"小米"，實際共有包括品牌+(定義bx)、品牌定義by)、廣品+ (定義Px)、廣品定義 Py)、人物+(定義gx)、人物-(定義gy)、綜合+(定義mx)、綜合_(定義my)等共計8種對象屬性；
[0039] 3)對每類屬性，均定義為一組包含不同詞語的集合，例如對象為"小米科技有限責(zé) 任公司"，則其一個典型非充分的屬性定義如圖3所示。
[0040] 2.文本切分及鍵值映射
[0041] 1)本階段對處理文本進(jìn)行切詞處理，形成切詞集合s，所述切詞集合s={詞語1，詞語2,……，詞語n}，n為正整數(shù)，并按照預(yù)處理階段定義的詞庫分類進(jìn)行歸類，歸類過程如下：
[0042] la.即將切詞集合中的詞語與預(yù)定義的屬性詞庫進(jìn)行遍歷比較，找出匹配的結(jié)果，切詞集合將被標(biāo)記成s' = {詞語1:屬性1，詞語2:屬性2,…，詞語n:屬性m}，其中m是小于9的正整數(shù);需要說明的是，存在一些詞語未命中任何已定義屬性，標(biāo)記為屬性〇,即未匹配； [0043] lb.按照不同屬性重新排列切詞結(jié)果，即按已定義的8類屬性詞歸類，形成
[0044] bx= {詞語 1，詞語2,，，，詞語n}
[0045] by= {詞語 1，詞語2,，，，詞語n}
[0046] px= {詞語 1，詞語2,，，，詞語n}
[0047] py= {詞語 1，詞語2,，，，詞語n}
[0048] gz= {詞語 1，詞語2,，，，詞語n}
[0049] gy= {詞語 1，詞語2,，，，詞語n}
[0050] mx= {詞語 1，詞語2,，，，詞語n}
[0051] my= {詞語 1，詞語2,，，，詞語n}
[0052] 2)計算不同對象屬性分類詞的詞頻，并形成數(shù)據(jù)映射輸出鍵-值(key，value)的鍵值對，其中key代表屬性詞，value為屬性詞對應(yīng)命中詞頻，該過程需要以所有對象涉及的各類型屬性詞為分詞依據(jù)，其中key為一個包含了 8種不同對象屬性的二維數(shù)組，如 bx2 hx3' ：" ^1 ^3 "* ^yn Pxl PX2 Pxi - Pm
[0053] intv[8]j>]= ~ ~ ~…化其中n為正整數(shù)； ^2 Sm Sy.2 SyS' *** 嫩Xlmx2 _X3…辦m 脈yl所y2 俯y》?"辦yn
[0054] 3)計算完畢對每個企業(yè)對象Ci均形成鍵-值(key，value)對，比如對企業(yè)對象小米公司，一個典型的鍵值對Ci如： -小米科技小米公可小米之家 0 1 |~3 2 1 〇- 小米紅米 0 _5 1 1 _0 米聊 MIUI 小米盒子小米加 0 1 0 1 F 碼 0 0 0 1 0 0 0
[0055]( 雷軍雷布斯黎萬強(qiáng)：老沉，2 2 0 0 ) 林斌王川劉德洪鋒 0 10 0 Q106060666 為發(fā)燒而生 0 0 Q Q 0 0 _ 米粉米黑 0 0 J [l 10 0
[0056] 4)從第一個定義對象ci循環(huán)處理至最后一個定義對象cn;
[0057] 3.對象匹配計算
[0058] 1)針對任意企業(yè)對象Ci，如果鍵值value不為零則確定為有效命中，按2)進(jìn)行計算，否則為無效命中，文本與目標(biāo)企業(yè)完全無關(guān)；
[0059] 2)定義v(t)為屬性詞命中量，其中t為各種不同類型的屬性，也即t的取值范圍為 {bji，pji，gji，mji}，其中j = {x，y}，i G (〇，n]，對v(t)，其計算方法為在目標(biāo)對象文本中分別計算hup# A#，!!!#出現(xiàn)的頻次(也即將命中的屬性詞數(shù)量求和），其結(jié)果為大于等于零的正整數(shù)。
[0060]定義v(t)=min(v(t)，y)為修正的屬性詞命中量，其中y為限定系數(shù)，可以依照下列公式對命中企業(yè)Ci進(jìn)行匹配度計算， _ n
[0061 ] ?,) = Z $](以，%) + 以(6) + r,v (6) +V (%)) j=x,y i=l
[0062]其中iG(〇，n)，Ci為單篇文本命中的不同企業(yè)，a，0，K，A對應(yīng)不同對象屬性的權(quán)重系數(shù)，其取值為大于零的正數(shù)；
[0063]式中的y的引入，是發(fā)明人在實際研究中發(fā)現(xiàn)，對于待處理的文本對象，如在互聯(lián) 網(wǎng)頁面上的諸多文字信息，如博客、新聞、論壇發(fā)帖、評論等，既含有有用信息，又含有無用的垃圾信息，如惡意謾罵等信息，這些信息中雖然會出現(xiàn)大量的關(guān)鍵詞，但是毫無疑問的，這類信息在對象識別中是干擾項，因此為了排除這一類的干擾，設(shè)定了上述的限定系數(shù)y。
[0064] 3)得到所有匹配企業(yè)的匹配度計算結(jié)果，結(jié)果為序列值{S(C1)， S(C2)，...，S(Cn)}
[0065] 4 ?歸一化計算
[0066] 對所有計算完成的企業(yè)匹配度S(Ci)進(jìn)行z-score歸一化計算，得到歸一化的結(jié)果
[0067] 最終得到歸一化后的企業(yè)匹配值序列{V (C1)，s' (c2)，. . .，s' (cn)}，同一篇文章將被匹配到n個企業(yè)，不同企業(yè)匹配度依得分進(jìn)行排序，高于閾值Std的企業(yè)均為匹配符合企業(yè)。
[0068]本發(fā)明實現(xiàn)了對象識別模型化，為大規(guī)模文本分析提供了一種高效的對象識別方法，可以應(yīng)用的領(lǐng)域還包括人名識別、地名識別、類型識別、情感分析等諸多領(lǐng)域，同時歸一化得分還將量化對象識別的匹配度，為應(yīng)用的擴(kuò)展與利用提供充分的判斷依據(jù)。
【主權(quán)項】
1. 一種基于畫像模型的文本對象識別方法，其特征在于包括： a) 對象模型預(yù)定義:確定需要匹配的對象，為每個對象定義不同類型的屬性，對每一類型的屬性，均定義為一組包含不同分類詞語的集合； b) 文本切分:對待處理文本對象進(jìn)行切詞處理，形成切詞集合； c) 對象映射:計算切詞集合中出現(xiàn)的不同對象各類型屬性分類詞語的詞頻，并形成數(shù) 據(jù)映射輸出鍵-值的鍵值對； d) 匹配度計算:針對需要匹配的對象，如果鍵值不為零則確定為有效命中，否則確定為無效命中，計算有效命中的匹配對象的匹配度； e) 數(shù)據(jù)歸一化計算:對所有計算完成的對象匹配度進(jìn)行歸一化計算，得到歸一化的結(jié) 果。2. 根據(jù)權(quán)利要求1所述的一種基于畫像模型的文本對象識別方法，其特征在于:每類屬性包括強(qiáng)信號和弱信號。3. 根據(jù)權(quán)利要求2所述的一種基于畫像模型的文本對象識別方法，其特征在于:步驟d) 中匹配對象的匹配度計算具體為：依照下列公式對命中對象進(jìn)行匹配度計算：其中1￡(〇，11)，11為正整數(shù);(^為單篇文本命中的不同對象； (1，0，1〇，\對應(yīng)不同對象屬性的權(quán)重;/(1:)=1]1；[11(>(1:)4)為修正的屬性詞命中量，屬性詞命中量v(t)中，t為各種不同類型的屬性，包括bj、pj、nj、mj，j = {X，y}，X表示強(qiáng)信號，y表示弱信號。
【文檔編號】G06F17/30GK105930435SQ201610245422
【公開日】2016年9月7日
【申請日】2016年4月19日
【發(fā)明人】黃玉麟, 朱克, 林春雨
【申請人】北京深度時代科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃玉麟;朱克;林春雨;
技術(shù)所有人：北京深度時代科技有限公司;
我是此專利的發(fā)明人

上一篇：用于移動終端設(shè)備的文件回收方法和裝置的制造方法
上一篇：相冊處理方法和裝置的制造方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

說話人識別模型與方法相關(guān)技術(shù)

用戶畫像模型相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于畫像模型的對象識別方法