對準(zhǔn)文檔的字段的注解的制作方法
【專利摘要】本發(fā)明提供了對準(zhǔn)文檔的字段的注解的方法和系統(tǒng)。訪問訓(xùn)練信息,該訓(xùn)練信息包括關(guān)于與針對文檔類型的文檔的訓(xùn)練群集相關(guān)聯(lián)的多個字段中的每個的特征的第一測量信息的。以第一名稱對第一訓(xùn)練群集進(jìn)行注解并且以第二名稱對第二訓(xùn)練群集進(jìn)行注解?;谟?xùn)練信息生成電子分類模型。訪問用于與新文檔的新群集相關(guān)聯(lián)的字段的特征的第二測量信息。基于第二測量信息使用分類模型對新群集中的每個自動地注解。例如,以第一名稱對具有第一字段類型的字段的第一新群集進(jìn)行注解并且以第二名稱對具有第二字段類型的字段的第二新群集進(jìn)行注解。
【專利說明】對準(zhǔn)文檔的字段的注解
【背景技術(shù)】
[0001]存在用于以適當(dāng)名稱對文檔中對信息進(jìn)行注解的自動或人工的各種類型的技術(shù)。例如,存在對來自單個站點的信息進(jìn)行定位、對來自單個站點的定位的信息進(jìn)行分析和注解的自動技術(shù)。然后針對第二 web站點再次重復(fù)整個過程。然而,這些自動化技術(shù)導(dǎo)致不同的名稱用于相同類型的字段,因為它們在web站點中使用提示來確定名稱。例如,一個web站點可以將一個類型的字段當(dāng)作用戶,另一 web站點可以將相同類型的字段當(dāng)作作者,并且第三web站點可以將相同類型的字段當(dāng)作發(fā)帖者(poster)。在另一示例中,一個web站點可以將字段當(dāng)作標(biāo)題并且另一 web站點可以將相同類型的字段當(dāng)作主題。
[0002]也存在依賴于人工過程的技術(shù)。例如,個人可以人工地考察web站點并且找到到作者的web頁面的鏈接以及到作者的名稱的另一鏈接。
【專利附圖】
【附圖說明】
[0003]圖1描繪了根據(jù)一個實施例的、在一個時段上與組織相關(guān)聯(lián)的多個用戶生成的歷史事件數(shù)據(jù)。
[0004]圖1描繪了根據(jù)一個實施例的、用于對準(zhǔn)文檔的字段的注解的系統(tǒng)。
[0005]圖2描繪了根據(jù)一個實施例的、針對web站點的論壇發(fā)帖(post)以及相關(guān)聯(lián)的DOM。
[0006]圖3描繪了根據(jù)各種實施例的三個圖。
[0007]圖4描繪了根據(jù)一個實施例的、對準(zhǔn)文檔的字段的注解的方法的流程圖。
[0008]除非特別注明,在該簡短描述中參考的圖不應(yīng)被理解為按比例繪制。
【具體實施方式】
[0009]現(xiàn)在將詳細(xì)地做出對主題的各種實施例的參考,在附圖中圖示其示例。雖然本文討論了各種實施例,但是將理解不意圖將它們限制到這些實施例。反之,意圖使呈現(xiàn)的實施例涵蓋可以被包括在如通過所附權(quán)利要求書限定的各種實施例的精神與范圍之內(nèi)的替代、修改以及等同。更進(jìn)一步地,在下文的實施例的描述中,記載了許多具體的細(xì)節(jié)以便提供本主題的實施例的徹底的理解。然而,可以在沒有這些具體細(xì)節(jié)的情況下實行實施例。在其他情況下,沒有詳細(xì)描述眾所周知的方法、過程、部件以及電路,從而沒有不必要地模糊描述的實施例的方面。
[0010]除非特別聲明,否則如從以下討論顯而易見的那樣,應(yīng)理解貫穿實施例的描述,利用諸如“檢測”、“確定”、“操作”、“使用”、“訪問”、“比較”、“相關(guān)聯(lián)”、“刪除”、“添加”、“更新”、“接收”、“傳輸”、“輸入”、“輸出”、“創(chuàng)建”、“獲得”、“執(zhí)行”、“存儲”、“生成”、“注解”、“提取”、
“引起”、“變換數(shù)據(jù)”、“修改數(shù)據(jù)來變換計算機(jī)系統(tǒng)的狀態(tài)”等等的術(shù)語的討論是指計算機(jī)系統(tǒng)、數(shù)據(jù)存儲系統(tǒng)、存儲系統(tǒng)控制器、微控制器、處理器或者類似的電子計算設(shè)備或者這樣的電子計算設(shè)備的組合的動作和過程。計算機(jī)系統(tǒng)或類似的電子計算設(shè)備被表示為在計算機(jī)系統(tǒng)的/設(shè)備的寄存器和存儲器之內(nèi)的物理(電子)量的數(shù)據(jù)進(jìn)行操縱以及變換成類似地被表示為在計算機(jī)系統(tǒng)的/設(shè)備的存儲器或寄存器或其他這樣的信息存儲、傳輸或顯示設(shè)備之內(nèi)的物理量的其他數(shù)據(jù)。
[0011]綜述
根據(jù)各種實施例,提供了用于對準(zhǔn)文檔的字段的注解的一種方法與系統(tǒng)。例如,屬于相同類型的文檔的多個文檔被用于基于通過分析文檔獲得的訓(xùn)練信息來生成電子分類模型。文檔類型的示例包括新聞、游戲、發(fā)票以及信息技術(shù)。在該情況下,針對CNN、BBC以及紐約時報的文檔是相同類型的文檔的示例,因為它們?nèi)渴切侣勵愋臀臋n。
[0012]如本文討論的,頁面可以具有與字段相關(guān)聯(lián)的名稱。如在以下的表1中描繪的。
[0013]表1描繪了訓(xùn)練web頁面的字段類型
【權(quán)利要求】
1 .一種對準(zhǔn)文檔的字段的注解的方法,所述方法包括: 訪問包括關(guān)于與針對文檔類型的文檔的訓(xùn)練群集相關(guān)聯(lián)的多個字段中的每個的特征的第一測量信息的訓(xùn)練信息,其中以第一名稱對與第一字段類型相關(guān)聯(lián)的第一訓(xùn)練群集進(jìn)行注解,并且以第二名稱對與第二字段類型相關(guān)聯(lián)的第二訓(xùn)練群集進(jìn)行注解; 基于訓(xùn)練信息生成電子分類模型; 訪問針對與新文檔的新群集相關(guān)聯(lián)的字段的特征的第二測量信息;以及基于第二測量信息使用分類模型由計算機(jī)系統(tǒng)執(zhí)行對新群集中的每個進(jìn)行自動地注解,其中以第一名稱對具有第一字段類型的字段的第一新群集進(jìn)行注解并且以第二名稱對具有第二字段類型的字段的第二新群集進(jìn)行注解。
2.如權(quán)利要求1所述的方法,其中所述方法進(jìn)一步包括: 基于在與新文檔相關(guān)聯(lián)的字段之間的相似性測量生成新群集。
3.如權(quán)利要求2所述的方法,其中生成新群集進(jìn)一步包括: 基于表示包括針對與新文檔相關(guān)聯(lián)的字段中的每個的子樹的新文檔的分層樹結(jié)構(gòu)生成新群集。
4.如權(quán)利要求2所述的方法,其中新群集的生成進(jìn)一步包括: 基于針對與新文檔相關(guān)聯(lián)的字段中的每個的特征的測量生成新群集。
5.如權(quán)利要求1所述的方法,其中所述方法進(jìn)一步包括: 訪問針對與附加的新文檔的附加新群集相關(guān)聯(lián)的字段的特征的第三測量信息;以及基于第三測量信息使用分類模型由計算機(jī)系統(tǒng)執(zhí)行對附加新群集中的每個進(jìn)行自動地注解,其中以第一名稱對具有第一字段類型的字段的第一附加新群集進(jìn)行注解,并且以第二名稱對具有第二字段類型的字段的第二附加新群集進(jìn)行注解。
6.一種用于對準(zhǔn)文檔的字段的注解的系統(tǒng),所述系統(tǒng)包括: 計算機(jī)處理器; 字段特征測量部件,其被配置用于訪問群集并且被配置用于生成關(guān)于與群集相關(guān)聯(lián)的多個字段中的每個的特征的測量信息,其中每個群集與同文檔類型的文檔相關(guān)聯(lián)的字段的不同類型相關(guān)聯(lián); 群集分類部件,其被基于訓(xùn)練信息生成的分類模型配置,其中訓(xùn)練信息包括關(guān)于與針對文檔類型的訓(xùn)練文檔的注解的訓(xùn)練群集相關(guān)聯(lián)的多個字段中的每個的特征的第一測量信息,其中以第一名稱對第一注解的訓(xùn)練群集進(jìn)行注解,因為第一注解的訓(xùn)練群集的字段與第一字段類型相關(guān)聯(lián),并且以第二名稱對第二注解的訓(xùn)練群集進(jìn)行注解,因為第二注解的訓(xùn)練群集的字段與第二字段類型相關(guān)聯(lián);以及 群集分類部件,其被配置用于訪問針對與文檔類型的新文檔的第一與第二新群集相關(guān)聯(lián)的字段的特征的第二測量信息,并且被配置用于基于第二測量信息使用分類模型自動地注解新群集中的每個,其中以第一名稱對具有第一字段類型的字段的第一新群集進(jìn)行注解并且以第二名稱對具有第二字段類型的字段的第二新群集進(jìn)行注解。
7.如權(quán)利要求6所述的系統(tǒng),其中系統(tǒng)進(jìn)一步包括字段到群集分配部件,其被配置用于基于在字段之間的相似性測量生成與文檔相關(guān)聯(lián)的群集。
8.如權(quán)利要求7所述的系統(tǒng),其中字段到群集分配部件進(jìn)一步被配置用于基于在針對與新文檔相關(guān)聯(lián)的字段中的每個的子樹之間的相似性測量生成新群集,其中子樹與表示新文檔的分層樹結(jié)構(gòu)相關(guān)聯(lián)。
9.如權(quán)利要求8所述的系統(tǒng),其中相似性測量是在子樹中的兩個之間的編輯距離。
10.如權(quán)利要求7所述的系統(tǒng),其中字段到群集分配部件進(jìn)一步被配置用于基于針對與新文檔相關(guān)聯(lián)的字段中的每個的特征的測量生成新群集。
11.如權(quán)利要求6所述的系統(tǒng),其中所述系統(tǒng)進(jìn)一步包括信息提取部件,其被配置用于從與第一名稱以及第二名稱相關(guān)聯(lián)的新文檔提取信息。
12.非瞬時性計算機(jī)可讀存儲介質(zhì),其具有存儲在其上的用于使得計算機(jī)系統(tǒng)來執(zhí)行對準(zhǔn)文檔的字段的注解的方法的計算機(jī)可執(zhí)行指令,所述方法包括: 訪問包括關(guān)于與針對文檔類型的文檔 的訓(xùn)練群集相關(guān)聯(lián)的多個字段中的每個的特征的第一測量信息的訓(xùn)練信息,其中以第一名稱對與第一字段類型相關(guān)聯(lián)的第一訓(xùn)練群集進(jìn)行注解,并且以第二名稱對與第二字段類型相關(guān)聯(lián)的第二訓(xùn)練群集進(jìn)行注解; 基于訓(xùn)練信息生成電子分類模型; 訪問針對與新文檔的新群集相關(guān)聯(lián)的字段的特征的第二測量信息;以及基于第二測量信息使用分類模型由計算機(jī)系統(tǒng)執(zhí)行對新群集中的每個進(jìn)行自動地注解,其中以第一名稱對具有第一字段類型的字段的第一新群集進(jìn)行注解并且以第二名稱對具有第二字段類型的字段的第二新群集進(jìn)行注解。
13.如權(quán)利要求12所述的非瞬時性計算機(jī)可讀存儲介質(zhì),其中新群集的生成進(jìn)一步包括: 基于在針對與新文檔相關(guān)聯(lián)的字段中的每個的子樹之間的相似性測量生成新群集,其中子樹與表示新文檔的分層樹結(jié)構(gòu)相關(guān)聯(lián)。
14.如權(quán)利要求13所述的非瞬時性計算機(jī)可讀存儲介質(zhì),其中相似性測量是在子樹對之間的編輯距離。
15.如權(quán)利要求12所述的非瞬時性計算機(jī)可讀存儲介質(zhì),其中新群集的生成進(jìn)一步包括: 基于針對與新文檔相關(guān)聯(lián)的字段中的每個的特征的測量生成新群集。
【文檔編號】G06F17/00GK103999079SQ201180075990
【公開日】2014年8月20日 申請日期:2011年10月27日 優(yōu)先權(quán)日:2011年10月27日
【發(fā)明者】S.戈蘭, O.巴科爾, R.伯格曼, I.科亨, G.諾伊 申請人:惠普發(fā)展公司,有限責(zé)任合伙企業(yè)