分析對象特征信息的獲取方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種分析對象特征信息的獲取方法和裝置。其中,該獲取方法包括:獲取用于獲取待分析對象的特征信息的獲取請求;獲取待分析對象的關鍵詞和關鍵詞的屬性信息;檢測待分析對象的第一文本信息中是否存在關鍵詞;若待分析對象的第一文本信息中存在關鍵詞,則檢測第一文本信息中是否存在屬性信息;若第一文本信息中存在屬性信息,則確定關鍵詞和屬性信息所指示的特征信息。通過本發(fā)明,解決了現(xiàn)有技術中對待分析對象的特征信息的提取不完整,導致對待分析對象的特征統(tǒng)計不準確的問題,實現(xiàn)了全面準確獲取文本信息的特征信息的效果,從而提高了對待分析對象的特征統(tǒng)計的準確性。
【專利說明】分析對象特征信息的獲取方法和裝置
【技術領域】
[0001]本發(fā)明涉及網(wǎng)絡【技術領域】,具體而言,涉及一種分析對象特征信息的獲取方法和 |101|裝直。
【背景技術】
[0002]當今社會的網(wǎng)絡環(huán)境中,網(wǎng)民及各個網(wǎng)絡媒體平臺對某一事物的觀點和看法,已經(jīng)成為了社會輿論情況組成中非常重要的一部分。對于企業(yè)、政府部門等機構來說,為了更好的了解其產(chǎn)品、服務、政策或某一即時事件在互聯(lián)網(wǎng)上被探討的情況,搜集、提取網(wǎng)民及網(wǎng)絡媒體對待分析對象的評價信息,也是必要的一項工作。
[0003]現(xiàn)有的待分析對象網(wǎng)絡評價的提取采用以下方法:針對一個待分析對象的某一評價點,給定評價模板,該評價模板內包含與該評價點相關的語句。在分析范圍內,對網(wǎng)絡文本進行分析,將網(wǎng)絡文本與該評價模板內的所有語句進行匹配,根據(jù)匹配結果反映關于該評價點的描述在所分析的網(wǎng)絡文本內的出現(xiàn)情況。
[0004]以針對待分析對象【吉普】的評價點【油耗】為例,對現(xiàn)有的提取方法進行分步闡述:
[0005]1.確定待分析對象為【吉普】,希望在分析范圍內提取與評價點【油耗】相關的內容。
[0006]2.創(chuàng)建【油耗】評價模板,在該評價模板內設定3類語句,分別就【油耗】的高中低進行描述,如:
[0007]1)氺#太費油了——油耗高;
[0008]2)覺得林油耗還行-油耗一般;
[0009]3)我朋友說挺省油的——油耗低。
[0010]其中,【林#】用以指代待分析對象,在本示例中即【吉普】。
[0011]3.針對網(wǎng)絡文本的內容,匹配評價模板中的3條語句,即:
[0012]1)吉普太費油了——油耗高;
[0013]2)覺得吉普油耗還行——油耗一般;
[0014]3)我朋友說吉普挺省油的——油耗低。
[0015]4.對上述3條語句在分析范圍內的出現(xiàn)次數(shù)進行統(tǒng)計:
[0016]1)吉普太費油了——油耗高,出現(xiàn)60次;
[0017]2)覺得吉普油耗還行——油耗一般,出現(xiàn)30次;
[0018]3)我朋友說吉普挺省油的——油耗低,出現(xiàn)10次。
[0019]5.結論:針對【吉普】這一待分析對象,在限定的分析范圍內,網(wǎng)絡文本中對其【油耗】的評價內容一共出現(xiàn)了 100次,其中,認為其【油耗高】的內容占60%,認為其【油耗一般】的內容占30%,認為其【油耗低】的內容占10%。
[0020]根據(jù)上述現(xiàn)有的評價提取方法的過程可知,其缺點在于,通過該方法對網(wǎng)絡文本中的評價情況進行分析提取時,僅能識別評價模板內已有的固定語句,即網(wǎng)絡文本內容需要與評價模板內的語句精確匹配,否則不能被識別和提取計數(shù)。例如,以上述【吉普】示例來說,假設所分析的網(wǎng)絡文本內存在語句“吉普其實還挺費油的”,根據(jù)現(xiàn)有方法,沒有與模板內任意一條語句完全匹配,則該語句不能被識別和提取計數(shù)。
[0021]針對現(xiàn)有技術中對待分析對象的特征信息的提取不完整,導致對待分析對象的特征統(tǒng)計不準確的問題,目前尚未提出有效的解決方案。
【發(fā)明內容】
[0022]針對相關技術中對待分析對象的特征信息的提取不完整,導致對待分析對象的特征統(tǒng)計不準確的問題,目前尚未提出有效的解決方案,為此,本發(fā)明的主要目的在于提供一種分析對象特征信息的獲取方法和裝置,以解決上述問題。
[0023]為了實現(xiàn)上述目的,根據(jù)本發(fā)明的一個方面,提供了一種分析對象特征信息的獲取方法,該獲取方法包括:獲取用于獲取待分析對象的特征信息的獲取請求;獲取待分析對象的關鍵詞和關鍵詞的屬性信息;檢測待分析對象的第一文本信息中是否存在關鍵詞;若待分析對象的第一文本信息中存在關鍵詞,則檢測第一文本信息中是否存在屬性信息;若第一文本信息中存在屬性信息,則確定關鍵詞和屬性信息所指示的特征信息。
[0024]進一步地,在檢測待分析對象的第一文本信息中是否存在關鍵詞之前,獲取方法包括:獲取待分析對象的第二文本信息;按照預設的劃分方式將第二文本信息劃分為多個第一文本信息;檢測待分析對象的第一文本信息中是否存在關鍵詞包括:按順序逐個檢測第一文本信息中是否存在關鍵詞。
[0025]進一步地,按照預設的劃分方式將第二文本信息劃分為多個第一文本信息包括:將第二文本信息中符合預設字數(shù)的片段作為第一文本信息;或將第二文本信息按照標點符號劃分為多個第一文本信息;或將第二文本信息中符合預設詞語數(shù)的片段作為第一文本信肩、0
[0026]進一步地,檢測第一文本信息中是否存在屬性信息包括:檢測第一文本信息中是否存在屬性信息中的第一詞語,其中,屬性信息包括一個或多個第一詞語;若第一文本信息中存在第一詞語,則確定第一文本信息中存在屬性信息。
[0027]進一步地,在確定關鍵詞和屬性信息所指示的特征信息之后,獲取方法還包括:統(tǒng)計各個第一詞語的總數(shù),及各個屬性信息對應的第二文本信息的總數(shù)。
[0028]進一步地,確定關鍵詞和屬性信息所指示的特征信息包括:從第一文本信息中提取關鍵詞和第一詞語之間的所有第二詞語;將關鍵詞、所有第二詞語以及第一詞語作為特征信息。
[0029]為了實現(xiàn)上述目的,根據(jù)本發(fā)明的另一方面,提供了一種分析對象特征信息的獲取裝置,該獲取裝置包括:第一獲取模塊,用于獲取待分析對象的特征信息的獲取請求;第二獲取模塊,用于獲取待分析對象的關鍵詞和關鍵詞的屬性信息;第一檢測模塊,用于檢測待分析對象的第一文本信息中是否存在關鍵詞;第二檢測模塊,用于在待分析對象的第一文本信息中存在關鍵詞的情況下,檢測第一文本信息中是否存在屬性信息;第一確定模塊,用于在第一文本信息中存在屬性信息的情況下,確定關鍵詞和屬性信息所指示的特征信肩、0
[0030]進一步地,獲取裝置包括:第三獲取模塊,用于在檢測待分析對象的第一文本信息中是否存在關鍵詞之前,獲取待分析對象的第二文本信息;劃分模塊,用于按照預設的劃分方式將第二文本信息劃分為多個第一文本信息;第一檢測模塊包括:第一檢測子模塊,用于按順序逐個檢測第一文本信息中是否存在關鍵詞。
[0031]進一步地,劃分模塊包括:第一劃分子模塊,用于劃分第二文本信息中符合預設字數(shù)的片段作為第一文本信息;或第二劃分子模塊,用于將第二文本信息按照標點符號劃分為多個第一文本信息;或第三劃分子模塊,用于劃分第二文本信息中符合預設詞語數(shù)的片段作為第一文本信息。
[0032]進一步地,第二檢測模塊包括:第二檢測子模塊,用于檢測第一文本信息中是否存在屬性信息中的第一詞語,其中,屬性信息包括一個或多個第一詞語;第二確定模塊,用于在第一文本信息中存在第一詞語的情況下,確定第一文本信息中存在屬性信息。
[0033]進一步地,獲取裝置還包括:統(tǒng)計模塊,用于在確定關鍵詞和屬性信息所指示的特征信息之后,統(tǒng)計各個第一詞語的總數(shù),及各個屬性信息對應的第二文本信息的總數(shù)。
[0034]進一步地,第一確定模塊包括:提取模塊,用于從第一文本信息中提取關鍵詞和第一詞語之間的所有第二詞語;確定子模塊,用于確定關鍵詞、所有第二詞語以及第一詞語作為特征信息。
[0035]采用本發(fā)明實施例,通過檢測第一文本信息中是否存在待分析對象的關鍵詞和關鍵詞的屬性信息,來判斷待分析對象是否具有特征信息,也即通過關鍵詞和關鍵詞的屬性信息對待分析對象的第一文本信息的模糊匹配確定特征信息,無需將待分析對象的第一文本信息與模板內的語句進行精確匹配。在上述實施例中,通過關鍵詞和關鍵詞的屬性信息對待分析對象的第一文本信息的模糊匹配,可以對同一特征信息的不同表述方式進行識另I」,避免了現(xiàn)有技術中由于模板語句設置不全面,造成獲取到的待分析對象的特征信息不完整的問題。通過本發(fā)明實施例,解決了現(xiàn)有技術中對待分析對象的特征信息的提取不完整,導致對待分析對象的特征統(tǒng)計不準確的問題,實現(xiàn)了全面準確獲取文本信息的特征信息的效果,從而提高了對待分析對象的特征統(tǒng)計的準確性。
【專利附圖】
【附圖說明】
[0036]此處所說明的附圖用來提供對本發(fā)明的進一步理解,構成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構成對本發(fā)明的不當限定。在附圖中:
[0037]圖1是根據(jù)本發(fā)明實施例的分析對象特征信息的獲取方法的流程圖;
[0038]圖2是根據(jù)本發(fā)明實施例的一種可選的關鍵詞和屬性信息的關系的示意圖;
[0039]圖3是根據(jù)本發(fā)明實施例的一種可選的分析對象特征信息的獲取方法的流程圖;以及
[0040]圖4是根據(jù)本發(fā)明實施例的分析對象特征信息的獲取裝置的示意圖。
【具體實施方式】
[0041]為了使本【技術領域】的人員更好地理解本發(fā)明方案,下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分的實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都應當屬于本發(fā)明保護的范圍。
[0042]需要說明的是,本發(fā)明的說明書和權利要求書及上述附圖中的術語“第一”、“第二”等是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應該理解這樣使用的數(shù)據(jù)在適當情況下可以互換,以便這里描述的本發(fā)明的實施例能夠以除了在這里圖示或描述的那些以外的順序實施。此外,術語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或對于這些過程、方法、產(chǎn)品或設備固有的其它步驟或單元。
[0043]圖1是根據(jù)本發(fā)明實施例的分析對象特征信息的獲取方法的流程圖,如圖1所示該獲取方法包括如下步驟:
[0044]步驟3102,獲取用于獲取待分析對象的特征信息的獲取請求。
[0045]步驟3104,獲取待分析對象的關鍵詞和關鍵詞的屬性信息。
[0046]步驟3106,檢測待分析對象的第一文本信息中是否存在關鍵詞。
[0047]在待分析對象的第一文本信息中存在關鍵詞的情況下,執(zhí)行步驟3108 ;在待分析對象的第一文本信息中不存在關鍵詞的情況下,執(zhí)行步驟3112。
[0048]步驟3108,檢測第一文本信息中是否存在屬性信息。
[0049]在第一文本信息中存在屬性信息的情況下,執(zhí)行步驟3110 ;在第一文本信息中不存在屬性信息的情況下,執(zhí)行步驟3112。
[0050]步驟3110,確定關鍵詞和屬性信息所指示的特征信息。
[0051]步驟3112,確定第一文本信息中不存在特征信息。
[0052]采用本發(fā)明實施例,通過檢測第一文本信息中是否存在待分析對象的關鍵詞和關鍵詞的屬性信息,來判斷待分析對象是否具有特征信息,也即通過關鍵詞和關鍵詞的屬性信息對待分析對象的第一文本信息的模糊匹配確定特征信息,無需將待分析對象的第一文本信息與模板內的語句進行精確匹配。在上述實施例中,通過關鍵詞和關鍵詞的屬性信息對待分析對象的第一文本信息的模糊匹配,可以對同一特征信息的不同表述方式進行識另I」,避免了現(xiàn)有技術中由于模板語句設置不全面,造成獲取到的待分析對象的特征信息不完整的問題。通過本發(fā)明實施例,解決了現(xiàn)有技術中對待分析對象的特征信息的提取不完整,導致對待分析對象的特征統(tǒng)計不準確的問題,實現(xiàn)了全面準確獲取文本信息的特征信息的效果,從而提高了對待分析對象的特征統(tǒng)計的準確性。
[0053]根據(jù)本發(fā)明上述實施例,在檢測待分析對象的第一文本信息中是否存在關鍵詞之前,獲取方法可以包括:獲取待分析對象的第二文本信息;按照預設的劃分方式將第二文本信息劃分為多個第一文本信息;檢測待分析對象的第一文本信息中是否存在關鍵詞包括:按順序逐個檢測第一文本信息中是否存在關鍵詞。
[0054]具體地,在獲取待分析對象的第二文本信息之后,按照預設的劃分方式將爬取到的第二文本信息劃分為多個第一文本信息,并按順序逐個檢測該第一文本信息中是否存在關鍵詞。
[0055]上述的待分析對象的第二文本信息可以為通過爬蟲代碼從網(wǎng)站資源上爬取到的一個或多個網(wǎng)絡文本、通過掃描紙質文件得到的電子文本以及手動輸入的電子文本等。
[0056]例如,若要獲取購物網(wǎng)站上的某個商品(即上述實施例中的待分析對象)銷售后的用戶評價信息,可以通過爬蟲代碼從購物網(wǎng)站上獲取該商品的一個或多個用戶評價,爬取到的用戶評價的文本內容即為上述實施例中的第二文本信息。
[0057]進一步地,按照預設的劃分方式將第二文本信息劃分為多個第一文本信息可以包括:將第二文本信息中符合預設字數(shù)的片段作為第一文本信息;或將第二文本信息按照標點符號劃分為多個第一文本信息;或將第二文本信息中符合預設詞語數(shù)的片段作為第一文本信息。
[0058]在本發(fā)明一個可選的實施例中,可以從第二文本信息中的第一個字開始,按順序連續(xù)獲取符合預設字數(shù)的第一個片段,然后從第二文本信息中的第二個字開始,按順序連續(xù)獲取符合預設字數(shù)的第二個片段,直至獲取到的片段的最后一個字為該第二文本信息中的最后一個字為止。
[0059]例如,將第二文本信息“聽說進口吉普的指南者油耗有點高啊共16個字)按預設字數(shù)(如,10個字)劃分為多個(在該實施例中為7個)第一文本信息,可以得到如下7個片段(即上述實施例中的第一文本信息):(1)聽說進口吉普的指南者;(2)說進口吉普的指南者油:(3)進口吉普的指南者油耗;(4) 口吉普的指南者油耗有;(5)吉普的指南者油耗有點:(6)普的指南者油耗有點高;以及(7)的指南者油耗有點高啊。
[0060]在另一個可選的實施例中,可以從第二文本信息中的第一個詞語開始,按照順序連續(xù)獲取符合預設詞語數(shù)的第一個片段,然后從第二文本信息中的第二個詞語開始,按照順序連續(xù)獲取符合預設詞語數(shù)的第二個片段,直至獲取到的片段的最后一個詞語為該第二文本信息中的最后一個詞語為止。
[0061]例如,將第二文本信息“聽說進口吉普的指南者油耗有點高啊”按預設詞語數(shù)(如,5個詞語)劃分為多個第一文本信息,可以得到如下5個片段(即上述實施例中的第一文本信息):(1)聽說進口吉普的指南者;(2)進口吉普的指南者油耗;(3)吉普的指南者油耗有點:(4)的指南者油耗有點高;以及(5)指南者油耗有點高啊。
[0062]上述的詞語是預設的,按照預設詞語數(shù)劃分第二文本信息時,可以按照預設的詞語來確定詞語數(shù)并劃分第二文本信息,如,上述第二文本信息中的詞語可以包括:聽說、進口、吉普、的、指南者、油耗、有點、高以及啊。
[0063]在上述的實施例中,對第二文本信息的劃分是以預設的劃分方式對字符串進行劃分,取若干個連續(xù)的片段,得到第一文本信息。通過本發(fā)明上述實施例,只有在同一個第一文本信息中同時出現(xiàn)關鍵詞和屬性信息時,才認為該屬性信息是描述該關鍵詞的。通過限定關鍵詞和屬性信息之間的距離,避免了在不同第一文本信息中檢測到關鍵詞和屬性信息時,錯誤的獲取該關鍵詞和屬性信息對應的特征信息的問題,提高了獲取特征信息的準確性。
[0064]例如,若獲取到的第二文本信息為一篇文章,該文章中包括十句話,可以按照標點符號劃分該文章,如將每句話作為一個第一文本信息,其中,第一句話為“最近聽說有些網(wǎng)友對吉普的油耗發(fā)表了一些評價”,第十句話為“網(wǎng)友們提供的評價內容對我來說很有用,很高興能得到大家的幫助,非常感謝”,那么可以在第一個第一文本信息中檢測到“油耗”這一關鍵詞,并在第十個第一文本信息中檢測到“高”這一屬性信息,但是很顯然第十個第一文本信息中檢測到的屬性信息不是描述第一個第一文本信息中的關鍵詞,若將該屬性信息和該關鍵詞作為獲取特征信息的依據(jù),則會獲得錯誤的特征信息。在上述實施例中,限定了只有在同一個第一文本信息中檢測到關鍵詞和屬性信息時,才獲取檢測到的關鍵詞和屬性信息對應的特征信息,通過該實施例限定了關鍵詞和屬性信息之間的距離,提高了獲取特征信息的準確性。
[0065]在本發(fā)明的上述實施例中,檢測第一文本信息中是否存在屬性信息可以包括:檢測第一文本信息中是否存在屬性信息中的第一詞語,其中,屬性信息包括一個或多個第一詞語;若第一文本信息中存在第一詞語,則確定第一文本信息中存在屬性信息。
[0066]具體地,只要在第一文本信息中檢測到屬性信息中的任意一個第一詞語,即可確定該第一文本信息中存在屬性信息。
[0067]在上述實施例中,可以從預設的詞語數(shù)據(jù)庫中讀取待分析對象的關鍵詞、該關鍵詞的屬性信息的一個或多個第一詞語。
[0068]圖2是根據(jù)本發(fā)明實施例的一種可選的關鍵詞和屬性信息的關系的示意圖。下面結合圖2詳細說明本發(fā)明上述實施例。
[0069]如圖2所示,待分析對象可以對應一個或多個關鍵詞,如圖2中的待分析對象可以對應“關鍵詞1,......,關鍵詞;每個關鍵詞可以對應一個或多個屬性信息,如圖2中的關鍵詞1可以對應“屬性信息11、屬性信息12和屬性信息13”,和關鍵詞III可以對應“屬性信息“和屬性信息;每個屬性信息可以包括一個或多個第一詞語,如圖2中的屬性信息11可以包括“第一詞語111,……,第一詞語1、屬性信息12可以包括“第一詞語121,……,第一詞語12^”、屬性信息13可以包括“第一詞語131,……,第一詞語13^”,以及屬性信息“可以包括“第一詞語“I,……,第一詞語III…”和屬性信息…可以包括“第一詞語 11121,......,第一詞語
[0070]在該實施例中,若待分析對象為吉普,那么圖2中的關鍵詞1可以是“油耗”,關鍵詞~可以是與吉普有關的其他關鍵詞(如,價格或者性能);關鍵詞1對應的屬性信息可以“高”、“一般”以及“低”三個屬性信息;每個屬性信息均可以包括一個或多個第一詞語,如屬性信息“高”可以包括如“高”、“較高”、“很高”和“不低”等多個第一詞語、屬性信息“一般”可以包括“一般” “還可以”以及“還行”等多個第一詞語,以及屬性信息“低”可以包括“不高”、“較低”、“低”以及“很低”等多個第一詞語。
[0071]通過本發(fā)明上述實施例,在對第一文本信息中的內容進行檢測時,不限制關鍵詞與屬性信息的第一詞語之間的組合形式(如,在文本信息中出現(xiàn)的先后順序以及兩組詞之間包含的其他內容),只要第一文本信息中同時出現(xiàn)關鍵詞與該第一詞語的任意組合,即可確定該第一文本信息中存在屬性信息。通過上述實施例,避免了由于模板中的語句設置不全面,導致待分析對象的特征信息獲取遺漏的問題,提高了獲取待分析對象的特征信息的準確性。
[0072]根據(jù)本發(fā)明上述實施例,在確定關鍵詞和屬性信息所指示的特征信息之后,獲取方法還可以包括:統(tǒng)計各個第一詞語的總數(shù),及各個屬性信息對應的第二文本信息的總數(shù)。
[0073]具體地,在獲取到各個第一詞語對應的特征信息之后,統(tǒng)計各個第一詞語的總數(shù)以獲得特征信息的出現(xiàn)次數(shù),并統(tǒng)計包含各個屬性信息的第二文本信息的總數(shù)以獲得各個屬性信息的出現(xiàn)次數(shù)。
[0074]例如,若第二文本信息為一篇文章,該文章為對吉普油耗(即上述實施例中的關鍵詞)的評價,且文章中出現(xiàn)了 10個關于油耗高的評價信息(即上述實施例中的屬性信息為“高”,且文章中出現(xiàn)了 10個第一詞語),那么在統(tǒng)計各個屬性信息對應的第二文本信息的總數(shù)時,計數(shù)為1 ;在統(tǒng)計各個第一詞語的總數(shù)時,計數(shù)為10。
[0075]在上述實施例中,通過統(tǒng)計到的第一詞語的總數(shù)可以得到各個特征信息出現(xiàn)的總數(shù),由于一個第二文本信息中可能出現(xiàn)一個屬性信息的多個第一詞語,但是該第二文本信息僅表達了該屬性信息所指示的觀點,那么通過統(tǒng)計包含各個屬性信息的第二文本信息的總數(shù)可以得到表達有不同觀點的各個文本的總數(shù)。
[0076]通過本發(fā)明上述實施例,可以反映待分析對象的各個特征信息的出現(xiàn)次數(shù),以及含有各個特征信息的第二文本信息的總數(shù),可以在用戶需要了解待分析對象的某個特征信息時,為用戶提供準確可靠的信息。
[0077]在本發(fā)明的上述實施例中,確定關鍵詞和屬性信息所指示的特征信息可以包括:從第一文本信息中提取關鍵詞和第一詞語之間的所有第二詞語;將關鍵詞、所有第二詞語以及第一詞語作為特征信息。
[0078]具體地,在第一文本信息中檢測到關鍵詞和第一詞語之后,提取該關鍵詞和該第一詞語之間所有的詞語(或文字),將該關鍵詞、該第一詞語以及提取到的詞語(或文字)作為第一文本信息的特征信息。
[0079]例如,在第一文本信息“普的指南者油耗有點高”中,檢測到關鍵詞“油耗”和第一詞語“高”,則提取第一文本信息中的“油耗有點高”,并將其作為第一文本信息的特征信息。
[0080]在上述實施例中,可將關鍵詞、第一詞語及其二者之間的內容全部提取出來,作為第一文本信息的特征信息。通過本發(fā)明上述實施例,避免了現(xiàn)有技術中由于模板的語句設置不全面而造成的待分析對象特征信息的提取遺漏,提高了提取特征信息的準確性及可靠性。
[0081]圖3是根據(jù)本發(fā)明實施例的一種可選的分析對象特征信息的獲取方法的流程圖。下面結合圖3詳細介紹本發(fā)明上述實施例。
[0082]如圖3所示,該獲取方法可以包括如下步驟:
[0083]步驟3302,確定待分析對象。
[0084]步驟3304,從詞語數(shù)據(jù)庫中讀取待分析對象的關鍵詞以及評價詞語。
[0085]上述的評價詞語即本發(fā)明上述實施例中的第一詞語。
[0086]在執(zhí)行步驟310之前,執(zhí)行步驟3306。
[0087]步驟3306,通過爬蟲代碼爬取網(wǎng)站資源上的網(wǎng)絡文本。
[0088]其中,網(wǎng)絡文本即為本發(fā)明上述實施例中的第二文本信息。
[0089]步驟3308,將爬取到的網(wǎng)絡文本按預設拆分方式拆分為~個子文本。
[0090]其中,子文本即本發(fā)明上述實施例中的第一文本信息;預設拆分方式即本發(fā)明上述實施例中的預設的劃分方式。
[0091]在得到~個子文本之后,執(zhí)行步驟3310。
[0092]步驟3310,依次獲取子文本。
[0093]具體地,在首次執(zhí)行該步驟時,獲取第一個子文本。
[0094]步驟3312,判斷是否在子文本中查找到關鍵詞。
[0095]在查找到關鍵詞的情況下,執(zhí)行步驟3314 ;在未查找到關鍵詞的情況下,返回執(zhí)行步驟3310,即獲取下一個子文本,若第~次執(zhí)行步驟3312,則獲取第奸1個子文本。
[0096]步驟3314,在子文本內查找評價詞語。
[0097]步驟3316,判斷是否在子文本內查找到評價詞語。
[0098]在查找到評價詞語的情況下,結束該循環(huán);在未查找到評價詞語的情況下,返回執(zhí)行步驟3310。
[0099]具體地,針對待分析對象,從詞語數(shù)據(jù)庫中讀取兩組詞語:關鍵詞和評價詞語,該關鍵詞和評價詞語相互對應;在爬取到網(wǎng)絡文本并將其拆分為~個子文本之后,按照關鍵詞和評價詞語按順序逐個對~個子文本執(zhí)行查找操作;在同一個子文本內查找到關鍵詞和評價詞語的情況下,結束該查找操作;若在子文本內未查找到關鍵詞或評價詞語,則繼續(xù)查找下一個子文本,直至在同一個子文本內查找到關鍵詞和評價詞語,或者查找完所有子文本。
[0100]下面以待分析對象“吉普”為例,詳細介紹圖3所示的獲取方法。
[0101]從詞語數(shù)據(jù)庫中讀取關鍵詞為“油耗”,從詞語數(shù)據(jù)庫中讀取油耗的評價詞語“高、低和一般”,將從網(wǎng)站資源上獲取的所有包含“吉普”一詞的網(wǎng)絡文本,以句子為單位,將每個句子劃分成多個子文本,按順序逐個查找子文本中是否包含關鍵詞“油耗”以及評價詞語內的詞匯(即上述的高、低和一般)。
[0102]在上述實施例中的評價詞語“高、低和一般”僅作示例性說明,在實際操作中評價詞語還可以包括:較高、不低等詞匯。
[0103]在多個子文本內,按順序查找每個子文本是否包含“油耗” 一詞;在某個子文本內找到“油耗”后,在該子文本“油耗” 一詞的前后查找“高,低和一般”幾個詞匯:若查找到“高”,則提取出“油耗”與“高”之間的全部詞語,并確定該部分文本即表達了“油耗高”這一評價觀點;若未找到“油耗”一詞,或找到“油耗”但未找到“高,低和一般”,則在下一個子文本內重復以上查找。
[0104]對上述的步驟詳解如下:
[0105]81.確定“吉普”為待分析對象。
[0106]82.確定待分析對象的關鍵詞為“油耗”,同時確定“高,低和一般”為該關鍵詞的評價詞語。
[0107]83.將網(wǎng)絡文本“聽說進口吉普的指南者油耗有點高?。?”以固定字數(shù)(如,10個字)的拆分方式,拆分成以下7段子文本:
[0108]1)聽說進口吉普的指南者;
[0109]2)說進口吉普的指南者油;
[0110]3)進口吉普的指南者油耗;
[0111]4) 口吉普的指南者油耗有;
[0112]5)吉普的指南者油耗有點;
[0113]6)普的指南者油耗有點高;
[0114]7)的指南者油耗有點高啊。
[0115]84.逐個查找步驟33中的7段子文本中是否包含“油耗”一詞,查找過程如下:
[0116]1)未查找到“油耗” 一詞,進入下一個子文本;
[0117]2)未查找到“油耗” 一詞,進入下一個子文本;
[0118]3)查找到“油耗”一詞,未查找到“高,低和一般”,進入下一個子文本;
[0119]4)查找到“油耗”一詞,未查找到“高,低和一般”,進入下一個子文本;
[0120]5)查找到“油耗”一詞,未查找到“高,低和一般”,進入下一個子文本;
[0121]6)查找到“油耗”一詞,同時查找到“高”,提取兩個詞之間的全部內容“油耗有點高”,并停止查找。
[0122]85.完成對該網(wǎng)絡文本的分析,確定其對待分析對象“吉普”的內容表述為“油耗-高”這一評價觀點。
[0123]通過本發(fā)明上述實施例,對包含吉普的網(wǎng)絡文本執(zhí)行查找操作,查找該網(wǎng)絡文本中是否包含關鍵詞和評價詞語;同一子文本內查找到關鍵詞和評價詞語中的一個詞語之后,提取關鍵詞和評價詞語之間的全部內容,并依此確定該網(wǎng)絡文本表述的評價觀點。通過上述實施例,避免了現(xiàn)有技術中由于模板的語句設置不全面而造成的待分析對象的評價信息的提取不完整,導致對待分析對象的評價信息統(tǒng)計不準確的問題,只需在網(wǎng)絡文本中查找關鍵詞和評價詞語,即可判斷該網(wǎng)絡文本所表達的評價觀點,提高了獲取評價信息的靈活性和準確性,可以得到更加全面可靠的評價信息統(tǒng)計結果。
[0124]需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計算機可執(zhí)行指令的計算機系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
[0125]圖4是根據(jù)本發(fā)明實施例的分析對象特征信息的獲取裝置的示意圖,如圖4所示,該獲取裝置可以包括:第一獲取模塊10、第二獲取模塊30、第一檢測模塊50、第二檢測模塊70以及第一確定模塊90。
[0126]其中,第一獲取模塊10用于獲取待分析對象的特征信息的獲取請求;第二獲取模塊30用于獲取待分析對象的關鍵詞和關鍵詞的屬性信息;第一檢測模塊50用于檢測待分析對象的第一文本信息中是否存在關鍵詞;第二檢測模塊70用于在待分析對象的第一文本信息中存在關鍵詞的情況下,檢測第一文本信息中是否存在屬性信息;第一確定模塊90用于在第一文本信息中存在屬性信息的情況下,確定關鍵詞和屬性信息所指示的特征信肩、0
[0127]采用本發(fā)明實施例,通過第一檢測模塊和第二檢測模塊檢測第一文本信息中是否存在待分析對象的關鍵詞和關鍵詞的屬性信息,來判斷待分析對象是否具有特征信息,也即通過關鍵詞和關鍵詞的屬性信息對待分析對象的第一文本信息的模糊匹配確定特征信息,無需將待分析對象的第一文本信息與模板內的語句進行精確匹配。在上述實施例中,通過關鍵詞和關鍵詞的屬性信息對待分析對象的第一文本信息的模糊匹配,可以對同一特征信息的不同表述方式進行識別,避免了現(xiàn)有技術中由于模板語句設置不全面,造成獲取到的待分析對象的特征信息不完整的問題。通過本發(fā)明實施例,解決了現(xiàn)有技術中對待分析對象的特征信息的提取不完整,導致對待分析對象的特征統(tǒng)計不準確的問題,實現(xiàn)了全面準確獲取文本信息的特征信息的效果,從而提高了對待分析對象的特征統(tǒng)計的準確性。
[0128]根據(jù)本發(fā)明上述實施例,獲取裝置可以包括:第三獲取模塊,用于在檢測待分析對象的第一文本信息中是否存在關鍵詞之前,獲取待分析對象的第二文本信息;劃分模塊,用于按照預設的劃分方式將第二文本信息劃分為多個第一文本信息;第一檢測模塊包括:第一檢測子模塊,用于按順序逐個檢測第一文本信息中是否存在關鍵詞。
[0129]具體地,在獲取待分析對象的第二文本信息之后,按照預設的劃分方式將爬取到的第二文本信息劃分為多個第一文本信息,并按順序逐個檢測該第一文本信息中是否存在關鍵詞。
[0130]上述的待分析對象的第二文本信息可以為通過爬蟲代碼從網(wǎng)站資源上爬取到的一個或多個網(wǎng)絡文本、通過掃描紙質文件得到的電子文本以及手動輸入的電子文本等。
[0131]進一步地,劃分模塊可以包括:第一劃分子模塊,用于劃分第二文本信息中符合預設字數(shù)的片段作為第一文本信息;或第二劃分子模塊,用于將第二文本信息按照標點符號劃分為多個第一文本信息;或第三劃分子模塊,用于劃分第二文本信息中符合預設詞語數(shù)的片段作為第一文本信息。
[0132]在本發(fā)明一個可選的實施例中,可以從第二文本信息中的第一個字開始,按順序連續(xù)獲取符合預設字數(shù)的第一個片段,然后從第二文本信息中的第二個字開始,按順序連續(xù)獲取符合預設字數(shù)的第二個片段,直至獲取到的片段的最后一個字為該第二文本信息中的最后一個字為止。
[0133]在另一個可選的實施例中,可以從第二文本信息中的第一個詞語開始,按照順序連續(xù)獲取符合預設詞語數(shù)的第一個片段,然后從第二文本信息中的第二個詞語開始,按照順序連續(xù)獲取符合預設詞語數(shù)的第二個片段,直至獲取到的片段的最后一個詞語為該第二文本信息中的最后一個詞語為止。
[0134]上述的詞語是預設的,按照預設詞語數(shù)劃分第二文本信息時,需按照預設的詞語來確定詞語數(shù)并劃分第二文本信息,如,上述第二文本信息中的詞語可以包括:聽說、進口、吉普、的、指南者、油耗、有點、高以及啊。
[0135]在上述的實施例中,對第二文本信息的劃分是以預設的劃分方式對字符串進行劃分,取若干個連續(xù)的片段,得到第一文本信息。通過本發(fā)明上述實施例,只有在同一個第一文本信息中同時出現(xiàn)關鍵詞和屬性信息時,才認為該屬性信息是描述該關鍵詞的。通過限定關鍵詞和屬性信息之間的距離,避免了在不同第一文本信息中檢測到關鍵詞和屬性信息時,錯誤的獲取該關鍵詞和屬性信息對應的特征信息的問題,提高了獲取特征信息的準確性。
[0136]在本發(fā)明的上述實施例中,第二檢測模塊可以包括:第二檢測子模塊,用于檢測第一文本信息中是否存在屬性信息中的第一詞語,其中,屬性信息可以包括一個或多個第一詞語;第二確定模塊,用于在第一文本信息中存在第一詞語的情況下,確定第一文本信息中存在屬性信息。
[0137]具體地,只要在第一文本信息中檢測到屬性信息中的任意一個第一詞語,即可確定該第一文本信息中存在屬性信息。
[0138]在上述實施例中,可以從預設的詞語數(shù)據(jù)庫中讀取待分析對象的關鍵詞、該關鍵詞的屬性信息的一個或多個第一詞語。
[0139]根據(jù)本發(fā)明上述實施例,獲取裝置還可以包括:統(tǒng)計模塊,用于在確定關鍵詞和屬性信息所指示的特征信息之后,統(tǒng)計各個第一詞語的總數(shù),及各個屬性信息對應的第二文本信息的總數(shù)。
[0140]具體地,在獲取到各個第一詞語對應的特征信息之后,統(tǒng)計各個第一詞語的總數(shù)以獲得特征信息的出現(xiàn)次數(shù),并統(tǒng)計包含各個屬性信息的第二文本信息的總數(shù)以獲得各個屬性信息的出現(xiàn)次數(shù)。
[0141]在上述實施例中,通過統(tǒng)計到的第一詞語的總數(shù)可以得到各個特征信息出現(xiàn)的總數(shù),由于一個第二文本信息中可能出現(xiàn)一個屬性信息的多個第一詞語,但是該第二文本信息僅表達了該屬性信息所指示的觀點,那么通過統(tǒng)計包含各個屬性信息的第二文本信息的總數(shù)可以得到表達有不同觀點的各個文本的總數(shù)。
[0142]通過本發(fā)明上述實施例,可以反映待分析對象的各個特征信息的出現(xiàn)次數(shù),以及含有各個特征信息的第二文本信息的總數(shù),可以在用戶需要了解待分析對象的某個特征信息時,為用戶提供準確可靠的信息。
[0143]在本發(fā)明的上述實施例中,第一確定模塊可以包括:提取模塊,用于從第一文本信息中提取關鍵詞和第一詞語之間的所有第二詞語;確定子模塊,用于確定關鍵詞、所有第二詞語以及第一詞語作為特征信息。
[0144]具體地,在第一文本信息中檢測到關鍵詞和第一詞語之后,提取該關鍵詞和該第一詞語之間所有的詞語(或文字),將該關鍵詞、該第一詞語以及提取到的詞語(或文字)作為第一文本信息的特征信息。
[0145]在上述實施例中,可將關鍵詞、第一詞語及其二者之間的內容全部提取出來,作為第一文本信息的特征信息。通過本發(fā)明上述實施例,避免了現(xiàn)有技術中由于模板的語句設置不全面而造成的待分析對象特征信息的提取遺漏,提高了提取特征信息的準確性及可靠性。
[0146]本實施例中所提供的各個模塊與方法實施例對應步驟所提供的使用方法相同、應用場景也可以相同。當然,需要注意的是,上述模塊涉及的方案可以不限于方法實施例中的內容和場景,且上述模塊可以運行在計算機終端或移動終端,可以通過軟件或硬件實現(xiàn)。
[0147]從以上的描述中,可以看出,本發(fā)明實現(xiàn)了如下技術效果:
[0148]采用本發(fā)明實施例,通過檢測第一文本信息中是否存在待分析對象的關鍵詞和關鍵詞的屬性信息,來判斷待分析對象是否具有特征信息,也即通過關鍵詞和關鍵詞的屬性信息對待分析對象的第一文本信息的模糊匹配確定特征信息,無需將待分析對象的第一文本信息與模板內的語句進行精確匹配。在上述實施例中,通過關鍵詞和關鍵詞的屬性信息對待分析對象的第一文本信息的模糊匹配,可以對同一特征信息的不同表述方式進行識另I」,避免了現(xiàn)有技術中由于模板語句設置不全面,造成獲取到的待分析對象的特征信息不完整的問題。通過本發(fā)明實施例,解決了現(xiàn)有技術中對待分析對象的特征信息的提取不完整,導致對待分析對象的特征統(tǒng)計不準確的問題,實現(xiàn)了全面準確獲取文本信息的特征信息的效果,從而提高了對待分析對象的特征統(tǒng)計的準確性。
[0149]顯然,本領域的技術人員應該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計算裝置來實現(xiàn),它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成的網(wǎng)絡上,可選地,它們可以用計算裝置可執(zhí)行的程序代碼來實現(xiàn),從而,可以將它們存儲在存儲裝置中由計算裝置來執(zhí)行,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結合。
[0150]以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領域的技術人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。
【權利要求】
1.一種分析對象特征信息的獲取方法,其特征在于,包括: 獲取用于獲取待分析對象的特征信息的獲取請求; 獲取所述待分析對象的關鍵詞和所述關鍵詞的屬性信息; 檢測所述待分析對象的第一文本信息中是否存在所述關鍵詞; 若所述待分析對象的第一文本信息中存在所述關鍵詞,則檢測所述第一文本信息中是否存在所述屬性信息; 若所述第一文本信息中存在所述屬性信息,則確定所述關鍵詞和所述屬性信息所指示的所述特征信息。
2.根據(jù)權利要求1所述的獲取方法,其特征在于,在檢測所述待分析對象的第一文本信息中是否存在所述關鍵詞之前,所述獲取方法包括: 獲取所述待分析對象的第二文本信息; 按照預設的劃分方式將所述第二文本信息劃分為多個所述第一文本信息; 檢測所述待分析對象的第一文本信息中是否存在所述關鍵詞包括:按順序逐個檢測所述第一文本信息中是否存在所述關鍵詞。
3.根據(jù)權利要求2中所述的獲取方法,其特征在于,按照預設的劃分方式將所述第二文本信息劃分為多個所述第一文本信息包括: 將所述第二文本信息中符合預設字數(shù)的片段作為所述第一文本信息;或 將所述第二文本信息按照標點符號劃分為多個所述第一文本信息;或 將所述第二文本信息中符合預設詞語數(shù)的片段作為所述第一文本信息。
4.根據(jù)權利要求1至3中任意一項所述的獲取方法,其特征在于,檢測所述第一文本信息中是否存在所述屬性信息包括: 檢測所述第一文本信息中是否存在所述屬性信息中的第一詞語,其中,所述屬性信息包括一個或多個所述第一詞語; 若所述第一文本信息中存在所述第一詞語,則確定所述第一文本信息中存在所述屬性信息。
5.根據(jù)權利要求4所述的獲取方法,其特征在于,在確定所述關鍵詞和所述屬性信息所指示的所述特征信息之后,所述獲取方法還包括: 統(tǒng)計各個所述第一詞語的總數(shù),及各個所述屬性信息對應的所述第二文本信息的總數(shù)。
6.根據(jù)權利要求4所述的獲取方法,其特征在于,確定所述關鍵詞和所述屬性信息所指示的所述特征信息包括: 從所述第一文本信息中提取所述關鍵詞和所述第一詞語之間的所有第二詞語; 將所述關鍵詞、所述所有第二詞語以及所述第一詞語作為所述特征信息。
7.一種分析對象特征信息的獲取裝置,其特征在于,包括: 第一獲取模塊,用于獲取待分析對象的特征信息的獲取請求; 第二獲取模塊,用于獲取所述待分析對象的關鍵詞和所述關鍵詞的屬性信息; 第一檢測模塊,用于檢測所述待分析對象的第一文本信息中是否存在所述關鍵詞;第二檢測模塊,用于在所述待分析對象的第一文本信息中存在所述關鍵詞的情況下,檢測所述第一文本信息中是否存在所述屬性信息; 第一確定模塊,用于在所述第一文本信息中存在所述屬性信息的情況下,確定所述關鍵詞和所述屬性信息所指示的所述特征信息。
8.根據(jù)權利要求7所述的獲取裝置,其特征在于,所述獲取裝置包括: 第三獲取模塊,用于在檢測所述待分析對象的第一文本信息中是否存在所述關鍵詞之前,獲取所述待分析對象的第二文本信息; 劃分模塊,用于按照預設的劃分方式將所述第二文本信息劃分為多個所述第一文本信息; 所述第一檢測模塊包括:第一檢測子模塊,用于按順序逐個檢測所述第一文本信息中是否存在所述關鍵詞。
9.根據(jù)權利要求8中所述的獲取裝置,其特征在于,所述劃分模塊包括: 第一劃分子模塊,用于劃分所述第二文本信息中符合預設字數(shù)的片段作為所述第一文本信息;或 第二劃分子模塊,用于將所述第二文本信息按照標點符號劃分為多個所述第一文本信息;或 第三劃分子模塊,用于劃分所述第二文本信息中符合預設詞語數(shù)的片段作為所述第一文本信息。
10.根據(jù)權利要求7至9中任意一項所述的獲取裝置,其特征在于,所述第二檢測模塊包括: 第二檢測子模塊,用于檢測所述第一文本信息中是否存在所述屬性信息中的第一詞語,其中,所述屬性信息包括一個或多個所述第一詞語; 第二確定模塊,用于在所述第一文本信息中存在所述第一詞語的情況下,確定所述第一文本信息中存在所述屬性信息。
11.根據(jù)權利要求10所述的獲取裝置,其特征在于,所述獲取裝置還包括: 統(tǒng)計模塊,用于在確定所述關鍵詞和所述屬性信息所指示的所述特征信息之后,統(tǒng)計各個所述第一詞語的總數(shù),及各個所述屬性信息對應的所述第二文本信息的總數(shù)。
12.根據(jù)權利要求10所述的獲取裝置,其特征在于,所述第一確定模塊包括: 提取模塊,用于從所述第一文本信息中提取所述關鍵詞和所述第一詞語之間的所有第二詞語; 確定子模塊,用于確定所述關鍵詞、所述所有第二詞語以及所述第一詞語作為所述特征信息。
【文檔編號】G06F17/30GK104462279SQ201410693965
【公開日】2015年3月25日 申請日期:2014年11月26日 優(yōu)先權日:2014年11月26日
【發(fā)明者】梁夢溪, 楊韜, 余德樂, 何鑫 申請人:北京國雙科技有限公司