亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種用于檢索的數(shù)據(jù)處理方法和裝置的制造方法

文檔序號:9217238閱讀:414來源:國知局
一種用于檢索的數(shù)據(jù)處理方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)領(lǐng)域,具體而言,涉及一種用于檢索的數(shù)據(jù)處理方法和裝置。
【背景技術(shù)】
[0002] 在通過互聯(lián)網(wǎng)進行檢索或者諸如問答社區(qū)、論壇、百科之類的網(wǎng)絡資源中,通常會 有諸如"孕婦能吃西瓜嗎"、"給寶寶用礦泉水沖奶好嗎"之類的問題,這類問題的答案通常 為"是(YES,肯定)"或者"否(NO,否定)",我們稱之為是/非問題(也稱為YES-NO問題或 極性問題)?;ヂ?lián)網(wǎng)用戶在獲取這類是/非問題的相關(guān)答案時,目前只能通過搜索引擎來獲 取零散的相關(guān)網(wǎng)頁,然后再經(jīng)過人工過濾不相關(guān)網(wǎng)頁并自行分析其中的答案觀點,這導致 對答案相關(guān)的檢索結(jié)果的數(shù)據(jù)分析或處理的效率較低。

【發(fā)明內(nèi)容】

[0003] 為解決上述的技術(shù)問題,本發(fā)明提供了一種用于檢索的數(shù)據(jù)處理方法和裝置,針 對是/非問題和該問題對應的答案網(wǎng)頁,能夠生成對應的問題-答案模板對,并依據(jù)問題 答案模板對確定該是/非問題與答案片段的匹配度,以匹配度作為度量抽取相應的答案片 段,大大改善了對檢索結(jié)果的數(shù)據(jù)處理的效率、準確度,并且從抽取出的答案片段中確定對 是/非問題的觀點為肯定或否定,改善了針對是/非問題的觀點數(shù)據(jù)的獲取效率和可靠性, 使得用戶可方便、快捷地查看是/非問題的檢索結(jié)果。
[0004] 根據(jù)本發(fā)明實施方式的第一方面,提供了一種用于檢索的數(shù)據(jù)處理方法,該方法 可包括:獲取問題和包含所述問題的答案的頁面數(shù)據(jù),其中,所述問題是答案為肯定或否定 的問題,根據(jù)所述問題和所述頁面數(shù)據(jù)生成與所述問題配對的問題-答案模板對〈問題,答 案〉,根據(jù)所述問題和所述頁面數(shù)據(jù)中答案片段的匹配度從所述頁面數(shù)據(jù)中抽取一個以上 答案片段,其中,所述問題和所述頁面數(shù)據(jù)中第一答案片段的匹配度通過下述比例進行計 算:所述問題-答案模板對〈問題,答案〉中每一個答案與所述第一答案片段的共同詞條的 加權(quán)之和占所述第一答案片段的比例,根據(jù)抽取出的所述一個以上答案片段的否定指示詞 個數(shù)和所述問題的否定指示詞個數(shù)確定所述一個以上答案片段的觀點為肯定或否定。
[0005] 在本發(fā)明的一些實施方式中,所述方法還可包括:統(tǒng)計所述一個以上答案片段的 觀點為肯定或否定的比例,抽取觀點為肯定或否定的對應答案片段作為所述比例的附加信 息,并向用戶顯示所述比例和所述附加信息。
[0006] 在本發(fā)明的一些實施方式中,所述方法還可包括通過下述一種以上形式顯示所述 比例:百分比、表格、柱狀圖、線條圖。
[0007] 在本發(fā)明的一些實施方式中,根據(jù)所述問題和所述頁面數(shù)據(jù)生成與所述問題配對 的問題-答案模板對〈問題,答案 > 可包括:分析所述問題的一個以上第一主干結(jié)構(gòu)和所述 網(wǎng)頁數(shù)據(jù)的答案片段之一的一個以上第二主干結(jié)構(gòu),將所述第一主干結(jié)構(gòu)和所述第二主干 結(jié)構(gòu)構(gòu)建為第一類問題-答案模板對〈問題,答案〉,獲取與所述一個以上第一主干結(jié)構(gòu)相 同的第一組問題所對應的一個以上答案片段,篩選所述第一組問題對應的答案片段的一個 以上n-gram和n-skipgram作為答案組成成分,將篩選出的所述第一組問題的主干結(jié)構(gòu)和 所述第一組問題對應的答案片段的主干結(jié)構(gòu)構(gòu)建為第二類問題-答案模板對〈問題,答案 >,將所述第一類問題-答案模板對〈問題,答案〉和所述第二類問題-答案模板對〈問題, 答案〉合并得到所述問題-答案模板對〈問題,答案〉。
[0008] 在本發(fā)明的一些實施方式中,所述問題-答案模板對〈問題,答案〉中每一個答案 與所述第一答案片段的共同詞條的加權(quán)為下述的第一分量和第二分量的算術(shù)乘積,其中, 第一分量為所述問題-答案模板對〈問題,答案〉的所有答案中所述共同詞條的出現(xiàn)次數(shù) 與所述問題-答案模板對〈問題,答案〉的所有答案中所有詞的出現(xiàn)次數(shù)的比值,第二分量 為所述問題-答案模板對〈問題,答案〉的所有答案的個數(shù)與所述問題-答案模板對〈問 題,答案〉中包含所述共同詞條的答案個數(shù)的比值取對數(shù)。
[0009] 根據(jù)本發(fā)明實施方式的第二方面,提供了一種用于檢索的數(shù)據(jù)處理裝置,該裝置 可包括:獲取模塊,用于獲取問題和包含所述問題的答案的頁面數(shù)據(jù),其中,所述問題是答 案為肯定或否定的問題,生成模塊,用于根據(jù)所述問題和所述頁面數(shù)據(jù)生成與所述問題配 對的問題-答案模板對〈問題,答案〉,抽取模塊,用于根據(jù)所述問題和所述頁面數(shù)據(jù)中答 案片段的匹配度從所述頁面數(shù)據(jù)中抽取一個以上答案片段,其中,所述問題和所述頁面數(shù) 據(jù)中第一答案片段的匹配度通過下述比例進行計算:所述問題-答案模板對〈問題,答案〉 中每一個答案與所述第一答案片段的共同詞條的加權(quán)之和占所述第一答案片段的比例,判 斷模塊,用于根據(jù)抽取出的所述一個以上答案片段的否定指示詞個數(shù)和所述問題的否定指 示詞個數(shù)確定所述一個以上答案片段的觀點為肯定或否定。
[0010] 在本發(fā)明的一些實施方式中,所述裝置還可包括:顯示模塊,用于統(tǒng)計所述一個以 上答案片段的觀點為肯定或否定的比例,并抽取觀點為肯定或否定的對應答案片段作為所 述比例的附加信息,并向用戶顯示所述比例和所述附加信息。
[0011] 在本發(fā)明的一些實施方式中,所述顯示模塊還可用于通過下述一種以上形式顯示 所述比例:百分比、表格、柱狀圖、線條圖。
[0012] 在本發(fā)明的一些實施方式中,所述生成模塊,可用于進行下述操作:分析所述問題 的一個以上第一主干結(jié)構(gòu)和所述網(wǎng)頁數(shù)據(jù)的答案片段之一的一個以上第二主干結(jié)構(gòu),將所 述第一主干結(jié)構(gòu)和所述第二主干結(jié)構(gòu)構(gòu)建為第一類問題-答案模板對〈問題,答案〉,獲取 與所述一個以上第一主干結(jié)構(gòu)相同的第一組問題所對應的一個以上答案片段,篩選所述第 一組問題對應的答案片段的一個以上n-gram和n-skipgram作為答案組成成分,將篩選出 的所述第一組問題的主干結(jié)構(gòu)和所述第一組問題對應的答案片段的主干結(jié)構(gòu)構(gòu)建為第二 類問題-答案模板對〈問題,答案〉,將所述第一類問題-答案模板對〈問題,答案〉和所述 第二類問題-答案模板對〈問題,答案〉合并得到所述問題-答案模板對〈問題,答案〉。
[0013] 在本發(fā)明的一些實施方式中,所述抽取模塊中所述問題-答案模板對〈問題,答案 >中每一個答案與所述第一答案片段的共同詞條的加權(quán)為下述的第一分量和第二分量的算 術(shù)乘積,其中,第一分量為所述問題-答案模板對〈問題,答案〉的所有答案中所述共同詞 條的出現(xiàn)次數(shù)與所述問題-答案模板對〈問題,答案〉的所有答案中所有詞的出現(xiàn)次數(shù)的 比值,第二分量為所述問題-答案模板對〈問題,答案〉的所有答案的個數(shù)與所述問題-答 案模板對〈問題,答案〉中包含所述共同詞條的答案個數(shù)的比值取對數(shù)。
[0014] 本發(fā)明實施方式提供的上述方法和裝置,通過是/非問題和答案片段的匹配度抽 取答案片段,顯著改善了檢索結(jié)果數(shù)據(jù)針對該問題的針對性,提高了檢索結(jié)果數(shù)據(jù)的準確 性和可靠性;通過抽取出的答案片段進行觀點分析,提高對是/非問題檢索結(jié)果的數(shù)據(jù)處 理效率,有利于高效地獲取對于該問題的答案;通過簡單、直觀的顯示形式展示針對是/非 問題的觀點比例和對應的答案片段,方便了用戶快捷、對比查看檢索結(jié)果數(shù)據(jù)。
【附圖說明】
[0015] 圖1圖示了根據(jù)本發(fā)明一種實施方式的用于檢索的數(shù)據(jù)處理方法的流程示意圖;
[0016] 圖2圖示了根據(jù)本發(fā)明一種實施方式的用于檢索的數(shù)據(jù)處理裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0017] 為使本發(fā)明實施方式的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā) 明作進一步地詳細描述。
[0018] 參見圖1,圖示了根據(jù)本發(fā)明一種實施方式的用于檢索的數(shù)據(jù)處理方法的流程示 意圖,該用于檢索的數(shù)據(jù)處理方法可包括:
[0019] S101,獲取問題和包含所述問題的答案的頁面數(shù)據(jù),其中,該問題是答案為肯定或 否定的問題,
[0020] S102,根據(jù)該問題和該頁面數(shù)據(jù)生成與該問題配對的問題-答案
當前第1頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1