基于計算機網絡的專家問答系統(tǒng)及其構建方法
【技術領域】
[0001]本發(fā)明屬于計算機網絡領域,特別涉及一種基于計算機網絡的專家問答系統(tǒng)及其構建方法。
【背景技術】
[0002]隨著互聯(lián)網信息技術的發(fā)展,互聯(lián)網用戶進行信息交流的方式和對象逐漸多樣化。當用戶存在需要解答的問題時,可以通過多種方式獲取答案。傳統(tǒng)的方式包括使用例如電話、電子郵件或其他即時通訊工具,向熟悉的或者處于相識的社交圈提出問題,從而獲取答案。
[0003]最近一種常用的方式是,計算機網絡用戶還可以在具有問答系統(tǒng)的網站上直接提交問題,例如在搜索網站上直接輸入需要搜索的問題內容,由問答系統(tǒng)通過關鍵字匹配已有的問答數據庫,給出檢索結果。主要的實現方式是問答系統(tǒng)首先建立屬于自己的知識數據庫,通過不同輸入方式(文字、圖像)等,以輸入的關鍵字進行檢索匹配,獲取答案。
[0004]然而,上述傳統(tǒng)方式,無法突破熟悉或相識人群的限制,當所欲了解的問題在已有的通訊圈之內無人知道答案或者聯(lián)系不上時,無法獲取答案。上述第二種方式即最近常用的方式雖然克服了傳統(tǒng)方式的弊端,例如,只能通過關鍵字進行匹配,由此導致檢索出的問題的答案與用戶實際想獲取問題的答案不相符。
[0005]鑒于此,如何在具有問答系統(tǒng)的網站上提問題時,獲取與該問題所屬領域內專家的解答成為當前需要解決的技術問題。
【發(fā)明內容】
[0006]針對現有技術中的缺陷,本發(fā)明提供一種基于計算機網絡的專家問答系統(tǒng)及其構建方法。
[0007]第一方面,本發(fā)明實施例提供一種基于計算機網絡的專家問答系統(tǒng),知識庫構建單元,用于構建領域知識庫,所述領域知識庫包括:所述領域的至少一個概念、與每一概念對應的多個實體;
[0008]領域專家確定單元,用于根據所述領域的信息集合,確定所述信息集合中所述信息所屬的專家,所述信息集合中的信息為從所述領域相關的網站或評論中獲取的與所述概念或所述實體關聯(lián)的信息,所述專家為所述信息的發(fā)出者或所述信息的接收者;
[0009]問題接收單元,用于接收用戶輸入的問題;
[0010]相似度確定單元,用于確定所述領域專家確定單元確定的專家與所述問題接收單元接收的問題的第一相似度;
[0011]專家匹配單元,用于將所述相似度確定單元確定的第一相似度按照大小排序,選取排在前N位的第一相似度對應的專家解答所述問題,N為大于等于1的自然數。
[0012]可選地,所述知識庫構建單元,具體用于
[0013]向所述領域對應的網站進行定向抓取,建立二元組表單的表單集合,所述表單集合中的表單包括:導航詞、所述導航詞對應的多個元素組成的元素集合;
[0014]確定所述表單集合中每一表單的導航詞與所述至少一個概念是否匹配,若一表單中所述導航詞與所述至少一個概念匹配,則將所述導航詞所屬表單中的元素作為所述至少一個概念對應的核心實體,且每一概念對應的核心實體組成所述概念的實體集合。
[0015]可選地,所述知識庫構建單元,還用于
[0016]在所述表單集合中存在至少一個表單的導航詞未與所述至少一個概念相匹配時,則分別獲取未與所述至少一個概念相匹配的導航詞所屬表單中的元素集合與每一概念的實體集合的第二相似度;
[0017]針對每一未匹配的導航詞的多個第二相似度,將該導航詞的多個所述第二相似度按照大小排序,該導航詞所屬表單中的元素作為排在前Μ位的第二相似度對應的概念中的非核心實體;Μ為大于等于1的自然數。
[0018]可選地,所述知識庫構建單元,還用于
[0019]在所述概念中未包括核心實體和非核心實體時,補充所述概念對應的核心實體;
[0020]其中,所述概念對應多個實體包括:所述核心實體和/或所述非核心實體。
[0021]可選地,所述領域專家確定單元,具體用于
[0022]獲取所述領域對應的社交網站中的信息,確定所述信息內容是否包括所述領域知識庫中的概念名稱或實體名稱;
[0023]若所述信息內容包括所述概念名稱或實體名稱,則根據所述信息的發(fā)送者、接收者生成專家候選集合,以及
[0024]計算所述信息與所述領域的第三相似度,將所述信息的發(fā)送者,接受者和所述信息的第三相似度作為一個三元組信息,生成信息集合;
[0025]根據所述專家候選集合的專家和所述信息集合中的信息,獲取所述專家候選集合中每一專家的排名;
[0026]和/ 或,
[0027]選取排名靠前的X個專家作為所述信息集合中所述信息所屬的專家,X為大于等于1的自然數。
[0028]可選地,所述領域專家確定單元,還用于
[0029]針對所述專家候選集合中的每一專家,獲取每一專家在所述信息集合中的所有信息;
[0030]根據每一專家在所述信息集合中的所有信息和所述領域知識庫中的所有概念,獲取每一專家對所有概念的概念相似向量。
[0031]可選地,所述相似度確定單元,具體用于
[0032]對所述問題接收單元接收的所述問題進行切詞處理,得到與所述問題對應的詞的第一集合;
[0033]獲取所述第一集合與所述領域知識庫中所有概念的問題相似向量;
[0034]根據所述概念相似向量和所述問題相似向量,確定所述專家與所述問題的第一相似度。
[0035]第二方面,本發(fā)明提供一種專家問答系統(tǒng),包括:
[0036]接收單元,用于接收用戶輸入的問題;
[0037]相似度確定單元,用于確定所述問題與專家問答系統(tǒng)中每一專家的相似度,所述專家為所述問題所屬領域的技術熟悉人;
[0038]專家選取單元,用于將所述相似度按照大小排序,選取排在前N位的相似度對應的專家,N為大于等于1的自然數;
[0039]問題解答單元,用于使所述專家選取單元選取的專家為所述用戶解答所述問題。
[0040]可選地,所述相似度確定單元,具體用于
[0041]對所述問題進行切詞處理,得到與所述問題對應的詞的第一集合;
[0042]獲取所述第一集合與領域知識庫中所有概念的問題相似向量,所述領域知識庫為所述專家問答系統(tǒng)中預先獲取的包括至少一個概念、所述至少一個概念對應的多個實體的知識庫;
[0043]根據每一專家的概念相似向量和所述問題相似向量,確定所述專家問答系統(tǒng)中專家與所述問題的相似度;所述每一專家的概念相似向量為根據該專家發(fā)送的所有信息和所述領域知識庫中所有概念預先獲取的,且所述專家發(fā)送的所有信息為從所述領域相關網站或評論中獲取的與所述概念或者所述實體關聯(lián)的信息。
[0044]第三方面,本發(fā)明實施例提供一種基于計算機網絡的專家問答系統(tǒng)的構建方法,包括:
[0045]構建領域知識庫,所述領域知識庫包括:所述領域的至少一個概念、與每一概念對應的多個實體;
[0046]根據所述領域的信息集合,確定所述信息集合中所述信息所屬的專家,所述信息集合中的信息為從所述領域相關的網站或評論中獲取的與所述概念或所述實體關聯(lián)的信息,所述專家為所述信息的發(fā)出者或所述信息的接收者;
[0047]若所述專家問答系統(tǒng)接收到問題,則確定所述專家與所述問題的第一相似度,將所述第一相似度按照大小排序,選取排在前N位的第一相似度對應的專家解答所述問題,N為大于等于1的自然數。
[0048]可選地,所述構建領域知識庫,包括:
[0049]向所述領域對應的網站進行定向抓取,建立二元組表單的表單集合,所述表單集合中的表單包括:導航詞、所述導航詞對應的多個元素組成的元素集合;
[0050]確定所述表單集合中每一表單的導航詞與所述至少一個概念是否匹配,若一表單中所述導航詞與所述至少一個概念匹配,則將所述導航詞所屬表單中的元素作為所述至少一個概念對應的核心實體,且每一概念對應的核心實體組成所述概念的實體集合。
[0051 ] 可選地,所述構建領域知識庫,還包括:
[0052]若所述表單集合中存在至少一個表單的導航詞未與所述至少一個概念相匹配,則分別獲取未與所述至少一個概念相匹配的導航詞所屬表單中的元素集合與每一概念的實體集合的第二相似度;
[0053]針對每一未匹配的導航詞的多個第二相似度,將該導航詞的多個所述第二相似度按照大小排序,該導航詞所屬表單中的元素作為排在前Μ位的第二相似度對應的概念中的非核心實體;
[0054]Μ為大于等于1的自然數。
[0055]可選地,所述構建領域知識庫,還包括:
[0056]若所述概念中未包括核心實體和非核心實體,則補充所述概念對應的核心實體;
[0057]其中,所述概念對應的多個實體包括:所述核心實體和/或所述非核心實體。
[0058]可選地,所述根據所述領域的信息集合,確定所述信息集合中所述信息所屬的專家,包括:
[0059]獲取所述領域對應的社交網站中的信息,確定所述信息內容是否包括所述領域知識庫中的概念名稱或實體名稱;
[0060]若所述信息內容包括所述概念名稱或實體名稱,則根據所述信息的發(fā)送者、接收者生成專家候選集合,以及
[0061]計算所述信息與所述領域的第三相似度,將所述信息的發(fā)送者、接收者和所述信息的第三相似度作為一個三元組信息,生成所述信息集合;
[0062]根據所述專家候選集合的專家和所述信息集合中的信息,獲取所述專家候選集合中每一專家的排名;
[0063]和/ 或,
[0064]選取排名靠前的X個專家作為所述信息集合中所述信息所屬的專家,X為大于等于1的自然數。
[0065]可選地,還包括:
[0066]針對所述專家候選集合中的每一專家,獲取每一專家在所述信息集合中的所有信息;
[0067]根據每一專家在所述信息集合中的所有信息和所述領域知識庫中的所有概念,獲取每一專家對所有概念的概念相似向量。
[0068]可選地,若所述專家問答系統(tǒng)接收到問題,確定所述專家與所述問題的第一相似度,包括:
[0069]對所述問題進行切詞處理,得到與所述問題對應的詞的第一集合;
[0070]獲取所述第一集合與所述領域知識庫中所有概念的問題相似向量;
[0071]根據所述概念相似向量和所述問題相似向量,確定所述專家與所述問題的第一相似度。
[0072]第四方面,本發(fā)明提供一種自動問答方法,包括:
[0073]接收用戶輸入的問題,確定所述問題與專家問答系統(tǒng)中每一專家的相似度,所述專家為所述問題所屬領域的技術熟悉人;
[0074]將所述相似度按照大小排序,選取排在前N位的相似度對應的專家解答所述問題,N為大于等于1的自然數。
[0075]可選地,所述確定所述問題與專家問答系統(tǒng)中專家的相似度,包括:
[0076]對所述問題進行切詞處理,得到與所述問題對應的詞的第一集合;
[0077]獲取所述第一集合與領域知識庫中所有概念的問題相似向量,所述領域知識庫為所述專家問答系統(tǒng)中預先獲取的包括至少一個概念、所述至少一個概念對應的多個實體的知識庫;
[0078]根據每一專家的概念相似向量和所述問題相似向量,確定所述專家問答系統(tǒng)中專家與所述問題的相似度;所