基于計(jì)算機(jī)網(wǎng)絡(luò)的專(zhuān)家問(wèn)答系統(tǒng)及其構(gòu)建方法_4

文檔序號(hào)：9579335閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>基于計(jì)算機(jī)網(wǎng)絡(luò)的專(zhuān)家問(wèn)答系統(tǒng)及其構(gòu)建方法

一個(gè)表單t的表單集合H = {t|t =〈導(dǎo)航詞，{表單內(nèi)出現(xiàn)的元素集合ts}>。
[0207]專(zhuān)業(yè)網(wǎng)站的選擇可以通過(guò)人工或半自動(dòng)的方式確定，并隨著技術(shù)和社會(huì)的發(fā)展不斷更新。本實(shí)施例中的定向抓取為現(xiàn)有技術(shù)，本實(shí)施例不對(duì)其詳述。
[0208]S602、針對(duì)表單集合Η中的每一個(gè)表單t，判斷表單t的導(dǎo)航詞和領(lǐng)域知識(shí)庫(kù)中的概念的名字是否相關(guān)，若表單的導(dǎo)航詞與所述概念相關(guān)，則將該表單t的元素集合分配到該概念底下，作為核心實(shí)體。
[0209]此外，本實(shí)施例中每一概念的核心實(shí)體可組成該概念的實(shí)體集合ct。
[0210]本實(shí)施例中，還可記錄概念與核心實(shí)體的相似度為1，進(jìn)一步地可將該與概念相關(guān)的表單t從表單集合Η中刪除。
[0211]S603、若表單集合Η中還存在未與領(lǐng)域知識(shí)庫(kù)中概念相關(guān)的表單，則抽取集合Η中剩余的未匹配的每一個(gè)表單t，用表單t的元素集合ts與S602中每一個(gè)概念的實(shí)體集合ct計(jì)算相似度:
[0212]sim = |ts Π ct|/|ts U ct |，
[0213]由此，可選擇相似度sim最高的n個(gè)概念，將該表單的元素集合ts分配到這些概念下作為非核心實(shí)體，并將計(jì)算的sim作為非核心實(shí)體與概念的相似度。
[0214]本實(shí)施例中，該步驟中的η根據(jù)專(zhuān)家問(wèn)答系統(tǒng)的準(zhǔn)確度和運(yùn)算效率的綜合考慮確定，優(yōu)選η = 5。
[0215]S604、若經(jīng)過(guò)前述的步驟S602和步驟603之后，領(lǐng)域知識(shí)庫(kù)中還存在部分概念未有實(shí)體，為確保每一概念都包含實(shí)體，可人工補(bǔ)充該概念下的實(shí)體。
[0216]經(jīng)過(guò)以上S601?S604步驟遍歷領(lǐng)域知識(shí)庫(kù)中的每一概念，進(jìn)而形成穩(wěn)定的知識(shí)庫(kù)。
[0217]根據(jù)以上步驟形成的知識(shí)庫(kù)，立足于專(zhuān)業(yè)網(wǎng)站，對(duì)于特定領(lǐng)域和其中的每一個(gè)概念，根據(jù)相似度算法，量化了每一概念下的實(shí)體與概念的相關(guān)程度，從而為在后續(xù)中客觀確定專(zhuān)家和用戶所提問(wèn)題的相關(guān)程度奠定了基礎(chǔ)。
[0218]應(yīng)當(dāng)注意的是，本實(shí)施例中的專(zhuān)業(yè)網(wǎng)站并不局限于技術(shù)領(lǐng)域的專(zhuān)業(yè)網(wǎng)站，只要包含能夠解決特定領(lǐng)域的問(wèn)題的信息、內(nèi)容的網(wǎng)站，無(wú)論所含信息量的大小，都可以作為候選的專(zhuān)業(yè)網(wǎng)站。本領(lǐng)域技術(shù)人員可以根據(jù)問(wèn)答系統(tǒng)的覆蓋面和精確度要求進(jìn)行合理的選擇。
[0219]在專(zhuān)家分?jǐn)?shù)模塊中，專(zhuān)家分?jǐn)?shù)包括兩個(gè)部分:1)專(zhuān)家排名分?jǐn)?shù)PR2)專(zhuān)家概念相似分?jǐn)?shù)CSVec。前者表示了專(zhuān)家在該領(lǐng)域內(nèi)的影響力，后者更具體地量化表示專(zhuān)家在領(lǐng)域內(nèi)偏重于哪些子方向，即與該領(lǐng)域中每一概念的相關(guān)程度。
[0220]關(guān)于專(zhuān)家排名分?jǐn)?shù)PR,首先，需要確定專(zhuān)家候選集合P,消息集合E。專(zhuān)家問(wèn)答系統(tǒng)首先抓取社交網(wǎng)絡(luò)中的消息，例如微博、BBS等，對(duì)消息內(nèi)容進(jìn)行切詞，如果該消息中含有知識(shí)庫(kù)的概念名稱(chēng)或者實(shí)體名稱(chēng)，則將消息的發(fā)送和接收者加入專(zhuān)家候選集合P ;同時(shí)，計(jì)算該消息與領(lǐng)域的相似度:
[0221]m_sim = sum {sim (w)}/η,
[0222]其中，sim(w)表示詞w與領(lǐng)域的相似度，n表示消息中詞的個(gè)數(shù)。將三元組〈消息發(fā)送者，消息接收者，消息相似度m_sim>加入消息集合E。
[0223]專(zhuān)家候選集合P、消息E實(shí)際形成了一個(gè)領(lǐng)域內(nèi)的社交網(wǎng)絡(luò)圖，如圖7所示，在該網(wǎng)絡(luò)中以五位候選專(zhuān)家為例，對(duì)于P1、P2兩位候選專(zhuān)家而言，P1、P2之間的箭頭表示P1向P2通過(guò)社交網(wǎng)絡(luò)發(fā)出了一條消息，那么P1作為消息發(fā)送者、P2作為消息接收者都加入到候選集合P中，同時(shí)，該消息經(jīng)過(guò)切詞后，得到η個(gè)詞，計(jì)算出得到的每一個(gè)詞與領(lǐng)域的相似度，從而得到該消息與所屬領(lǐng)域的相似度m_siml2,由此得到三元組〈PI, P2, m_siml2>,將該三元組加入消息集合E中。與此類(lèi)似，P1向P3也發(fā)送了一條消息，所發(fā)送的消息與所屬領(lǐng)域的相似度為m_siml3，P4向P2也發(fā)送了一條消息，所發(fā)送的消息與所屬領(lǐng)域的相似度為m_sim42，將這些發(fā)送者、接收者和消息相似度作為三元組也相應(yīng)地分別加入到消息結(jié)合E中。
[0224]由此，上述得到的專(zhuān)家候選集合P、消息集合E形成了所屬領(lǐng)域內(nèi)的社交網(wǎng)絡(luò)圖，優(yōu)選可利用現(xiàn)有的PeopleRank算法可以計(jì)算出每一個(gè)專(zhuān)家的排名分?jǐn)?shù)。
[0225]關(guān)于專(zhuān)家的概念相似向量CSVec,對(duì)于專(zhuān)家候選集合P中的某一個(gè)專(zhuān)家P，搜集該專(zhuān)家P發(fā)出的在所屬領(lǐng)域的所有消息的消息集合Ep,對(duì)于領(lǐng)域中的每一個(gè)概念c,計(jì)算專(zhuān)家與概念c的相似度:
[0226]pc_sim = Ερ Π ct|/|Ep U ct
[0227]其中，ct表示概念c包含的實(shí)體(該實(shí)體包括前述的核心實(shí)體和非核心實(shí)體)。
[0228]由此得到專(zhuān)家的概念相似向量CSVec。
[0229]在現(xiàn)有技術(shù)的問(wèn)答系統(tǒng)中，尚不存在由計(jì)算機(jī)網(wǎng)絡(luò)通過(guò)計(jì)算客觀確定的專(zhuān)家相關(guān)性和“重要性”指標(biāo)。本發(fā)明實(shí)施例的專(zhuān)家問(wèn)答系統(tǒng)中的專(zhuān)家分?jǐn)?shù)模塊，通過(guò)在社交網(wǎng)絡(luò)中對(duì)消息進(jìn)行切詞，并將得到的詞與知識(shí)庫(kù)模塊中的領(lǐng)域進(jìn)行相關(guān)性分析，一方面量化確定了特定領(lǐng)域的專(zhuān)家排名(根據(jù)專(zhuān)家在社交網(wǎng)絡(luò)中發(fā)出或接收的消息確定)，另一方面，量化確定了特定專(zhuān)家在每一概念上的相關(guān)程度，從而能夠在為用戶推薦用戶問(wèn)題所屬領(lǐng)域內(nèi)的專(zhuān)家時(shí)，具有客觀的推薦順序，同時(shí)在推薦時(shí)能考慮專(zhuān)家在不同領(lǐng)域的不同表現(xiàn)。
[0230]值得注意的是，由于用戶在計(jì)算機(jī)網(wǎng)絡(luò)上提交問(wèn)題時(shí)，用戶最關(guān)注的往往是所推薦的專(zhuān)家盡可能快速地給出回答，而不是所推薦的專(zhuān)家在這個(gè)領(lǐng)域內(nèi)有多強(qiáng)的學(xué)術(shù)能力或?qū)I(yè)知識(shí)。因此，在本發(fā)明的實(shí)施例中，在確定專(zhuān)家排名分?jǐn)?shù)時(shí)，主要的影響因素是專(zhuān)家在社交網(wǎng)絡(luò)中的活躍程度(發(fā)消息的次數(shù)和對(duì)象)以及關(guān)注與受關(guān)注的程度，而不是專(zhuān)家實(shí)際的學(xué)術(shù)能力或?qū)ο嚓P(guān)知識(shí)的掌握多少。但是，一般而言，在社交網(wǎng)絡(luò)中排名分?jǐn)?shù)高的專(zhuān)家，往往其所發(fā)消息被社會(huì)廣泛認(rèn)可的程度相應(yīng)也越高，因此，本領(lǐng)域?qū)嵤├械膶?zhuān)家排名方式既能確保用戶的提問(wèn)被專(zhuān)家解答的可能性大，同時(shí)也具有較高的客觀性和準(zhǔn)確性。
[0231]用戶問(wèn)答模塊中，用戶可提交問(wèn)題Q，該模塊中的切詞單元對(duì)問(wèn)題Q進(jìn)行切詞，得到詞的集合Qw = {w}，進(jìn)而計(jì)算集合Qw與所確定領(lǐng)域中每一個(gè)概念的相似度，得到問(wèn)題概念相似度向量QSVec ；
[0232]對(duì)于每一個(gè)領(lǐng)域?qū)＜襭,計(jì)算該專(zhuān)家與該問(wèn)題的相似度:
[0233]rank_sim = (CSVec*QSVec)*PR，
[0234]其中，CSVeC*QSVeC表示相似度向量?jī)?nèi)積，PR為專(zhuān)家領(lǐng)域排名分?jǐn)?shù)，選取rank_sim最高的專(zhuān)家P，作為推薦專(zhuān)家。
[0235]此時(shí)，專(zhuān)家問(wèn)答系統(tǒng)通過(guò)社交網(wǎng)絡(luò)應(yīng)用程序編程接口(Applicat1n ProgrammingInterface,簡(jiǎn)稱(chēng)API)接口，將用戶的問(wèn)題推送給專(zhuān)家，由專(zhuān)家解答，從而完成整個(gè)問(wèn)答過(guò)程。
[0236]在本發(fā)明實(shí)施例中的用戶問(wèn)答模塊中，通過(guò)對(duì)專(zhuān)家概念相似度CSVec向量和問(wèn)題概念相似度向量QSVec做內(nèi)積計(jì)算，量化確定了問(wèn)題、概念與專(zhuān)家的相關(guān)程度，同時(shí)結(jié)合專(zhuān)家分?jǐn)?shù)模塊中確定的專(zhuān)家“重要性”和相關(guān)性指標(biāo)PR，從而最大可能地提高了用戶所提問(wèn)題與所確定領(lǐng)域的專(zhuān)家之間的相關(guān)程度，從而能夠客觀地為用戶推薦專(zhuān)家。
[0237]上述通過(guò)多個(gè)實(shí)施例舉例說(shuō)明了 C10的一種基于計(jì)算機(jī)網(wǎng)絡(luò)的專(zhuān)家問(wèn)答系統(tǒng)的構(gòu)建方法，該方法可包括:
[0238]構(gòu)建領(lǐng)域知識(shí)庫(kù)，所述領(lǐng)域知識(shí)庫(kù)包括:所述領(lǐng)域的至少一個(gè)概念、與每一概念對(duì)應(yīng)的多個(gè)實(shí)體；
[0239]根據(jù)所述領(lǐng)域的信息集合，確定所述信息集合中所述信息所屬的專(zhuān)家，所述信息集合中的信息為從所述領(lǐng)域相關(guān)的網(wǎng)站中獲取的與所述概念或所述實(shí)體關(guān)聯(lián)的信息，所述專(zhuān)家為所述信息的發(fā)出者或所述信息的接收者；
[0240]若所述專(zhuān)家問(wèn)答系統(tǒng)接收到問(wèn)題，則確定所述專(zhuān)家與所述問(wèn)題的第一相似度，將所述第一相似度按照大小排序，選取排在前N位的第一相似度對(duì)應(yīng)的專(zhuān)家解答所述問(wèn)題，N為大于等于1的自然數(shù)。
[0241]本發(fā)明的其他實(shí)施例還公開(kāi)了:
[0242]C11、根據(jù)前述C10所述的方法，所述構(gòu)建領(lǐng)域知識(shí)庫(kù)，包括:
[0243]向所述領(lǐng)域?qū)?yīng)的網(wǎng)站進(jìn)行定向抓取，建立二元組表單的表單集合，所述表單集合中的表單包括:導(dǎo)航詞、所述導(dǎo)航詞對(duì)應(yīng)的多個(gè)元素組成的元素集合；
[0244]確定所述表單集合中每一表單的導(dǎo)航詞與所述至少一個(gè)概念是否匹配，若一表單中所述導(dǎo)航詞與所述至少一個(gè)概念匹配，則將所述導(dǎo)航詞所屬表單中的元素作為所述至少一個(gè)概念對(duì)應(yīng)的核心實(shí)體,且每一概念對(duì)應(yīng)的核心實(shí)體組成所述概念的實(shí)體集合。
[0245]C12、根據(jù)前述C11所述的方法，所述構(gòu)建領(lǐng)域知識(shí)庫(kù)，還包括:
[0246]若所述表單集合中存在至少一個(gè)表單的導(dǎo)航詞未與所述至少一個(gè)概念相匹配，則分別獲取未與所述至少一個(gè)概念相匹配的導(dǎo)航詞所屬表單中的元素集合與每一概念的實(shí)體集合的第二相似度；
[0247]針對(duì)每一未匹配的導(dǎo)航詞的多個(gè)第二相似度，將該導(dǎo)航詞的多個(gè)所述第二相似度按照大小排序，該導(dǎo)航詞所屬表單中的元素作為排在前Μ位的第二相似度對(duì)應(yīng)的概念中的非核心實(shí)體；
[0248]其中，Μ為大于等于1的自然數(shù)。
[0249]C13、根據(jù)前述C11或C12所述的方法，，所述構(gòu)建領(lǐng)域知識(shí)庫(kù)，還包括:
[0250]若所述概念中未包括核心實(shí)體和非核心實(shí)體，則補(bǔ)充所述概念對(duì)應(yīng)的核心實(shí)體；
[0251]其中，所述概念對(duì)應(yīng)的多個(gè)實(shí)體包括:所述核心實(shí)體和/或所述非核心實(shí)體。
[0252]C14、根據(jù)前述C10所述的方法，所述根據(jù)所述領(lǐng)域的信息集合，確定所述信息集合中所述信息所屬的專(zhuān)家，包括:獲取所述領(lǐng)域?qū)?yīng)的社交網(wǎng)站中的信息，確定所述信息內(nèi)容是否包括所述領(lǐng)域知識(shí)庫(kù)中的概念名稱(chēng)或?qū)嶓w名稱(chēng)；
[0253]若所述信息內(nèi)容包括所述概念名稱(chēng)或?qū)嶓w名稱(chēng)，則根據(jù)所述信息的發(fā)送者、接收者生成專(zhuān)家候選集合，以及
[0254]計(jì)算所述信息與所述領(lǐng)域的第三相似度，將所述信息的發(fā)送者、接收者和所述信息的第三相似度作為一個(gè)三元組信息，生成所述信息集合；
[0255]根據(jù)所述專(zhuān)家候選集合的專(zhuān)家和所述信息集合中的信息，獲取所述專(zhuān)家候選集合中每一專(zhuān)家的排名；
[0256]和/ 或，
[0257]選取排名靠前的X個(gè)專(zhuān)家作為所述信息集合中所述信息所屬的專(zhuān)家，X為大于等于1的自然數(shù)。
[0258]C15、根據(jù)前述C14所述的方法，還包括:
[0259]針對(duì)所述專(zhuān)家候選集合中的每一專(zhuān)家,獲取每一專(zhuān)家在所述信息集合中的所有信息；
[0260]根據(jù)每一專(zhuān)家在所述信息集合中的所有信息和所述領(lǐng)域知識(shí)庫(kù)中的所有概念，獲取每一專(zhuān)家對(duì)所有概念的概念相似向量。
[0261]C16、根據(jù)前述C15所述的方法，若所述專(zhuān)家問(wèn)答系統(tǒng)接收到問(wèn)題，確定所述專(zhuān)家與所述問(wèn)題的第一相似度，包括:
[0262]對(duì)所述問(wèn)題進(jìn)行切詞處理，得到與所述問(wèn)題對(duì)應(yīng)的詞的第一集合；
[0263]獲取所述第一集合與所述領(lǐng)域知識(shí)庫(kù)中所有概念的問(wèn)題相似向量；
[0264]根據(jù)所述概念相似向量和所述問(wèn)題相似向量，確定所述專(zhuān)家與所述問(wèn)題的第一相似度。
[0265]本發(fā)明的其他實(shí)施例還公開(kāi)了:
[0266]D17、一種自動(dòng)問(wèn)答方法，包括:
[0267]接收用戶輸入的問(wèn)題

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第4頁(yè)1 2 3 4 5

相關(guān)技術(shù)