一個(gè)表單t的表單集合H = {t|t =〈導(dǎo)航詞,{表單內(nèi)出現(xiàn)的元素集合ts}>。
[0207]專(zhuān)業(yè)網(wǎng)站的選擇可以通過(guò)人工或半自動(dòng)的方式確定,并隨著技術(shù)和社會(huì)的發(fā)展不斷更新。本實(shí)施例中的定向抓取為現(xiàn)有技術(shù),本實(shí)施例不對(duì)其詳述。
[0208]S602、針對(duì)表單集合Η中的每一個(gè)表單t,判斷表單t的導(dǎo)航詞和領(lǐng)域知識(shí)庫(kù)中的概念的名字是否相關(guān),若表單的導(dǎo)航詞與所述概念相關(guān),則將該表單t的元素集合分配到該概念底下,作為核心實(shí)體。
[0209]此外,本實(shí)施例中每一概念的核心實(shí)體可組成該概念的實(shí)體集合ct。
[0210]本實(shí)施例中,還可記錄概念與核心實(shí)體的相似度為1,進(jìn)一步地可將該與概念相關(guān)的表單t從表單集合Η中刪除。
[0211]S603、若表單集合Η中還存在未與領(lǐng)域知識(shí)庫(kù)中概念相關(guān)的表單,則抽取集合Η中剩余的未匹配的每一個(gè)表單t,用表單t的元素集合ts與S602中每一個(gè)概念的實(shí)體集合ct計(jì)算相似度:
[0212]sim = |ts Π ct|/|ts U ct |,
[0213]由此,可選擇相似度sim最高的n個(gè)概念,將該表單的元素集合ts分配到這些概念下作為非核心實(shí)體,并將計(jì)算的sim作為非核心實(shí)體與概念的相似度。
[0214]本實(shí)施例中,該步驟中的η根據(jù)專(zhuān)家問(wèn)答系統(tǒng)的準(zhǔn)確度和運(yùn)算效率的綜合考慮確定,優(yōu)選η = 5。
[0215]S604、若經(jīng)過(guò)前述的步驟S602和步驟603之后,領(lǐng)域知識(shí)庫(kù)中還存在部分概念未有實(shí)體,為確保每一概念都包含實(shí)體,可人工補(bǔ)充該概念下的實(shí)體。
[0216]經(jīng)過(guò)以上S601?S604步驟遍歷領(lǐng)域知識(shí)庫(kù)中的每一概念,進(jìn)而形成穩(wěn)定的知識(shí)庫(kù)。
[0217]根據(jù)以上步驟形成的知識(shí)庫(kù),立足于專(zhuān)業(yè)網(wǎng)站,對(duì)于特定領(lǐng)域和其中的每一個(gè)概念,根據(jù)相似度算法,量化了每一概念下的實(shí)體與概念的相關(guān)程度,從而為在后續(xù)中客觀確定專(zhuān)家和用戶所提問(wèn)題的相關(guān)程度奠定了基礎(chǔ)。
[0218]應(yīng)當(dāng)注意的是,本實(shí)施例中的專(zhuān)業(yè)網(wǎng)站并不局限于技術(shù)領(lǐng)域的專(zhuān)業(yè)網(wǎng)站,只要包含能夠解決特定領(lǐng)域的問(wèn)題的信息、內(nèi)容的網(wǎng)站,無(wú)論所含信息量的大小,都可以作為候選的專(zhuān)業(yè)網(wǎng)站。本領(lǐng)域技術(shù)人員可以根據(jù)問(wèn)答系統(tǒng)的覆蓋面和精確度要求進(jìn)行合理的選擇。
[0219]在專(zhuān)家分?jǐn)?shù)模塊中,專(zhuān)家分?jǐn)?shù)包括兩個(gè)部分:1)專(zhuān)家排名分?jǐn)?shù)PR2)專(zhuān)家概念相似分?jǐn)?shù)CSVec。前者表示了專(zhuān)家在該領(lǐng)域內(nèi)的影響力,后者更具體地量化表示專(zhuān)家在領(lǐng)域內(nèi)偏重于哪些子方向,即與該領(lǐng)域中每一概念的相關(guān)程度。
[0220]關(guān)于專(zhuān)家排名分?jǐn)?shù)PR,首先,需要確定專(zhuān)家候選集合P,消息集合E。專(zhuān)家問(wèn)答系統(tǒng)首先抓取社交網(wǎng)絡(luò)中的消息,例如微博、BBS等,對(duì)消息內(nèi)容進(jìn)行切詞,如果該消息中含有知識(shí)庫(kù)的概念名稱(chēng)或者實(shí)體名稱(chēng),則將消息的發(fā)送和接收者加入專(zhuān)家候選集合P ;同時(shí),計(jì)算該消息與領(lǐng)域的相似度:
[0221]m_sim = sum {sim (w)}/η,
[0222]其中,sim(w)表示詞w與領(lǐng)域的相似度,n表示消息中詞的個(gè)數(shù)。將三元組〈消息發(fā)送者,消息接收者,消息相似度m_sim>加入消息集合E。
[0223]專(zhuān)家候選集合P、消息E實(shí)際形成了一個(gè)領(lǐng)域內(nèi)的社交網(wǎng)絡(luò)圖,如圖7所示,在該網(wǎng)絡(luò)中以五位候選專(zhuān)家為例,對(duì)于P1、P2兩位候選專(zhuān)家而言,P1、P2之間的箭頭表示P1向P2通過(guò)社交網(wǎng)絡(luò)發(fā)出了一條消息,那么P1作為消息發(fā)送者、P2作為消息接收者都加入到候選集合P中,同時(shí),該消息經(jīng)過(guò)切詞后,得到η個(gè)詞,計(jì)算出得到的每一個(gè)詞與領(lǐng)域的相似度,從而得到該消息與所屬領(lǐng)域的相似度m_siml2,由此得到三元組〈PI, P2, m_siml2>,將該三元組加入消息集合E中。與此類(lèi)似,P1向P3也發(fā)送了一條消息,所發(fā)送的消息與所屬領(lǐng)域的相似度為m_siml3,P4向P2也發(fā)送了一條消息,所發(fā)送的消息與所屬領(lǐng)域的相似度為m_sim42,將這些發(fā)送者、接收者和消息相似度作為三元組也相應(yīng)地分別加入到消息結(jié)合E中。
[0224]由此,上述得到的專(zhuān)家候選集合P、消息集合E形成了所屬領(lǐng)域內(nèi)的社交網(wǎng)絡(luò)圖,優(yōu)選可利用現(xiàn)有的PeopleRank算法可以計(jì)算出每一個(gè)專(zhuān)家的排名分?jǐn)?shù)。
[0225]關(guān)于專(zhuān)家的概念相似向量CSVec,對(duì)于專(zhuān)家候選集合P中的某一個(gè)專(zhuān)家P,搜集該專(zhuān)家P發(fā)出的在所屬領(lǐng)域的所有消息的消息集合Ep,對(duì)于領(lǐng)域中的每一個(gè)概念c,計(jì)算專(zhuān)家與概念c的相似度:
[0226]pc_sim = Ερ Π ct|/|Ep U ct
[0227]其中,ct表示概念c包含的實(shí)體(該實(shí)體包括前述的核心實(shí)體和非核心實(shí)體)。
[0228]由此得到專(zhuān)家的概念相似向量CSVec。
[0229]在現(xiàn)有技術(shù)的問(wèn)答系統(tǒng)中,尚不存在由計(jì)算機(jī)網(wǎng)絡(luò)通過(guò)計(jì)算客觀確定的專(zhuān)家相關(guān)性和“重要性”指標(biāo)。本發(fā)明實(shí)施例的專(zhuān)家問(wèn)答系統(tǒng)中的專(zhuān)家分?jǐn)?shù)模塊,通過(guò)在社交網(wǎng)絡(luò)中對(duì)消息進(jìn)行切詞,并將得到的詞與知識(shí)庫(kù)模塊中的領(lǐng)域進(jìn)行相關(guān)性分析,一方面量化確定了特定領(lǐng)域的專(zhuān)家排名(根據(jù)專(zhuān)家在社交網(wǎng)絡(luò)中發(fā)出或接收的消息確定),另一方面,量化確定了特定專(zhuān)家在每一概念上的相關(guān)程度,從而能夠在為用戶推薦用戶問(wèn)題所屬領(lǐng)域內(nèi)的專(zhuān)家時(shí),具有客觀的推薦順序,同時(shí)在推薦時(shí)能考慮專(zhuān)家在不同領(lǐng)域的不同表現(xiàn)。
[0230]值得注意的是,由于用戶在計(jì)算機(jī)網(wǎng)絡(luò)上提交問(wèn)題時(shí),用戶最關(guān)注的往往是所推薦的專(zhuān)家盡可能快速地給出回答,而不是所推薦的專(zhuān)家在這個(gè)領(lǐng)域內(nèi)有多強(qiáng)的學(xué)術(shù)能力或?qū)I(yè)知識(shí)。因此,在本發(fā)明的實(shí)施例中,在確定專(zhuān)家排名分?jǐn)?shù)時(shí),主要的影響因素是專(zhuān)家在社交網(wǎng)絡(luò)中的活躍程度(發(fā)消息的次數(shù)和對(duì)象)以及關(guān)注與受關(guān)注的程度,而不是專(zhuān)家實(shí)際的學(xué)術(shù)能力或?qū)ο嚓P(guān)知識(shí)的掌握多少。但是,一般而言,在社交網(wǎng)絡(luò)中排名分?jǐn)?shù)高的專(zhuān)家,往往其所發(fā)消息被社會(huì)廣泛認(rèn)可的程度相應(yīng)也越高,因此,本領(lǐng)域?qū)嵤├械膶?zhuān)家排名方式既能確保用戶的提問(wèn)被專(zhuān)家解答的可能性大,同時(shí)也具有較高的客觀性和準(zhǔn)確性。
[0231]用戶問(wèn)答模塊中,用戶可提交問(wèn)題Q,該模塊中的切詞單元對(duì)問(wèn)題Q進(jìn)行切詞,得到詞的集合Qw = {w},進(jìn)而計(jì)算集合Qw與所確定領(lǐng)域中每一個(gè)概念的相似度,得到問(wèn)題概念相似度向量QSVec ;
[0232]對(duì)于每一個(gè)領(lǐng)域?qū)<襭,計(jì)算該專(zhuān)家與該問(wèn)題的相似度:
[0233]rank_sim = (CSVec*QSVec)*PR,
[0234]其中,CSVeC*QSVeC表示相似度向量?jī)?nèi)積,PR為專(zhuān)家領(lǐng)域排名分?jǐn)?shù),選取rank_sim最高的專(zhuān)家P,作為推薦專(zhuān)家。
[0235]此時(shí),專(zhuān)家問(wèn)答系統(tǒng)通過(guò)社交網(wǎng)絡(luò)應(yīng)用程序編程接口(Applicat1n ProgrammingInterface,簡(jiǎn)稱(chēng)API)接口,將用戶的問(wèn)題推送給專(zhuān)家,由專(zhuān)家解答,從而完成整個(gè)問(wèn)答過(guò)程。
[0236]在本發(fā)明實(shí)施例中的用戶問(wèn)答模塊中,通過(guò)對(duì)專(zhuān)家概念相似度CSVec向量和問(wèn)題概念相似度向量QSVec做內(nèi)積計(jì)算,量化確定了問(wèn)題、概念與專(zhuān)家的相關(guān)程度,同時(shí)結(jié)合專(zhuān)家分?jǐn)?shù)模塊中確定的專(zhuān)家“重要性”和相關(guān)性指標(biāo)PR,從而最大可能地提高了用戶所提問(wèn)題與所確定領(lǐng)域的專(zhuān)家之間的相關(guān)程度,從而能夠客觀地為用戶推薦專(zhuān)家。
[0237]上述通過(guò)多個(gè)實(shí)施例舉例說(shuō)明了 C10的一種基于計(jì)算機(jī)網(wǎng)絡(luò)的專(zhuān)家問(wèn)答系統(tǒng)的構(gòu)建方法,該方法可包括:
[0238]構(gòu)建領(lǐng)域知識(shí)庫(kù),所述領(lǐng)域知識(shí)庫(kù)包括:所述領(lǐng)域的至少一個(gè)概念、與每一概念對(duì)應(yīng)的多個(gè)實(shí)體;
[0239]根據(jù)所述領(lǐng)域的信息集合,確定所述信息集合中所述信息所屬的專(zhuān)家,所述信息集合中的信息為從所述領(lǐng)域相關(guān)的網(wǎng)站中獲取的與所述概念或所述實(shí)體關(guān)聯(lián)的信息,所述專(zhuān)家為所述信息的發(fā)出者或所述信息的接收者;
[0240]若所述專(zhuān)家問(wèn)答系統(tǒng)接收到問(wèn)題,則確定所述專(zhuān)家與所述問(wèn)題的第一相似度,將所述第一相似度按照大小排序,選取排在前N位的第一相似度對(duì)應(yīng)的專(zhuān)家解答所述問(wèn)題,N為大于等于1的自然數(shù)。
[0241]本發(fā)明的其他實(shí)施例還公開(kāi)了:
[0242]C11、根據(jù)前述C10所述的方法,所述構(gòu)建領(lǐng)域知識(shí)庫(kù),包括:
[0243]向所述領(lǐng)域?qū)?yīng)的網(wǎng)站進(jìn)行定向抓取,建立二元組表單的表單集合,所述表單集合中的表單包括:導(dǎo)航詞、所述導(dǎo)航詞對(duì)應(yīng)的多個(gè)元素組成的元素集合;
[0244]確定所述表單集合中每一表單的導(dǎo)航詞與所述至少一個(gè)概念是否匹配,若一表單中所述導(dǎo)航詞與所述至少一個(gè)概念匹配,則將所述導(dǎo)航詞所屬表單中的元素作為所述至少一個(gè)概念對(duì)應(yīng)的核心實(shí)體,且每一概念對(duì)應(yīng)的核心實(shí)體組成所述概念的實(shí)體集合。
[0245]C12、根據(jù)前述C11所述的方法,所述構(gòu)建領(lǐng)域知識(shí)庫(kù),還包括:
[0246]若所述表單集合中存在至少一個(gè)表單的導(dǎo)航詞未與所述至少一個(gè)概念相匹配,則分別獲取未與所述至少一個(gè)概念相匹配的導(dǎo)航詞所屬表單中的元素集合與每一概念的實(shí)體集合的第二相似度;
[0247]針對(duì)每一未匹配的導(dǎo)航詞的多個(gè)第二相似度,將該導(dǎo)航詞的多個(gè)所述第二相似度按照大小排序,該導(dǎo)航詞所屬表單中的元素作為排在前Μ位的第二相似度對(duì)應(yīng)的概念中的非核心實(shí)體;
[0248]其中,Μ為大于等于1的自然數(shù)。
[0249]C13、根據(jù)前述C11或C12所述的方法,,所述構(gòu)建領(lǐng)域知識(shí)庫(kù),還包括:
[0250]若所述概念中未包括核心實(shí)體和非核心實(shí)體,則補(bǔ)充所述概念對(duì)應(yīng)的核心實(shí)體;
[0251]其中,所述概念對(duì)應(yīng)的多個(gè)實(shí)體包括:所述核心實(shí)體和/或所述非核心實(shí)體。
[0252]C14、根據(jù)前述C10所述的方法,所述根據(jù)所述領(lǐng)域的信息集合,確定所述信息集合中所述信息所屬的專(zhuān)家,包括:獲取所述領(lǐng)域?qū)?yīng)的社交網(wǎng)站中的信息,確定所述信息內(nèi)容是否包括所述領(lǐng)域知識(shí)庫(kù)中的概念名稱(chēng)或?qū)嶓w名稱(chēng);
[0253]若所述信息內(nèi)容包括所述概念名稱(chēng)或?qū)嶓w名稱(chēng),則根據(jù)所述信息的發(fā)送者、接收者生成專(zhuān)家候選集合,以及
[0254]計(jì)算所述信息與所述領(lǐng)域的第三相似度,將所述信息的發(fā)送者、接收者和所述信息的第三相似度作為一個(gè)三元組信息,生成所述信息集合;
[0255]根據(jù)所述專(zhuān)家候選集合的專(zhuān)家和所述信息集合中的信息,獲取所述專(zhuān)家候選集合中每一專(zhuān)家的排名;
[0256]和/ 或,
[0257]選取排名靠前的X個(gè)專(zhuān)家作為所述信息集合中所述信息所屬的專(zhuān)家,X為大于等于1的自然數(shù)。
[0258]C15、根據(jù)前述C14所述的方法,還包括:
[0259]針對(duì)所述專(zhuān)家候選集合中的每一專(zhuān)家,獲取每一專(zhuān)家在所述信息集合中的所有信息;
[0260]根據(jù)每一專(zhuān)家在所述信息集合中的所有信息和所述領(lǐng)域知識(shí)庫(kù)中的所有概念,獲取每一專(zhuān)家對(duì)所有概念的概念相似向量。
[0261]C16、根據(jù)前述C15所述的方法,若所述專(zhuān)家問(wèn)答系統(tǒng)接收到問(wèn)題,確定所述專(zhuān)家與所述問(wèn)題的第一相似度,包括:
[0262]對(duì)所述問(wèn)題進(jìn)行切詞處理,得到與所述問(wèn)題對(duì)應(yīng)的詞的第一集合;
[0263]獲取所述第一集合與所述領(lǐng)域知識(shí)庫(kù)中所有概念的問(wèn)題相似向量;
[0264]根據(jù)所述概念相似向量和所述問(wèn)題相似向量,確定所述專(zhuān)家與所述問(wèn)題的第一相似度。
[0265]本發(fā)明的其他實(shí)施例還公開(kāi)了:
[0266]D17、一種自動(dòng)問(wèn)答方法,包括:
[0267]接收用戶輸入的問(wèn)題