計(jì)算領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種電數(shù)據(jù)加工處理領(lǐng)域,具體地說一種計(jì)算領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí) 點(diǎn)的方法。
【背景技術(shù)】
[0002] 數(shù)字出版資源已成為信息提供的主要方式之一。人們已從紙質(zhì)閱讀大量地轉(zhuǎn)向電 子閱讀。數(shù)字出版資源包含電子圖書、數(shù)字百科全書、數(shù)字期刊、數(shù)字報(bào)刊等。數(shù)字出版資 源提供的信息通常比互聯(lián)網(wǎng)更加權(quán)威和正確。因此,如何根據(jù)數(shù)字出版資源的特點(diǎn)提高人 們學(xué)習(xí)或閱讀體驗(yàn)變得尤為重要。
[0003] 在技術(shù)增強(qiáng)學(xué)習(xí) (Technology Enhanced Learning)中,開發(fā)推薦系統(tǒng)越來越得到 更多的重視。但是,大部分的推薦系統(tǒng)使用用戶的偏好或用戶的歷史訪問數(shù)據(jù)進(jìn)行計(jì)算,女口 中國專利文獻(xiàn)CN101661483A中公開了一種推薦系統(tǒng)及方法,包括:保存從源歷史數(shù)據(jù)集中 選擇的部分源歷史數(shù)據(jù)組成的樣本歷史數(shù)據(jù)集;建立樣本歷史數(shù)據(jù)集中的樣本歷史數(shù)據(jù)與 源歷史數(shù)據(jù)集中的源歷史數(shù)據(jù)之間的鏈接,每一個(gè)樣本歷史數(shù)據(jù)與每一個(gè)源歷史數(shù)據(jù)之間 的鏈接具有各自的第一權(quán)值;基于用戶當(dāng)前輸入的查詢信息,從樣本歷史數(shù)據(jù)集中選擇至 少一個(gè)樣本歷史數(shù)據(jù)組成第一推薦結(jié)果,第一推薦結(jié)果中的每個(gè)樣本歷史數(shù)據(jù)對(duì)于用戶當(dāng) 前輸入的查詢信息具有各自的第二權(quán)值;根據(jù)第一權(quán)值和第二權(quán)值從源歷史數(shù)據(jù)中選擇至 少一個(gè)源歷史數(shù)據(jù)組成第二推薦結(jié)果。該方案基于用戶的歷史訪問數(shù)據(jù)進(jìn)行推薦,當(dāng)數(shù)字 資源剛剛上線,沒有閱讀歷史,不存在歷史訪問數(shù)據(jù)時(shí),則無法完成上述推薦。
[0004] 現(xiàn)有的數(shù)字資源中,存在一些匯集了多種知識(shí)信息的數(shù)據(jù)知識(shí)資源,如百科全書, 百科全書是一種數(shù)字出版資源,通常領(lǐng)域百科全書包含了該領(lǐng)域內(nèi)的重要知識(shí)點(diǎn)。此外, 像百度百科、維基百科等,作為知識(shí)點(diǎn)收集庫,也匯集了一些領(lǐng)域中的知識(shí)點(diǎn)。如何運(yùn)用送 些現(xiàn)有的數(shù)字資源來解決更多問題也成為研究的熱點(diǎn)。
[0005] Distributed words r 巧 resentat ions (分布式詞語表不)在 Rume 化 ar, D. E.,Hinton, G. E.,Williams, R. J. :Learning Represenations by Back-propagating Errors.化1:山"6 323化088) ;pp533-536(1986)中首次提出,該思想將詞語表示成連續(xù)向 量托〇]11:;[]111〇118 vectors),且在向量空間中,相似詞語的距離更近?;?壯orward neural network(前饋神經(jīng)網(wǎng)絡(luò))是用于學(xué)習(xí)詞向量和語言模型的方法(見Bengio,Y. iDucharme, R.,Vincent, P. :A Neural Probabilistic Language Model. Journal of Machine Learning Research 3, ppl 137-1155 (2003))。近來,M;Lkolov提出 了使用 skip-gram或 CBOW 模型,通過在大量文本上訓(xùn)練簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)在短時(shí)間內(nèi)得到詞語向量。
[0006] 本發(fā)明將利用該方法為知識(shí)點(diǎn)生成知識(shí)點(diǎn)向量,然后利用知識(shí)點(diǎn)向量計(jì)算知識(shí)點(diǎn) 的相似度,從而實(shí)現(xiàn)不通過歷史訪問數(shù)據(jù)為用戶推薦知識(shí)點(diǎn)的目的。
【發(fā)明內(nèi)容】
[0007] 為此,本發(fā)明所要解決的技術(shù)問題在于現(xiàn)有技術(shù)中信息推薦具有局限性,且現(xiàn)有 的數(shù)字資源及語義向量的處理方法沒有充分利用,從而提出一種獲取語義向量的方法及其 在信息推薦中應(yīng)用的確定相關(guān)知識(shí)點(diǎn)的方法及系統(tǒng)。
[0008] 為解決上述技術(shù)問題,本發(fā)明的提供一種計(jì)算領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法, 包括
[0009] 獲取領(lǐng)域知識(shí)點(diǎn);
[0010] 確定參考文本,根據(jù)所述領(lǐng)域知識(shí)點(diǎn)對(duì)所述參考文本進(jìn)行分詞,得到分詞結(jié)果,將 所述分詞結(jié)果中的詞作為知識(shí)點(diǎn),所述知識(shí)點(diǎn)包括所述領(lǐng)域知識(shí)點(diǎn)和其他知識(shí)點(diǎn);
[0011] 依次為分詞結(jié)果中的每個(gè)知識(shí)點(diǎn)建立索引;
[0012] 根據(jù)所述知識(shí)點(diǎn)的索引和所述知識(shí)點(diǎn)在參考文本中出現(xiàn)的順序確定每個(gè)領(lǐng)域知 識(shí)點(diǎn)的語義向量;
[0013] 對(duì)于每個(gè)領(lǐng)域知識(shí)點(diǎn),根據(jù)其語義向量確定該領(lǐng)域知識(shí)點(diǎn)與其他領(lǐng)域知識(shí)點(diǎn)的相 似度;
[0014] 根據(jù)所述相似度確定每個(gè)領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)。
[0015] 本發(fā)明還提供一種一種計(jì)算領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的系統(tǒng),包括
[0016] 提取單元;獲取領(lǐng)域知識(shí)點(diǎn);
[0017] 分詞單元;確定參考文本,根據(jù)所述領(lǐng)域知識(shí)點(diǎn)對(duì)所述參考文本進(jìn)行分詞,得到分 詞結(jié)果,將所述分詞結(jié)果中的詞作為知識(shí)點(diǎn),所述知識(shí)點(diǎn)包括所述領(lǐng)域知識(shí)點(diǎn)和其他知識(shí) 占. ;、、、?
[0018] 索引單元:依次為分詞結(jié)果中的每個(gè)知識(shí)點(diǎn)建立索引;
[0019] 訓(xùn)練單元;根據(jù)所述知識(shí)點(diǎn)的索引和所述知識(shí)點(diǎn)的順序確定每個(gè)領(lǐng)域知識(shí)點(diǎn)的語 義向量;
[0020] 相似度計(jì)算單元;對(duì)于每個(gè)領(lǐng)域知識(shí)點(diǎn),根據(jù)其語義向量確定該領(lǐng)域知識(shí)點(diǎn)與其 他領(lǐng)域知識(shí)點(diǎn)的相似度;
[0021] 相關(guān)知識(shí)點(diǎn)計(jì)算單元:根據(jù)所述相似度確定每個(gè)領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)
[0022] 本發(fā)明的上述技術(shù)方案相比現(xiàn)有技術(shù)具有W下優(yōu)點(diǎn),
[0023] (1)本發(fā)明提供一種計(jì)算領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法,首先獲取領(lǐng)域知識(shí)點(diǎn), 再從參考文本中分詞得到所有知識(shí)點(diǎn),送些知識(shí)點(diǎn)中包含了領(lǐng)域知識(shí)點(diǎn)和其他知識(shí)點(diǎn),然 后依次為分詞結(jié)果中的每個(gè)知識(shí)點(diǎn)建立索引,再根據(jù)所述每個(gè)知識(shí)點(diǎn)的索引和順序,通過 神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練的方式,得到領(lǐng)域知識(shí)點(diǎn)的語義向量,從而將知識(shí)點(diǎn)的語義信息進(jìn)行量 化,通過數(shù)字化的方式來體現(xiàn)其語義特征,送樣,在后續(xù)對(duì)知識(shí)點(diǎn)進(jìn)行分析時(shí),可W更加方 便。然后,根據(jù)各個(gè)領(lǐng)域知識(shí)點(diǎn)的語義向量,確定領(lǐng)域知識(shí)點(diǎn)之間的相似度,然后根據(jù)該相 似度的大小便能輕易的區(qū)分哪些是相關(guān)的知識(shí)點(diǎn),根據(jù)需要選擇相關(guān)知識(shí)點(diǎn)的個(gè)數(shù)。該方 式中將領(lǐng)域知識(shí)點(diǎn)的語義信息通過量化的方式來表示,然后通過數(shù)學(xué)運(yùn)算的方式,來確定 哪些知識(shí)點(diǎn)更相關(guān),該方式計(jì)算簡(jiǎn)單方便,且能根據(jù)語義間的相關(guān)程度,得出的相關(guān)知識(shí)點(diǎn) 具有更好的準(zhǔn)確性,適用于推薦、檢索等方面。
[0024] (2)本發(fā)明提供一種計(jì)算領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的系統(tǒng),包括將知識(shí)點(diǎn)的語義 信息進(jìn)行量化,然后通過數(shù)學(xué)運(yùn)算的方式,來確定哪些知識(shí)點(diǎn)更相關(guān),該方式計(jì)算簡(jiǎn)單方 便,且能根據(jù)語義間的相關(guān)程度,得出的相關(guān)知識(shí)點(diǎn)具有更好的準(zhǔn)確性,適用于推薦、檢索 等方面。
【附圖說明】
[0025] 為了使本發(fā)明的內(nèi)容更容易被清楚的理解,下面根據(jù)本發(fā)明的具體實(shí)施例并結(jié)合 附圖,對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明,其中
[0026] 圖1是本發(fā)明實(shí)施例1中計(jì)算領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法的流程圖;
[0027] 圖2是本發(fā)明實(shí)施例中神經(jīng)網(wǎng)絡(luò)模型的示意圖;
[002引圖3是本發(fā)明實(shí)施例中計(jì)算領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的系統(tǒng)結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0029] 連施例1:
[0030] 知識(shí)點(diǎn)的語義向量是在向量空間中描述知識(shí)點(diǎn)的一種方式,通過獲取知識(shí)點(diǎn)的語 義向量,可W使得知識(shí)點(diǎn)具有較強(qiáng)的可計(jì)算性,在文本檢索、自動(dòng)文摘、關(guān)鍵詞自動(dòng)提取、文 本分類等領(lǐng)域具有潛在的應(yīng)用價(jià)值。
[0031] 本實(shí)施例中提供一種借助語義向量來計(jì)算領(lǐng)域知識(shí)點(diǎn)的相關(guān)知識(shí)點(diǎn)的方法,包括 如下步驟: