面向綜合集成研討環(huán)境的信息推薦方法

文檔序號(hào)：6585358閱讀：191來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：：面向綜合集成研討環(huán)境的信息推薦方法
技術(shù)領(lǐng)域：
：本發(fā)明涉及綜合集成研討環(huán)境中根據(jù)研討內(nèi)容對(duì)用戶進(jìn)行信息推薦的方法，具體的說涉及研討話題的實(shí)時(shí)提取、跟蹤及協(xié)作過濾方法及其實(shí)現(xiàn)。
背景技術(shù)：
：綜合集成研討環(huán)境[1]是一種多個(gè)用戶基于某一具體領(lǐng)域，進(jìn)行文字形式討論的在線討論環(huán)境。參與研討的用戶針對(duì)一個(gè)事先擬定的主題進(jìn)行發(fā)言討論，最終將討論結(jié)果用于解決一系列復(fù)雜問題。隨著信息技術(shù)的發(fā)展，網(wǎng)絡(luò)上的資源呈爆炸式的增長，使得Internet成為信息傳播的主要媒介之一。而Internet上的大量信息，尤其是關(guān)于某一問題的權(quán)威網(wǎng)頁，對(duì)于啟發(fā)、激活用戶的思維具有重要意義。在綜合集成研討環(huán)境中，頻繁的信息檢索以及隨之而來的信息過濾使得用戶很難直接從網(wǎng)絡(luò)上獲取信息。因此，需要一種"主動(dòng)化"的信息推薦的方法來解決這一問題。目前，國內(nèi)外對(duì)于信息推薦的研究主要基于網(wǎng)絡(luò)用戶，根據(jù)用戶的訪問歷史、當(dāng)前瀏覽動(dòng)作，或通過和用戶具有類似行為模式的其他用戶等來挖掘用戶興趣，進(jìn)而將某用戶可能感興趣的信息推薦給該用戶。在綜合集成研討環(huán)境中，無法獲得參與研討用戶的瀏覽歷史和行為模式等信息，因此通過以上信息建模來挖掘用戶興趣的數(shù)據(jù)需求不可行；同時(shí)，在綜合集成研討環(huán)境中多個(gè)用戶作為一個(gè)群體協(xié)同開展工作，存在著一定時(shí)間壓力，而直接從Internet上搜索來的信息數(shù)目眾多且與話題的關(guān)聯(lián)程度也無法確定，需要根據(jù)當(dāng)前研討的內(nèi)容及通過多個(gè)用戶之間的協(xié)作推薦來篩選和研討話題更加相關(guān)的信息進(jìn)而推薦給用戶。因此，現(xiàn)有的基于網(wǎng)絡(luò)用戶的信息推薦系統(tǒng)無法滿足綜合集成研討環(huán)境的需求。[1]戴汝為，李耀東，基于綜合集成的研討廳體系與系統(tǒng)復(fù)雜性，復(fù)雜系統(tǒng)與復(fù)雜性科學(xué)，2004Vol.1No.
發(fā)明內(nèi)容本發(fā)明的目的在于提供一種面向信息持續(xù)流動(dòng)、變化條件下，多用戶協(xié)作綜合集成研討環(huán)境的信息推薦的方法。為達(dá)到上述目的，本發(fā)明提供的基于綜合集成研討環(huán)境的主動(dòng)信息獲取方法，該方法的步驟如下步驟1:在研討開始前利用多個(gè)用戶給定的相關(guān)背景資料生成此次研討領(lǐng)域詞匯表，用于分析發(fā)言；步驟2:參與研討的用戶依次進(jìn)行發(fā)言討論，當(dāng)發(fā)言累計(jì)一定字?jǐn)?shù)后，讀取發(fā)言文本；步驟3:對(duì)從研討環(huán)境中得到的文本形式的發(fā)言進(jìn)行向量化處理，在文本向量化的過程中，使用研討領(lǐng)域的領(lǐng)域詞匯表，在計(jì)算發(fā)言文本特征項(xiàng)的權(quán)重時(shí)，對(duì)包含在領(lǐng)域詞3匯表中的詞的權(quán)重進(jìn)行加權(quán)處理，以增強(qiáng)領(lǐng)域知識(shí)的作用，體現(xiàn)研討內(nèi)容的領(lǐng)域相關(guān)性；步驟4:對(duì)于向量化后的文本，由話題提取器從文本中抽取當(dāng)前研討話題；步驟5:由話題判別器判斷當(dāng)前研討話題是否發(fā)生變化，如果當(dāng)前研討話題發(fā)生變化轉(zhuǎn)入步驟6，如果當(dāng)前研討話題沒有發(fā)生變化，則回到步驟2繼續(xù)讀取發(fā)言文本；步驟6:從步驟4得到的當(dāng)前研討話題中提取合適元素，生成檢索詞；步驟7:將檢索詞送入搜索引擎，下載檢索結(jié)果網(wǎng)頁并解析其中的網(wǎng)頁鏈接信息，并將鏈接信息發(fā)送給用戶；步驟8:對(duì)系統(tǒng)發(fā)送的鏈接信息，用戶可選擇其中感興趣的信息點(diǎn)擊進(jìn)行閱讀，并對(duì)閱讀過的鏈接信息進(jìn)行打分；步驟9:根據(jù)步驟8中用戶對(duì)閱讀過的鏈接的打分情況及用戶的權(quán)威度重新計(jì)算各鏈接的權(quán)重，得到一個(gè)重要鏈接列表，再將重要鏈接列表推薦給未閱讀過這些重要鏈接列表信息的用戶；步驟10:查看此時(shí)是否還有新的發(fā)言產(chǎn)生，如果沒有則本次研討結(jié)束，退出推薦系統(tǒng)，否則返回步驟2繼續(xù)讀取發(fā)言文本并分析。其中，所述計(jì)算發(fā)言文本特征項(xiàng)的權(quán)重的步驟如下，對(duì)于所有特征項(xiàng)首先計(jì)算其詞頻逆文檔頻率值，然后對(duì)包含在領(lǐng)域詞表中的特征項(xiàng)的詞頻文檔頻率值乘以一個(gè)加權(quán)系數(shù)，以增強(qiáng)領(lǐng)域知識(shí)對(duì)研討的作用。其中，所述重要鏈接列表是對(duì)當(dāng)前研討話題分析后，通過用戶之間的協(xié)作關(guān)系計(jì)算得到的，具體的說是將利用當(dāng)前話題搜索返回的每條鏈接，根據(jù)閱讀過該鏈接的用戶對(duì)鏈接的打分和相應(yīng)用戶的權(quán)威度乘積的加和得到鏈接與研討相關(guān)性的權(quán)值，再根據(jù)此權(quán)值對(duì)鏈接重新排序，得到重要鏈接列表并推薦給未訪問過這些重要鏈接信息的用戶，最終以可視化的方式在綜合集成研討廳中展現(xiàn)對(duì)用戶的推薦結(jié)果。本發(fā)明的有益效果本發(fā)明采用了主動(dòng)的信息獲取技術(shù)，通過與特定領(lǐng)域相結(jié)合的方式分析當(dāng)前研討話題，并使用包含領(lǐng)域信息的話題詞取代通用的關(guān)鍵詞方式表示研討內(nèi)容，進(jìn)一步從中生成檢索詞進(jìn)行檢索；同時(shí)又考慮到多用戶之間的協(xié)同關(guān)系，對(duì)于檢索到的信息，采用用戶之間相互推薦的方式，精確了搜索結(jié)果，實(shí)現(xiàn)了對(duì)研討用戶高質(zhì)量的信息推薦。這一方法是面向綜合集成研討等基于網(wǎng)絡(luò)的在線討論環(huán)境，用以分析研討話題，為參與研討的用戶提供信息支持。該方法可減小信息搜索的代價(jià)，有效提高信息的利用率。圖1是本發(fā)明所述方法的實(shí)施例流程圖。圖2是本發(fā)明的原理示意圖。圖3是本發(fā)明系統(tǒng)運(yùn)行的示意圖。具體實(shí)施例方式下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)的描述。該方法采用一種實(shí)時(shí)的主動(dòng)信息獲取技術(shù)(real-timeactiveinformationretrieval)，在研討進(jìn)行過程中，主動(dòng)感知當(dāng)前研討的具體話題，并判斷話題的變化，在話題發(fā)生變化的情況下自動(dòng)生成檢索詞進(jìn)行檢索，再將搜索結(jié)果呈現(xiàn)給用戶。同時(shí)，該方法結(jié)4合了綜合集成研討環(huán)境信息持續(xù)變化、流動(dòng)的特點(diǎn)，采用領(lǐng)域特征和通用特征結(jié)合的方法分析發(fā)言文本的話題，并通過多個(gè)用戶之間的協(xié)作實(shí)現(xiàn)了對(duì)重要信息的篩選，最終實(shí)現(xiàn)了信息推薦。這一方法已在現(xiàn)有的綜合集成研討環(huán)境中進(jìn)行了實(shí)驗(yàn)，并可用于即時(shí)通信、網(wǎng)絡(luò)會(huì)議等環(huán)境，能夠極大的減小信息搜索代價(jià)，有效提高信息的利用率。為了實(shí)現(xiàn)面向綜合集成研討環(huán)境的信息推薦，我們需要從用戶發(fā)言中分析話題，再從互聯(lián)網(wǎng)上搜索相應(yīng)的信息，并以一定方式推薦給用戶。如圖2所示的原理，本發(fā)明是通過用戶和研討廳，用戶l-n和網(wǎng)絡(luò)，以及用戶和用戶之間的交互完成對(duì)用戶的信息推薦的。具體的說，在研討開始前，用戶需要給定一些關(guān)于本次研討的背景資料，利用這些背景資料生成領(lǐng)域詞表用于分析發(fā)言；研討開始后參與研討的用戶依次進(jìn)行發(fā)言討論，信息推薦系統(tǒng)首先從研討環(huán)境中接收文本形式的發(fā)言，送入話題提取器；話題提取器快速從發(fā)言文本中提取當(dāng)前研討話題，然后由話題判別器判別話題是否發(fā)生變化，如果發(fā)生變化，則從話題中提取合適元素作為檢索詞，送入搜索引擎進(jìn)行檢索；協(xié)作過濾器將接收到的搜索結(jié)果發(fā)送給用戶，進(jìn)行與用戶的第一次交互，并根據(jù)本輪的交互情況，篩選出其中的關(guān)鍵信息，推薦給用戶。本發(fā)明主要包括三個(gè)關(guān)鍵步驟一是研討話題的實(shí)時(shí)提取，二是研討話題的跟蹤，三是協(xié)作過濾。研討開始前，首先要確定本次研討的領(lǐng)域，然后根據(jù)相關(guān)領(lǐng)域資料生成一個(gè)能夠表達(dá)該領(lǐng)域知識(shí)的詞表，用于在研討進(jìn)行過程中分析發(fā)言。為了生成這個(gè)領(lǐng)域詞表，參與研討的用戶首先要給定十個(gè)左右具有代表性的詞匯作為領(lǐng)域種子詞，然后采用Bootstr即ping的方法從給定資料中學(xué)習(xí)出該領(lǐng)域的領(lǐng)域詞匯。研討開始后，每當(dāng)累計(jì)發(fā)言達(dá)到一定字?jǐn)?shù)后，都將啟動(dòng)話題提取器對(duì)當(dāng)前發(fā)言文本進(jìn)行分析。首先需要對(duì)發(fā)言文本進(jìn)行預(yù)處理，包括分詞、去除停用詞等。然后需要將發(fā)言文本表示成計(jì)算機(jī)能處理的形式，這里采用向量空間模型(vectorspacemodel，VSM)來表示文本。在用向量空間模型表示文本時(shí)，需要根據(jù)所有待表示文本生成當(dāng)前文本集合的特征空間。然后將發(fā)言文本表示成特征空間上的向量，并計(jì)算相應(yīng)特征項(xiàng)的權(quán)重。t時(shí)刻的特征空間FeatureSpacet表示方法如下FeatureSpacet={ternipterm2，...termn}(公式1)其中n為特征空間的維數(shù)，ternii為第i個(gè)特征項(xiàng)，特征項(xiàng)是向量空間模型中的最小語言單元，這里是經(jīng)過分詞軟件切分后的詞或詞組。而每當(dāng)有新的發(fā)言文本到來時(shí)，新發(fā)言文本都會(huì)引入一些原有特征空間中沒有的特征，此時(shí)需要將這些特征加入原有特征空間，生成新的特征空間。特征空間按公式2進(jìn)行更新，即t時(shí)刻所有文本的特征空間由t時(shí)刻讀入的新發(fā)言文本的特征集合Feature^及t-1時(shí)刻的特征空間FeatureSpacet—i的并集組FeatureSpacet=FeatureSpacet—丄UFeatureNew(公式2)例如FeatureSpacet—i={a，b，c，d，e，f}，F(xiàn)eatureNew={a，b，c，x，y}，那么FeatureSpacet={a，b，c，d，e，f，x，y}其中a、b、c、d、e、f、x、y等為公式1中的teriv即發(fā)言文本中經(jīng)過分詞軟件切分后的詞或詞組。當(dāng)特征空間更新完畢后，將所有發(fā)言文本表示成當(dāng)前特征空間FeatureSpacet上的向量。即，t時(shí)刻讀入的發(fā)言文本dt可表示為dt—{weight(d，term》，weight(d，term2)，...，weight(d，termn)}(公式3)weight(d，termi)表示文本dt中特征項(xiàng)ternii的權(quán)重，其計(jì)算采用詞頻逆文檔頻率(TF:termfrequency,詞步員，IDF:inversedocumentfrequency,逆文檔步員率，TF-IDF)公式進(jìn)行計(jì)算。即weight(d，ternO=TF-IDF(d，ternO(公式4)在綜合集成研討環(huán)境中進(jìn)行的研討大多是基于某一具體領(lǐng)域的，因此，領(lǐng)域知識(shí)的引入會(huì)給研討文本的分析帶來有益效果?，F(xiàn)有方法在使用領(lǐng)域詞表作為領(lǐng)域知識(shí)時(shí)，多是直接將領(lǐng)域詞表作為特征空間對(duì)文本進(jìn)行分析，忽略了其他不在領(lǐng)域詞表中的詞對(duì)話題表達(dá)的作用。這里采用了一種新的方法，把領(lǐng)域特征和通用詞頻特征相結(jié)合，即，對(duì)于向量化的文本，對(duì)于該文本中的每一個(gè)特征，判斷其是否為領(lǐng)域特征(即是否包含在領(lǐng)域詞表中)，如果是領(lǐng)域特征，則采用公式5的方法提高該特征項(xiàng)的權(quán)重，取代公式4對(duì)weight(d，ternii)的計(jì)算，確保了領(lǐng)域知識(shí)的引入，同時(shí)又不忽視非領(lǐng)域詞對(duì)話題表達(dá)的作用。weight(d，ternO=TF—IDF(d，ternO(1+P)(公式5)其中|3領(lǐng)域詞匯加權(quán)系數(shù)，13越大，說明給予領(lǐng)域知識(shí)的權(quán)重越大，|3的具體取值需要通過實(shí)驗(yàn)得到。對(duì)于向量化的發(fā)言文本，對(duì)其所有元素依據(jù)相應(yīng)的權(quán)重進(jìn)行排序，取前十個(gè)權(quán)重較高的項(xiàng)作為話題詞，則當(dāng)前研討的話題topic用話題詞及其權(quán)重表示如下topic={(topicwordk，weightk)}，k=1，...，10(公式6)即topicwordk為發(fā)言文本向量中權(quán)重第k高的項(xiàng)。當(dāng)提取出當(dāng)前研討話題后，啟動(dòng)話題判別器來判斷此時(shí)研討話題是否發(fā)生變化。對(duì)t時(shí)刻的發(fā)言文本dt，如公式7采用余弦距離來計(jì)算其和此前所有發(fā)言文本dj的相似度sim(dt，d,〕。其中j=1，2，...，t-l，Wk和w'k分別表示dt及dj第k個(gè)特征項(xiàng)的權(quán)重，n為特征空間的維數(shù)。此時(shí)，如果公式8中的條件滿足，即dt與此時(shí)刻前所有發(fā)言文本計(jì)算得到的最大相似度值mf"^(《，《)也小于預(yù)先設(shè)定的閾值，則認(rèn)為有新話題產(chǎn)生，創(chuàng)建一個(gè)包含t時(shí)刻的發(fā)言文本的話題類別，并從其話題topic中提取權(quán)重較高的前5個(gè)話題詞作為檢索詞，送入搜索引擎進(jìn)行檢索。其中topicThreshold為預(yù)先設(shè)定的閾值。否則沒有新話題產(chǎn)生，將dt加入和其相似度最大的發(fā)言文本所屬話題類別中。本發(fā)明采用了用戶之間的協(xié)作推薦方法實(shí)現(xiàn)協(xié)作過濾，具體的說，首先將搜索引擎返回的搜索結(jié)果(如Google搜索結(jié)果前20條)的鏈接發(fā)送給每位用戶，用戶對(duì)鏈接閱max^sv:m(y,，《)"—cTT/my/zo/t/(公式8)6讀并打分，然后根據(jù)公式9所示的方法計(jì)算各個(gè)鏈接的權(quán)重Xi，對(duì)鏈接重新進(jìn)行排序，得到如公式10表示的重要鏈接列表12，...，lm，再將每位用戶未閱讀過的重要鏈接再次推薦給該用戶。第i個(gè)鏈接的權(quán)重為=Ze,a,，,'=1,2,...,￡(公式9)其中L為總鏈接數(shù)目，K為參與研討的用戶數(shù)目，ej代表第j個(gè)用戶對(duì)第i個(gè)鏈接的打分，aj代表第j個(gè)用戶的權(quán)威度。第i個(gè)重要鏈接為/,=argm，x{x」，y=1,2,,丄(公式10)圖1是本發(fā)明所述方法的實(shí)施例流程圖。其實(shí)施過程如下步驟l，在研討開始前，首先由參與研討的多個(gè)用戶給出本次研討的相關(guān)背景資料，確定研討的領(lǐng)域，然后由這些背景資料生成分析發(fā)言文本所需領(lǐng)域詞匯表。研討開始后，首先進(jìn)行步驟2;步驟2，當(dāng)發(fā)言累計(jì)一定字?jǐn)?shù)后，從研討環(huán)境中讀入文本形式的發(fā)言進(jìn)行分析；步驟3，對(duì)從研討環(huán)境中讀入的發(fā)言文本進(jìn)行如分詞、去除停用詞等的預(yù)處理步驟；步驟4，利用領(lǐng)域詞表所表示的相關(guān)領(lǐng)域信息，從預(yù)處理后的發(fā)言文本中抽取當(dāng)前研討話題；步驟5，對(duì)比歷史研討話題，判斷當(dāng)前研討話題是否發(fā)生變化，如果發(fā)生變化，轉(zhuǎn)步驟6，如果話題未發(fā)生變化，返回步驟2，等待下一次分析；步驟6，從當(dāng)前研討話題詞中選擇合適的元素生成檢索詞；步驟7，將檢索詞送入搜索引擎，下載Google搜索前20條結(jié)果網(wǎng)頁并解析其中的鏈接信息，并將鏈接信息發(fā)送給用戶，用戶可點(diǎn)擊進(jìn)行閱讀；步驟8，用戶對(duì)發(fā)送給其的鏈接信息可選擇一部分進(jìn)行閱讀，并對(duì)閱讀過的鏈接進(jìn)行打分，記錄各鏈接的得分情況；步驟9，根據(jù)各鏈接的得分情況及對(duì)鏈接進(jìn)行打分的用戶的權(quán)威度等信息，計(jì)算鏈接的權(quán)重，并根據(jù)權(quán)重重新對(duì)鏈接進(jìn)行排序，生成重要信息列表，并推薦給未閱讀過這些鏈接的用戶。步驟10，查看研討環(huán)境中此時(shí)是否還有新的發(fā)言產(chǎn)生，如果沒有則此輪研討結(jié)束，退出推薦系統(tǒng)，否則轉(zhuǎn)步驟2，等待下一輪分析。下面是一個(gè)具體實(shí)施實(shí)例，這里采用騰訊網(wǎng)一則有關(guān)金融危機(jī)的訪談來測(cè)試方法的有效性。研討的主題是金融危機(jī)對(duì)我國經(jīng)濟(jì)的影響及我國應(yīng)采取的應(yīng)對(duì)措施，該研討大致包含如下幾個(gè)子主題1.中國經(jīng)濟(jì)應(yīng)從政府主導(dǎo)轉(zhuǎn)向市場(chǎng)主導(dǎo)2.人民幣升值、出口結(jié)算的問題3.政府應(yīng)通過減稅等方式讓利給企業(yè)和個(gè)人4.分析政府的四萬億投資的作用5.目前房產(chǎn)市場(chǎng)存在的問題6.完善農(nóng)村基礎(chǔ)設(shè)施建設(shè)7.中國應(yīng)大力發(fā)展信貸經(jīng)濟(jì)本次研討共有五位用戶參與，用l-5進(jìn)行標(biāo)記，其權(quán)威度依次為{0.9，0.7，0.7，0.5，0.5}。在研討開始前，用戶給定了一個(gè)有關(guān)經(jīng)濟(jì)方面問題的資料集，其中包含約1600篇經(jīng)濟(jì)領(lǐng)域文檔，并給定了證券、股票、金融、財(cái)經(jīng)、銀行、稅收、外匯、投資、股市、貸款、經(jīng)濟(jì)等作為種子詞，在此基礎(chǔ)上，經(jīng)過幾輪學(xué)習(xí)，生成了一個(gè)詞條數(shù)目為約為700的經(jīng)濟(jì)領(lǐng)域詞匯表，其中包含如資本、國有、財(cái)政、國民經(jīng)濟(jì)、貨幣、民營、外資、所有制、信貸、固定資產(chǎn)、儲(chǔ)蓄、利率、通貨膨脹、對(duì)外開放、債券等經(jīng)濟(jì)領(lǐng)域相關(guān)詞匯。研討開始后，各個(gè)用戶就本次研討的主題進(jìn)行發(fā)言討論。每當(dāng)發(fā)言累計(jì)達(dá)到900字時(shí)，讀取當(dāng)前發(fā)言內(nèi)容，啟動(dòng)話題提取器對(duì)其進(jìn)行分析。參數(shù)設(shè)置如下公式5中13=0.8，公式8中話題判別閾值topicThreshold=0.11。以第三次分析發(fā)言為例，此時(shí)已經(jīng)對(duì)發(fā)言進(jìn)行過兩次分析，且兩段發(fā)言主題不同，即當(dāng)前已有兩個(gè)話題類別Topicl和Topic2，其各包含一篇文檔和4，其主題詞分別為Topicl={經(jīng)濟(jì)41.4，中國17，信心9，出口9，發(fā)展8，增長7.2，下滑5.4，周期4，走4，復(fù)蘇3.6}Topic2={經(jīng)濟(jì)0.3537，政府0.2525，干預(yù)0.2169，出口0.1965，轉(zhuǎn)型0.1765，中國0.1765，搞0.1765，市場(chǎng)經(jīng)濟(jì)0.1765，幫助0.1765，計(jì)劃0.1520}此時(shí)特征空間的維數(shù)為269，按公式1表示如下FeatureSpace2={談?wù)?，信心，貿(mào)易，溫總理，出口，...，好轉(zhuǎn)，整體}當(dāng)發(fā)言第三次累計(jì)達(dá)到900字時(shí)，讀取發(fā)言文本，啟動(dòng)話題提取器，首先對(duì)發(fā)言文本進(jìn)行預(yù)處理，經(jīng)過預(yù)處理后的新發(fā)言的特征集合為Feature^={人民幣，美元，結(jié)算，貿(mào)易，跨境，升，...，出口，珠三角}，共包含190個(gè)獨(dú)立特征項(xiàng)，其中有142個(gè)特征不包含在FeatureSpace2中，如人民幣、美元、結(jié)算、珠三角等，另外48個(gè)特征包含在FeatureSpace2中，如貿(mào)易、出口、中國、貨幣等。由公式3知更新后的特征空間FeatureSpac^=FeatureSpace2UFeatureSpaceNew={談?wù)?，信心，貨幣，貿(mào)易，溫總理，出口，...，好轉(zhuǎn)，整體，人民幣，美元，結(jié)算，珠三角，...}，維數(shù)為411。再由公式3和公式5將當(dāng)前發(fā)言文本表示成FeatureSpace3上的向量d3={談?wù)?，信心0，貨幣0.1322，貿(mào)易0.0388，溫總理0，出口0.0569，...，好轉(zhuǎn)0，整體0，人民幣:0.5154，美元:0.1004，結(jié)算0.2007，珠三角0.0633，...h同時(shí)也將c^和d2也更新為此時(shí)特征空間FeatureSpaceg上的特征向量，用以和d3進(jìn)行比較。經(jīng)過排序抽取當(dāng)前發(fā)言文本的話題如下Topic={人民幣0.5154，升值0.3418，兌換0.2945，貶值0.2646，國際化0.2278，結(jié)算0.2007，自由化0.1805，升0.1470，試點(diǎn):0.1470，貨幣:0.1322}可以看出提取出的話題詞能夠體現(xiàn)出經(jīng)濟(jì)領(lǐng)域的特性，也能表述當(dāng)前研討的內(nèi)容。抽取當(dāng)前研討話題后，需要判斷話題是否發(fā)生了變化，采用公式7，分別計(jì)算(13和C^、4的相似度得sim(d3，d》=0.0990，sim(d3，d2)=0.0635，可知<formula>formulaseeoriginaldocumentpage9</formula>說明當(dāng)前話題發(fā)生了變化，創(chuàng)建包含d3的新話題類別Topic3，從中得到檢索詞人民幣、升值、兌換、貶值、國際化，送入Google進(jìn)行檢索，得到的檢索結(jié)果舉例如下<table>tableseeoriginaldocumentpage9</column></row><table>首先將這20條鏈接發(fā)送給每位用戶，用戶可在其中選擇一些進(jìn)行閱讀，每個(gè)用戶閱讀過的鏈接如下用戶1閱讀了以下鏈接:18、4、7、5、13、8、2、16、10、12、1、11、14、9、3、6、17、15、0用戶2閱讀了以下鏈接:2、6、12、0、16用戶3閱讀了以下鏈接12、7、5、16、0、18、13、11、用戶4閱讀了以下鏈接:16、4、10、13、3U7用戶5閱讀了以下鏈接5、3、18、12、6、16、10、0、11、1、14、13、4、9根據(jù)公式9和10計(jì)算得到排序前十位的鏈接為:16、0、12、13、3、4、5、6、10U1則需要向以下用戶推薦重要的信息向用戶2推薦以下鏈接13、3、4、5、10、H、向用戶3推薦以下鏈接3、4、6、10、向用戶4推薦以下鏈接0、12、5、6、H、以上步驟的結(jié)果顯示在主動(dòng)信息獲取系統(tǒng)界面的情況如圖3所示。由于此時(shí)研討還未結(jié)束，所以返回讀取發(fā)言文本步驟，等待下一輪分析。以上所述，僅為本發(fā)明中的具體實(shí)施方式，但本發(fā)明的保護(hù)范圍并不局限于此，任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi)，可理解想到的變換或替換，都應(yīng)涵蓋在本發(fā)明的包含范圍之內(nèi)，因此，本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書的保護(hù)范圍為準(zhǔn)。權(quán)利要求一種基于綜合集成研討環(huán)境的主動(dòng)信息獲取方法，其特征在于，該方法的步驟如下步驟1在研討開始前利用多個(gè)用戶給定的相關(guān)背景資料生成此次研討領(lǐng)域詞匯表，用于分析發(fā)言；步驟2參與研討的用戶依次進(jìn)行發(fā)言討論，當(dāng)發(fā)言累計(jì)一定字?jǐn)?shù)后，讀取發(fā)言文本；步驟3對(duì)從研討環(huán)境中得到的文本形式的發(fā)言進(jìn)行向量化處理，在文本向量化的過程中，使用研討領(lǐng)域的領(lǐng)域詞匯表，在計(jì)算發(fā)言文本特征項(xiàng)的權(quán)重時(shí)，對(duì)包含在領(lǐng)域詞匯表中的詞的權(quán)重進(jìn)行加權(quán)處理，以增強(qiáng)領(lǐng)域知識(shí)的作用，體現(xiàn)研討內(nèi)容的領(lǐng)域相關(guān)性；步驟4對(duì)于向量化后的文本，由話題提取器從文本中抽取當(dāng)前研討話題；步驟5由話題判別器判斷當(dāng)前研討話題是否發(fā)生變化，如果當(dāng)前研討話題發(fā)生變化轉(zhuǎn)入步驟6，如果當(dāng)前研討話題沒有發(fā)生變化，則回到步驟2繼續(xù)讀取發(fā)言文本；步驟6從步驟4得到的當(dāng)前研討話題中提取合適元素，生成檢索詞；步驟7將檢索詞送入搜索引擎，下載檢索結(jié)果網(wǎng)頁并解析其中的網(wǎng)頁鏈接信息，并將鏈接信息發(fā)送給用戶；步驟8對(duì)系統(tǒng)發(fā)送的鏈接信息，用戶可選擇其中感興趣的信息點(diǎn)擊進(jìn)行閱讀，并對(duì)閱讀過的鏈接信息進(jìn)行打分；步驟9根據(jù)步驟8中用戶對(duì)閱讀過的鏈接的打分情況及用戶的權(quán)威度重新計(jì)算各鏈接的權(quán)重，得到一個(gè)重要鏈接列表，再將重要鏈接列表推薦給未閱讀過這些重要鏈接列表信息的用戶；步驟10查看此時(shí)是否還有新的發(fā)言產(chǎn)生，如果沒有則本次研討結(jié)束，退出推薦系統(tǒng)，否則返回步驟2繼續(xù)讀取發(fā)言文本并分析。2.如權(quán)利要求1所述的面向綜合集成研討環(huán)境的信息推薦方法，其特征在于，所述計(jì)算發(fā)言文本特征項(xiàng)的權(quán)重的步驟如下，對(duì)于所有特征項(xiàng)首先計(jì)算其詞頻逆文檔頻率值，然后對(duì)包含在領(lǐng)域詞表中的特征項(xiàng)的詞頻文檔頻率值乘以一個(gè)加權(quán)系數(shù)，以增強(qiáng)領(lǐng)域知識(shí)對(duì)研討的作用。3.如權(quán)利要求1所述的面向綜合集成研討環(huán)境的信息推薦方法，其特征在于，所述重要鏈接列表是對(duì)當(dāng)前研討話題分析后，通過用戶之間的協(xié)作關(guān)系計(jì)算得到的，具體的說是將利用當(dāng)前話題搜索返回的每條鏈接，根據(jù)閱讀過該鏈接的用戶對(duì)鏈接的打分和相應(yīng)用戶的權(quán)威度乘積的加和得到鏈接與研討相關(guān)性的權(quán)值，再根據(jù)此權(quán)值對(duì)鏈接重新排序，得到重要鏈接列表并推薦給未訪問過這些重要鏈接信息的用戶，最終以可視化的方式在綜合集成研討廳中展現(xiàn)對(duì)用戶的推薦結(jié)果。全文摘要本發(fā)明公開了一種面向綜合集成研討環(huán)境的信息推薦方法，該方法采用一種實(shí)時(shí)的主動(dòng)信息獲取技術(shù)，在研討進(jìn)行過程中，主動(dòng)感知當(dāng)前研討的具體話題，并判斷話題的變化，在話題發(fā)生變化的情況下自動(dòng)生成檢索詞進(jìn)行檢索，再將檢索結(jié)果呈現(xiàn)給用戶。同時(shí)，該方法結(jié)合了綜合集成研討環(huán)境信息持續(xù)變化、流動(dòng)的特點(diǎn)，采用領(lǐng)域特征和通用特征結(jié)合的方法分析發(fā)言文本的話題，并通過多個(gè)用戶之間的協(xié)作實(shí)現(xiàn)了對(duì)重要信息的篩選，最終實(shí)現(xiàn)了信息推薦。這一方法已在現(xiàn)有的綜合集成研討環(huán)境中進(jìn)行了實(shí)驗(yàn)，并可用于即時(shí)通信、網(wǎng)絡(luò)會(huì)議等環(huán)境，能夠極大的減小信息搜索代價(jià)，有效提高信息的利用率。文檔編號(hào)G06F17/30GK101782920SQ20091024373公開日2010年7月21日申請(qǐng)日期2009年12月23日優(yōu)先權(quán)日2009年12月23日發(fā)明者倪娜,劉凱,戴汝為,李耀東申請(qǐng)人:中國科學(xué)院自動(dòng)化研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：倪娜;劉凱;李耀東;戴汝為
技術(shù)所有人：中國科學(xué)院自動(dòng)化研究所
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

面向?qū)ο蟮募蓽y(cè)試相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

面向綜合集成研討環(huán)境的信息推薦方法