亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

面向綜合集成研討環(huán)境的信息推薦方法

文檔序號(hào):6585358閱讀:191來源:國知局

專利名稱::面向綜合集成研討環(huán)境的信息推薦方法
技術(shù)領(lǐng)域
:本發(fā)明涉及綜合集成研討環(huán)境中根據(jù)研討內(nèi)容對(duì)用戶進(jìn)行信息推薦的方法,具體的說涉及研討話題的實(shí)時(shí)提取、跟蹤及協(xié)作過濾方法及其實(shí)現(xiàn)。
背景技術(shù)
:綜合集成研討環(huán)境[1]是一種多個(gè)用戶基于某一具體領(lǐng)域,進(jìn)行文字形式討論的在線討論環(huán)境。參與研討的用戶針對(duì)一個(gè)事先擬定的主題進(jìn)行發(fā)言討論,最終將討論結(jié)果用于解決一系列復(fù)雜問題。隨著信息技術(shù)的發(fā)展,網(wǎng)絡(luò)上的資源呈爆炸式的增長,使得Internet成為信息傳播的主要媒介之一。而Internet上的大量信息,尤其是關(guān)于某一問題的權(quán)威網(wǎng)頁,對(duì)于啟發(fā)、激活用戶的思維具有重要意義。在綜合集成研討環(huán)境中,頻繁的信息檢索以及隨之而來的信息過濾使得用戶很難直接從網(wǎng)絡(luò)上獲取信息。因此,需要一種"主動(dòng)化"的信息推薦的方法來解決這一問題。目前,國內(nèi)外對(duì)于信息推薦的研究主要基于網(wǎng)絡(luò)用戶,根據(jù)用戶的訪問歷史、當(dāng)前瀏覽動(dòng)作,或通過和用戶具有類似行為模式的其他用戶等來挖掘用戶興趣,進(jìn)而將某用戶可能感興趣的信息推薦給該用戶。在綜合集成研討環(huán)境中,無法獲得參與研討用戶的瀏覽歷史和行為模式等信息,因此通過以上信息建模來挖掘用戶興趣的數(shù)據(jù)需求不可行;同時(shí),在綜合集成研討環(huán)境中多個(gè)用戶作為一個(gè)群體協(xié)同開展工作,存在著一定時(shí)間壓力,而直接從Internet上搜索來的信息數(shù)目眾多且與話題的關(guān)聯(lián)程度也無法確定,需要根據(jù)當(dāng)前研討的內(nèi)容及通過多個(gè)用戶之間的協(xié)作推薦來篩選和研討話題更加相關(guān)的信息進(jìn)而推薦給用戶。因此,現(xiàn)有的基于網(wǎng)絡(luò)用戶的信息推薦系統(tǒng)無法滿足綜合集成研討環(huán)境的需求。[1]戴汝為,李耀東,基于綜合集成的研討廳體系與系統(tǒng)復(fù)雜性,復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2004Vol.1No.
發(fā)明內(nèi)容本發(fā)明的目的在于提供一種面向信息持續(xù)流動(dòng)、變化條件下,多用戶協(xié)作綜合集成研討環(huán)境的信息推薦的方法。為達(dá)到上述目的,本發(fā)明提供的基于綜合集成研討環(huán)境的主動(dòng)信息獲取方法,該方法的步驟如下步驟1:在研討開始前利用多個(gè)用戶給定的相關(guān)背景資料生成此次研討領(lǐng)域詞匯表,用于分析發(fā)言;步驟2:參與研討的用戶依次進(jìn)行發(fā)言討論,當(dāng)發(fā)言累計(jì)一定字?jǐn)?shù)后,讀取發(fā)言文本;步驟3:對(duì)從研討環(huán)境中得到的文本形式的發(fā)言進(jìn)行向量化處理,在文本向量化的過程中,使用研討領(lǐng)域的領(lǐng)域詞匯表,在計(jì)算發(fā)言文本特征項(xiàng)的權(quán)重時(shí),對(duì)包含在領(lǐng)域詞3匯表中的詞的權(quán)重進(jìn)行加權(quán)處理,以增強(qiáng)領(lǐng)域知識(shí)的作用,體現(xiàn)研討內(nèi)容的領(lǐng)域相關(guān)性;步驟4:對(duì)于向量化后的文本,由話題提取器從文本中抽取當(dāng)前研討話題;步驟5:由話題判別器判斷當(dāng)前研討話題是否發(fā)生變化,如果當(dāng)前研討話題發(fā)生變化轉(zhuǎn)入步驟6,如果當(dāng)前研討話題沒有發(fā)生變化,則回到步驟2繼續(xù)讀取發(fā)言文本;步驟6:從步驟4得到的當(dāng)前研討話題中提取合適元素,生成檢索詞;步驟7:將檢索詞送入搜索引擎,下載檢索結(jié)果網(wǎng)頁并解析其中的網(wǎng)頁鏈接信息,并將鏈接信息發(fā)送給用戶;步驟8:對(duì)系統(tǒng)發(fā)送的鏈接信息,用戶可選擇其中感興趣的信息點(diǎn)擊進(jìn)行閱讀,并對(duì)閱讀過的鏈接信息進(jìn)行打分;步驟9:根據(jù)步驟8中用戶對(duì)閱讀過的鏈接的打分情況及用戶的權(quán)威度重新計(jì)算各鏈接的權(quán)重,得到一個(gè)重要鏈接列表,再將重要鏈接列表推薦給未閱讀過這些重要鏈接列表信息的用戶;步驟10:查看此時(shí)是否還有新的發(fā)言產(chǎn)生,如果沒有則本次研討結(jié)束,退出推薦系統(tǒng),否則返回步驟2繼續(xù)讀取發(fā)言文本并分析。其中,所述計(jì)算發(fā)言文本特征項(xiàng)的權(quán)重的步驟如下,對(duì)于所有特征項(xiàng)首先計(jì)算其詞頻逆文檔頻率值,然后對(duì)包含在領(lǐng)域詞表中的特征項(xiàng)的詞頻文檔頻率值乘以一個(gè)加權(quán)系數(shù),以增強(qiáng)領(lǐng)域知識(shí)對(duì)研討的作用。其中,所述重要鏈接列表是對(duì)當(dāng)前研討話題分析后,通過用戶之間的協(xié)作關(guān)系計(jì)算得到的,具體的說是將利用當(dāng)前話題搜索返回的每條鏈接,根據(jù)閱讀過該鏈接的用戶對(duì)鏈接的打分和相應(yīng)用戶的權(quán)威度乘積的加和得到鏈接與研討相關(guān)性的權(quán)值,再根據(jù)此權(quán)值對(duì)鏈接重新排序,得到重要鏈接列表并推薦給未訪問過這些重要鏈接信息的用戶,最終以可視化的方式在綜合集成研討廳中展現(xiàn)對(duì)用戶的推薦結(jié)果。本發(fā)明的有益效果本發(fā)明采用了主動(dòng)的信息獲取技術(shù),通過與特定領(lǐng)域相結(jié)合的方式分析當(dāng)前研討話題,并使用包含領(lǐng)域信息的話題詞取代通用的關(guān)鍵詞方式表示研討內(nèi)容,進(jìn)一步從中生成檢索詞進(jìn)行檢索;同時(shí)又考慮到多用戶之間的協(xié)同關(guān)系,對(duì)于檢索到的信息,采用用戶之間相互推薦的方式,精確了搜索結(jié)果,實(shí)現(xiàn)了對(duì)研討用戶高質(zhì)量的信息推薦。這一方法是面向綜合集成研討等基于網(wǎng)絡(luò)的在線討論環(huán)境,用以分析研討話題,為參與研討的用戶提供信息支持。該方法可減小信息搜索的代價(jià),有效提高信息的利用率。圖1是本發(fā)明所述方法的實(shí)施例流程圖。圖2是本發(fā)明的原理示意圖。圖3是本發(fā)明系統(tǒng)運(yùn)行的示意圖。具體實(shí)施例方式下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)的描述。該方法采用一種實(shí)時(shí)的主動(dòng)信息獲取技術(shù)(real-timeactiveinformationretrieval),在研討進(jìn)行過程中,主動(dòng)感知當(dāng)前研討的具體話題,并判斷話題的變化,在話題發(fā)生變化的情況下自動(dòng)生成檢索詞進(jìn)行檢索,再將搜索結(jié)果呈現(xiàn)給用戶。同時(shí),該方法結(jié)4合了綜合集成研討環(huán)境信息持續(xù)變化、流動(dòng)的特點(diǎn),采用領(lǐng)域特征和通用特征結(jié)合的方法分析發(fā)言文本的話題,并通過多個(gè)用戶之間的協(xié)作實(shí)現(xiàn)了對(duì)重要信息的篩選,最終實(shí)現(xiàn)了信息推薦。這一方法已在現(xiàn)有的綜合集成研討環(huán)境中進(jìn)行了實(shí)驗(yàn),并可用于即時(shí)通信、網(wǎng)絡(luò)會(huì)議等環(huán)境,能夠極大的減小信息搜索代價(jià),有效提高信息的利用率。為了實(shí)現(xiàn)面向綜合集成研討環(huán)境的信息推薦,我們需要從用戶發(fā)言中分析話題,再從互聯(lián)網(wǎng)上搜索相應(yīng)的信息,并以一定方式推薦給用戶。如圖2所示的原理,本發(fā)明是通過用戶和研討廳,用戶l-n和網(wǎng)絡(luò),以及用戶和用戶之間的交互完成對(duì)用戶的信息推薦的。具體的說,在研討開始前,用戶需要給定一些關(guān)于本次研討的背景資料,利用這些背景資料生成領(lǐng)域詞表用于分析發(fā)言;研討開始后參與研討的用戶依次進(jìn)行發(fā)言討論,信息推薦系統(tǒng)首先從研討環(huán)境中接收文本形式的發(fā)言,送入話題提取器;話題提取器快速從發(fā)言文本中提取當(dāng)前研討話題,然后由話題判別器判別話題是否發(fā)生變化,如果發(fā)生變化,則從話題中提取合適元素作為檢索詞,送入搜索引擎進(jìn)行檢索;協(xié)作過濾器將接收到的搜索結(jié)果發(fā)送給用戶,進(jìn)行與用戶的第一次交互,并根據(jù)本輪的交互情況,篩選出其中的關(guān)鍵信息,推薦給用戶。本發(fā)明主要包括三個(gè)關(guān)鍵步驟一是研討話題的實(shí)時(shí)提取,二是研討話題的跟蹤,三是協(xié)作過濾。研討開始前,首先要確定本次研討的領(lǐng)域,然后根據(jù)相關(guān)領(lǐng)域資料生成一個(gè)能夠表達(dá)該領(lǐng)域知識(shí)的詞表,用于在研討進(jìn)行過程中分析發(fā)言。為了生成這個(gè)領(lǐng)域詞表,參與研討的用戶首先要給定十個(gè)左右具有代表性的詞匯作為領(lǐng)域種子詞,然后采用Bootstr即ping的方法從給定資料中學(xué)習(xí)出該領(lǐng)域的領(lǐng)域詞匯。研討開始后,每當(dāng)累計(jì)發(fā)言達(dá)到一定字?jǐn)?shù)后,都將啟動(dòng)話題提取器對(duì)當(dāng)前發(fā)言文本進(jìn)行分析。首先需要對(duì)發(fā)言文本進(jìn)行預(yù)處理,包括分詞、去除停用詞等。然后需要將發(fā)言文本表示成計(jì)算機(jī)能處理的形式,這里采用向量空間模型(vectorspacemodel,VSM)來表示文本。在用向量空間模型表示文本時(shí),需要根據(jù)所有待表示文本生成當(dāng)前文本集合的特征空間。然后將發(fā)言文本表示成特征空間上的向量,并計(jì)算相應(yīng)特征項(xiàng)的權(quán)重。t時(shí)刻的特征空間FeatureSpacet表示方法如下FeatureSpacet={ternipterm2,...termn}(公式1)其中n為特征空間的維數(shù),ternii為第i個(gè)特征項(xiàng),特征項(xiàng)是向量空間模型中的最小語言單元,這里是經(jīng)過分詞軟件切分后的詞或詞組。而每當(dāng)有新的發(fā)言文本到來時(shí),新發(fā)言文本都會(huì)引入一些原有特征空間中沒有的特征,此時(shí)需要將這些特征加入原有特征空間,生成新的特征空間。特征空間按公式2進(jìn)行更新,即t時(shí)刻所有文本的特征空間由t時(shí)刻讀入的新發(fā)言文本的特征集合Feature^及t-1時(shí)刻的特征空間FeatureSpacet—i的并集組FeatureSpacet=FeatureSpacet—丄UFeatureNew(公式2)例如FeatureSpacet—i={a,b,c,d,e,f},F(xiàn)eatureNew={a,b,c,x,y},那么FeatureSpacet={a,b,c,d,e,f,x,y}其中a、b、c、d、e、f、x、y等為公式1中的teriv即發(fā)言文本中經(jīng)過分詞軟件切分后的詞或詞組。當(dāng)特征空間更新完畢后,將所有發(fā)言文本表示成當(dāng)前特征空間FeatureSpacet上的向量。即,t時(shí)刻讀入的發(fā)言文本dt可表示為dt—{weight(d,term》,weight(d,term2),...,weight(d,termn)}(公式3)weight(d,termi)表示文本dt中特征項(xiàng)ternii的權(quán)重,其計(jì)算采用詞頻逆文檔頻率(TF:termfrequency,詞步員,IDF:inversedocumentfrequency,逆文檔步員率,TF-IDF)公式進(jìn)行計(jì)算。即weight(d,ternO=TF-IDF(d,ternO(公式4)在綜合集成研討環(huán)境中進(jìn)行的研討大多是基于某一具體領(lǐng)域的,因此,領(lǐng)域知識(shí)的引入會(huì)給研討文本的分析帶來有益效果?,F(xiàn)有方法在使用領(lǐng)域詞表作為領(lǐng)域知識(shí)時(shí),多是直接將領(lǐng)域詞表作為特征空間對(duì)文本進(jìn)行分析,忽略了其他不在領(lǐng)域詞表中的詞對(duì)話題表達(dá)的作用。這里采用了一種新的方法,把領(lǐng)域特征和通用詞頻特征相結(jié)合,即,對(duì)于向量化的文本,對(duì)于該文本中的每一個(gè)特征,判斷其是否為領(lǐng)域特征(即是否包含在領(lǐng)域詞表中),如果是領(lǐng)域特征,則采用公式5的方法提高該特征項(xiàng)的權(quán)重,取代公式4對(duì)weight(d,ternii)的計(jì)算,確保了領(lǐng)域知識(shí)的引入,同時(shí)又不忽視非領(lǐng)域詞對(duì)話題表達(dá)的作用。weight(d,ternO=TF—IDF(d,ternO(1+P)(公式5)其中|3領(lǐng)域詞匯加權(quán)系數(shù),13越大,說明給予領(lǐng)域知識(shí)的權(quán)重越大,|3的具體取值需要通過實(shí)驗(yàn)得到。對(duì)于向量化的發(fā)言文本,對(duì)其所有元素依據(jù)相應(yīng)的權(quán)重進(jìn)行排序,取前十個(gè)權(quán)重較高的項(xiàng)作為話題詞,則當(dāng)前研討的話題topic用話題詞及其權(quán)重表示如下topic={(topicwordk,weightk)},k=1,...,10(公式6)即topicwordk為發(fā)言文本向量中權(quán)重第k高的項(xiàng)。當(dāng)提取出當(dāng)前研討話題后,啟動(dòng)話題判別器來判斷此時(shí)研討話題是否發(fā)生變化。對(duì)t時(shí)刻的發(fā)言文本dt,如公式7采用余弦距離來計(jì)算其和此前所有發(fā)言文本dj的相似度sim(dt,d,〕。其中j=1,2,...,t-l,Wk和w'k分別表示dt及dj第k個(gè)特征項(xiàng)的權(quán)重,n為特征空間的維數(shù)。此時(shí),如果公式8中的條件滿足,即dt與此時(shí)刻前所有發(fā)言文本計(jì)算得到的最大相似度值mf"^(《,《)也小于預(yù)先設(shè)定的閾值,則認(rèn)為有新話題產(chǎn)生,創(chuàng)建一個(gè)包含t時(shí)刻的發(fā)言文本的話題類別,并從其話題topic中提取權(quán)重較高的前5個(gè)話題詞作為檢索詞,送入搜索引擎進(jìn)行檢索。其中topicThreshold為預(yù)先設(shè)定的閾值。否則沒有新話題產(chǎn)生,將dt加入和其相似度最大的發(fā)言文本所屬話題類別中。本發(fā)明采用了用戶之間的協(xié)作推薦方法實(shí)現(xiàn)協(xié)作過濾,具體的說,首先將搜索引擎返回的搜索結(jié)果(如Google搜索結(jié)果前20條)的鏈接發(fā)送給每位用戶,用戶對(duì)鏈接閱max^sv:m(y,,《)"—cTT/my/zo/t/(公式8)6讀并打分,然后根據(jù)公式9所示的方法計(jì)算各個(gè)鏈接的權(quán)重Xi,對(duì)鏈接重新進(jìn)行排序,得到如公式10表示的重要鏈接列表12,...,lm,再將每位用戶未閱讀過的重要鏈接再次推薦給該用戶。第i個(gè)鏈接的權(quán)重為=Ze,a,,,'=1,2,...,£(公式9)其中L為總鏈接數(shù)目,K為參與研討的用戶數(shù)目,ej代表第j個(gè)用戶對(duì)第i個(gè)鏈接的打分,aj代表第j個(gè)用戶的權(quán)威度。第i個(gè)重要鏈接為/,=argm,x{x」,y=1,2,,丄(公式10)圖1是本發(fā)明所述方法的實(shí)施例流程圖。其實(shí)施過程如下步驟l,在研討開始前,首先由參與研討的多個(gè)用戶給出本次研討的相關(guān)背景資料,確定研討的領(lǐng)域,然后由這些背景資料生成分析發(fā)言文本所需領(lǐng)域詞匯表。研討開始后,首先進(jìn)行步驟2;步驟2,當(dāng)發(fā)言累計(jì)一定字?jǐn)?shù)后,從研討環(huán)境中讀入文本形式的發(fā)言進(jìn)行分析;步驟3,對(duì)從研討環(huán)境中讀入的發(fā)言文本進(jìn)行如分詞、去除停用詞等的預(yù)處理步驟;步驟4,利用領(lǐng)域詞表所表示的相關(guān)領(lǐng)域信息,從預(yù)處理后的發(fā)言文本中抽取當(dāng)前研討話題;步驟5,對(duì)比歷史研討話題,判斷當(dāng)前研討話題是否發(fā)生變化,如果發(fā)生變化,轉(zhuǎn)步驟6,如果話題未發(fā)生變化,返回步驟2,等待下一次分析;步驟6,從當(dāng)前研討話題詞中選擇合適的元素生成檢索詞;步驟7,將檢索詞送入搜索引擎,下載Google搜索前20條結(jié)果網(wǎng)頁并解析其中的鏈接信息,并將鏈接信息發(fā)送給用戶,用戶可點(diǎn)擊進(jìn)行閱讀;步驟8,用戶對(duì)發(fā)送給其的鏈接信息可選擇一部分進(jìn)行閱讀,并對(duì)閱讀過的鏈接進(jìn)行打分,記錄各鏈接的得分情況;步驟9,根據(jù)各鏈接的得分情況及對(duì)鏈接進(jìn)行打分的用戶的權(quán)威度等信息,計(jì)算鏈接的權(quán)重,并根據(jù)權(quán)重重新對(duì)鏈接進(jìn)行排序,生成重要信息列表,并推薦給未閱讀過這些鏈接的用戶。步驟10,查看研討環(huán)境中此時(shí)是否還有新的發(fā)言產(chǎn)生,如果沒有則此輪研討結(jié)束,退出推薦系統(tǒng),否則轉(zhuǎn)步驟2,等待下一輪分析。下面是一個(gè)具體實(shí)施實(shí)例,這里采用騰訊網(wǎng)一則有關(guān)金融危機(jī)的訪談來測(cè)試方法的有效性。研討的主題是金融危機(jī)對(duì)我國經(jīng)濟(jì)的影響及我國應(yīng)采取的應(yīng)對(duì)措施,該研討大致包含如下幾個(gè)子主題1.中國經(jīng)濟(jì)應(yīng)從政府主導(dǎo)轉(zhuǎn)向市場(chǎng)主導(dǎo)2.人民幣升值、出口結(jié)算的問題3.政府應(yīng)通過減稅等方式讓利給企業(yè)和個(gè)人4.分析政府的四萬億投資的作用5.目前房產(chǎn)市場(chǎng)存在的問題6.完善農(nóng)村基礎(chǔ)設(shè)施建設(shè)7.中國應(yīng)大力發(fā)展信貸經(jīng)濟(jì)本次研討共有五位用戶參與,用l-5進(jìn)行標(biāo)記,其權(quán)威度依次為{0.9,0.7,0.7,0.5,0.5}。在研討開始前,用戶給定了一個(gè)有關(guān)經(jīng)濟(jì)方面問題的資料集,其中包含約1600篇經(jīng)濟(jì)領(lǐng)域文檔,并給定了證券、股票、金融、財(cái)經(jīng)、銀行、稅收、外匯、投資、股市、貸款、經(jīng)濟(jì)等作為種子詞,在此基礎(chǔ)上,經(jīng)過幾輪學(xué)習(xí),生成了一個(gè)詞條數(shù)目為約為700的經(jīng)濟(jì)領(lǐng)域詞匯表,其中包含如資本、國有、財(cái)政、國民經(jīng)濟(jì)、貨幣、民營、外資、所有制、信貸、固定資產(chǎn)、儲(chǔ)蓄、利率、通貨膨脹、對(duì)外開放、債券等經(jīng)濟(jì)領(lǐng)域相關(guān)詞匯。研討開始后,各個(gè)用戶就本次研討的主題進(jìn)行發(fā)言討論。每當(dāng)發(fā)言累計(jì)達(dá)到900字時(shí),讀取當(dāng)前發(fā)言內(nèi)容,啟動(dòng)話題提取器對(duì)其進(jìn)行分析。參數(shù)設(shè)置如下公式5中13=0.8,公式8中話題判別閾值topicThreshold=0.11。以第三次分析發(fā)言為例,此時(shí)已經(jīng)對(duì)發(fā)言進(jìn)行過兩次分析,且兩段發(fā)言主題不同,即當(dāng)前已有兩個(gè)話題類別Topicl和Topic2,其各包含一篇文檔和4,其主題詞分別為Topicl={經(jīng)濟(jì)41.4,中國17,信心9,出口9,發(fā)展8,增長7.2,下滑5.4,周期4,走4,復(fù)蘇3.6}Topic2={經(jīng)濟(jì)0.3537,政府0.2525,干預(yù)0.2169,出口0.1965,轉(zhuǎn)型0.1765,中國0.1765,搞0.1765,市場(chǎng)經(jīng)濟(jì)0.1765,幫助0.1765,計(jì)劃0.1520}此時(shí)特征空間的維數(shù)為269,按公式1表示如下FeatureSpace2={談?wù)?,信心,貿(mào)易,溫總理,出口,...,好轉(zhuǎn),整體}當(dāng)發(fā)言第三次累計(jì)達(dá)到900字時(shí),讀取發(fā)言文本,啟動(dòng)話題提取器,首先對(duì)發(fā)言文本進(jìn)行預(yù)處理,經(jīng)過預(yù)處理后的新發(fā)言的特征集合為Feature^={人民幣,美元,結(jié)算,貿(mào)易,跨境,升,...,出口,珠三角},共包含190個(gè)獨(dú)立特征項(xiàng),其中有142個(gè)特征不包含在FeatureSpace2中,如人民幣、美元、結(jié)算、珠三角等,另外48個(gè)特征包含在FeatureSpace2中,如貿(mào)易、出口、中國、貨幣等。由公式3知更新后的特征空間FeatureSpac^=FeatureSpace2UFeatureSpaceNew={談?wù)?,信心,貨幣,貿(mào)易,溫總理,出口,...,好轉(zhuǎn),整體,人民幣,美元,結(jié)算,珠三角,...},維數(shù)為411。再由公式3和公式5將當(dāng)前發(fā)言文本表示成FeatureSpace3上的向量d3={談?wù)?,信心0,貨幣0.1322,貿(mào)易0.0388,溫總理0,出口0.0569,...,好轉(zhuǎn)0,整體0,人民幣:0.5154,美元:0.1004,結(jié)算0.2007,珠三角0.0633,...h同時(shí)也將c^和d2也更新為此時(shí)特征空間FeatureSpaceg上的特征向量,用以和d3進(jìn)行比較。經(jīng)過排序抽取當(dāng)前發(fā)言文本的話題如下Topic={人民幣0.5154,升值0.3418,兌換0.2945,貶值0.2646,國際化0.2278,結(jié)算0.2007,自由化0.1805,升0.1470,試點(diǎn):0.1470,貨幣:0.1322}可以看出提取出的話題詞能夠體現(xiàn)出經(jīng)濟(jì)領(lǐng)域的特性,也能表述當(dāng)前研討的內(nèi)容。抽取當(dāng)前研討話題后,需要判斷話題是否發(fā)生了變化,采用公式7,分別計(jì)算(13和C^、4的相似度得sim(d3,d》=0.0990,sim(d3,d2)=0.0635,可知<formula>formulaseeoriginaldocumentpage9</formula>說明當(dāng)前話題發(fā)生了變化,創(chuàng)建包含d3的新話題類別Topic3,從中得到檢索詞人民幣、升值、兌換、貶值、國際化,送入Google進(jìn)行檢索,得到的檢索結(jié)果舉例如下<table>tableseeoriginaldocumentpage9</column></row><table>首先將這20條鏈接發(fā)送給每位用戶,用戶可在其中選擇一些進(jìn)行閱讀,每個(gè)用戶閱讀過的鏈接如下用戶1閱讀了以下鏈接:18、4、7、5、13、8、2、16、10、12、1、11、14、9、3、6、17、15、0用戶2閱讀了以下鏈接:2、6、12、0、16用戶3閱讀了以下鏈接12、7、5、16、0、18、13、11、用戶4閱讀了以下鏈接:16、4、10、13、3U7用戶5閱讀了以下鏈接5、3、18、12、6、16、10、0、11、1、14、13、4、9根據(jù)公式9和10計(jì)算得到排序前十位的鏈接為:16、0、12、13、3、4、5、6、10U1則需要向以下用戶推薦重要的信息向用戶2推薦以下鏈接13、3、4、5、10、H、向用戶3推薦以下鏈接3、4、6、10、向用戶4推薦以下鏈接0、12、5、6、H、以上步驟的結(jié)果顯示在主動(dòng)信息獲取系統(tǒng)界面的情況如圖3所示。由于此時(shí)研討還未結(jié)束,所以返回讀取發(fā)言文本步驟,等待下一輪分析。以上所述,僅為本發(fā)明中的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可理解想到的變換或替換,都應(yīng)涵蓋在本發(fā)明的包含范圍之內(nèi),因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書的保護(hù)范圍為準(zhǔn)。權(quán)利要求一種基于綜合集成研討環(huán)境的主動(dòng)信息獲取方法,其特征在于,該方法的步驟如下步驟1在研討開始前利用多個(gè)用戶給定的相關(guān)背景資料生成此次研討領(lǐng)域詞匯表,用于分析發(fā)言;步驟2參與研討的用戶依次進(jìn)行發(fā)言討論,當(dāng)發(fā)言累計(jì)一定字?jǐn)?shù)后,讀取發(fā)言文本;步驟3對(duì)從研討環(huán)境中得到的文本形式的發(fā)言進(jìn)行向量化處理,在文本向量化的過程中,使用研討領(lǐng)域的領(lǐng)域詞匯表,在計(jì)算發(fā)言文本特征項(xiàng)的權(quán)重時(shí),對(duì)包含在領(lǐng)域詞匯表中的詞的權(quán)重進(jìn)行加權(quán)處理,以增強(qiáng)領(lǐng)域知識(shí)的作用,體現(xiàn)研討內(nèi)容的領(lǐng)域相關(guān)性;步驟4對(duì)于向量化后的文本,由話題提取器從文本中抽取當(dāng)前研討話題;步驟5由話題判別器判斷當(dāng)前研討話題是否發(fā)生變化,如果當(dāng)前研討話題發(fā)生變化轉(zhuǎn)入步驟6,如果當(dāng)前研討話題沒有發(fā)生變化,則回到步驟2繼續(xù)讀取發(fā)言文本;步驟6從步驟4得到的當(dāng)前研討話題中提取合適元素,生成檢索詞;步驟7將檢索詞送入搜索引擎,下載檢索結(jié)果網(wǎng)頁并解析其中的網(wǎng)頁鏈接信息,并將鏈接信息發(fā)送給用戶;步驟8對(duì)系統(tǒng)發(fā)送的鏈接信息,用戶可選擇其中感興趣的信息點(diǎn)擊進(jìn)行閱讀,并對(duì)閱讀過的鏈接信息進(jìn)行打分;步驟9根據(jù)步驟8中用戶對(duì)閱讀過的鏈接的打分情況及用戶的權(quán)威度重新計(jì)算各鏈接的權(quán)重,得到一個(gè)重要鏈接列表,再將重要鏈接列表推薦給未閱讀過這些重要鏈接列表信息的用戶;步驟10查看此時(shí)是否還有新的發(fā)言產(chǎn)生,如果沒有則本次研討結(jié)束,退出推薦系統(tǒng),否則返回步驟2繼續(xù)讀取發(fā)言文本并分析。2.如權(quán)利要求1所述的面向綜合集成研討環(huán)境的信息推薦方法,其特征在于,所述計(jì)算發(fā)言文本特征項(xiàng)的權(quán)重的步驟如下,對(duì)于所有特征項(xiàng)首先計(jì)算其詞頻逆文檔頻率值,然后對(duì)包含在領(lǐng)域詞表中的特征項(xiàng)的詞頻文檔頻率值乘以一個(gè)加權(quán)系數(shù),以增強(qiáng)領(lǐng)域知識(shí)對(duì)研討的作用。3.如權(quán)利要求1所述的面向綜合集成研討環(huán)境的信息推薦方法,其特征在于,所述重要鏈接列表是對(duì)當(dāng)前研討話題分析后,通過用戶之間的協(xié)作關(guān)系計(jì)算得到的,具體的說是將利用當(dāng)前話題搜索返回的每條鏈接,根據(jù)閱讀過該鏈接的用戶對(duì)鏈接的打分和相應(yīng)用戶的權(quán)威度乘積的加和得到鏈接與研討相關(guān)性的權(quán)值,再根據(jù)此權(quán)值對(duì)鏈接重新排序,得到重要鏈接列表并推薦給未訪問過這些重要鏈接信息的用戶,最終以可視化的方式在綜合集成研討廳中展現(xiàn)對(duì)用戶的推薦結(jié)果。全文摘要本發(fā)明公開了一種面向綜合集成研討環(huán)境的信息推薦方法,該方法采用一種實(shí)時(shí)的主動(dòng)信息獲取技術(shù),在研討進(jìn)行過程中,主動(dòng)感知當(dāng)前研討的具體話題,并判斷話題的變化,在話題發(fā)生變化的情況下自動(dòng)生成檢索詞進(jìn)行檢索,再將檢索結(jié)果呈現(xiàn)給用戶。同時(shí),該方法結(jié)合了綜合集成研討環(huán)境信息持續(xù)變化、流動(dòng)的特點(diǎn),采用領(lǐng)域特征和通用特征結(jié)合的方法分析發(fā)言文本的話題,并通過多個(gè)用戶之間的協(xié)作實(shí)現(xiàn)了對(duì)重要信息的篩選,最終實(shí)現(xiàn)了信息推薦。這一方法已在現(xiàn)有的綜合集成研討環(huán)境中進(jìn)行了實(shí)驗(yàn),并可用于即時(shí)通信、網(wǎng)絡(luò)會(huì)議等環(huán)境,能夠極大的減小信息搜索代價(jià),有效提高信息的利用率。文檔編號(hào)G06F17/30GK101782920SQ20091024373公開日2010年7月21日申請(qǐng)日期2009年12月23日優(yōu)先權(quán)日2009年12月23日發(fā)明者倪娜,劉凱,戴汝為,李耀東申請(qǐng)人:中國科學(xué)院自動(dòng)化研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1