基于用戶參與的搜索引擎排序方法
【專利摘要】本發(fā)明涉及一種基于用戶參與的搜索引擎排序方法,屬于軟件【技術(shù)領(lǐng)域】。該方法基于搜索引擎排序系統(tǒng),搜索結(jié)果的顯示列表上用戶通過表達(dá)贊同、喜歡、不贊同、反對等意見針對全部的信息及檢索結(jié)果評分,依據(jù)搜索結(jié)果的分值,在下一次搜索結(jié)果的時(shí)候,會自動(dòng)按照分值的高低排序,分?jǐn)?shù)高的排在前面,并設(shè)置有防止惡意評分程序。該方法實(shí)施所建立的系統(tǒng)包括用戶、搜索引擎排序系統(tǒng)、模型處理系統(tǒng)和輸出系統(tǒng)。本發(fā)明方法可以加強(qiáng)用戶的參與,針對搜索信息進(jìn)行意見表達(dá),并供其他用戶參考,從而能夠有效地提高搜索質(zhì)量,便于用戶參考意見進(jìn)行選擇,從而有效地減少了用戶的搜索查找時(shí)間,提高了辦事效率和獲知信息的能力。
【專利說明】基于用戶參與的搜索引擎排序方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于用戶參與的搜索引擎排序方法,屬于軟件【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]中國互聯(lián)網(wǎng)絡(luò)信息中心調(diào)查報(bào)告指出,有82.5%的網(wǎng)民經(jīng)常使用搜索引擎,83.4%的用戶通過搜索引擎得知新網(wǎng)站??梢姡阉饕嬖诖蠹胰粘5木W(wǎng)絡(luò)生活中發(fā)揮了重要作用。一個(gè)優(yōu)秀的搜索引擎能從巨量的、形如垃圾的信息中發(fā)現(xiàn)真正的知識,通過對信息的甄別、加工、提純,帶來信息價(jià)值的提升。然而由于當(dāng)今搜索引擎相關(guān)性排序算法并不完善,用戶通常需要從大量的返回結(jié)果中手工挑選相關(guān)網(wǎng)頁,搜索引擎的導(dǎo)航功能沒有發(fā)揮明顯優(yōu)勢。
[0003]在搜索引擎發(fā)展的初期,搜索結(jié)果的排列只是根據(jù)搜索引擎在數(shù)據(jù)庫中找到匹配網(wǎng)頁的先后次序,不保證排在前面的網(wǎng)頁與用戶查詢的相關(guān)性更大,因此不能幫助用戶從過載的海量信息中快速地選取真正相關(guān)的信息。目前搜索引擎訪問的網(wǎng)頁數(shù)量已達(dá)到上十億的規(guī)模,通常搜索結(jié)果包含成千上萬的網(wǎng)頁,即便這些網(wǎng)頁都是用戶所需要的,用戶也不可能瀏覽所有的網(wǎng)頁。如何將更相關(guān)的網(wǎng)頁排在前面,減少用戶瀏覽網(wǎng)頁的數(shù)目,幫助其快速找到需要的信息,是一項(xiàng)很有意義且富有挑戰(zhàn)性的工作。用戶通常只關(guān)心搜索引擎返回的排在前面的文檔。因此研究搜索引擎的相關(guān)性排序算法,將用戶期望的結(jié)果排列在前面,顯得越來越重要。
[0004]搜索引擎不僅需要返回檢索結(jié)果,而且應(yīng)該對這些結(jié)果進(jìn)行再加工,判斷哪些更符合用戶搜索意圖,將用戶最感興趣的文檔排列在前面,方便用戶在最短時(shí)間內(nèi)找到需要的信息,提高搜索引擎的用戶滿意度。這便是搜索引擎的相關(guān)性原則,已被作為搜索引擎最基本原則之一。搜索引擎的相關(guān)性排序模型包含布爾模型,向量空間模型,概率模型,超鏈接模型,自學(xué)習(xí)排序模型。布爾模型建立在經(jīng)典集合論和布爾代數(shù)的基礎(chǔ)上,根據(jù)文檔中是否出現(xiàn)關(guān)鍵詞來判斷文檔是否相關(guān),所有相關(guān)文檔與查詢的相關(guān)程度都是一樣的,所以不支持相關(guān)性排序。向量空間模型將文檔和用戶查詢分別轉(zhuǎn)化為向量形式,計(jì)算兩個(gè)向量的夾角余弦,并按照遞減的順序排列文檔。概率模型通過估計(jì)文檔與查詢相關(guān)聯(lián)的概率,根據(jù)關(guān)聯(lián)概率對所有文檔進(jìn)行排序。超鏈接模型根據(jù)網(wǎng)頁之間相互的超鏈接計(jì)算網(wǎng)頁排名,從鏈接數(shù)目和鏈接頁面的質(zhì)量判斷網(wǎng)頁的級別。自學(xué)習(xí)排序模型將機(jī)器學(xué)習(xí)的方法運(yùn)用到搜索引擎相關(guān)性排序問題,解決了以往模型的許多不足之處。它根據(jù)訓(xùn)練樣本學(xué)習(xí)排序模型,再將排序模型預(yù)測與查詢相關(guān)的文檔排序。
[0005]目前,不同的搜索引擎使用了不同的相關(guān)度排序方法。比較流行的有兩類:超鏈接分析法,即一個(gè)網(wǎng)頁被鏈接的次數(shù)越多而且鏈接的站點(diǎn)越權(quán)威就說明此網(wǎng)頁的質(zhì)量越高;詞頻統(tǒng)計(jì)法,即網(wǎng)頁文檔中出現(xiàn)查詢詞的頻率越高,其排序就越靠前。此外,還有點(diǎn)擊率法,即網(wǎng)頁被點(diǎn)擊的次數(shù)越多,相關(guān)度越高。任何一個(gè)搜索引擎的目的就是更快速地響應(yīng)用戶搜索,把滿足用戶需求的搜索結(jié)果反饋給搜索用戶。能否把與用戶檢索需求最相關(guān)的高質(zhì)量文檔納入結(jié)果排序的前面是衡量搜索引擎性能的關(guān)鍵技術(shù)之一。
【發(fā)明內(nèi)容】
[0006]本發(fā)明的目的在于提供一種基于用戶參與的搜索引擎排序方法,依據(jù)用戶參與對搜索列表的評價(jià),并對評價(jià)結(jié)果打分評比參與排序,方便根據(jù)用戶參與評價(jià)的結(jié)果查找相應(yīng)的結(jié)果,方便人們根據(jù)需要使用。
[0007]為了實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案如下。
[0008]一種基于用戶參與的搜索引擎排序方法,該方法基于搜索引擎排序系統(tǒng),搜索結(jié)果的顯示列表上用戶通過表達(dá)贊同、喜歡、不贊同、反對等意見針對全部的信息及檢索結(jié)果評分,依據(jù)搜索結(jié)果的分值,在下一次搜索結(jié)果的時(shí)候,會自動(dòng)按照分值的高低排序,分?jǐn)?shù)高的排在前面,并設(shè)置有防止惡意評分程序。該方法實(shí)施所建立的系統(tǒng)包括用戶、搜索引擎排序系統(tǒng)、模型處理系統(tǒng)和輸出系統(tǒng),其中,
[0009](I)用戶分別為注冊用戶和非注冊用戶,個(gè)性化服務(wù)主要針對注冊用戶,非注冊用戶具有搜索引擎排序功能。搜索引擎排序系統(tǒng)本身較為復(fù)雜性,為保證搜索引擎排序質(zhì)量和實(shí)時(shí)性,要求構(gòu)建合理的搜索引擎排序系統(tǒng)。
[0010](2)搜索引擎排序系統(tǒng)采用基于用戶參與的方法,屬于完全個(gè)性化搜索引擎排序,為用戶提供個(gè)性化的服務(wù)。其中,搜索引擎排序系統(tǒng)需要管理網(wǎng)站信息、用戶注冊信息、評分等數(shù)據(jù)以及搜索引擎排序方法、模型、結(jié)果等內(nèi)容??紤]到搜索引擎排序方法運(yùn)行效率和搜索引擎排序?qū)崟r(shí)性的要求,系統(tǒng)包括在線實(shí)時(shí)搜索引擎排序和模型處理兩部分。在線是對于訪問用戶而言。模型處理不實(shí)時(shí)進(jìn)行,從而有利于提高搜索引擎排序系統(tǒng)的執(zhí)行效率。搜索引擎排序系統(tǒng)適用于一般網(wǎng)站,根據(jù)客戶注冊信息采集用戶個(gè)人信息,根據(jù)用戶對不同顯示列表評價(jià),預(yù)測其感興趣的列表內(nèi)容。搜索引擎排序系統(tǒng)目的是方便用戶選擇評價(jià),促進(jìn)搜索選擇。由于不同的搜索引擎排序技術(shù)在特定類型的搜索引擎排序系統(tǒng)中,會獲得較好的效果,具有一定的適用性范圍。對于搜索結(jié)果的顯示列表來說,一般不能通過規(guī)范的形式全面描述出,而是需要依據(jù)用戶感受描述。用戶選擇一種搜索結(jié)果的顯示列表后,根據(jù)用戶一系列信息,用戶可以表達(dá)贊同、喜歡、不贊同、反對等意見。
[0011](3)模型處理系統(tǒng)主要根據(jù)搜索引擎排序方法處理數(shù)據(jù)得到模型,當(dāng)用戶瀏覽網(wǎng)頁時(shí),在線搜索引擎排序會依據(jù)模型結(jié)果實(shí)時(shí)輸出搜索引擎排序列表反饋給用戶。在線搜索引擎排序部分根據(jù)不同的情況,執(zhí)行不同的搜索引擎排序策略。特別是對于新用戶采用不同搜索引擎排序方法,在一定程度上解決冷啟動(dòng)問題,提高搜索引擎排序質(zhì)量。
[0012](4)輸入輸出系統(tǒng):個(gè)性化搜索引擎排序系統(tǒng)主要的功能是收集用戶信息、網(wǎng)站信息以及對網(wǎng)站的評價(jià)信息,經(jīng)過模型處理,為用戶提供搜索引擎排序列表。
[0013]上述系統(tǒng)需要管理的數(shù)據(jù)如下:系統(tǒng)需要搜索結(jié)果的顯示列表中存在的大量數(shù)據(jù)進(jìn)行分析,系統(tǒng)管理的數(shù)據(jù)主要包括輸入數(shù)據(jù)、模型數(shù)據(jù)與輸出數(shù)據(jù)。
[0014](I)輸入數(shù)據(jù):系統(tǒng)的輸入包括用戶信息、顯示列表信息、用戶評價(jià)信息。其中,用戶信息數(shù)據(jù)是通過收集用戶登錄系統(tǒng)后填寫的個(gè)人信息獲得的。用戶信息包括:用戶標(biāo)示、登錄密碼、年齡、性別、職業(yè)、住址、電子郵件。搜索引擎排序系統(tǒng)需要為用戶搜索引擎排序其可能感興趣的顯示列表信息,同時(shí)根據(jù)感興趣的信息和相應(yīng)的搜索引擎排序算法預(yù)測用戶興趣度。該系統(tǒng)針對顯示列表的搜索引擎排序,因此信息主要包括:列表編號、列表名稱、日期、類型。搜索引擎排序系統(tǒng)的采集用戶對列表信息評價(jià)的數(shù)據(jù)信息,作為搜索引擎排序算法的重要輸入內(nèi)容。用戶對列表信息的評價(jià)可以是多種類型的,如文字形式的描述、模糊評價(jià)(贊同、喜歡、不贊同、反對)或直接評分的形式。用戶對列表信息的評分方法。評價(jià)信息包括:用戶標(biāo)示、列表編號、評分、時(shí)間標(biāo)示。
[0015](2)模型數(shù)據(jù)包括兩種:
[0016]①模型輸入數(shù)據(jù):搜索引擎排序系統(tǒng)的核心是搜索引擎排序算法模型,但由于不同算法要求輸入數(shù)據(jù)不同,因此在進(jìn)行計(jì)算時(shí)需要將系統(tǒng)的輸入數(shù)據(jù)進(jìn)行預(yù)處理,整理為模型輸入數(shù)據(jù)。主要包括:用戶、列表信息、評分?jǐn)?shù)據(jù)。其中,用戶數(shù)據(jù),將用戶信息轉(zhuǎn)化為算法模型需要的形式,具體包括:用戶標(biāo)示、年齡段、性別標(biāo)示、職業(yè)標(biāo)示;其中年齡、性別與職業(yè)分別是對應(yīng)用戶信息經(jīng)過模型數(shù)據(jù)預(yù)處理后的數(shù)據(jù)形式。列表數(shù)據(jù):將列表信息轉(zhuǎn)化為模型要求的形式,包括:列表編號、類型1、類型2、…類型M。其中類型是根據(jù)列表信息轉(zhuǎn)化而來,將不同的類型表現(xiàn)為不同的字段,每部列表類型表現(xiàn)為一行0-1向量的形式。評分?jǐn)?shù)據(jù):用戶評分?jǐn)?shù)據(jù)需要進(jìn)行處理成為評分矩陣的形式,包括用戶編號、列表1評分、列表評分2…評分K。其中每位用戶的評分?jǐn)?shù)據(jù)表示成行向量的形式。
[0017]②模型輸出數(shù)據(jù):模型結(jié)構(gòu)數(shù)據(jù):搜索引擎排序系統(tǒng)利用搜索引擎排序算法計(jì)算輸入數(shù)據(jù),得出算法模型的結(jié)構(gòu)組成數(shù)據(jù),作為預(yù)測的依據(jù),包括模型標(biāo)示、基于算法的權(quán)重、模型參數(shù);用戶分類數(shù)據(jù):模型輸入數(shù)據(jù)經(jīng)過算法處理后,得到分類結(jié)果。包括兩部分內(nèi)容,一部分是原有用戶的分類結(jié)果,包括用戶編號、模型標(biāo)示、分類編號。另一部分是分類的評分結(jié)果,包括模型編號、分類編號、列表1評分、列表2評分…列表K評分。
[0018](3)輸出數(shù)據(jù):
[0019]根據(jù)搜索引擎排序系統(tǒng)的應(yīng)用不同,采用不同的模型,主要產(chǎn)生三種輸出結(jié)果:
[0020]①用戶預(yù)測評分?jǐn)?shù)據(jù):搜索引擎排序系統(tǒng)的輸出是應(yīng)用模型進(jìn)行用戶預(yù)測后,輸出搜索引擎排序結(jié)果。根據(jù)搜索引擎排序系統(tǒng)的輸入數(shù)據(jù)和模型數(shù)據(jù),計(jì)算得到預(yù)測用戶的搜索引擎排序結(jié)果,包括 用戶編號、模型標(biāo)示、分類編號、列表編號、評分。預(yù)測新列表用戶數(shù)據(jù):根據(jù)新列表的特征和用戶評分信息,預(yù)測可能感興趣的用戶類。
[0021]②新用戶評分?jǐn)?shù)據(jù):根據(jù)新用戶以及原有用戶數(shù)據(jù),預(yù)測用戶評分結(jié)果,包括新用戶編號、模型編號、列表編號、評分。如果用戶對所有的搜索結(jié)果都不滿意,或者沒有他想要的信息,用戶可自覺提供添加他覺得應(yīng)該出現(xiàn)的搜索信息。此添加信息將在某一頁面位置出現(xiàn)。搜索結(jié)果的右側(cè)或者在分值高的搜索結(jié)果后面列表出來,同時(shí)此添加結(jié)果同樣參與其他用戶的評分。分值決定其排列順序
[0022]上述模型處理部分工作過程如下:
[0023]搜索引擎排序系統(tǒng)的模型處理部分對于訪問用戶是不可見的。由于列表網(wǎng)站的數(shù)據(jù)量龐大、增長迅速,使得算法模型在處理上會耗費(fèi)較長時(shí)間。系統(tǒng)資源消耗很大,嚴(yán)重影響了搜索引擎排序的實(shí)時(shí)性。因此,搜索引擎排序系統(tǒng)采用離線計(jì)算模型,產(chǎn)生模型輸出結(jié)果。在線搜索引擎排序時(shí)利用模型結(jié)果和系統(tǒng)輸入數(shù)據(jù),返回給用戶搜索引擎排序結(jié)果。模型的計(jì)算是根據(jù)輸入數(shù)據(jù)增量進(jìn)行更新,當(dāng)新增加用戶評分?jǐn)?shù)據(jù)達(dá)到一定的限制值時(shí),需要重新處理模型,其具體步驟為:
[0024](I)數(shù)據(jù)預(yù)處理:根據(jù)不同算法的要求處理數(shù)據(jù),將系統(tǒng)輸入數(shù)據(jù)處理為模型輸入數(shù)據(jù)。
[0025](2)模型計(jì)算搜索引擎排序系統(tǒng)根據(jù)數(shù)據(jù)量的變動(dòng),定期運(yùn)行模型,計(jì)算更新數(shù)據(jù),修改模型輸出結(jié)果,保證搜索引擎排序質(zhì)量。
[0026]在線搜索引擎排序過程如下:
[0027]個(gè)性化列表搜索引擎排序系統(tǒng)的主要任務(wù)是根據(jù)用戶的個(gè)人喜好,搜索引擎排序列表。在線推薦主要的功能是分析搜索引擎排序的類型,選擇相應(yīng)的算法模型的輸出結(jié)果與輸入數(shù)據(jù)結(jié)合預(yù)測出搜索引擎排序結(jié)果,并反饋給用戶。
[0028](I)選擇模型:搜索引擎排序系統(tǒng)根據(jù)搜索引擎排序的類型,選擇不同模型,主要包括三種搜索引擎排序:
[0029]①評分用戶的搜索引擎排序:如果是系統(tǒng)中已存在評分的用戶,根據(jù)其評分?jǐn)?shù)據(jù)、列表數(shù)據(jù)以及用戶數(shù)據(jù)選擇用于分類的模型。
[0030]②新列表搜索引擎排序:新列表是指原有搜索引擎排序系統(tǒng)不存在有關(guān)該列表的任何用戶評分?jǐn)?shù)據(jù)以及列表特征數(shù)據(jù)。對于新列表的搜索引擎排序根據(jù)輸入的列表特征運(yùn)用基于內(nèi)容的分類模型進(jìn)行分析。如果用戶對所有的搜索結(jié)果都不滿意,或者沒有他想要的信息,用戶可自覺提供添加他覺得應(yīng)該出現(xiàn)的搜索信息。此添加信息將在某一頁面位置出現(xiàn)。搜索結(jié)果的右側(cè)或者在分值高的搜索結(jié)果后面列表出來,同時(shí)此添加結(jié)果同樣參與其他用戶的評分。分值決定其排列順序。
[0031]③新用戶搜索引擎排序:新用戶是指搜索引擎排序系統(tǒng)中不存在其任何評分?jǐn)?shù)據(jù),包括有兩種類型的用戶,一種是新注冊的用戶,另一種是注冊但沒有進(jìn)行過評分的用戶。對于新用戶的搜索引擎排序采用依據(jù)用戶信息的模型。
[0032](2)預(yù)測搜索引擎排序:
[0033]根據(jù)模型的輸出結(jié)果和輸入的數(shù)據(jù)進(jìn)行計(jì)算,預(yù)測搜索引擎排序結(jié)果。在線搜索引擎排序采用的是實(shí)時(shí)搜索引擎排序模式的進(jìn)行搜索引擎排序。當(dāng)用戶登錄搜索引擎排序系統(tǒng)網(wǎng)站,瀏覽頁面時(shí),直接 讀取用戶評分?jǐn)?shù)據(jù),預(yù)測用戶感興趣的列表,直接反饋給用戶其最可能感興趣的列表。
[0034]結(jié)合基于用戶信息的混合搜索引擎排序算法可以實(shí)現(xiàn)兩種類型的搜索引擎排序。其中,近鄰聚類結(jié)合基于內(nèi)容和用戶信息的混合搜索引擎排序是根據(jù)列表信息和用戶評分?jǐn)?shù)據(jù),形成用戶偏好,然后進(jìn)行近鄰聚類,將相似用戶進(jìn)行聚類。然后結(jié)合測試用戶信息預(yù)測,產(chǎn)生用戶搜索引擎排序列表。另一種是基于用戶信息的搜索引擎排序算法實(shí)現(xiàn)對新用戶的搜索引擎排序,根據(jù)新用戶信息和原有用戶信息加權(quán)使用支持向量機(jī)預(yù)測新用戶評分,產(chǎn)生新用戶列表搜索引擎排序列表,供用戶使用。
[0035]該發(fā)明的有益效果在于:本發(fā)明方法可以加強(qiáng)用戶的參與,針對搜索信息進(jìn)行意見表達(dá),并供其他用戶參考,從而能夠有效地提高搜索質(zhì)量,便于用戶參考意見進(jìn)行選擇,從而有效地減少了用戶的搜索查找時(shí)間,提聞了辦事效率和獲知?目息的能力。
【專利附圖】
【附圖說明】
[0036]圖1是本發(fā)明實(shí)施例中所使用搜索引擎基本框架圖。
[0037]圖2是本發(fā)明實(shí)施例中搜索引擎中在線評分流程圖。
[0038]圖3是本發(fā)明實(shí)施例中結(jié)合列表和用戶評分流程圖。
[0039]圖4是本發(fā)明實(shí)施例中結(jié)合列表和新用戶評分流程圖?!揪唧w實(shí)施方式】
[0040]下面結(jié)合附圖和實(shí)施例對本發(fā)明的【具體實(shí)施方式】進(jìn)行描述,以便更好的理解本發(fā)明。
[0041]實(shí)施例
[0042]基于用戶參與的搜索引擎排序方法,該方法基于搜索引擎排序系統(tǒng),該系統(tǒng)的基本框架見圖1,以某搜索引擎網(wǎng)站為例,搜索結(jié)果的顯示列表上用戶可以表達(dá)贊同、喜歡、不贊同、反對等意見針對全部的信息及檢索結(jié)果評分,依據(jù)搜索結(jié)果的分值,在下一次搜索結(jié)果的時(shí)候,會自動(dòng)按照分值的高低排序,分?jǐn)?shù)高的排在前面。同時(shí)有專門的防止惡意評分程序。如圖1所示,該系統(tǒng)包括用戶、搜索引擎排序系統(tǒng)、模型處理系統(tǒng)和輸出系統(tǒng),其中,用戶分別為注冊用戶和非注冊用戶,個(gè)性化服務(wù)主要針對注冊用戶,非注冊用戶具有搜索引擎排序功能。搜索引擎排序系統(tǒng)本身較為復(fù)雜性,為保證搜索引擎排序質(zhì)量和實(shí)時(shí)性,要求構(gòu)建合理的搜索引擎排序系統(tǒng)。基于用戶參與的搜索引擎排序系統(tǒng)屬于完全個(gè)性化搜索引擎排序,采用合理算法,為注冊用戶提供個(gè)性化的服務(wù)。其中,搜索引擎排序系統(tǒng)需要管理網(wǎng)站信息、用戶注冊信息、評分等數(shù)據(jù)以及搜索引擎排序方法、模型、結(jié)果等內(nèi)容??紤]到搜索引擎排序方法運(yùn)行效率和搜索引擎排序?qū)崟r(shí)性的要求,系統(tǒng)包括在線實(shí)時(shí)搜索引擎排序和模型處理兩部分。在線是對于訪問用戶而言。模型處理可以不實(shí)時(shí)進(jìn)行,從而有利于提高搜索引擎排序系統(tǒng)的執(zhí)行效率。模型處理部分主要根據(jù)搜索引擎排序方法處理數(shù)據(jù)得到模型,當(dāng)用戶瀏覽網(wǎng)頁時(shí),在線搜索引擎排序會依據(jù)模型結(jié)果實(shí)時(shí)輸出搜索引擎排序列表反饋給用戶。在線搜索引擎排序部分根據(jù)不同的情況,執(zhí)行不同的搜索引擎排序策略。特別是對于新用戶采用不同搜索引擎排序方法,在一定程度上解決冷啟動(dòng)問題,提高搜索引擎排序質(zhì)量。圖2是本發(fā)明實(shí)施例中搜索引擎中在線評分流程圖。
[0043]搜索引擎排序系統(tǒng)的適用性:
[0044]輸入輸出系統(tǒng):個(gè)性化搜索引擎排序系統(tǒng)主要的功能是收集用戶信息、網(wǎng)站信息以及對網(wǎng)站的評價(jià)信息,經(jīng)過模型處理,為用戶提供搜索引擎排序列表。搜索引擎排序系統(tǒng)適用于一般網(wǎng)站,根據(jù)客戶注冊信息采集用戶個(gè)人信息,根據(jù)用戶對不同顯示列表評價(jià),預(yù)測其感興趣的列表內(nèi)容。搜索引擎排序系統(tǒng)目的是方便用戶選擇評價(jià),促進(jìn)搜索選擇。由于不同的搜索引擎排序技術(shù)在特定類型的搜索引擎排序系統(tǒng)中,會獲得較好的效果,具有一定的適用性范圍。對于搜索結(jié)果的顯示列表來說,一般不能通過規(guī)范的形式全面描述出,而是需要依據(jù)用戶感受描述。用戶選擇一種搜索結(jié)果的顯示列表后,根據(jù)用戶一系列信息,用戶可以表達(dá)贊同、喜歡、不贊同、反對等意見。圖3是本發(fā)明實(shí)施例中結(jié)合列表和用戶評分流程圖。
[0045]該系統(tǒng)需要管理的數(shù)據(jù)以及運(yùn)行過程如下:系統(tǒng)需要搜索結(jié)果的顯示列表中存在的大量數(shù)據(jù)進(jìn)行分析,系統(tǒng)管理的數(shù)據(jù)主要包括輸入數(shù)據(jù)、模型數(shù)據(jù)與輸出數(shù)據(jù)。
[0046](I)輸入數(shù)據(jù):系統(tǒng)的輸入包括用戶信息、顯示列表信息、用戶評價(jià)信息。其中,用戶信息數(shù)據(jù)是通過收集用戶登錄系統(tǒng)后填寫的個(gè)人信息獲得的。用戶信息包括:用戶標(biāo)示、登錄密碼、年齡、性別、職業(yè)、住址、電子郵件。顯示列表信息:搜索引擎排序系統(tǒng)需要為用戶搜索引擎排序其可能感興趣的顯示列表信息,同時(shí)根據(jù)感興趣的信息和相應(yīng)的搜索引擎排序算法預(yù)測用戶興趣度。該系統(tǒng)針對顯示列表的搜索引擎排序,因此信息主要包括:列表編號、列表名稱、日期、類型。所述用戶評價(jià)信息:搜索引擎排序系統(tǒng)的采集用戶對列表信息評價(jià)的數(shù)據(jù)信息,作為搜索引擎排序算法的重要輸入內(nèi)容。用戶對列表信息的評價(jià)可以是多種類型的,如文字形式的描述、模糊評價(jià)(贊同、喜歡、不贊同、反對)或直接評分的形式。用戶對列表信息的評分方法。評價(jià)信息包括:用戶標(biāo)示、列表編號、評分、時(shí)間標(biāo)示。
[0047](2)模型數(shù)據(jù)包括兩種:
[0048]①模型輸入數(shù)據(jù):搜索引擎排序系統(tǒng)的核心是搜索引擎排序算法模型,但由于不同算法要求輸入數(shù)據(jù)不同,因此在進(jìn)行計(jì)算時(shí)需要將系統(tǒng)的輸入數(shù)據(jù)進(jìn)行預(yù)處理,整理為模型輸入數(shù)據(jù)。主要包括:用戶、列表信息、評分?jǐn)?shù)據(jù)。其中,用戶數(shù)據(jù),將用戶信息轉(zhuǎn)化為算法模型需要的形式,具體包括:用戶標(biāo)示、年齡段、性別標(biāo)示、職業(yè)標(biāo)示;其中年齡、性別與職業(yè)分別是對應(yīng)用戶信息經(jīng)過模型數(shù)據(jù)預(yù)處理后的數(shù)據(jù)形式。列表數(shù)據(jù):將列表信息轉(zhuǎn)化為模型要求的形式,包括:列表編號、類型1、類型2、…類型M。其中類型是根據(jù)列表信息轉(zhuǎn)化而來,將不同的類型表現(xiàn)為不同的字段,每部列表類型表現(xiàn)為一行0-1向量的形式。評分?jǐn)?shù)據(jù):用戶評分?jǐn)?shù)據(jù)需要進(jìn)行處理成為評分矩陣的形式,包括用戶編號、列表1評分、列表評分2…評分K。其中每位用戶的評分?jǐn)?shù)據(jù)表示成行向量的形式。
[0049]②模型輸出數(shù)據(jù):模型結(jié)構(gòu)數(shù)據(jù):搜索引擎排序系統(tǒng)利用搜索引擎排序算法計(jì)算輸入數(shù)據(jù),得出算法模型的結(jié)構(gòu)組成數(shù)據(jù),作為預(yù)測的依據(jù)。模型標(biāo)示、基于算法的權(quán)重、模型參數(shù);用戶分類數(shù)據(jù):模型輸入數(shù)據(jù)經(jīng)過算法處理后,得到分類結(jié)果。包括兩部分內(nèi)容,一部分是原有用戶的分類結(jié)果,包括用戶編號、模型標(biāo)示、分類編號。另一部分是分類的評分結(jié)果,包括模型編號、分類編號、列表1評分、列表2評分…列表K評分。
[0050](3)輸出數(shù)據(jù):
[0051]根據(jù)搜索引擎排序系統(tǒng)的應(yīng)用不同,采用不同的模型,主要產(chǎn)生三種輸出結(jié)果:
[0052]①用戶預(yù)測評分?jǐn)?shù)據(jù):搜索引擎排序系統(tǒng)的輸出是應(yīng)用模型進(jìn)行用戶預(yù)測后,輸出搜索引擎排序結(jié)果。根據(jù)搜索引擎排序系統(tǒng)的輸入數(shù)據(jù)和模型數(shù)據(jù),計(jì)算得到預(yù)測用戶的搜索引擎排序結(jié)果。用戶編號、模型標(biāo)示、分類編號、列表編號、評分。預(yù)測新列表用戶數(shù)據(jù):根據(jù)新列表的特征和用戶 評分信息,預(yù)測可能感興趣的用戶類。
[0053]②新用戶評分?jǐn)?shù)據(jù):根據(jù)新用戶以及原有用戶數(shù)據(jù),預(yù)測用戶評分結(jié)果。包括新用戶編號、模型編號、列表編號、評分。如果用戶對所有的搜索結(jié)果都不滿意,或者沒有他想要的信息,用戶可自覺提供添加他覺得應(yīng)該出現(xiàn)的搜索信息。此添加信息將在某一頁面位置出現(xiàn)。搜索結(jié)果的右側(cè)或者在分值高的搜索結(jié)果后面列表出來,同時(shí)此添加結(jié)果同樣參與其他用戶的評分。分值決定其排列順序。圖4是本發(fā)明實(shí)施例中結(jié)合列表和新用戶評分流程圖。
[0054]模型處理部分:
[0055]搜索引擎排序系統(tǒng)的模型處理部分對于訪問用戶是不可見的。由于列表網(wǎng)站的數(shù)據(jù)量龐大、增長迅速,使得算法模型在處理上會耗費(fèi)較長時(shí)間。系統(tǒng)資源消耗很大,嚴(yán)重影響了搜索引擎排序的實(shí)時(shí)性。因此,搜索引擎排序系統(tǒng)采用離線計(jì)算模型,產(chǎn)生模型輸出結(jié)果。在線搜索引擎排序時(shí)利用模型結(jié)果和系統(tǒng)輸入數(shù)據(jù),返回給用戶搜索引擎排序結(jié)果。模型的計(jì)算是根據(jù)輸入數(shù)據(jù)增量進(jìn)行更新,當(dāng)新增加用戶評分?jǐn)?shù)據(jù)達(dá)到一定的限制值時(shí),需要重新處理模型,其具體步驟為:
[0056](I)數(shù)據(jù)預(yù)處理:根據(jù)不同算法的要求處理數(shù)據(jù),將系統(tǒng)輸入數(shù)據(jù)處理為模型輸入數(shù)據(jù)。[0057](2)模型計(jì)算搜索引擎排序系統(tǒng)根據(jù)數(shù)據(jù)量的變動(dòng),定期運(yùn)行模型,計(jì)算更新數(shù)據(jù),修改模型輸出結(jié)果,保證搜索引擎排序質(zhì)量。
[0058]在線搜索引擎排序部分:
[0059]個(gè)性化列表搜索引擎排序系統(tǒng)的主要任務(wù)是根據(jù)用戶的個(gè)人喜好,搜索引擎排序列表。在線推薦主要的功能是分析搜索引擎排序的類型,選擇相應(yīng)的算法模型的輸出結(jié)果與輸入數(shù)據(jù)結(jié)合預(yù)測出搜索引擎排序結(jié)果,并反饋給用戶。主要過程如圖3、圖4所示。
[0060](I)選擇模型:搜索引擎排序系統(tǒng)根據(jù)搜索引擎排序的類型,選擇不同模型,主要包括三種搜索引擎排序:
[0061]①評分用戶的搜索引擎排序:如果是系統(tǒng)中已存在評分的用戶,根據(jù)其評分?jǐn)?shù)據(jù)、列表數(shù)據(jù)以及用戶數(shù)據(jù)選擇用于分類的模型。
[0062]②新列表搜索引擎排序:新列表是指原有搜索引擎排序系統(tǒng)不存在有關(guān)該列表的任何用戶評分?jǐn)?shù)據(jù)以及列表特征數(shù)據(jù)。對于新列表的搜索引擎排序根據(jù)輸入的列表特征運(yùn)用基于內(nèi)容的分類模型進(jìn)行分析。如果用戶對所有的搜索結(jié)果都不滿意,或者沒有他想要的信息,用戶可自覺提供添加他覺得應(yīng)該出現(xiàn)的搜索信息。此添加信息將在某一頁面位置出現(xiàn)。搜索結(jié)果的右側(cè)或者在分值高的搜索結(jié)果后面列表出來,同時(shí)此添加結(jié)果同樣參與其他用戶的評分。分值決定其排列順序。
[0063]③新用戶搜索引擎排序:新用戶是指搜索引擎排序系統(tǒng)中不存在其任何評分?jǐn)?shù)據(jù),包括有兩種類型的用戶,一種是新注冊的用戶,另一種是注冊但沒有進(jìn)行過評分的用戶。對于新用戶的搜索引擎排序采用依據(jù)用戶信息的模型。
[0064](2)預(yù)測搜索引擎排序
[0065]根據(jù)模型的輸出結(jié)果和輸入的數(shù)據(jù)進(jìn)行計(jì)算,預(yù)測搜索引擎排序結(jié)果。在線搜索引擎排序采用的是實(shí)時(shí)搜索引擎排序模式的進(jìn)行搜索引擎排序。當(dāng)用戶登錄搜索引擎排序系統(tǒng)網(wǎng)站,瀏覽頁面時(shí),直接讀取用戶評分?jǐn)?shù)據(jù),預(yù)測用戶感興趣的列表,直接反饋給用戶其最可能感興趣的列表。
[0066]結(jié)合基于用戶信息的混合搜索引擎排序算法可以實(shí)現(xiàn)兩種類型的搜索引擎排序。其中,近鄰聚類結(jié)合基于內(nèi)容和用戶信息的混合搜索引擎排序是根據(jù)列表信息和用戶評分?jǐn)?shù)據(jù),形成用戶偏好,然后進(jìn)行近鄰聚類,將相似用戶進(jìn)行聚類。然后結(jié)合測試用戶信息預(yù)測,產(chǎn)生用戶搜索引擎排序列表。另一種是基于用戶信息的搜索引擎排序算法實(shí)現(xiàn)對新用戶的搜索引擎排序,根據(jù)新用戶信息和原有用戶信息加權(quán)使用支持向量機(jī)預(yù)測新用戶評分,產(chǎn)生新用戶列表搜索引擎排序列表,供用戶使用。
[0067]以上所述是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對于本【技術(shù)領(lǐng)域】的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也視為本發(fā)明的保護(hù)范圍。
【權(quán)利要求】
1.一種基于用戶參與的搜索引擎排序方法,其特征在于:該方法基于搜索引擎排序系統(tǒng),搜索結(jié)果的顯示列表上用戶通過表達(dá)贊同、喜歡、不贊同、反對等意見針對全部的信息及檢索結(jié)果評分,依據(jù)搜索結(jié)果的分值,在下一次搜索結(jié)果的時(shí)候,會自動(dòng)按照分值的高低排序,分?jǐn)?shù)高的排在前面,并設(shè)置有防止惡意評分程序;該方法實(shí)施所建立的系統(tǒng)包括用戶、搜索引擎排序系統(tǒng)、模型處理系統(tǒng)和輸出系統(tǒng),所述: (1)用戶分別為注冊用戶和非注冊用戶,個(gè)性化服務(wù)主要針對注冊用戶,非注冊用戶具有搜索引擎排序功能; (2)搜索引擎排序系統(tǒng)采用基于用戶參與的方法,屬于完全個(gè)性化搜索引擎排序,為用戶提供個(gè)性化的服務(wù);搜索引擎排序系統(tǒng)管理網(wǎng)站信息、用戶注冊信息、評分等數(shù)據(jù)以及搜索引擎排序方法、模型、結(jié)果等內(nèi)容;系統(tǒng)包括在線實(shí)時(shí)搜索引擎排序和模型處理兩部分;在線是對于訪問用戶而言,模型處理不實(shí)時(shí)進(jìn)行;搜索引擎排序系統(tǒng)適用于一般網(wǎng)站,根據(jù)客戶注冊信息采集用戶個(gè)人信息,根據(jù)用戶對不同顯示列表評價(jià),預(yù)測其感興趣的列表內(nèi)容;用戶選擇一種搜索結(jié)果的顯示列表后,根據(jù)用戶一系列信息,用戶能表達(dá)贊同、喜歡、不贊同、反對等意見; (3)模型處理系統(tǒng)主要根據(jù)搜索引擎排序方法處理數(shù)據(jù)得到模型,當(dāng)用戶瀏覽網(wǎng)頁時(shí),在線搜索引擎排序會依據(jù)模型結(jié)果實(shí)時(shí)輸出搜索引擎排序列表反饋給用戶;在線搜索引擎排序部分根據(jù)不同的情況,執(zhí)行不同的搜索引擎排序策略;特別是對于新用戶采用不同搜索引擎排序方法,在一定程度上解決冷啟動(dòng)問題,提高搜索引擎排序質(zhì)量; (4)輸入輸出系統(tǒng):個(gè)性化搜索引擎排序系統(tǒng)主要的功能是收集用戶信息、網(wǎng)站信息以及對網(wǎng)站的評價(jià)信息,經(jīng)過模型處理,為用戶提供搜索引擎排序列表。
2.根據(jù)權(quán)利要求1所述的基于用戶參與的搜索引擎排序方法,其特征在于:所述系統(tǒng)需要管理的數(shù)據(jù)主要包括輸入數(shù)據(jù)、模型數(shù)據(jù)與輸出數(shù)據(jù),所述: (1)輸入數(shù)據(jù):系統(tǒng)的輸入包括用戶信息、顯示列表信息、用戶評價(jià)信息;用戶信息數(shù)據(jù)通過收集用戶登錄系統(tǒng)后填寫的個(gè)人信息獲得的;所述用戶信息包括:用戶標(biāo)示、登錄密碼、年齡、性別、職業(yè)、住址、電子郵件;搜索引擎排序系統(tǒng)為用戶搜索引擎排序其感興趣的顯示列表信息,同時(shí)根據(jù)感興趣的信息和相應(yīng)的搜索引擎排序算法預(yù)測用戶興趣度;該信息主要包括:列表編號、列表名稱、日期、類型;搜索引擎排序系統(tǒng)的采集用戶對列表信息評價(jià)的數(shù)據(jù)信息,作為搜索引擎排序算法的重要輸入內(nèi)容;用戶對列表信息的評價(jià)多種類型,如文字形式的描述、模糊評價(jià)(贊同、喜歡、不贊同、反對)或直接評分的形式;評價(jià)信息包括:用戶標(biāo)示、列表編號、評分、時(shí)間標(biāo)示; (2)模型數(shù)據(jù)包括兩種: ①模型輸入數(shù)據(jù):搜索引擎排序系統(tǒng)的核心是搜索引擎排序算法模型,但由于不同算法要求輸入數(shù)據(jù)不同,在進(jìn)行計(jì)算時(shí)需要將系統(tǒng)的輸入數(shù)據(jù)進(jìn)行預(yù)處理,整理為模型輸入數(shù)據(jù);主要包括:用戶、列表信息、評分?jǐn)?shù)據(jù);所述用戶數(shù)據(jù),將用戶信息轉(zhuǎn)化為算法模型需要的形式,具體包括:用戶標(biāo)示、年齡段、性別標(biāo)示、職業(yè)標(biāo)示;其中年齡、性別與職業(yè)分別是對應(yīng)用戶信息經(jīng)過模型數(shù)據(jù)預(yù)處理后的數(shù)據(jù)形式;列表數(shù)據(jù)為將列表信息轉(zhuǎn)化為模型要求的形式,包括:列表編號、類型1、類型2、…類型M ;類型是根據(jù)列表信息轉(zhuǎn)化而來,將不同的類型表現(xiàn)為不同的字段,每部列表類型表現(xiàn)為一行0-1向量的形式;用戶評分?jǐn)?shù)據(jù)需要進(jìn)行處理成為評分矩陣的形式,包括用戶編號、列表1評分、列表評分2…評分K ;其中每位用戶的評分?jǐn)?shù)據(jù)表示成行向量的形式; ②模型輸出數(shù)據(jù):搜索引擎排序系統(tǒng)利用搜索引擎排序算法計(jì)算輸入數(shù)據(jù),得出算法模型的結(jié)構(gòu)組成數(shù)據(jù),作為預(yù)測的依據(jù),包括模型標(biāo)示、基于算法的權(quán)重、模型參數(shù);用戶分類數(shù)據(jù)是模型輸入數(shù)據(jù)經(jīng)過算法處理后得到分類結(jié)果,包括兩部分內(nèi)容,一部分是原有用戶的分類結(jié)果,包括用戶編號、模型標(biāo)示、分類編號;另一部分是分類的評分結(jié)果,包括模型編號、分類編號、列表1評分、列表2評分…列表K評分; (3)輸出數(shù)據(jù): 根據(jù)搜索引擎排序系統(tǒng)的應(yīng)用不同,采用不同的模型,主要產(chǎn)生三種輸出結(jié)果: ①用戶預(yù)測評分?jǐn)?shù)據(jù):搜索引擎排序系統(tǒng)的輸出是應(yīng)用模型進(jìn)行用戶預(yù)測后,輸出搜索引擎排序結(jié)果;根據(jù)搜索引擎排序系統(tǒng)的輸入數(shù)據(jù)和模型數(shù)據(jù),計(jì)算得到預(yù)測用戶的搜索引擎排序結(jié)果,包括用戶編號、模型標(biāo)示、分類編號、列表編號、評分;根據(jù)新列表的特征和用戶評分信息,預(yù)測可能感興趣的用戶類; ②新用戶評分?jǐn)?shù)據(jù):根據(jù)新用戶以及原有用戶數(shù)據(jù),預(yù)測用戶評分結(jié)果,包括新用戶編號、模型編號、列表編號、評分;如果用戶對所有的搜索結(jié)果都不滿意,或者沒有他想要的信息,用戶能自覺提供添加他覺得應(yīng)該出現(xiàn)的搜索信息,此添加信息將在某一頁面位置出現(xiàn);搜索結(jié)果的右側(cè)或者在分值高的搜索結(jié)果后面列表出來,同時(shí)此添加結(jié)果同樣參與其他用戶的評分,分值決定其排列順序。
3.根據(jù)權(quán)利要求1所述的基于用戶參與的搜索引擎排序方法,其特征在于:所述上述模型處理部分工作過程如下:搜索引擎排序系統(tǒng)的模型處理部分對于訪問用戶是不可見的,采用離線計(jì)算模型,產(chǎn)生模型輸出結(jié)果;在線搜索引擎排序時(shí)利用模型結(jié)果和系統(tǒng)輸入數(shù)據(jù),返回給用戶搜索引擎排序結(jié)果;模型的計(jì)算是根據(jù)輸入數(shù)據(jù)增量進(jìn)行更新,當(dāng)新增加用戶評分?jǐn)?shù)據(jù)達(dá)到一定的限制值時(shí),需要重新處理模型,其具體步驟為: (1)數(shù)據(jù)預(yù)處理:根據(jù)不同算法的要求處理數(shù)據(jù),將系統(tǒng)輸入數(shù)據(jù)處理為模型輸入數(shù)據(jù); (2)模型計(jì)算搜索引擎排序系統(tǒng)根據(jù)數(shù)據(jù)量的變動(dòng),定期運(yùn)行模型,計(jì)算更新數(shù)據(jù),修改模型輸出結(jié)果,保證搜索引擎排序質(zhì)量。
4.根據(jù)權(quán)利要求1所述的基于用戶參與的搜索引擎排序方法,其特征在于:所述在線搜索引擎排序過程如下:在線推薦主要的功能是分析搜索引擎排序的類型,選擇相應(yīng)的算法模型的輸出結(jié)果與輸入數(shù)據(jù)結(jié)合預(yù)測出搜索引擎排序結(jié)果,并反饋給用戶,具體過程為: (1)選擇模型:搜索引擎排序系統(tǒng)根據(jù)搜索引擎排序的類型,選擇不同模型,主要包括三種搜索引擎排序: ①評分用戶的搜索引擎排序:如果是系統(tǒng)中已存在評分的用戶,根據(jù)其評分?jǐn)?shù)據(jù)、列表數(shù)據(jù)以及用戶數(shù)據(jù)選擇用于分類的模型; ②新列表搜索引擎排序:新列表是指原有搜索引擎排序系統(tǒng)不存在有關(guān)該列表的任何用戶評分?jǐn)?shù)據(jù)以及列表特征數(shù)據(jù);對于新列表的搜索引擎排序根據(jù)輸入的列表特征運(yùn)用基于內(nèi)容的分類模型進(jìn)行分析;如果用戶對所有的搜索結(jié)果都不滿意,或者沒有他想要的信息,用戶自覺提供添加他覺得應(yīng)該出現(xiàn)的搜索信息;此添加信息將在某一頁面位置出現(xiàn);搜索結(jié)果的右側(cè)或者在分值高的搜索結(jié)果后面列表出來,同時(shí)此添加結(jié)果同樣參與其他用戶的評分,分值決定其排列順序; ③新用戶搜索引擎排序:新用戶是指搜索引擎排序系統(tǒng)中不存在其任何評分?jǐn)?shù)據(jù),包括有兩種類型的用戶,一種是新注冊的用戶,另一種是注冊但沒有進(jìn)行過評分的用戶;對于新用戶的搜索引擎排序采用依據(jù)用戶信息的模型; (2)預(yù)測搜索引擎排序: 根據(jù)模型的輸出結(jié)果和輸入的數(shù)據(jù)進(jìn)行計(jì)算,預(yù)測搜索引擎排序結(jié)果;在線搜索引擎排序采用的是實(shí)時(shí)搜索引擎排序模式的進(jìn)行搜索引擎排序;當(dāng)用戶登錄搜索引擎排序系統(tǒng)網(wǎng)站,瀏覽頁面時(shí),直接讀取用戶評分?jǐn)?shù)據(jù),預(yù)測用戶感興趣的列表,直接反饋給用戶其最可能感興趣的列表;結(jié)合基于用戶信息的混合搜索引擎排序算法實(shí)現(xiàn)兩種類型的搜索引擎排序;其中,近鄰聚類結(jié)合基于內(nèi)容和用戶信息的混合搜索引擎排序是根據(jù)列表信息和用戶評分?jǐn)?shù)據(jù),形成用戶偏好,然后進(jìn)行近鄰聚類,將相似用戶進(jìn)行聚類,然后結(jié)合測試用戶信息預(yù)測,產(chǎn)生用戶搜索引擎排序列表;另一種是基于用戶信息的搜索引擎排序算法實(shí)現(xiàn)對新用戶的搜索引擎排序,根據(jù)新用戶信息和原有用戶信息加權(quán)使用支持向量機(jī)預(yù)測新用戶評分,產(chǎn)生新用戶列 表搜索引擎排序列表,供用戶使用。
【文檔編號】G06F17/30GK103646092SQ201310693680
【公開日】2014年3月19日 申請日期:2013年12月18日 優(yōu)先權(quán)日:2013年12月18日
【發(fā)明者】孫燕群 申請人:孫燕群