煤礦搜索引擎中檢索結(jié)果聚類(lèi)系統(tǒng)的制作方法
【專(zhuān)利摘要】本發(fā)明提出了一種煤礦搜索引擎中檢索結(jié)果聚類(lèi)系統(tǒng),包括檢索結(jié)果聚類(lèi)及類(lèi)別標(biāo)簽抽取裝置,該裝置包括搜索引擎服務(wù)器、文本檢索結(jié)果聚類(lèi)模塊和類(lèi)別標(biāo)簽抽取模塊,煤礦搜索引擎服務(wù)器處理用戶提交的查詢請(qǐng)求,產(chǎn)生的初始檢索結(jié)果經(jīng)文本檢索結(jié)果聚類(lèi)模塊后返回給用戶。采用該系統(tǒng)后,可有效提高文本集的聚類(lèi)速度,還可避免在選擇相似度計(jì)算方法時(shí)的主觀隨意性。在數(shù)據(jù)對(duì)象合并成簇時(shí),通過(guò)計(jì)算合并時(shí)產(chǎn)生的互信息損失來(lái)度量數(shù)據(jù)對(duì)象之間的相似關(guān)系,并在此基礎(chǔ)上,提供檢索結(jié)果文檔的高質(zhì)量分組。
【專(zhuān)利說(shuō)明】煤礦搜索引擎中檢索結(jié)果聚類(lèi)系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于煤礦安全領(lǐng)域。
【背景技術(shù)】
[0002]在煤礦領(lǐng)域中,Internet信息總量的爆炸式增長(zhǎng)為信息的使用和管理帶來(lái)了一定挑戰(zhàn)。準(zhǔn)確、快捷的從如此龐雜無(wú)序的海量數(shù)據(jù)中發(fā)現(xiàn)用戶需要的煤礦領(lǐng)域信息,成為一種極為迫切的需求。于是,信息檢索技術(shù)在煤礦領(lǐng)域得到了深入的研究和廣泛的應(yīng)用。
[0003]搜索引擎是煤礦用戶經(jīng)常使用的工具性應(yīng)用之一。在用戶與Web搜索引擎之間一次典型的交互過(guò)程中,用戶將特定的信息需求表達(dá)為一個(gè)查詢,提交給Web搜索引擎;服務(wù)器對(duì)檢索請(qǐng)求處理之后,返回一列檢索結(jié)果。在這些結(jié)果中,一部分可能與用戶的檢索意圖相關(guān),一部分則可能完全無(wú)關(guān)。通常,用戶希望最相關(guān)的結(jié)果排在檢索結(jié)果的最前面。而事實(shí)上,相關(guān)結(jié)果與不相關(guān)結(jié)果往往混雜在一起,甚至是相關(guān)結(jié)果出現(xiàn)在不相關(guān)結(jié)果之后。
[0004]文檔聚類(lèi)技術(shù)能夠揭示隱藏在Web數(shù)據(jù)之后具有潛在價(jià)值的信息或結(jié)構(gòu),是一種非常有效的檢索結(jié)果再組織方法。文檔聚類(lèi)是Web挖掘領(lǐng)域中最重要的工具之一,其目的是將一個(gè)文檔集合分成若干個(gè)簇,要求同一個(gè)簇內(nèi)的文本內(nèi)容具有較高的相似度,而不同簇之間的相似度盡可能小。每個(gè)聚類(lèi)過(guò)程主要包括相似度計(jì)算方法和聚類(lèi)算法兩個(gè)部分。目前,研究者已經(jīng)提出多種文檔聚類(lèi)算法,大致可分為4個(gè)類(lèi)別,即層次化聚類(lèi)算法、劃分式聚類(lèi)算法、基于密度和網(wǎng)格的聚類(lèi)算法和其它聚類(lèi)算法。
[0005]目前,在搜索引擎引擎的使用過(guò)程中,搜索的結(jié)果顯示缺乏清晰的結(jié)構(gòu)。搜索引擎得到的結(jié)果量非常巨大,然而顯示結(jié)果卻是一個(gè)線性列表,在這些結(jié)果中,一部分可能與用戶的檢索意圖相關(guān),一部分則可能完全無(wú)關(guān)。通常,用戶希望最相關(guān)的結(jié)果排在檢索結(jié)果的最前面。而事實(shí)上,相關(guān)結(jié)果與不相關(guān)結(jié)果往往混雜在一起,甚至是相關(guān)結(jié)果出現(xiàn)在不相關(guān)結(jié)果之后。用戶如果想要通過(guò)搜索引擎找到需要的信息則必須逐個(gè)瀏覽返回的查詢結(jié)果,這樣不僅會(huì)浪費(fèi)很多時(shí)間,而且不一定能夠準(zhǔn)確地找到相關(guān)的資料。
[0006]針對(duì)檢索結(jié)果的聚類(lèi)與普通的文檔聚類(lèi)有所不同,主要表現(xiàn)在檢索結(jié)果聚類(lèi)除了完成聚類(lèi)過(guò)程之外,還需要抽取類(lèi)別標(biāo)簽,前者對(duì)文本檢索結(jié)果進(jìn)行分組,后者則生成每個(gè)分組的描述信息。
[0007]基于以上分析,對(duì)于檢索結(jié)果而言,僅僅提供一個(gè)按相關(guān)性排序的文檔列表的傳統(tǒng)顯示方式表現(xiàn)出一定的不足,迫切需要對(duì)檢索結(jié)果展開(kāi)深入分析和加工。
【發(fā)明內(nèi)容】
[0008]基于以上分析,本發(fā)明提出了一種煤礦搜索引擎中檢索結(jié)果聚類(lèi)系統(tǒng),包括檢索結(jié)果聚類(lèi)及類(lèi)別標(biāo)簽抽取裝置,該裝置包括搜索引擎服務(wù)器、文本檢索結(jié)果聚類(lèi)模塊和類(lèi)別標(biāo)簽抽取模塊,煤礦搜索引擎服務(wù)器處理用戶提交的查詢請(qǐng)求,產(chǎn)生的初始檢索結(jié)果經(jīng)文本檢索結(jié)果聚類(lèi)模塊后返回給用戶;其中文本檢索結(jié)果聚類(lèi)模塊中,采用以下方法進(jìn)行數(shù)據(jù)分析:(I)初始化:將檢索結(jié)果文檔集合表示成
【權(quán)利要求】
1.煤礦搜索引擎中檢索結(jié)果聚類(lèi)系統(tǒng),包括檢索結(jié)果聚類(lèi)及類(lèi)別標(biāo)簽抽取裝置,該裝置包括搜索引擎服務(wù)器、文本檢索結(jié)果聚類(lèi)模塊和類(lèi)別標(biāo)簽抽取模塊,煤礦搜索引擎服務(wù)器處理用戶提交的查詢請(qǐng)求,產(chǎn)生的初始檢索結(jié)果經(jīng)文本檢索結(jié)果聚類(lèi)模塊后返回給用戶;其中文本檢索結(jié)果聚類(lèi)模塊中,采用以下方法進(jìn)行數(shù)據(jù)分析:
(1)初始化:將檢索結(jié)果文檔集合表示成;
【文檔編號(hào)】G06F17/30GK103886072SQ201410110171
【公開(kāi)日】2014年6月25日 申請(qǐng)日期:2014年3月24日 優(yōu)先權(quán)日:2014年3月24日
【發(fā)明者】劉永利, 趙珊, 王建芳, 雒芬, 趙建貴 申請(qǐng)人:河南理工大學(xué)