關(guān)鍵字自動(dòng)超級(jí)鏈接的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種超級(jí)鏈接技術(shù)領(lǐng)域,尤其是一種關(guān)鍵字自動(dòng)超級(jí)鏈接的方法。
【背景技術(shù)】
[0002] 超級(jí)鏈接在本質(zhì)上屬于一個(gè)網(wǎng)頁的一部分,它是一種允許我們同其他網(wǎng)頁或站點(diǎn) 之間進(jìn)行連接的元素。各個(gè)網(wǎng)頁鏈接在一起后,才能真正構(gòu)成一個(gè)網(wǎng)站。所謂的超鏈接是指 從一個(gè)網(wǎng)頁指向一個(gè)目標(biāo)的連接關(guān)系,這個(gè)目標(biāo)可以是另一個(gè)網(wǎng)頁,也可以是相同網(wǎng)頁上 的不同位置,還可以是一個(gè)圖片,一個(gè)電子郵件地址,一個(gè)文件,甚至是一個(gè)應(yīng)用程序。而在 一個(gè)網(wǎng)頁中用來超鏈接的對(duì)象,可以是一段文本或者是一個(gè)圖片。當(dāng)瀏覽者單擊已經(jīng)鏈接 的文字或圖片后,鏈接目標(biāo)將顯示在瀏覽器上,并且根據(jù)目標(biāo)的類型來打開或運(yùn)行。
[0003] 而目前來看這種超級(jí)鏈接還無法在遠(yuǎn)程通過關(guān)鍵詞實(shí)現(xiàn)自動(dòng)形成超鏈的形式,由 此極大的局限了它的作用效果。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的在于提供一種關(guān)鍵字自動(dòng)超級(jí)鏈接的方法,用戶打開應(yīng)用程序時(shí), 程序根據(jù)當(dāng)前的配置判斷是否需要從指定的服務(wù)器下載關(guān)鍵字超鏈數(shù)據(jù),如果需要下載, 則自動(dòng)從指定的服務(wù)器下載并保存到本地;用戶在通過應(yīng)用程序打開文檔時(shí),應(yīng)用程序解 析文檔時(shí)自動(dòng)分析關(guān)鍵字,并在關(guān)鍵字超鏈數(shù)據(jù)庫中搜索匹配關(guān)鍵字,獲取對(duì)應(yīng)的超鏈數(shù) 據(jù);如果在數(shù)據(jù)庫沒有匹配到關(guān)鍵字,則訪問指定的服務(wù)器,以此來獲取指定關(guān)鍵字的超 級(jí)鏈接數(shù)據(jù),并更新到本地,如果在數(shù)據(jù)庫能夠匹配到關(guān)鍵字,根據(jù)匹配關(guān)鍵字獲取的超級(jí) 鏈接數(shù)據(jù),在展示文檔內(nèi)容時(shí),在關(guān)鍵字區(qū)域展示超級(jí)鏈接。避免了超級(jí)鏈接還無法在遠(yuǎn)程 通過關(guān)鍵詞實(shí)現(xiàn)自動(dòng)形成超鏈的形式而由此極大的局限了它的作用效果的問題。
[0005] 為了達(dá)到上述目的,本發(fā)明的技術(shù)方案是:一種關(guān)鍵字自動(dòng)超級(jí)鏈接的方法,用戶 打開應(yīng)用程序時(shí),程序根據(jù)當(dāng)前的配置判斷是否需要從指定的服務(wù)器下載關(guān)鍵字超鏈數(shù) 據(jù),如果需要下載,則自動(dòng)從指定的服務(wù)器下載并保存到本地;用戶在通過應(yīng)用程序打開文 檔時(shí),應(yīng)用程序解析文檔時(shí)自動(dòng)分析關(guān)鍵字,并在關(guān)鍵字超鏈數(shù)據(jù)庫中搜索匹配關(guān)鍵字,獲 取對(duì)應(yīng)的超鏈數(shù)據(jù);如果在數(shù)據(jù)庫沒有匹配到關(guān)鍵字,則訪問指定的服務(wù)器,以此來獲取指 定關(guān)鍵字的超級(jí)鏈接數(shù)據(jù),并更新到本地,如果在數(shù)據(jù)庫能夠匹配到關(guān)鍵字,根據(jù)匹配關(guān)鍵 字獲取的超級(jí)鏈接數(shù)據(jù),在展示文檔內(nèi)容時(shí),在關(guān)鍵字區(qū)域展示超級(jí)鏈接。
[0006] 采用上述方法后,本發(fā)明就能夠自動(dòng)從指定的服務(wù)器下載關(guān)鍵字超鏈數(shù)據(jù)并保存 到本地,由此根據(jù)分析并獲取的超鏈數(shù)據(jù),在展示文檔內(nèi)容時(shí),在關(guān)鍵字區(qū)域展示超級(jí)鏈 接。
【附圖說明】
[0007] 圖1是本發(fā)明的流程圖。
[0008] 圖2是本發(fā)明的隨機(jī)內(nèi)容抽取算法的流程圖。
[0009] 圖3是本發(fā)明的分層內(nèi)容抽取算法的流程圖。
[0010] 圖4是本發(fā)明的關(guān)鍵詞提取的流程圖。
[0011] 圖5是本發(fā)明的關(guān)鍵詞自動(dòng)收集的流程圖。
【具體實(shí)施方式】
[0012] 以下結(jié)合附圖給出的實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。參
[0013] 見圖1-圖5所示,關(guān)鍵字自動(dòng)超級(jí)鏈接的方法,用戶打開應(yīng)用程序時(shí),程序根據(jù)當(dāng) 前的配置判斷是否需要從指定的服務(wù)器下載關(guān)鍵字超鏈數(shù)據(jù),如果需要下載,則自動(dòng)從指 定的服務(wù)器下載并保存到本地;用戶在通過應(yīng)用程序打開文檔時(shí),應(yīng)用程序解析文檔時(shí)自 動(dòng)分析關(guān)鍵字,并在關(guān)鍵字超鏈數(shù)據(jù)庫中搜索匹配關(guān)鍵字,獲取對(duì)應(yīng)的超鏈數(shù)據(jù);如果在數(shù) 據(jù)庫沒有匹配到關(guān)鍵字,則訪問指定的服務(wù)器,以此來獲取指定關(guān)鍵字的超級(jí)鏈接數(shù)據(jù),并 更新到本地,如果在數(shù)據(jù)庫能夠匹配到關(guān)鍵字,根據(jù)匹配關(guān)鍵字獲取的超級(jí)鏈接數(shù)據(jù),在展 示文檔內(nèi)容時(shí),在關(guān)鍵字區(qū)域展示超級(jí)鏈接。
[0014] 其中,應(yīng)用程序解析文檔的方式為:
[0015] 先進(jìn)行單個(gè)文檔樣本數(shù)據(jù)收集,也就是根據(jù)用戶打開的文檔進(jìn)行分析,一般文本 數(shù)據(jù)的關(guān)鍵信息都會(huì)保存在以下幾個(gè)地方:文件名、文檔標(biāo)題、書簽、文檔第一段內(nèi)容、文檔 最后一段內(nèi)容。鑒于此,本發(fā)明也將主要從這些部分抽取樣本數(shù)據(jù)。樣本數(shù)據(jù)先保存在本 地,待用戶連網(wǎng)之后再把這些數(shù)據(jù)上傳給服務(wù)器來完成關(guān)鍵字的提取、分類、權(quán)重調(diào)整和超 鏈數(shù)據(jù)的準(zhǔn)備;由于上傳地時(shí)機(jī)不確定,記錄樣本數(shù)據(jù)時(shí)需要記錄文檔最近一次打開的時(shí) 間以及上傳之前打開的次數(shù),這兩項(xiàng)信息是之后計(jì)算關(guān)鍵字權(quán)值時(shí)需要的;所述的樣本數(shù) 據(jù)的存儲(chǔ)格式如表1所示依次為數(shù)據(jù)包大小、最后打開時(shí)間、打開次數(shù)、文檔語言、文件名 稱長度、文件名稱數(shù)據(jù)、文檔標(biāo)題長度、文檔標(biāo)題數(shù)據(jù)、首段內(nèi)容長度、首段內(nèi)容數(shù)據(jù)、末段 內(nèi)容長度、末段內(nèi)容數(shù)據(jù)、書簽條目數(shù)量、第一書簽條目長度、第一書簽條目內(nèi)容、第二書簽 條目長度、第二書簽條目內(nèi)容…第η書簽條目長度、第η書簽條目內(nèi)容、隨機(jī)內(nèi)容數(shù)量、第一 隨機(jī)內(nèi)容長度、第一隨機(jī)內(nèi)容數(shù)據(jù)、第二隨機(jī)內(nèi)容長度、第二隨機(jī)內(nèi)容數(shù)據(jù)…第η隨機(jī)內(nèi)容 長度、第η隨機(jī)內(nèi)容數(shù)據(jù)的數(shù)據(jù)段;其中η為正整數(shù);
[0016] 表1
[0019] 上述結(jié)構(gòu)內(nèi)容的含義描述如表2所示:
[0020] 表 2
[0022] 而在進(jìn)行隨機(jī)內(nèi)容抽取時(shí),能夠采用隨機(jī)抽取算法或分層抽取法進(jìn)行抽取;
[0023] 對(duì)于比較小的文檔或者沒有書簽信息和分布信息的文檔,采用這個(gè)隨機(jī)抽取算 法,所述的隨機(jī)抽取算法要隨機(jī)讀取整個(gè)文檔的內(nèi)容,該算法具體流程如下,首先確定需要 抽取的樣本的數(shù)量,根據(jù)文檔內(nèi)容的大小,生成一組樣本數(shù)量的隨機(jī)數(shù)列表且不重復(fù),再依 照該數(shù)組中各數(shù)值作為文檔內(nèi)偏移,依次讀取固定長度的文本內(nèi)容并保存;
[0024] 對(duì)于比較大的文檔,采用此分層抽取法算法。該算法可以根據(jù)抽取樣本的策略是 全面抽取還是重點(diǎn)抽取來定義第一層樣本的權(quán)值系數(shù)H。
[0025] 所述的分層抽取算法具體流程如下,首先確定需要抽取的樣本的數(shù)量N,第一層需 要抽取的樣本數(shù)量為總數(shù)量的N/H。如果該文檔有書簽信息,則以書簽信息作為第一層樣本 池,如果沒有書簽信息,則以分頁信息作為第一層樣本池。以各書簽ID或各分頁ID號(hào)來構(gòu)造 列表,再以書簽的數(shù)量或分頁數(shù)量為基數(shù)構(gòu)造需要的第一層樣本列表。接下來根據(jù)抽取的 第一層樣本列表,各自單獨(dú)抽取Η個(gè)樣本。例如:如果是以書簽信息作為樣本池的,根據(jù)已生 成的第一層樣本列表,每個(gè)表項(xiàng)都是一個(gè)書簽ID,在單獨(dú)抽取二層樣本的時(shí)候,根據(jù)書簽ID 來定位文檔的位置,再用隨機(jī)抽取算法抽取Η個(gè)文本樣本數(shù)據(jù)開保存;
[0026] 進(jìn)行樣本數(shù)據(jù)上傳及關(guān)鍵字信息提取的方式為:樣本數(shù)據(jù)會(huì)根據(jù)用戶打開不同的 文檔進(jìn)行更新,存儲(chǔ)在本地設(shè)備中;在用戶設(shè)備聯(lián)網(wǎng)的時(shí)候,根據(jù)策略設(shè)置上傳本地存儲(chǔ)的 樣本數(shù)據(jù)到服務(wù)器上,以便進(jìn)行關(guān)鍵字提取及后續(xù)工作;
[0027] 用戶使用場(chǎng)景多種多樣,總體可以分為:沒有聯(lián)網(wǎng)、移動(dòng)網(wǎng)絡(luò)、固定網(wǎng)格(LAN、 WIFI),根據(jù)不同的使用聯(lián)網(wǎng)環(huán)境,采取不同的樣本數(shù)據(jù)上傳策略,具體如下:
[0028] (1)沒有聯(lián)網(wǎng)的環(huán)境:不進(jìn)行上傳操作。
[0029] (1)移動(dòng)網(wǎng)絡(luò)環(huán)境:不進(jìn)行上傳操作。
[0030] (2)固定網(wǎng)絡(luò)環(huán)境:閑時(shí)上傳,限制上傳速度。
[0031] (4)用戶可以自己定義策略,比如:移動(dòng)網(wǎng)絡(luò)時(shí)允許上傳、固定網(wǎng)絡(luò)時(shí)限時(shí)間內(nèi)允 許上傳等等。
[0032]在進(jìn)行客戶端ID計(jì)算和校驗(yàn)時(shí),往往采用的是以下所描述的幾種客戶端ID的計(jì)算 和校驗(yàn)方法,但客戶端ID不僅限下這幾種方法,同時(shí)也可以是幾種算法組合使用:
[0033] 1、硬件組合ID的方法
[0034]收集的樣本信息上傳的時(shí)候需要標(biāo)明該樣本信息所屬的用戶,而且軟件下載用戶 關(guān)鍵字信息及超鏈數(shù)據(jù)時(shí)也需要標(biāo)明用戶ID,即數(shù)據(jù)是和用戶關(guān)聯(lián)的。這個(gè)用戶ID需要能 唯一標(biāo)明用戶。
[0035]計(jì)算方法:按照固定的順序獲取設(shè)備部分硬件的ID信息,無法獲取的ID用FF填充, 并按照這個(gè)順序組合成一串字符。
[0036]校驗(yàn)方法:由于組成ID的各部分信息,每個(gè)設(shè)備有哪些硬件都不一樣,而且不保證 各設(shè)備的硬盤不會(huì)更換。如此校驗(yàn)的方法就不能用簡單的完全匹配來校驗(yàn),具體校驗(yàn)時(shí),每 個(gè)硬件信息分析出來單獨(dú)校驗(yàn),當(dāng)所有的硬件信息超過50%匹配上時(shí),就校驗(yàn)通過。同時(shí)對(duì) 于有些硬件在有的設(shè)備中可能包括不只一個(gè),這時(shí)校驗(yàn)單個(gè)硬件信息,只要有同類硬件中 一個(gè)匹配,即表示該硬件匹配成功。
[0037] 2、客戶唯一信息的方法
當(dāng)前第1頁
1 
2 
3