亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種在大數(shù)據(jù)背景下的數(shù)據(jù)查詢獲取方法

文檔序號:9396966閱讀:532來源:國知局
一種在大數(shù)據(jù)背景下的數(shù)據(jù)查詢獲取方法
【技術(shù)領域】
[0001] 本發(fā)明涉及電數(shù)據(jù)信息處理領域,更具體而言,涉及一種在大數(shù)據(jù)背景下的數(shù)據(jù) 查詢獲取方法和裝置。
【背景技術(shù)】
[0002] 隨著社會工業(yè)化、信息化水平的不斷提高,如今數(shù)據(jù)已取代計算成為信息計算的 中心,云計算、大數(shù)據(jù)正在成為一種趨勢和潮流。包括存儲容量、可用性、I/O性能、數(shù)據(jù) 安全性、可擴展性等諸多方面。大數(shù)據(jù)是規(guī)模非常巨大和復雜的數(shù)據(jù)集。大數(shù)據(jù)有4V: Volume (大量),數(shù)據(jù)量持續(xù)快速增加 ;Velocity (高速),數(shù)據(jù)I/O速度更快;Variety (多 樣),數(shù)據(jù)類型和來源多樣化;Value (價值),其存在各方面的可用價值。
[0003] 另外,得益于移動互聯(lián)網(wǎng)的發(fā)展,互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)的規(guī)模極其迅速地增長。針對互 聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)的研究也成為如今的熱點,諸如在感興趣的互聯(lián)網(wǎng)內(nèi)容中查詢、挖掘和獲取 期望的結(jié)果。更具體而言,在互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)中包含有媒體的信息傳播傾向,以及日益龐大 的自媒體發(fā)布的信息的輿論傾向,對互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)中的互聯(lián)網(wǎng)輿情進行查詢、挖掘、分析 和獲取,是眾多主體感興趣或者亟待獲取的。雖然如今的在互聯(lián)網(wǎng)大數(shù)據(jù)背景下的信息查 詢獲取以及挖掘分析的方法有很多,或多或少地能夠利用該信息獲得較為理想的效果。然 而這些方法不能很好地適應數(shù)據(jù)海量增長的需求,無法準確、及時、高效高速地對數(shù)據(jù)進行 處理。
[0004] 為了能夠迎接互聯(lián)網(wǎng)內(nèi)容的大數(shù)據(jù)時代的挑戰(zhàn),更為充分地利用互聯(lián)網(wǎng)內(nèi)容信 息,更有效滿足主體感興趣的互聯(lián)網(wǎng)內(nèi)容深度挖掘需求,并且提高互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)查詢獲 取以及挖掘分析的準確性、及時性、效率和速度,本領域中迫切需要一種能夠有效解決上述 技術(shù)問題的互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)查詢獲取方法。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明的目的之一是提供一種互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)查詢獲取方法及其裝置,通過該方 法和執(zhí)行該方法的裝置,能夠迎接互聯(lián)網(wǎng)內(nèi)容的大數(shù)據(jù)時代的挑戰(zhàn),充分利用互聯(lián)網(wǎng)內(nèi)容 信息而更有效滿足主體感興趣的互聯(lián)網(wǎng)內(nèi)容深度挖掘需求,并且提高互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)查詢 獲取以及挖掘分析的準確性、及時性、效率和速度。
[0006] 本發(fā)明為解決上述技術(shù)問題而采取的技術(shù)方案為:一種互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)查詢獲取 方法,包括步驟:確定在大數(shù)據(jù)背景下對互聯(lián)網(wǎng)內(nèi)容的數(shù)據(jù)查詢獲取目標和計劃;根據(jù)確 定的數(shù)據(jù)查詢獲取目標和計劃,獲取待分析的互聯(lián)網(wǎng)內(nèi)容對象;查詢、獲取互聯(lián)網(wǎng)內(nèi)容中的 有用內(nèi)容;對所述實體進行計算和匯總,確定并分析驗證所查詢和獲取的有用互聯(lián)網(wǎng)內(nèi)容 的正確性;對上述結(jié)果進行進一步的測試,并對上述方法進行修正。
[0007] 根據(jù)本發(fā)明的另一個方面,其中查詢、獲取互聯(lián)網(wǎng)內(nèi)容中的有用內(nèi)容包括以下步 驟:將互聯(lián)網(wǎng)內(nèi)容對象分成多個片段;選擇不同的多個片段中的部分或全部;計算片段的 重要程度;對重要程度賦值,并根據(jù)該值而對片段進行排序;選擇重要程度值靠前的一個 或多個片段;根據(jù)設定的擷取規(guī)則,從中擷取重要的實體。將互聯(lián)網(wǎng)內(nèi)容對象分成多個片 段、計算片段的重要程度可通過以下方式獲?。好總€片段的重要程度與它所在的位置、占用 的版面面積、字體大小和字形、顯示的顏色的因素有關(guān)。計算片段的重要程度并對其賦值可 通過公式獲取。
[0008] 根據(jù)本發(fā)明的再一個方面,提供了一種執(zhí)行上述方法中步驟的裝置。
【附圖說明】
[0009] 在附圖中通過實例的方式而不是通過限制的方式來示出本發(fā)明的實施例,其中:
[0010] 根據(jù)本發(fā)明的實施例,圖1例示了一種在大數(shù)據(jù)背景下基于互聯(lián)網(wǎng)內(nèi)容的數(shù)據(jù)查 詢獲取方法的流程圖。
[0011] 根據(jù)本發(fā)明的實施例,圖2圖示了查詢互聯(lián)網(wǎng)內(nèi)容中有用內(nèi)容的流程圖。
【具體實施方式】
[0012] 在下面的描述中,參考附圖并以例示的方式示出幾個具體的實施例。將理解的是: 可設想并且可做出其他實施例而不脫離本公開的范圍或精神。因此,以下詳細描述不應被 認為具有限制意義。
[0013] 根據(jù)本發(fā)明的實施例,圖1例示了一種在大數(shù)據(jù)背景下基于互聯(lián)網(wǎng)內(nèi)容的數(shù)據(jù)查 詢獲取方法的流程圖。
[0014] 首先,本文所述的"有用"(互聯(lián)網(wǎng))內(nèi)容,通常是指上述主體感興趣的內(nèi)容,或者 關(guān)注的內(nèi)容,或者與上述主體感興趣的、想要的、期望的、所需的和/或關(guān)注的內(nèi)容有關(guān)和/ 或相關(guān)聯(lián)的內(nèi)容。必須特別指出的是:所謂的有用的內(nèi)容對于一些主體來說可能是有用的, 但同一內(nèi)容對于另一些主體來說是無用的。上述主體可以是個人,也可以是機構(gòu)、組織或者 能夠自動地、機械地、電學地或以其他方式執(zhí)行數(shù)據(jù)處理的機器(如計算機、處理器、ASIC、 SoC)、機制、邏輯、虛擬裝置、實體裝置、部件、設備或者軟件、程序等等。以上所列舉的僅僅 是實例,并不代表將本文及其權(quán)利要求的范圍限制為所述的實例。以下詳細描述該方法的 步驟。
[0015] 首先,在步驟Sl中,確定在大數(shù)據(jù)背景下對互聯(lián)網(wǎng)內(nèi)容的數(shù)據(jù)查詢獲取目標和計 劃。因為不同的數(shù)據(jù)具有不同的特征、特性和/或?qū)傩裕缭诨ヂ?lián)網(wǎng)環(huán)境中,社交媒體的 大數(shù)據(jù)基于人與人之間的交互;軍事新聞的大數(shù)據(jù)隱含或集中了軍用武器或軍事動向的數(shù) 據(jù);社會新聞的大數(shù)據(jù)反映了輿論導向和包括自媒體發(fā)布人員的意識傾向;針對某一個國 家、地區(qū)或研究機構(gòu)的技術(shù)新聞的大數(shù)據(jù)包含了其研究重點、人員和資金投入情況、產(chǎn)出效 率、可能應用范圍以及對研究和應用領域的引領作用/影響,等等。針對這些上下文背景, 需要有針對不同互聯(lián)網(wǎng)內(nèi)容數(shù)據(jù)的查詢獲取要求和計劃,從而可以增強大數(shù)據(jù)查詢獲取的 針對性和準確性,為之后的查詢獲取的準確性奠定堅實的基礎。
[0016] 其次,在步驟S2中,根據(jù)確定的數(shù)據(jù)查詢獲取目標和計劃,獲取待分析的互聯(lián)網(wǎng) 內(nèi)容對象。該互聯(lián)網(wǎng)內(nèi)容對象可以是包含互聯(lián)網(wǎng)內(nèi)容的任何事物,例如但不限于是具有可 識別字符的互聯(lián)網(wǎng)圖片、網(wǎng)頁、網(wǎng)頁圖片等等。優(yōu)選地,該互聯(lián)網(wǎng)內(nèi)容對象優(yōu)選為網(wǎng)頁或者 由網(wǎng)頁保存的數(shù)據(jù)文本。
[0017] 再次,在步驟S3中,查詢、獲取互聯(lián)網(wǎng)內(nèi)容中的有用內(nèi)容。根據(jù)本發(fā)明的實施例, 圖2圖示了查詢互聯(lián)網(wǎng)內(nèi)容中有用內(nèi)容的流程圖。具體而言,在上述步驟S3中,查詢、獲 取互聯(lián)網(wǎng)內(nèi)容中的有用內(nèi)容包括以下步驟:S31,將互聯(lián)網(wǎng)內(nèi)容對象分成多個片段;S32,選 擇不同的多個片段中的部分或全部;S33,計算片段的重要程度;S34,對重要程度賦值,并 根據(jù)該值而對片段進行排序;S35,選擇重要程度值靠前的一個或多個片段;S36,根據(jù)設定 的擷取規(guī)則,從中擷取重要的實體。在上述步驟中,其中步驟S34中,例如可基于某一門檻 值來對重要程度賦值,諸如高于該門檻值的重要程度可以使用一定的準則來賦予大于零的 值,如果等于或低于該門檻值,則賦值為零。在步驟S35中,根據(jù)需要來選擇重要程度值最 高的前N個片段,其中N是正整數(shù)。在步驟S36中,所述實體可以是字符、圖片等。其中字 符可以是各種語言的文字、字母、單詞、短語、長句、短句、數(shù)字等。更進一步地,如果有必要, 還可包括步驟S37,可根據(jù)需要,將重要的實體進行分解。步驟37具體為,將實體進一步分 解成多個元素,在多個元素之間加入諸如!、〇、#、Y、%、···、&、*、(、)、,、?、[、]、\、/、 和任意阿拉伯數(shù)字之類的字符,從而繼續(xù)執(zhí)行一次步驟S36。這樣做的目的
當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1