節(jié)的標識號碼。每一內容所對應的推薦文本即為對應章節(jié)的文本。
[0054]在針對該內容的多個候選文本完成了特征向量的統(tǒng)計和根據特征向量所進行內容校驗之后,得到的推薦文本與該內容的標識信息進行關聯(lián)存儲,以待后續(xù)查找時使用。
[0055]上述聚合類應用的推薦方法中,步驟執(zhí)行的詳細的時序過程可參考如圖4所示,圖4展示了聚合類應用觸發(fā)運行之后通過與服務器的交互,聚合類應用得到推薦文本的整個時序過程。
[0056]在一個實施例中,如圖5所示,上述在存儲的推薦文本中進行查找,以得到與內容獲取請求相關的推薦文本,并向聚合類應用返回推薦文本的步驟之前,該方法還包括了如下步驟:
步驟210,獲取內容相同的多個候選文本。
[0057]本實施例中,區(qū)別與聚合類應用中的處理過程,與聚合類應用實現(xiàn)交互的服務器將獲取內容相同的多個候選文本,多個候選文本將分別來自于不同的站點。
[0058]以網絡小說為例,對于任一章節(jié)所對應的內容,可從多個不同的站點分別獲取得到該章節(jié)所對應的文本,該文本即為候選文本,因此,一內容將對應了多個候選文本。
[0059]步驟230,通過預先構建的詞典對多個候選文本進行特征向量統(tǒng)計,以得到每一候選文本對應的特征向量,并存儲候選文本對應的特征向量。
[0060]本實施例中,預先構建用于進行特征識別的詞典,并存儲該詞典。該詞典包含了多個特征詞,不同應用場景之下所使用的詞典各不相同,例如,小說書架應用這一應用場景下,詞典將包含了由大量網絡小說提取的特征詞;而資訊聚合應用這一應用場景下,所采用的詞典將包含了新聞資訊相關的特征詞。
[0061]進一步的,將通過新詞發(fā)現(xiàn)來不斷挖掘特征詞,以構建得到相應的詞典,從而有效保證后續(xù)的識別過程準確快速。
[0062]在一內容所對應的多個候選文本中,加載該詞典,以通過該詞典中的特征詞識別每一候選文本中包含的特征詞,進而得到對應的特征向量并存儲,以供后續(xù)使用。
[0063]由于針對每一內容均進行了候選文本的特征向量統(tǒng)計和存儲,將極大地方便了后續(xù)的功能延伸和擴展,為基于文本所進行的各種應用擴展奠定基礎。
[0064]在一個實施例中,如圖6所示,上述在存儲的推薦文本中進行查找,以得到與內容獲取請求相關的推薦文本,并向聚合類應用返回該推薦文本的步驟之前,該方法還包括了如下步驟:
步驟310,根據特征向量進行對應候選文本的內容校驗,以得到推薦文本。
[0065]步驟330,為該內容存儲推薦文本。
[0066]也就是說,針對每一內容,由于每一候選文本均有唯一對應的特征向量,并且該特征向量是基于候選文本中的詞產生的,因此,特征向量可作為候選文本中的內容特征,通過特征向量進行對應候選文本的內容校驗,以得到在內容上最佳的候選文本,該候選文本即為這一內容的推薦文本,并將其進行存儲,以便在后續(xù)過程中快速向聚合類應用推送。
[0067]由于推薦文本的選定是基于內容實現(xiàn)的,因此,將避免了內容粗制濫造的候選文本出現(xiàn)在聚合類應用的顯示界面中,向聚合類應用所進行的無效文本推薦,提高了文本推薦的準確性。
[0068]進一步的,在一個實施例中,如圖7所示,上述步驟230包括:
步驟231,加載預先構建的詞典,通過該詞典分別對多個候選文本進行分詞,以得到每一候選文本對應的分詞結果。
[0069]根據當前所在的應用場景加載預先構建的詞典,由于詞典中存儲了多個特征詞,因此,可引入詞典對多個候選文本進行分詞,其中,用于實現(xiàn)分詞的分詞引擎可為SCWS庫。
[0070]進一步的,在優(yōu)選的實施例中,在通過詞典對多個候選文本進行分詞之前,將預先對多個候選文本進行預處理,以去除候選文本中的標點和無用詞,例如,該無用詞可為“的”、“了”、“嗎”等。具體的,可分別對多個候選文本執(zhí)行預處理,以將候選文本中的無用詞替換為空字符。
[0071]通過進行候選文本的預處理,將使得后續(xù)的分詞過程不會受到標識和無用詞的影響,提高了后續(xù)分詞的準確性。
[0072]步驟233,針對每一候選文本,遍歷分詞結果中的詞,以從分詞結果中選取特征詞以及特征詞對應的詞頻,并歸一化該詞頻。
[0073]在一內容所對應的多個候選文本中,將逐一對每一候選文本的分詞結果進行遍歷,以識別出候選文本中的特征詞,并相應統(tǒng)計特征詞所對應的詞頻,并對該詞頻進行歸一化處理,將詞頻限制在O到I的范圍內,以方便計算。
[0074]進一步的,分詞結果中特征詞以及相應詞頻的計算均可通過TF-1DF (文本頻率-逆文檔頻率)算法實現(xiàn)。即,對于一候選文本的分詞結果,首先計算詞所出現(xiàn)的頻率,以根據該頻率找出高頻的特征詞,然后再結合逆文檔頻率將這些特征詞中的常用詞降權,以最終計算出該候選文本的特征詞以及該特征詞所對應的詞頻。
[0075]例如,對于一候選文本,可首先按照2個字、3個字、4個字和5個字組成詞,以遍歷分詞結果中詞的頻率,并利用TF,即文本頻率找出高頻的特征詞;結合IDF,即逆文檔頻率將常用詞降權,以最終計算出針對這一候選文本有意義的特征詞和該特征詞對應的詞頻。
[0076]步驟235,封裝特征詞和其所歸一化后的詞頻,形成每一候選文本對應的特征向量。
[0077]由上述過程,將得到每一候選文本所對應的特征詞和其所歸一化后的詞頻,進而封裝特征詞和其所歸一化后的詞頻形成特征向量。
[0078]步驟237,存儲候選文本對應的特征向量。
[0079]將計算得到的特征向量進行存儲,以便于后續(xù)任一文本處理過程均可隨時獲取該存儲的特征向量,而不需要再次進行計算,以避免不必要的重復計算和運算資源的浪費。
[0080]進一步的,如上所述,與推薦文本的存儲相類似,對于每一候選文本而言,其均有相應的標識信息,該候選文本所對應的標識信息除了基于其內容進行標識之外,還將對其來源進行標識。
[0081]例如,對于網絡小說,推薦文本除了標識其所在的網絡小說和章節(jié)之外,還標識了其所來自的站點,以便于匹配相同內容的多個候選文本。
[0082]相應的,在實際的特征向量存儲中,將獲取對應候選文本的標識信息,例如,該標識信息可為候選文本的網絡地址,并將以該標識信息為索引與計算得到的特征向量進行關聯(lián)存儲。
[0083]在一個實施例中,如圖8所示,上述步驟310包括:
步驟311,根據當前請求內容校驗的多個候選文本由存儲的特征向量中提取相應的特征向量和該內容所在的完整文本對應的特征向量。
[0084]針對一內容,若當前請求進行內容校驗,則從存儲的特征向量提取這些候選文本所對應的特征向量,即根據候選文本的標識信息在存儲的標識信息和特征向量的關聯(lián)關系中查找,以得到當前請求進行內容校驗的候選文本標識信息所在的關聯(lián)關系,進而由關聯(lián)關系得到相應的特征向量。
[0085]此外,由于當前請求進行內容校驗的候選文本僅僅對應了一個完整文本的部分內容,因此,需要獲取其所對應的完整文本,將候選文本與完整文本進行內容校驗,以得到與完整文本最為相符的候選文本,基于此,將根據相應候選文本對應內容所在的完整文本提取特征向量。
[0086]步驟313,將完整文本對應的特征向量分別與多個候選文本對應的特征向量進行匹配,以得到與完整文本最為匹配的候選文本,該候選文本即為推薦文本。
[0087]將以完整文本對應的特征向量為基準,分別對多個候選文本進行內容校驗,以得到與完整文本最為匹配的候選文本,該候選文本即為推薦文本。
[0088]完整文本對應的特征向量和多個候選文本對應的特征向量進行匹配的過程即為對多個候選文本所進行的篩選過程,通過特征向量的設置,將文本的篩選問題轉換成了一個算法冋題。
[0089]由此針對多個候選文本對應的特征向量,將逐一與完整文本對應的特征向量進行匹配,以得到兩者之間最為匹配的候選文本對應的特征向量,進而其所對應的候選文本將是與完整文本最為匹配的,其將代表了多個候選文本中最優(yōu)的文本。
[0090]進一步的,在本實施例中,如圖9所示,該步驟313包括:
步驟3131,分別計算每一候選文本對應的特征向量與完整文本對應的特征向量之間的距離,以排除計算得到的距離超出距離限值的候選文本。
[0091]在每一候選文本和完整文本之間,進行特征向量的距離計算,以得到每一候選文本相對完整文本的距離。每一候選文本相對完整文本的距離越大,則其與完整文本在內容上的差距也將越大,反之,每一候選文本相對完整文本的距離越小,則其與完整文本在內容上的也將越相似,因此,將基于候選文本相對完整文本的距離對同一內容相關的多個候選文本實現(xiàn)不與該完整文本相符的候選文本的剔除。
[0092]換而言之,通過候選文本相對完整文本的距離,將距離過大的候選文本排除即實現(xiàn)了不與該完整文本相符的候選文本的剔除。
[0093]用于實現(xiàn)候選文本和完整文本之間的距離計算可采用多種距離算法,例如,余弦距離算法、歐幾里德距離算法等。在優(yōu)選的實施例中,將采用余弦距離算法,其所計算得到的距離區(qū)分度更大,候選文本剔除效果最好,最為準確。
[0094]步驟3133,對余下的候選文本對應的特征向量進行聚類,通過每一類別所對應的相似度排除相似度小于相似閾值的類別,以得到相似的多個候選文本。
[0095]在通過候選文本和完整文本之間的距離計算排除了若干候選文本之后,將對余下的候選文本進行聚類,以得到多個類別,其中,每一類別均包括了至少兩個最為相似的候選文本,并且每一類別均對應了其包含的候選文本之間的相似度。
[0096]判斷每一類別所對應的相似度是否小于預設的相似閾值,若為是,則排除該類別所包含的候選文本,進而完成基于聚類的候選文本過濾,得到相似的多個候選文本。
[0097]用于實現(xiàn)候選文本的聚類的算法可為多種,但優(yōu)選采用Kmeans聚類算法,以使得聚類結果更為穩(wěn)定,準確性更高。
[0098]步驟3135,通過分類算法得到相似的多個候選文本中與完整文本最為匹配的候選文本。
[0099]該分類算法可為貝葉斯分類算法,以從英文字符、標點、文本長度等多個維度進行判斷,進而得到與完整文本最為匹配的候選文本。
[0100]在一個實施例中,如上所述的方法還包括:判斷推薦文本是否失效,若為是,則返回步驟210,若為否,則不做任何處理。
[0101]對存儲的多個內容所對應的推薦文本而言,其通過特征向量所得到的推薦文本的存儲將得以實現(xiàn)作為客戶端的聚合類應用的快速獲取推薦文本,保證較高的響應速度和較低的時延,也避免了重復計算。但是,由于全網中所能提供的文本是動態(tài)變化的,例如,對于網絡小說,新增網絡小說和任一候選文本的變化都會導致當前存儲的推薦文本的不準確性,由此可知,存儲的推薦文本是具備時效性的。
[0102]具體的,可預先設定一時間閾值,判斷存儲的推薦文本所對應的存儲時間是否達到時間閾值