亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

文本的詞向量構(gòu)建方法和裝置、計(jì)算機(jī)設(shè)備、存儲(chǔ)介質(zhì)與流程

文檔序號(hào):12305566閱讀:312來源:國(guó)知局
文本的詞向量構(gòu)建方法和裝置、計(jì)算機(jī)設(shè)備、存儲(chǔ)介質(zhì)與流程

本發(fā)明實(shí)施例涉及文本分類技術(shù),尤其涉及一種文本的詞向量構(gòu)建方法和裝置、計(jì)算機(jī)設(shè)備、存儲(chǔ)介質(zhì)。



背景技術(shù):

文本分類技術(shù)大量的應(yīng)用于各種文本處理系統(tǒng),例如自動(dòng)新聞推薦、搜索引擎和自動(dòng)文本分析系統(tǒng)等,是各種文本挖掘和處理系統(tǒng)的基礎(chǔ),是一種極其重要的數(shù)據(jù)挖掘技術(shù)。

文本分類技術(shù)通常都需要將文本轉(zhuǎn)化為詞向量空間,在詞向量空間的基礎(chǔ)上進(jìn)行文本分類。例如,經(jīng)典的文本自動(dòng)分類方法主要是通過詞頻逆文檔頻率將文本轉(zhuǎn)化為詞向量空間,然后利用svm(supportvectormachine,支持向量機(jī))或者邏輯回歸來訓(xùn)練自動(dòng)文本分類模型。然而,基于通過詞頻逆文檔頻率轉(zhuǎn)化的詞向量空間而訓(xùn)練出的文本分類模型,在數(shù)據(jù)傾斜比較嚴(yán)重的情況下,分類的召回率和準(zhǔn)確率低。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明實(shí)施例提供一種文本的詞向量構(gòu)建方法和裝置、計(jì)算機(jī)設(shè)備、存儲(chǔ)介質(zhì),以解決現(xiàn)有技術(shù)中基于通過詞頻逆文檔頻率轉(zhuǎn)化的詞向量空間而訓(xùn)練出的文本分類模型,在數(shù)據(jù)傾斜比較嚴(yán)重的情況下,分類的召回率和準(zhǔn)確率低的問題。

第一方面,本發(fā)明實(shí)施例提供了一種方文本的詞向量構(gòu)建法,該方法包括:

依據(jù)文本類別標(biāo)注數(shù)據(jù)構(gòu)建全局詞典,該全局詞典中的每個(gè)詞對(duì)應(yīng)有各自所屬的文本類別;

依據(jù)全局詞典中每個(gè)詞在其所屬的文本類別中出現(xiàn)的概率,計(jì)算每個(gè)詞的詞向量;

根據(jù)所述文本類別的個(gè)數(shù)、全局詞典中詞的總個(gè)數(shù)和詞向量,構(gòu)建目標(biāo)文本中每個(gè)詞的目標(biāo)詞向量。

第二方面,本發(fā)明實(shí)施例還提供了一種文本的詞向量構(gòu)建裝置,該裝置包括:

全局詞典構(gòu)建模塊,用于依據(jù)文本類別標(biāo)注數(shù)據(jù)構(gòu)建全局詞典,該全局詞典中的每個(gè)詞對(duì)應(yīng)有各自所屬的文本類別;

詞向量計(jì)算模塊,用于依據(jù)全局詞典中每個(gè)詞在其所屬的文本類別中出現(xiàn)的概率,計(jì)算每個(gè)詞的詞向量;

目標(biāo)詞向量構(gòu)建模塊,用于根據(jù)所述文本類別的個(gè)數(shù)、全局詞典中詞的總個(gè)數(shù)和詞向量,構(gòu)建目標(biāo)文本中每個(gè)詞的目標(biāo)詞向量。

第三方面,本發(fā)明實(shí)施例還提供了一種計(jì)算機(jī)設(shè)備,包括:

一個(gè)或多個(gè)處理器;

存儲(chǔ)裝置,用于存儲(chǔ)一個(gè)或多個(gè)程序,

當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行,使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)如上所述的文本的詞向量構(gòu)建方法。

第四方面,本發(fā)明實(shí)施例還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的文本的詞向量構(gòu)建方法。

本發(fā)明實(shí)施例先構(gòu)建全局詞典,并且全局詞典中每個(gè)詞都對(duì)應(yīng)有各自所述的文本類別,然后依據(jù)全局詞典中每個(gè)詞在其所屬的文本類別中出現(xiàn)的概率來計(jì)算并構(gòu)建每個(gè)詞的詞向量,從而能夠區(qū)分文本在不同類別中的差異信息,將這種文本的差異化信息帶入詞向量空間,使得分類性能優(yōu)異,在數(shù)據(jù)傾斜比較嚴(yán)重的情況下也有良好的性能,提高分類的召回率和準(zhǔn)確率。

附圖說明

圖1為本發(fā)明實(shí)施例一中的文本的詞向量構(gòu)建方法的流程圖;

圖2是本發(fā)明實(shí)施例二中的文本的詞向量構(gòu)建方法的流程圖;

圖3是本發(fā)明實(shí)施例三中的文本的詞向量構(gòu)建裝置的結(jié)構(gòu)示意圖;

圖4是本發(fā)明實(shí)施例四中的計(jì)算機(jī)設(shè)備的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說明??梢岳斫獾氖牵颂幩枋龅木唧w實(shí)施例僅僅用于解釋本發(fā)明,而非對(duì)本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。

實(shí)施例一

圖1為本發(fā)明實(shí)施例一提供的文本的詞向量構(gòu)建方法的流程圖,本實(shí)施例可適用于構(gòu)建文本的詞向量的情況,構(gòu)建的詞向量用于訓(xùn)練文本分類模型。該方法可以由文本的詞向量構(gòu)建裝置來執(zhí)行,該裝置可以采用軟件和/或硬件的方式實(shí)現(xiàn)。如圖1所示,該方法具體包括:

s101、依據(jù)文本類別標(biāo)注數(shù)據(jù)構(gòu)建全局詞典,該全局詞典中的每個(gè)詞對(duì)應(yīng)有各自所屬的文本類別。

具體的,文本類別標(biāo)注數(shù)據(jù)是指文本中帶有標(biāo)注其所屬文本類別的標(biāo)注文本??梢酝ㄟ^多種途徑獲得文本類別標(biāo)注數(shù)據(jù),例如,從各大新聞網(wǎng)站自動(dòng)抓取不同欄目和行業(yè)的新聞數(shù)據(jù),也可以通過人工的方式給每條文本打上相應(yīng)的類別標(biāo)簽。

由于每條標(biāo)注文本都有其所屬的文本類別,自然地,這些文本中包含的每個(gè)詞也對(duì)應(yīng)所屬這些文本類別。依據(jù)文本類別標(biāo)注數(shù)據(jù)構(gòu)建全局詞典,全局詞典由標(biāo)注文本中出現(xiàn)過的詞構(gòu)成,每個(gè)詞在全局詞典中對(duì)應(yīng)有各自的位置。

s102、依據(jù)全局詞典中每個(gè)詞在其所屬的文本類別中出現(xiàn)的概率,計(jì)算每個(gè)詞的詞向量。

具體的,文本類別標(biāo)注數(shù)據(jù)所屬的文本類別通常是多個(gè),那么全局詞典中每個(gè)詞的詞向量的長(zhǎng)度與文本類別的個(gè)數(shù)有關(guān),即,詞向量中元素的個(gè)數(shù)等于文本類別的個(gè)數(shù),而其中每個(gè)元素的值與詞在其所屬的各個(gè)不同的文本類別中出現(xiàn)的概率有關(guān),從而能夠區(qū)分文本在不同類別中的差異信息,并將這種文本的差異化信息帶入詞向量空間,

優(yōu)選的,依據(jù)全局詞典中每個(gè)詞在其所屬的文本類別中出現(xiàn)的概率,計(jì)算每個(gè)詞的詞向量,包括:

計(jì)算全局詞典中每個(gè)詞在其所屬的文本類別中出現(xiàn)的概率與該詞在全局詞典中出現(xiàn)的概率的比值,并計(jì)算該比值的對(duì)數(shù),得到每個(gè)詞對(duì)應(yīng)的對(duì)數(shù)值,對(duì)數(shù)值的個(gè)數(shù)與所述文本類別的個(gè)數(shù)相同;

將所述每個(gè)詞對(duì)應(yīng)的對(duì)數(shù)值作為該詞的詞向量中的元素。

s103、根據(jù)所述文本類別的個(gè)數(shù)、全局詞典中詞的總個(gè)數(shù)和詞向量,構(gòu)建目標(biāo)文本中每個(gè)詞的目標(biāo)詞向量。

優(yōu)選的,s103具體包括:

初始化目標(biāo)詞向量為全零向量,其中,目標(biāo)詞向量的長(zhǎng)度為文本類別的個(gè)數(shù)與全局詞典中詞的總個(gè)數(shù)的乘積;

查找目標(biāo)文本中每個(gè)詞在所述全局詞典中的位置,依據(jù)該位置和文本類別的個(gè)數(shù)計(jì)算出目標(biāo)文本中每個(gè)詞在其目標(biāo)詞向量中的目標(biāo)位置;

將目標(biāo)文本中每個(gè)詞在其目標(biāo)詞向量中的目標(biāo)位置對(duì)應(yīng)的元素,替換為該詞在所述全局詞典中對(duì)應(yīng)的詞向量。

具體的,目標(biāo)詞向量的長(zhǎng)度與文本類別的個(gè)數(shù)和全局詞典中詞的總個(gè)數(shù)有關(guān),具體是二者的乘積,并在初始化時(shí)將目標(biāo)詞向量中的這些元素全部初始化為零,然后就可以將目標(biāo)文本中的每個(gè)詞在全局詞典中對(duì)應(yīng)的詞向量的元素替換其目標(biāo)詞向量中相應(yīng)位置的元素,從而得到最終的目標(biāo)詞向量。

本發(fā)明實(shí)施例先構(gòu)建全局詞典,并且全局詞典中每個(gè)詞都對(duì)應(yīng)有各自所述的文本類別,然后依據(jù)全局詞典中每個(gè)詞在其所屬的文本類別中出現(xiàn)的概率來計(jì)算并構(gòu)建每個(gè)詞的詞向量,從而能夠區(qū)分文本在不同類別中的差異信息,將這種文本的差異化信息帶入詞向量空間,使得分類性能優(yōu)異,在數(shù)據(jù)傾斜比較嚴(yán)重的情況下也有良好的性能,提高分類的召回率和準(zhǔn)確率。

實(shí)施例二

圖2為本發(fā)明實(shí)施例二提供的文本的詞向量構(gòu)建方法的流程圖,本實(shí)施例二在實(shí)施例一的基礎(chǔ)上進(jìn)行進(jìn)一步地優(yōu)化。如圖2所示,所述方法包括:

s201、獲取文本類別標(biāo)注數(shù)據(jù)。

需要說明的是,構(gòu)建詞向量的目的是用于訓(xùn)練文本分類模型,因此,這些文本類別標(biāo)注數(shù)據(jù)也可以稱作訓(xùn)練數(shù)據(jù)。若訓(xùn)練數(shù)據(jù)所屬的文本類別的個(gè)數(shù)為n,則訓(xùn)練數(shù)據(jù)的文本標(biāo)簽列表為label_list=(l_1,l_2…,l_n),其中,n為大于等于2的自然數(shù)。

s202、依據(jù)文本類別標(biāo)注數(shù)據(jù)構(gòu)建全局詞典,該全局詞典中的每個(gè)詞對(duì)應(yīng)有各自所屬的文本類別。

由于全局詞典(global_dict)由訓(xùn)練文本中出現(xiàn)過的詞構(gòu)成,每個(gè)詞在global_dict中都有一個(gè)與位置對(duì)應(yīng)的下標(biāo)k,例如,w_k表示global_dict中的第k個(gè)詞,k為自然數(shù)。

s203、計(jì)算全局詞典中每個(gè)詞在其所屬的文本類別中出現(xiàn)的概率與該詞在全局詞典中出現(xiàn)的概率的比值,并計(jì)算該比值的對(duì)數(shù),得到每個(gè)詞對(duì)應(yīng)的對(duì)數(shù)值,對(duì)數(shù)值的個(gè)數(shù)與所述文本類別的個(gè)數(shù)相同;將所述每個(gè)詞對(duì)應(yīng)的對(duì)數(shù)值作為該詞的詞向量中的元素。

具體的,global_dict中第k個(gè)詞w_k的詞向量word_vec_k可以表示為word_vec_k=(v_k_l_1,v_k_l_2,…,v_k_l_n),其長(zhǎng)度與文本類別的個(gè)數(shù)n有關(guān)。其中,v_k_l_m與詞word_k在l_m類文本中出現(xiàn)的概率相關(guān),1≤m≤n。

優(yōu)選的,可以采用如下兩種方式計(jì)算全局詞典中每個(gè)詞的詞向量,其中v_m_k即表示全局詞典中第k個(gè)詞的詞向量中,與文本類別m對(duì)應(yīng)位置的元素值。

公式一:

其中,appearance(w_k,l_m)為l_m類文本中含有詞w_k的文本數(shù),1為平滑系數(shù),避免出現(xiàn)零值,document_count(l_m)為標(biāo)注數(shù)據(jù)中l(wèi)_m類文本的個(gè)數(shù),兩者的比值即為l_m類文本包含詞w_k的概率的估計(jì)值。appearance(w_k,all_document)為所有的標(biāo)注文本中含有詞w_k的文本數(shù),document_count(all_document)為標(biāo)注文本的個(gè)數(shù),兩者的比值即為所有標(biāo)注文本包含詞w_k的概率的估計(jì)值。

公式二:

其中,word_count(w_k,l_m)為詞w_k在l_m類文本中出現(xiàn)的次數(shù),1為平滑系數(shù),避免出現(xiàn)零值,為帶平滑的l_m類文本中所有詞出現(xiàn)的總次數(shù),兩者的比值為在l_m類文本中詞w_k出現(xiàn)的概率。word_count(w_k,all_document)為詞w_k在所有的標(biāo)注文本中出現(xiàn)的次數(shù),為所有的標(biāo)注文本中所有詞出現(xiàn)的次數(shù)的平滑值的和,兩者的比值為在所有標(biāo)注文本中詞w_k出現(xiàn)的概率。

s204、初始化目標(biāo)詞向量為全零向量,其中,目標(biāo)詞向量的長(zhǎng)度為文本類別的個(gè)數(shù)與全局詞典中詞的總個(gè)數(shù)的乘積。

例如,若要構(gòu)建任意指定文本d的目標(biāo)詞向量vec(d),那么vec(d)的長(zhǎng)度為文本類別的個(gè)數(shù)即標(biāo)簽列表的長(zhǎng)度len(label_list)乘以全局詞典global_dict中詞的個(gè)數(shù)len(global_dict)。并將目標(biāo)詞向量中各個(gè)元素初始化為零。

s205、查找目標(biāo)文本中每個(gè)詞在所述全局詞典中的位置,依據(jù)該位置和文本類別的個(gè)數(shù)計(jì)算出目標(biāo)文本中每個(gè)詞在其目標(biāo)詞向量中的目標(biāo)位置。

s206、將目標(biāo)文本中每個(gè)詞在其目標(biāo)詞向量中的目標(biāo)位置對(duì)應(yīng)的元素,替換為該詞在所述全局詞典中對(duì)應(yīng)的詞向量。

具體的,對(duì)文本d中出現(xiàn)的每個(gè)詞,查找其在global_dict中的下標(biāo)k,那么該詞在其目標(biāo)詞向量中的目標(biāo)位置則可以根據(jù)k和文本類別的個(gè)數(shù),即標(biāo)簽列表的長(zhǎng)度len(label_list)計(jì)算出來。

例如,若k是大于等于0的自然數(shù),則該詞在其目標(biāo)詞向量中的目標(biāo)位置為k*len(label_list)+1到(k+1)*len(label_list)。舉例來說,若len(label_list)為2,len(global_dict)為4,那么文本d的目標(biāo)詞向量vec(d)的長(zhǎng)度為2*4=8,若global_dict中詞的位置分別為0~3,vec(d)中對(duì)應(yīng)的位置分別為0~7。若文本d中當(dāng)前要計(jì)算的詞在global_dict中的位置即下標(biāo)k為3,則該詞在其目標(biāo)詞向量中的目標(biāo)位置為3*2+1=7到(3+1)*2=8。于是,將vec(d)中第7、8位置對(duì)應(yīng)的元素替換為該詞在global_dict中對(duì)應(yīng)的詞向量word_vec_3。

需要說明的是,構(gòu)建出全部標(biāo)注文本的詞向量之后,則可以結(jié)合這些文本的標(biāo)簽信息構(gòu)建訓(xùn)練數(shù)據(jù)集,然后可以利用諸如svm、邏輯回歸、決策樹(包含基于決策樹的集成分類算法,例如randomforest(隨機(jī)森林)、gbdt(梯度提升決策樹))或神經(jīng)網(wǎng)絡(luò)等分類算法訓(xùn)練文本自動(dòng)分類器,以便利用該文本自動(dòng)分類器進(jìn)行文本分類。

本發(fā)明實(shí)施例依據(jù)全局詞典中每個(gè)詞在其所屬的文本類別中出現(xiàn)的概率來計(jì)算并構(gòu)建每個(gè)詞的詞向量,從而能夠區(qū)分文本在不同類別中的差異信息,將這種文本的差異化信息帶入詞向量空間,使得分類性能優(yōu)異,尤其是在短文本自動(dòng)分類中性能優(yōu)異,在數(shù)據(jù)傾斜比較嚴(yán)重的情況下也有良好的性能,提高分類的召回率和準(zhǔn)確率。

實(shí)施例三

圖3是本發(fā)明實(shí)施例三中的文本的詞向量構(gòu)建裝置的結(jié)構(gòu)示意圖。如圖3所示,文本的詞向量構(gòu)建裝置包括:

全局詞典構(gòu)建模塊310,用于依據(jù)文本類別標(biāo)注數(shù)據(jù)構(gòu)建全局詞典,該全局詞典中的每個(gè)詞對(duì)應(yīng)有各自所屬的文本類別;

詞向量計(jì)算模塊320,用于依據(jù)全局詞典中每個(gè)詞在其所屬的文本類別中出現(xiàn)的概率,計(jì)算每個(gè)詞的詞向量;

目標(biāo)詞向量構(gòu)建模塊330,用于根據(jù)所述文本類別的個(gè)數(shù)、全局詞典中詞的總個(gè)數(shù)和詞向量,構(gòu)建目標(biāo)文本中每個(gè)詞的目標(biāo)詞向量。

優(yōu)選的,詞向量計(jì)算模塊320包括:

第一計(jì)算單元,用于計(jì)算全局詞典中每個(gè)詞在其所屬的文本類別中出現(xiàn)的概率與該詞在全局詞典中出現(xiàn)的概率的比值;

第二計(jì)算單元,用于計(jì)算所述比值的對(duì)數(shù),得到每個(gè)詞對(duì)應(yīng)的對(duì)數(shù)值,對(duì)數(shù)值的個(gè)數(shù)與所述文本類別的個(gè)數(shù)相同;

確定單元,用于將所述每個(gè)詞對(duì)應(yīng)的對(duì)數(shù)值作為該詞的詞向量中的元素。

優(yōu)選的,所述詞向量計(jì)算模塊還用于在計(jì)算全局詞典中每個(gè)詞的詞向量時(shí),設(shè)置有平滑系數(shù)。

優(yōu)選的,目標(biāo)詞向量構(gòu)建模塊330包括:

初始化單元,用于初始化目標(biāo)詞向量為全零向量,其中,目標(biāo)詞向量的長(zhǎng)度為文本類別的個(gè)數(shù)與全局詞典中詞的總個(gè)數(shù)的乘積;

目標(biāo)位置計(jì)算單元,用于查找目標(biāo)文本中每個(gè)詞在所述全局詞典中的位置,依據(jù)該位置和文本類別的個(gè)數(shù)計(jì)算出目標(biāo)文本中每個(gè)詞在其目標(biāo)詞向量中的目標(biāo)位置;

替換單元,用于將目標(biāo)文本中每個(gè)詞在其目標(biāo)詞向量中的目標(biāo)位置對(duì)應(yīng)的元素,替換為該詞在所述全局詞典中對(duì)應(yīng)的詞向量。

本發(fā)明實(shí)施例所提供的文本的詞向量構(gòu)建裝置可執(zhí)行本發(fā)明任意實(shí)施例所提供的文本的詞向量構(gòu)建方法,具備執(zhí)行方法相應(yīng)的功能模塊和有益效果。

實(shí)施例四

圖4為本發(fā)明實(shí)施例四提供的一種計(jì)算機(jī)設(shè)備的結(jié)構(gòu)示意圖。圖4示出了適于用來實(shí)現(xiàn)本發(fā)明實(shí)施方式的示例性計(jì)算機(jī)設(shè)備12的框圖。圖4顯示的計(jì)算機(jī)設(shè)備12僅僅是一個(gè)示例,不應(yīng)對(duì)本發(fā)明實(shí)施例的功能和使用范圍帶來任何限制。

如圖4所示,計(jì)算機(jī)設(shè)備12以通用計(jì)算設(shè)備的形式表現(xiàn)。計(jì)算機(jī)設(shè)備12的組件可以包括但不限于:一個(gè)或者多個(gè)處理器或者處理單元16,系統(tǒng)存儲(chǔ)器28,連接不同系統(tǒng)組件(包括系統(tǒng)存儲(chǔ)器28和處理單元16)的總線18。

總線18表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲(chǔ)器總線或者存儲(chǔ)器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來說,這些體系結(jié)構(gòu)包括但不限于工業(yè)標(biāo)準(zhǔn)體系結(jié)構(gòu)(isa)總線,微通道體系結(jié)構(gòu)(mac)總線,增強(qiáng)型isa總線、視頻電子標(biāo)準(zhǔn)協(xié)會(huì)(vesa)局域總線以及外圍組件互連(pci)總線。

計(jì)算機(jī)設(shè)備12典型地包括多種計(jì)算機(jī)系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是任何能夠被計(jì)算機(jī)設(shè)備12訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動(dòng)的和不可移動(dòng)的介質(zhì)。

系統(tǒng)存儲(chǔ)器28可以包括易失性存儲(chǔ)器形式的計(jì)算機(jī)系統(tǒng)可讀介質(zhì),例如隨機(jī)存取存儲(chǔ)器(ram)30和/或高速緩存存儲(chǔ)器32。計(jì)算機(jī)設(shè)備12可以進(jìn)一步包括其它可移動(dòng)/不可移動(dòng)的、易失性/非易失性計(jì)算機(jī)系統(tǒng)存儲(chǔ)介質(zhì)。僅作為舉例,存儲(chǔ)系統(tǒng)34可以用于讀寫不可移動(dòng)的、非易失性磁介質(zhì)(圖4未顯示,通常稱為“硬盤驅(qū)動(dòng)器”)。盡管圖4中未示出,可以提供用于對(duì)可移動(dòng)非易失性磁盤(例如“軟盤”)讀寫的磁盤驅(qū)動(dòng)器,以及對(duì)可移動(dòng)非易失性光盤(例如cd-rom,dvd-rom或者其它光介質(zhì))讀寫的光盤驅(qū)動(dòng)器。在這些情況下,每個(gè)驅(qū)動(dòng)器可以通過一個(gè)或者多個(gè)數(shù)據(jù)介質(zhì)接口與總線18相連。存儲(chǔ)器28可以包括至少一個(gè)程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個(gè))程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明各實(shí)施例的功能。

具有一組(至少一個(gè))程序模塊42的程序/實(shí)用工具40,可以存儲(chǔ)在例如存儲(chǔ)器28中,這樣的程序模塊42包括但不限于操作系統(tǒng)、一個(gè)或者多個(gè)應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個(gè)或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實(shí)現(xiàn)。程序模塊42通常執(zhí)行本發(fā)明所描述的實(shí)施例中的功能和/或方法。

計(jì)算機(jī)設(shè)備12也可以與一個(gè)或多個(gè)外部設(shè)備14(例如鍵盤、指向設(shè)備、顯示器24等)通信,還可與一個(gè)或者多個(gè)使得用戶能與該計(jì)算機(jī)設(shè)備12交互的設(shè)備通信,和/或與使得該計(jì)算機(jī)設(shè)備12能與一個(gè)或多個(gè)其它計(jì)算設(shè)備進(jìn)行通信的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(i/o)接口22進(jìn)行。并且,計(jì)算機(jī)設(shè)備12還可以通過網(wǎng)絡(luò)適配器20與一個(gè)或者多個(gè)網(wǎng)絡(luò)(例如局域網(wǎng)(lan),廣域網(wǎng)(wan)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖所示,網(wǎng)絡(luò)適配器20通過總線18與計(jì)算機(jī)設(shè)備12的其它模塊通信。應(yīng)當(dāng)明白,盡管圖中未示出,可以結(jié)合計(jì)算機(jī)設(shè)備12使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動(dòng)器、冗余處理單元、外部磁盤驅(qū)動(dòng)陣列、raid系統(tǒng)、磁帶驅(qū)動(dòng)器以及數(shù)據(jù)備份存儲(chǔ)系統(tǒng)等。

處理單元16通過運(yùn)行存儲(chǔ)在系統(tǒng)存儲(chǔ)器28中的程序,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,例如實(shí)現(xiàn)本發(fā)明實(shí)施例所提供的文本的詞向量構(gòu)建方法:

依據(jù)文本類別標(biāo)注數(shù)據(jù)構(gòu)建全局詞典,該全局詞典中的每個(gè)詞對(duì)應(yīng)有各自所屬的文本類別;

依據(jù)全局詞典中每個(gè)詞在其所屬的文本類別中出現(xiàn)的概率,計(jì)算每個(gè)詞的詞向量;

根據(jù)所述文本類別的個(gè)數(shù)、全局詞典中詞的總個(gè)數(shù)和詞向量,構(gòu)建目標(biāo)文本中每個(gè)詞的目標(biāo)詞向量。

實(shí)施例五

本發(fā)明實(shí)施例五還提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,該程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如本發(fā)明實(shí)施例所提供的文本的詞向量構(gòu)建方法:

依據(jù)文本類別標(biāo)注數(shù)據(jù)構(gòu)建全局詞典,該全局詞典中的每個(gè)詞對(duì)應(yīng)有各自所屬的文本類別;

依據(jù)全局詞典中每個(gè)詞在其所屬的文本類別中出現(xiàn)的概率,計(jì)算每個(gè)詞的詞向量;

根據(jù)所述文本類別的個(gè)數(shù)、全局詞典中詞的總個(gè)數(shù)和詞向量,構(gòu)建目標(biāo)文本中每個(gè)詞的目標(biāo)詞向量。

本發(fā)明實(shí)施例的計(jì)算機(jī)存儲(chǔ)介質(zhì),可以采用一個(gè)或多個(gè)計(jì)算機(jī)可讀的介質(zhì)的任意組合。計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或者計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)存取存儲(chǔ)器(ram)、只讀存儲(chǔ)器(rom)、可擦式可編程只讀存儲(chǔ)器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲(chǔ)器(cd-rom)、光存儲(chǔ)器件、磁存儲(chǔ)器件、或者上述的任意合適的組合。在本文件中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是任何包含或存儲(chǔ)程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。

計(jì)算機(jī)可讀的信號(hào)介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號(hào),其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號(hào)可以采用多種形式,包括但不限于電磁信號(hào)、光信號(hào)或上述的任意合適的組合。計(jì)算機(jī)可讀的信號(hào)介質(zhì)還可以是計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。

計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括——但不限于無線、電線、光纜、rf等等,或者上述的任意合適的組合。

可以以一種或多種程序設(shè)計(jì)語言或其組合來編寫用于執(zhí)行本發(fā)明操作的計(jì)算機(jī)程序代碼,所述程序設(shè)計(jì)語言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語言—諸如java、smalltalk、c++,還包括常規(guī)的過程式程序設(shè)計(jì)語言—諸如”c”語言或類似的程序設(shè)計(jì)語言。程序代碼可以完全地在用戶計(jì)算機(jī)上執(zhí)行、部分地在用戶計(jì)算機(jī)上執(zhí)行、作為一個(gè)獨(dú)立的軟件包執(zhí)行、部分在用戶計(jì)算機(jī)上部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計(jì)算機(jī)的情形中,遠(yuǎn)程計(jì)算機(jī)可以通過任意種類的網(wǎng)絡(luò)——包括局域網(wǎng)(lan)或廣域網(wǎng)(wan)—連接到用戶計(jì)算機(jī),或者,可以連接到外部計(jì)算機(jī)(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。

注意,上述僅為本發(fā)明的較佳實(shí)施例及所運(yùn)用技術(shù)原理。本領(lǐng)域技術(shù)人員會(huì)理解,本發(fā)明不限于這里所述的特定實(shí)施例,對(duì)本領(lǐng)域技術(shù)人員來說能夠進(jìn)行各種明顯的變化、重新調(diào)整和替代而不會(huì)脫離本發(fā)明的保護(hù)范圍。因此,雖然通過以上實(shí)施例對(duì)本發(fā)明進(jìn)行了較為詳細(xì)的說明,但是本發(fā)明不僅僅限于以上實(shí)施例,在不脫離本發(fā)明構(gòu)思的情況下,還可以包括更多其他等效實(shí)施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1