亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

文檔主題的并行生成的制作方法

文檔序號(hào):6484796閱讀:229來(lái)源:國(guó)知局
文檔主題的并行生成的制作方法
【專(zhuān)利摘要】用于增強(qiáng)的并行隱含狄利克雷分布(PLDA+)的方法、系統(tǒng)和設(shè)備,包括被編碼在計(jì)算機(jī)存儲(chǔ)介質(zhì)上的計(jì)算機(jī)程序。PLDA+系統(tǒng)是多個(gè)處理器的系統(tǒng),該多個(gè)處理器被配置成生成多個(gè)文檔的主題。多個(gè)處理器被指定為兩種類(lèi)型:文檔處理器和矩陣處理器。在文檔處理器之間分配文檔。在矩陣處理器之間分配所生成的主題。在文檔處理器和矩陣處理器上執(zhí)行的任務(wù)被分成兩種類(lèi)型的任務(wù):計(jì)算綁定任務(wù)和通信綁定任務(wù)。計(jì)算綁定任務(wù)是CPU密集型任務(wù);通信綁定任務(wù)是網(wǎng)絡(luò)密集型任務(wù)。采用數(shù)據(jù)布置和流水線(xiàn)策略,使得計(jì)算綁定任務(wù)和通信綁定任務(wù)以均衡方式被分發(fā)給各處理器,并且被并行執(zhí)行。
【專(zhuān)利說(shuō)明】文檔主題的并行生成
【技術(shù)領(lǐng)域】
[0001]本說(shuō)明書(shū)涉及文檔處理。
【背景技術(shù)】
[0002]電子文檔可以具有一個(gè)或更多個(gè)主題。計(jì)算機(jī)可以使用一種被稱(chēng)為主題模型的統(tǒng)計(jì)模型從電子文檔中自動(dòng)提取一個(gè)或更多個(gè)主題。示例主題模型為隱含狄利克雷分布(LDA)0根據(jù)LDA,主題是詞的概率分布。例如,具有與詞斑貓(tabby)、貓叫(purr)和小貓(kitten)相關(guān)聯(lián)的指定的概率分布的主題可以是關(guān)于“貓”的主題。計(jì)算機(jī)可以分析電子文檔,包括例如計(jì)算如文檔中包括的詞斑貓、貓叫和小貓中的每個(gè)詞的概率分布。所計(jì)算的概率分布可以指示該電子文檔與主題“貓”相關(guān)聯(lián)的可能性。主題是抽象的。詞“貓”是抽象的主題的任意標(biāo)簽。
[0003]在LDA中,每個(gè)文檔被建模為K個(gè)主題的混合,其中,每個(gè)主題k是關(guān)于W個(gè)詞的詞匯表的多項(xiàng)分布Φ,。對(duì)于任意文檔4,其主題矩陣Θ ^是使用參數(shù)α從狄利克雷先驗(yàn)(Dirichlet prior)中得到的概率分布。對(duì)于d」中的每個(gè)第i個(gè)詞Xij,從Θ」中得到主題Zij = k,并且從Φ,中得到詞Xij。因此,由下式給出LDA的生成操作:
[0004]Θ j ~Dir ( α ), Φ k ~Dir ( β ), Zij = k ~Θ」,Xij ~Φ k, (I)
[0005]其中,Dir(*)表示狄利克雷分布;α和β各自是狄利克雷先驗(yàn)。

【發(fā)明內(nèi)容】

[0006]描述了增強(qiáng)的并行隱含狄利克雷分布(PLDA+)系統(tǒng)和方法。PLDA+系統(tǒng)是多個(gè)處理器的系統(tǒng),多個(gè)處理器被配置成生成多`個(gè)文檔的主題。多個(gè)處理器被指定為兩種類(lèi)型:文檔處理器和矩陣處理器。在該上下文中,術(shù)語(yǔ)“處理器”指代被配置成執(zhí)行下面所描述的視情況而定由文檔處理器或矩陣處理器執(zhí)行的動(dòng)作的計(jì)算機(jī)。計(jì)算機(jī)可以被配置成借助使軟件、固件、硬件或其組合安裝在計(jì)算機(jī)上來(lái)執(zhí)行這些動(dòng)作,該軟件、固件、硬件或其組合在工作中使得系統(tǒng)執(zhí)行這些動(dòng)作。類(lèi)似地,一個(gè)或更多個(gè)計(jì)算機(jī)程序可以被配置成借助包括指令來(lái)執(zhí)行特定動(dòng)作,在由一個(gè)或更多個(gè)計(jì)算機(jī)執(zhí)行這些指令時(shí)使得計(jì)算機(jī)執(zhí)行這些動(dòng)作。
[0007]文檔在文檔處理器之間分配。生成的主題在矩陣處理器之間分配。在文檔處理器和矩陣處理器上執(zhí)行的任務(wù)被分成兩種類(lèi)型的任務(wù):計(jì)算綁定任務(wù)和通信綁定任務(wù)。計(jì)算綁定任務(wù)是CPU密集型任務(wù);通信綁定任務(wù)是網(wǎng)絡(luò)密集型任務(wù)。使用數(shù)據(jù)布置(dataplacement)和流水線(xiàn)策略(pipeline strategy),使得計(jì)算綁定任務(wù)和通信綁定任務(wù)以均衡方式被分發(fā)給處理器并且被并行執(zhí)行。
[0008]一般地,本說(shuō)明書(shū)中所描述的主題的一個(gè)方面可以用以下操作來(lái)實(shí)施,這些操作包括使用一個(gè)或更多個(gè)文檔處理器和多個(gè)矩陣處理器從一個(gè)或更多個(gè)文檔的集合提取詞-主題矩陣。詞-主題矩陣包括一個(gè)或更多個(gè)文檔的集合的多個(gè)主題。至少部分地由詞集中的一個(gè)或更多個(gè)詞來(lái)定義主題中的每個(gè)主題。一個(gè)或更多個(gè)詞中的每個(gè)詞與概率相關(guān)聯(lián)。根據(jù)一個(gè)或更多個(gè)文檔的集合的詞索引來(lái)創(chuàng)建詞集。至少部分地由與一個(gè)或更多個(gè)主題相對(duì)應(yīng)的第一維度以及與詞集相對(duì)應(yīng)的第二維度來(lái)定義詞-主題矩陣。
[0009]矩陣處理器包括至少第一矩陣處理器和第二矩陣處理器。第一矩陣處理器被配置成存儲(chǔ)和處理與詞集的第一子集相對(duì)應(yīng)的詞-主題矩陣的第一部分。第二矩陣處理器被配置成存儲(chǔ)和處理與詞集的第二子集相對(duì)應(yīng)的詞-主題矩陣的第二部分。
[0010]一個(gè)或更多個(gè)文檔處理器中的每個(gè)被配置成執(zhí)行主題提取操作和矩陣交換操作。主題提取操作包括使用存儲(chǔ)在第一矩陣處理器處的詞-主題矩陣的第一部分來(lái)針對(duì)一個(gè)或更多個(gè)第一主題對(duì)一個(gè)或更多個(gè)文檔的集合進(jìn)行采樣。第一主題可以包括一個(gè)或更多個(gè)文檔的集合的多個(gè)主題的至少一部分。矩陣交換操作包括獲取操作(fetching operation)或更新操作中的至少之一。獲取操作包括從第二矩陣處理器獲取待在針對(duì)一個(gè)或更多個(gè)第二主題對(duì)一個(gè)或更多個(gè)文檔的集合進(jìn)行采樣時(shí)使用的詞-主題矩陣的第二部分。第二主題可以包括一個(gè)或更多個(gè)文檔的集合的多個(gè)主題的至少一部分,并且可以與第一主題相同或不同。更新操作包括:當(dāng)提取到至少一個(gè)第二主題時(shí),請(qǐng)求第二矩陣處理器使用所提取的第二主題來(lái)更新詞-主題矩陣的第二部分,其中所提取的第二主題對(duì)應(yīng)于第二子集中的詞。[0011 ] 可選地,這些實(shí)施方式和其他實(shí)施方式可以包括下面的特征中的一個(gè)或更多個(gè)。這些操作還包括將詞集中的詞組織為循環(huán)隊(duì)列。一個(gè)或更多個(gè)文檔處理器包括多個(gè)處理器。操作還包括將多個(gè)文檔處理器中的第一文檔處理器配置成使用隊(duì)列的第一位置處的詞來(lái)開(kāi)始執(zhí)行主題提取操作;以及將多個(gè)文檔處理器中的第二文檔處理器配置成使用隊(duì)列的第二位置處的詞來(lái)開(kāi)始執(zhí)行主題提取操作,其中,第一位置不同于第二位置。
[0012]操作還可以包括根據(jù)加權(quán)輪詢(xún)調(diào)度(round robin schedule)將詞集中的詞分配給多個(gè)矩陣處理器。根據(jù)加權(quán)輪詢(xún)調(diào)度來(lái)對(duì)詞進(jìn)行分配可以包括:確定詞集中的每個(gè)詞的權(quán)重;確定多個(gè)矩陣處理器中的每個(gè)處理器的負(fù)荷;根據(jù)詞的權(quán)重對(duì)詞集中的詞進(jìn)行排序;以及迭代地將具有最大權(quán)重的詞分配給具有最小負(fù)荷的矩陣處理器。確定詞集中的每個(gè)詞的權(quán)重可以包括確定駐留有詞的文檔處理器的數(shù)量。確定多個(gè)矩陣處理器中的每個(gè)矩陣處理器的負(fù)荷可以包括確定該矩陣處理器上詞的權(quán)重之和。
[0013]操作還可以包括將一個(gè)或更多個(gè)文檔處理器中的每個(gè)文檔處理器配置成基于第一詞束(word bundle)和第二詞束執(zhí)行主題提取操作。第一詞束可以對(duì)應(yīng)于詞集的第一子集。第二詞束可以對(duì)應(yīng)于詞集的第二子集。針對(duì)一個(gè)或更多個(gè)第一主題對(duì)一個(gè)或更多個(gè)文檔的集合進(jìn)行采樣包括:對(duì)一個(gè)或更多個(gè)文檔的集合執(zhí)行吉布斯采樣。
[0014]本說(shuō)明書(shū)中所描述的主題的另一方面可以用以下操作來(lái)實(shí)施,這些操作包括將詞-主題矩陣的第一部分分配給第一矩陣處理器。詞-主題矩陣包括一個(gè)或更多個(gè)文檔的集合的多個(gè)主題。每個(gè)主題包括詞集中的一個(gè)或更多個(gè)詞。一個(gè)或更多個(gè)詞中的每個(gè)詞與相應(yīng)概率相關(guān)聯(lián)。詞集包括來(lái)自一個(gè)或更多個(gè)文檔的集合的詞索引的詞。操作包括將詞-主題矩陣的第二部分分配給第二矩陣處理器。詞-主題矩陣的第二部分不同于詞-主題矩陣的第一部分。操作包括在文檔處理器上執(zhí)行主題提取操作。文檔提取操作包括使用存儲(chǔ)在第一矩陣處理器處的詞-主題矩陣的第一部分來(lái)針對(duì)一個(gè)或更多個(gè)第一主題對(duì)一個(gè)或更多個(gè)文檔的集合進(jìn)行采樣。操作包括在文檔處理器上并且與執(zhí)行主題提取操作并行地執(zhí)行矩陣交換操作。矩陣操作包括獲取操作或更新操作中的至少一個(gè)。獲取操作包括從第二矩陣處理器獲取要在針對(duì)一個(gè)或更多個(gè)第二主題對(duì)一個(gè)或更多個(gè)文檔的集合進(jìn)行采樣時(shí)使用的詞-主題矩陣的第二部分。更新操作包括,當(dāng)提取到至少一個(gè)第二主題時(shí),請(qǐng)求第二矩陣處理器使用所提取的第二主題更新詞-主題矩陣中的第二部分,其中所提取的第二主題對(duì)應(yīng)于第二子集中的詞。
[0015]本說(shuō)明書(shū)中所描述的技術(shù)能夠減少常規(guī)并行隱含狄利克雷分布(PLDA)的通信瓶頸。更具體地,并行執(zhí)行計(jì)算綁定任務(wù)和通信綁定任務(wù)以提高PLDA的性能。在并行處理中,計(jì)算綁定任務(wù)屏蔽(mask)通信綁定任務(wù),使得通信綁定任務(wù)的處理時(shí)間并不對(duì)主題生成的總處理時(shí)間做出顯著貢獻(xiàn)。另外,本說(shuō)明書(shū)中所描述的技術(shù)使得能夠在多個(gè)處理器之間實(shí)現(xiàn)靈活的負(fù)荷均衡,進(jìn)一步增強(qiáng)了性能。另外,常規(guī)的主題提取方法,包括PLDA,經(jīng)常將全部詞-主題計(jì)數(shù)保存在每個(gè)處理器的存儲(chǔ)器中。本說(shuō)明書(shū)中所描述的技術(shù)將詞-主題矩陣分發(fā)給多個(gè)矩陣處理器,降低了每個(gè)處理器處的存儲(chǔ)器需求。
[0016]在附圖和下面的描述中對(duì)本說(shuō)明書(shū)中所描述的主題的實(shí)施方式的細(xì)節(jié)進(jìn)行闡述。該主題的其他特征、方面和優(yōu)點(diǎn)將根據(jù)描述、附圖和權(quán)利要求而變得明顯。
【專(zhuān)利附圖】

【附圖說(shuō)明】
[0017]圖1A是示出用于使用PLDA技術(shù)從文檔中提取主題的示例處理器的框圖。
[0018]圖1B是示出示例PLDA+系統(tǒng)的框圖。
[0019]圖2是示出數(shù)據(jù)布置技術(shù)的示例主題分布模式的框圖。
[0020]圖3A和圖3B是示出處理流水線(xiàn)技術(shù)的示例事件序列的圖。
[0021]圖4是示出PLDA+系統(tǒng)中的示例詞捆綁(word bundling)技術(shù)的圖。
[0022]圖5A和圖5B是示出PLDA+系統(tǒng)中的各個(gè)處理器處的數(shù)據(jù)布置的框圖。
[0023]圖6是示出示例PLDA+過(guò)程的流程圖。
[0024]圖7是示出用于執(zhí)行基于流水線(xiàn)的吉布斯采樣的示例過(guò)程的流程圖。
[0025]圖8是示出PLDA+的通信方案的框圖。
[0026]圖9是示出在PLDA+系統(tǒng)中將處理器指定為文檔處理器或矩陣處理器的技術(shù)的框圖。
[0027]各個(gè)圖中的相似的附圖標(biāo)記和命名指示相似的元件。
【具體實(shí)施方式】
[0028]圖1A是示出用于使用PLDA+技術(shù)從文檔中提取主題的示例處理器的框圖。在PLDA+中,利用多個(gè)處理器從文檔中提取主題。處理器102是多個(gè)處理器中的代表處理器。
[0029]在主題提取操作中,主題被表示為一個(gè)或更多個(gè)詞-主題矩陣。當(dāng)利用多個(gè)處理器從文檔中提取主題時(shí),傳統(tǒng)的PLDA技術(shù)通常具有兩個(gè)特征。每個(gè)處理器保存整個(gè)詞-主題矩陣。每個(gè)處理器向其他處理器發(fā)送整個(gè)詞-主題矩陣并且從其他處理器處接收整個(gè)詞-主題矩陣。相比之下,在PLDA+中,文檔和詞-主題矩陣分布在多個(gè)處理器處。在矩陣交換操作中,所分布的矩陣在處理器之間同步。PLDA+中的主題提取操作和矩陣交換操作并行執(zhí)行,從而相比于這些操作串行執(zhí)行的常規(guī)PLDA技術(shù),提高了計(jì)算和通信效率。
[0030]處理器102被配置成從D個(gè)文檔中提取主題,其中D表示任意數(shù)字。D個(gè)文檔在P個(gè)處理器之間分配。作為P個(gè)處理器之一的處理器102保存大約D/P個(gè)文檔。D個(gè)文檔對(duì)應(yīng)于文檔中的詞的詞匯表。詞匯表包括W個(gè)詞。處理器102存儲(chǔ)矩陣104,矩陣104表示D/P個(gè)文檔與W個(gè)詞之間的對(duì)應(yīng)關(guān)系。矩陣104是(D/P) XW矩陣。[0031]處理器102也存儲(chǔ)詞-主題矩陣106。詞-主題矩陣106是表示K個(gè)主題與W個(gè)詞的詞匯表之間的對(duì)應(yīng)關(guān)系的矩陣。詞-主題矩陣106是KXW矩陣,其中主題作為一個(gè)維度,詞作為另一維度。詞-主題矩陣106中的每個(gè)元素可以表示相應(yīng)主題中的詞的計(jì)數(shù)??梢酝ㄟ^(guò)對(duì)于D/P個(gè)文檔的吉布斯采樣的多次迭代來(lái)構(gòu)造詞-主題矩陣106。
[0032]在吉布斯采樣的每次迭代之后,本地詞-主題矩陣被全局同步。本地詞-主題矩陣包括在處理器102處本地存儲(chǔ)的詞-主題矩陣106。當(dāng)詞-主題矩陣106與存儲(chǔ)在其他處理器上的矩陣同步時(shí),詞-主題矩陣106被全局同步。
[0033]圖1B是示出示例PLDA+系統(tǒng)110的框圖。在PLDA+系統(tǒng)110中,利用數(shù)據(jù)布置和處理流水線(xiàn)技術(shù)相比于傳統(tǒng)的PLDA增強(qiáng)了分布式處理的性能。
[0034]從高等級(jí)來(lái)看,PLDA+系統(tǒng)110分部分地保存被分發(fā)給各個(gè)處理器的多個(gè)矩陣,以用于從文檔中提取主題。多個(gè)矩陣包括詞-主題矩陣和文檔-主題矩陣。詞-主題矩陣(也稱(chēng)為詞-主題計(jì)數(shù)矩陣)被表示為CWOTd。詞-主題矩陣是具有如下多個(gè)元素的數(shù)據(jù)結(jié)構(gòu):其中,每個(gè)元素Cwk是被分配給主題k的詞W的數(shù)量。文檔-主題矩陣(也稱(chēng)為文檔-主題計(jì)數(shù)矩陣)被表示為Cd'文檔-主題矩陣是如下具有多個(gè)元素的數(shù)據(jù)結(jié)構(gòu):其中,每個(gè)元素Ckj是被分配給文檔4的主題k的數(shù)量。另外,PLDA+系統(tǒng)110保存主題計(jì)數(shù)向量Ctt)pi%在向量Ctopie中,每個(gè)元素Ck是文檔集合(collection)中的主題k分配的數(shù)量。給定除了一個(gè)變量Zu之外的所有變量的當(dāng)前狀態(tài),其中Zij表示詞Xu的主題分配(xu是文檔4中的第i個(gè)詞),則2〃的條件概率為:
【權(quán)利要求】
1.一種方法,包括: 使用一個(gè)或更多個(gè)文檔處理器以及多個(gè)矩陣處理器從一個(gè)或更多個(gè)文檔的集合提取詞-主題矩陣,所述詞-主題矩陣包括所述一個(gè)或更多個(gè)文檔的集合的多個(gè)主題,其中:至少部分地由詞集中的一個(gè)或更多個(gè)詞來(lái)定義所述主題中的每個(gè)主題,所述一個(gè)或更多個(gè)詞中的每個(gè)詞與相應(yīng)概率相關(guān)聯(lián),所述詞集包括來(lái)自所述一個(gè)或更多個(gè)文檔的集合的詞索引的詞; 至少部分地由與所述一個(gè)或更多個(gè)主題相對(duì)應(yīng)的第一維度以及與所述詞集相對(duì)應(yīng)的第二維度來(lái)定義所述詞-主題矩陣; 所述矩陣處理器包括: 第一矩陣處理器,被編程成存儲(chǔ)和處理所述詞-主題矩陣的與所述詞集的第一子集相對(duì)應(yīng)的第一部分;以及 第二矩陣處理器,被編程成存儲(chǔ)和處理所述詞-主題矩陣的與所述詞集的第二子集相對(duì)應(yīng)的第二部分,所述詞集的所述第二子集不同于所述第一子集;并且 所述一個(gè)或更多個(gè)文檔處理器中的每個(gè)文檔處理器被編程成與矩陣交換操作并行地執(zhí)行主題提取操作,其中: 所述主題提取操作包括使用所述詞-主題矩陣的被存儲(chǔ)在所述第一矩陣處理器處的所述第一部分來(lái)針對(duì)一個(gè)或更多個(gè)第一主題對(duì)所述一個(gè)或更多個(gè)文檔的集合進(jìn)行采樣;并且 所述矩陣交換操作包括以下操作中的至少之一: 從所述第二矩陣處理器獲取要在針對(duì)一個(gè)或更多個(gè)第二主題對(duì)所述一個(gè)或更多個(gè)文檔的集合進(jìn)行采樣時(shí)使用的所述詞-主題矩陣的所述第二部分;或者 當(dāng)提取到至少一個(gè)第二主題時(shí),請(qǐng)求所述第二矩陣處理器使用所提取的第二主題更新所述詞-主題矩陣的所述第二部分,其中所提取的第二主題對(duì)應(yīng)于所述第二子集中的詞。
2.根據(jù)權(quán)利要求1所述的方法,其中, 所述一個(gè)或更多個(gè)文檔處理器包括多個(gè)處理器;并且 所述方法還包括: 將所述詞集中的詞組織為循環(huán)隊(duì)列; 將所述多個(gè)文檔處理器中的第一文檔處理器配置成使用所述循環(huán)隊(duì)列的第一位置處的詞開(kāi)始執(zhí)行主題提取操作;以及 將所述多個(gè)文檔處理器中的第二文檔處理器配置成使用所述循環(huán)隊(duì)列的第二位置處的詞開(kāi)始執(zhí)行主題提取操作,其中所述第一位置不同于所述第二位置。
3.根據(jù)權(quán)利要求1所述的方法,還包括: 根據(jù)加權(quán)輪詢(xún)調(diào)度將所述詞集中的詞分配給所述多個(gè)矩陣處理器。
4.根據(jù)權(quán)利要求3所述的方法,其中,根據(jù)所述加權(quán)輪詢(xún)調(diào)度分配所述詞包括: 確定所述詞集中的每個(gè)詞的權(quán)重; 確定所述多個(gè)矩陣處理器中的每個(gè)矩陣處理器的負(fù)荷; 根據(jù)所述詞的權(quán)重對(duì)所述詞集中的所述詞進(jìn)行排序;以及 迭代地將具有最大權(quán)重的詞分配給具有最小負(fù)荷的矩陣處理器。
5.根據(jù)權(quán)利要求4所述的方法,其中,確定所述詞集中的每個(gè)詞的權(quán)重包括確定駐留有所述詞的文檔處理器的數(shù)量。
6.根據(jù)權(quán)利要求5所述的方法,其中,確定所述多個(gè)矩陣處理器中的所述每個(gè)矩陣處理器的負(fù)荷包括確定所述矩陣處理器上詞的權(quán)重之和。
7.根據(jù)權(quán)利要求1所述的方法,還包括: 將所述一個(gè)或更多個(gè)文檔處理器中的每個(gè)文檔處理器配置成基于第一詞束和第二詞束執(zhí)行主題提取操作,所述第一詞束對(duì)應(yīng)于所述詞集的所述第一子集,所述第二詞束對(duì)應(yīng)于所述詞集的所述第二子集。
8.根據(jù)權(quán)利要求1所述的方法,其中,針對(duì)一個(gè)或更多個(gè)第一主題對(duì)所述一個(gè)或更多個(gè)文檔的集合進(jìn)行采樣包括對(duì)所述一個(gè)或更多個(gè)文檔的集合執(zhí)行吉布斯采樣。
9.一種系統(tǒng),包括: 一個(gè)或更多個(gè)文檔處理器以及多個(gè)矩陣處理器,所述系統(tǒng)被配置成執(zhí)行包括以下操作的操作: 使用所述一個(gè)或更多個(gè)文檔處理器以及所述多個(gè)矩陣處理器從一個(gè)或更多個(gè)文檔的集合提取詞-主題矩陣,所述詞-主題矩陣包括所述一個(gè)或更多個(gè)文檔的集合的多個(gè)主題,其中: 至少部分地由詞集中的一個(gè)或更多個(gè)詞來(lái)定義所述主題中的每個(gè)主題,所述一個(gè)或更多個(gè)詞中的每個(gè) 詞與概率相關(guān)聯(lián),所述詞集包括來(lái)自所述一個(gè)或更多個(gè)文檔的集合的詞索引的詞; 至少部分地由與所述一個(gè)或更多個(gè)主題相對(duì)應(yīng)的第一維度以及與所述詞集相對(duì)應(yīng)的第二維度來(lái)定義所述詞-主題矩陣; 所述矩陣處理器包括: 第一矩陣處理器,被編程成存儲(chǔ)和處理所述詞-主題矩陣的與所述詞集的第一子集相對(duì)應(yīng)的第一部分;以及 第二矩陣處理器,被編程成存儲(chǔ)和處理所述詞-主題矩陣的與所述詞集的第二子集相對(duì)應(yīng)的第二部分;并且 所述一個(gè)或更多個(gè)文檔處理器中的每個(gè)文檔處理器被編程成執(zhí)行主題提取操作和矩陣交換操作,所述主題提取操作與所述矩陣交換操作并行執(zhí)行,其中: 所述主題提取操作包括使用所述詞-主題矩陣的被存儲(chǔ)在所述第一矩陣處理器處的所述第一部分來(lái)針對(duì)一個(gè)或更多個(gè)第一主題對(duì)所述一個(gè)或更多個(gè)文檔的集合進(jìn)行采樣;并且 所述矩陣交換操作包括以下操作中的至少之一: 從所述第二矩陣處理器獲取要在針對(duì)一個(gè)或更多個(gè)第二主題對(duì)所述一個(gè)或更多個(gè)文檔的集合進(jìn)行采樣時(shí)使用的所述詞-主題矩陣的所述第二部分;或者 當(dāng)提取到至少一個(gè)第二主題時(shí),請(qǐng)求所述第二矩陣處理器使用所提取的第二主題更新所述詞-主題矩陣的所述第二部分,其中所提取的第二主題對(duì)應(yīng)于所述第二子集中的詞。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其中, 所述一個(gè)或更多個(gè)文檔處理器包括多個(gè)處理器;并且 所述方法還包括: 將所述詞集中的詞組織為循環(huán)隊(duì)列;將所述多個(gè)文檔處理器中的第一文檔處理器配置成使用所述循環(huán)隊(duì)列的第一位置處的詞開(kāi)始執(zhí)行主題提取操作;以及 將所述多個(gè)文檔處理器中的第二文檔處理器配置成使用所述循環(huán)隊(duì)列的第二位置處的詞開(kāi)始執(zhí)行主題提取操作,其中所述第一位置不同于所述第二位置。
11.根據(jù)權(quán)利要求9所述的系統(tǒng),所述方法還包括根據(jù)加權(quán)輪詢(xún)調(diào)度將所述詞集中的詞分配給所述多個(gè)矩陣處理器。
12.根據(jù)權(quán)利要求11所述的系統(tǒng),其中根據(jù)所述加權(quán)輪詢(xún)調(diào)度分配所述詞包括: 確定所述詞集中的每個(gè)詞的權(quán)重; 確定所述多個(gè)矩陣處理器中的每個(gè)矩陣處理器的負(fù)荷; 根據(jù)所述詞的權(quán)重對(duì)所述詞集中的所述詞進(jìn)行排序;以及 迭代地將具有最大權(quán)重的詞分配給具有最小負(fù)荷的矩陣處理器。
13.根據(jù)權(quán)利要求12所述的系統(tǒng),其中,確定所述詞集中的每個(gè)詞的權(quán)重包括確定駐留有所述詞的文檔處理器的數(shù)量。
14.根據(jù)權(quán)利要求13所述的系統(tǒng),其中,確定所述多個(gè)矩陣處理器中的每個(gè)矩陣處理器的負(fù)荷包括確定所述矩陣處理器上詞的權(quán)重之和。
15.一種計(jì)算機(jī)程序產(chǎn)品,其被編碼在計(jì)算機(jī)可讀存儲(chǔ)裝置上,并且可操作以使得一個(gè)或更多個(gè)文檔處理器以及多個(gè)矩陣處理器執(zhí)行包括以下操作的操作: 從一個(gè)或更多個(gè)文檔的集合提取詞-主題矩陣,所述詞-主題矩陣包括所述一個(gè)或更多個(gè)文檔的集合的多個(gè)主題,其中:` 至少部分地由詞集中的一個(gè)或更多個(gè)詞來(lái)定義所述主題中的每個(gè)主題,所述一個(gè)或更多個(gè)詞中的每個(gè)詞與概率相關(guān)聯(lián),所述詞集是根據(jù)所述一個(gè)或更多個(gè)文檔的集合的詞索引來(lái)創(chuàng)建的; 至少部分地由與所述一個(gè)或更多個(gè)主題相對(duì)應(yīng)的第一維度以及與所述詞集相對(duì)應(yīng)的第二維度來(lái)定義所述詞-主題矩陣; 所述矩陣處理器包括: 第一矩陣處理器,被編程成存儲(chǔ)和處理所述詞-主題矩陣的與所述詞集的第一子集相對(duì)應(yīng)的第一部分;以及 第二矩陣處理器,被編程成存儲(chǔ)和處理所述詞-主題矩陣的與所述詞集的第二子集相對(duì)應(yīng)的第二部分;并且 所述一個(gè)或更多個(gè)文檔處理器中的每個(gè)文檔處理器被編程成執(zhí)行主題提取操作和矩陣交換操作,所述主題提取操作與所述矩陣交換操作并行執(zhí)行,其中: 所述主題提取操作包括使用所述詞-主題矩陣的被存儲(chǔ)在所述第一矩陣處理器處的所述第一部分來(lái)針對(duì)一個(gè)或更多個(gè)第一主題對(duì)所述一個(gè)或更多個(gè)文檔的集合進(jìn)行采樣;并且 所述矩陣交換操作包括以下操作中的至少之一: 從所述第二矩陣處理器獲取要在針對(duì)一個(gè)或更多個(gè)第二主題對(duì)所述一個(gè)或更多個(gè)文檔的集合進(jìn)行采樣時(shí)使用的所述詞-主題矩陣的所述第二部分;或者 當(dāng)提取到至少一個(gè)第二主題時(shí),請(qǐng)求所述第二矩陣處理器使用所提取的第二主題更新所述詞-主題矩陣的所述第二部分,其中所提取的第二主題對(duì)應(yīng)于所述第二子集中的詞。
16.根據(jù)權(quán)利要求15所述的產(chǎn)品,其中, 所述一個(gè)或更多個(gè)文檔處理器包括多個(gè)處理器;并且 所述方法還包括: 將所述詞集中的詞組織為循環(huán)隊(duì)列; 將所述多個(gè)文檔處理器中的第一文檔處理器配置成使用所述循環(huán)隊(duì)列的第一位置處的詞開(kāi)始執(zhí)行主題提取操作;以及 將所述多個(gè)文檔處理器中的第二文檔處理器配置成使用所述循環(huán)隊(duì)列的第二位置處的詞開(kāi)始執(zhí)行主題提取操作,其中所述第一位置不同于所述第二位置。
17.根據(jù)權(quán)利要求15所述的產(chǎn)品,所述操作還包括根據(jù)加權(quán)輪詢(xún)調(diào)度將所述詞集中的詞分配給所述多個(gè)矩陣處理器。
18.根據(jù)權(quán)利要求17所述的產(chǎn)品,其中,根據(jù)所述加權(quán)輪詢(xún)調(diào)度分配所述詞包括: 確定所述詞集中的每個(gè)詞的權(quán)重; 確定所述多個(gè)矩陣處理器中的每個(gè)矩陣處理器的負(fù)荷; 根據(jù)所述詞的權(quán)重對(duì)所述詞集中的所述詞進(jìn)行排序;以及 迭代地將具有最大權(quán)重的詞分配給具有最小負(fù)荷的矩陣處理器。
19.根據(jù)權(quán)利要求18所述的產(chǎn)品,其中,確定所述詞集中的每個(gè)詞的權(quán)重包括確定駐留有所述詞的文檔處理器的數(shù)量。
20.根據(jù)權(quán)利要求19所述的產(chǎn)品,其中,確定所述多個(gè)矩陣處理器中的每個(gè)矩陣處理器的負(fù)荷包括確定所述矩 陣處理器上詞的權(quán)重之和。
21.根據(jù)權(quán)利要求15所述的產(chǎn)品,所述操作還包括將所述一個(gè)或更多個(gè)文檔處理器中的每個(gè)文檔處理器配置成基于第一詞束和第二詞束執(zhí)行主題提取操作,所述第一詞束對(duì)應(yīng)于所述詞集的所述第一子集,所述第二詞束對(duì)應(yīng)于所述詞集的所述第二子集。
22.根據(jù)權(quán)利要求15所述的產(chǎn)品,其中,針對(duì)一個(gè)或更多個(gè)第一主題對(duì)所述一個(gè)或更多個(gè)文檔的集合進(jìn)行采樣包括對(duì)所述一個(gè)或更多個(gè)文檔的集合執(zhí)行吉布斯采樣。
23.一種由一個(gè)或更多個(gè)計(jì)算機(jī)執(zhí)行的方法,包括: 將詞-主題矩陣的第一部分分配給第一矩陣處理器,所述詞-主題矩陣包括一個(gè)或更多個(gè)文檔的集合的多個(gè)主題,每個(gè)主題包括詞集中的一個(gè)或更多個(gè)詞,所述一個(gè)或更多個(gè)詞中的每個(gè)詞與相應(yīng)概率相關(guān)聯(lián),所述詞集包括來(lái)自所述一個(gè)或更多個(gè)文檔的集合的詞索引的詞; 將所述詞-主題矩陣的第二部分分配給第二矩陣處理器,所述詞-主題矩陣的所述第二部分不同于所述詞-主題矩陣的所述第一部分; 在文檔處理器上執(zhí)行主題提取操作,所述文檔提取操作包括使用所述詞-主題矩陣的被存儲(chǔ)在所述第一矩陣處理器處的所述第一部分來(lái)針對(duì)一個(gè)或更多個(gè)第一主題對(duì)所述一個(gè)或更多個(gè)文檔的集合進(jìn)行采樣;以及 在所述文檔處理器上與執(zhí)行所述主題提取操作并行地執(zhí)行矩陣交換操作,所述矩陣交換操作包括以下操作中的至少之一: 從所述第二矩陣處理器獲取要在針對(duì)一個(gè)或更多個(gè)第二主題對(duì)所述一個(gè)或更多個(gè)文檔的集合進(jìn)行采樣時(shí)使用的所述詞-主題矩陣的所述第二部分;或者 當(dāng)提取到至少一個(gè)第二主題時(shí),請(qǐng)求所述第二矩陣處理器使用所提取的第二主題更新所述詞-主題矩陣的所述第二部分,其中所提取的第二主題對(duì)應(yīng)于所述第二子集中的詞。
24.根據(jù)權(quán)利要求23所述的方法,還包括: 根據(jù)加權(quán)輪詢(xún)調(diào)度將所述詞集中的詞分配給所述多個(gè)矩陣處理器。
25.根據(jù)權(quán)利要求24所述的方法,其中,根據(jù)所述加權(quán)輪詢(xún)調(diào)度分配所述詞包括: 確定所述詞集中的每個(gè)詞的權(quán)重; 確定所述第一矩陣處理器的負(fù)荷以及所述第二矩陣處理器的負(fù)荷; 根據(jù)所述詞的權(quán)重對(duì)所述詞集中的所述詞進(jìn)行排序;以及 迭代地將具有最大權(quán)重的詞分配給具有最小負(fù)荷的矩陣處理器。
26.根據(jù)權(quán)利要求25所述的方法,其中,確定所述詞集中的每個(gè)詞的權(quán)重包括確定駐留有所述詞的文檔處理器的數(shù)量。
27.根據(jù)權(quán)利要求23所述的方法,還包括: 在所述文檔處理器處基于 第一詞束和第二詞束執(zhí)行主題提取操作,所述第一詞束對(duì)應(yīng)于所述詞集的所述第一子集,所述第二詞束對(duì)應(yīng)于所述詞集的所述第二子集。
28.根據(jù)權(quán)利要求23所述的方法,其中,針對(duì)一個(gè)或更多個(gè)第一主題對(duì)所述一個(gè)或更多個(gè)文檔的集合進(jìn)行采樣包括對(duì)所述一個(gè)或更多個(gè)文檔的集合執(zhí)行吉布斯采樣。
29.一種計(jì)算機(jī)程序產(chǎn)品,其被存儲(chǔ)在非暫態(tài)計(jì)算機(jī)可讀存儲(chǔ)裝置上,并且可操作以使得一個(gè)或更多個(gè)計(jì)算機(jī)執(zhí)行包括以下操作的操作: 將詞-主題矩陣的第一部分分配給第一矩陣處理器,所述詞-主題矩陣包括一個(gè)或更多個(gè)文檔的集合的多個(gè)主題,每個(gè)主題包括詞集中的一個(gè)或更多個(gè)詞,所述一個(gè)或更多個(gè)詞中的每個(gè)詞與相應(yīng)概率相關(guān)聯(lián),所述詞集包括來(lái)自所述一個(gè)或更多個(gè)文檔的集合的詞索引的詞; 將所述詞-主題矩陣的第二部分分配給第二矩陣處理器,所述詞-主題矩陣的所述第二部分不同于所述詞-主題矩陣的所述第一部分; 在文檔處理器上執(zhí)行主題提取操作,所述文檔提取操作包括使用所述詞-主題矩陣的被存儲(chǔ)在所述第一矩陣處理器處的所述第一部分來(lái)針對(duì)一個(gè)或更多個(gè)第一主題對(duì)一個(gè)或更多個(gè)文檔的集合進(jìn)行采樣;以及 在所述文檔處理器上并且與執(zhí)行所述主題提取操作并行地執(zhí)行矩陣交換操作,所述矩陣交換操作包括以下操作中的至少之一: 從所述第二矩陣處理器獲取要在針對(duì)一個(gè)或更多個(gè)第二主題對(duì)所述一個(gè)或更多個(gè)文檔的集合進(jìn)行采樣時(shí)使用的所述詞-主題矩陣的所述第二部分;或者當(dāng)提取到至少一個(gè)第二主題時(shí),請(qǐng)求所述第二矩陣處理器使用所提取的第二主題更新所述詞-主題矩陣的所述第二部分,其中所提取的第二主題對(duì)應(yīng)于所述第二子集中的詞。
30.根據(jù)權(quán)利要求29所述的產(chǎn)品,所述操作還包括: 根據(jù)加權(quán)輪詢(xún)調(diào)度將所述詞集中的詞分配給所述多個(gè)矩陣處理器。
31.根據(jù)權(quán)利要求30所述的產(chǎn)品,其中,根據(jù)所述加權(quán)輪詢(xún)調(diào)度分配所述詞包括: 確定所述詞集中的每個(gè)詞的權(quán)重; 確定所述第一矩陣處理器的負(fù)荷以及所述第二矩陣處理器的負(fù)荷; 根據(jù)所述詞的權(quán)重對(duì)所述詞集中的所述詞進(jìn)行排序;以及 迭代地將具有最大權(quán)重的詞分配給具有最小負(fù)荷的矩陣處理器。
32.根據(jù)權(quán)利要求31所述的產(chǎn)品,其中,確定所述詞集中的每個(gè)詞的權(quán)重包括確定駐留有所述詞的文檔處理器的數(shù)量。
33.根據(jù)權(quán)利要求29所述的產(chǎn)品,還包括: 在所述文檔處理器處基于第一詞束和第二詞束執(zhí)行主題提取操作,所述第一詞束對(duì)應(yīng)于所述詞集的所述第一子集,所述第二詞束`對(duì)應(yīng)于所述詞集的所述第二子集。
【文檔編號(hào)】G06F17/30GK103765415SQ201180071588
【公開(kāi)日】2014年4月30日 申請(qǐng)日期:2011年5月11日 優(yōu)先權(quán)日:2011年5月11日
【發(fā)明者】劉志遠(yuǎn), 張宇宙, 愛(ài)德華·Y·常 申請(qǐng)人:谷歌公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1