亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

分類方法、查找方法和設(shè)備的制造方法

文檔序號(hào):9547220閱讀:229來源:國知局
分類方法、查找方法和設(shè)備的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及通信領(lǐng)域,尤其涉及分類方法、查找方法和設(shè)備。
【背景技術(shù)】
[0002]基于Mahout機(jī)器學(xué)習(xí)平臺(tái)的分布式集群文本分類技術(shù),將任務(wù)切割給多個(gè)從機(jī)并行執(zhí)行,由主機(jī)匯總詞頻。在Mahout平臺(tái)中文本查找使用哈希樹結(jié)構(gòu)來完成新輸入單詞的詞頻查找過程,利用哈希函數(shù)對(duì)字符串生成32位(bits)的哈希編碼進(jìn)行尋址。對(duì)于每個(gè)從機(jī),采用雙重哈希線性探測的方法,來匹配特定單詞并統(tǒng)計(jì)詞頻。雙重哈希線性探查法使用兩個(gè)哈希函數(shù)在哈希表中形成一個(gè)探查序列??梢匝卮颂讲樾蛄兄饌€(gè)查找,直到找到給定的關(guān)鍵字。由于哈希樹是分布式地存放在集群各節(jié)點(diǎn)(即從機(jī))中,探查序列對(duì)應(yīng)的哈希地址跳躍地分布在整個(gè)分布式集群中各節(jié)點(diǎn)對(duì)應(yīng)的哈希表中。因此在采用雙重哈希線性探查法查找存在沖突的關(guān)鍵字時(shí),需要跨節(jié)點(diǎn)查找,查找速度較慢。

【發(fā)明內(nèi)容】

[0003]本發(fā)明實(shí)施例提供了一種分類方法、查找方法和設(shè)備,使得在查找時(shí)能夠提高查找速度。
[0004]第一方面,提供了一種分類方法,分類方法用于分布式系統(tǒng)中,分布式系統(tǒng)包括一個(gè)主節(jié)點(diǎn)和X個(gè)節(jié)點(diǎn),方法包括:第一節(jié)點(diǎn)將主節(jié)點(diǎn)分配的待分類數(shù)據(jù)進(jìn)行哈希編碼得到多個(gè)哈希碼,第一節(jié)點(diǎn)為X個(gè)節(jié)點(diǎn)之一;第一節(jié)點(diǎn)將多個(gè)哈希碼根據(jù)高m位存儲(chǔ)到第一節(jié)點(diǎn)的s個(gè)第一存儲(chǔ)桶中,使得s個(gè)第一存儲(chǔ)桶中的每個(gè)第一存儲(chǔ)桶中的哈希碼具有相同的高m位,并且s個(gè)第一存儲(chǔ)桶中的不同第一存儲(chǔ)桶中的哈希碼具有不同的高m位;第一節(jié)點(diǎn)與X個(gè)節(jié)點(diǎn)中的第二節(jié)點(diǎn)交換各自的s個(gè)第一存儲(chǔ)桶中的哈希碼,使得X個(gè)節(jié)點(diǎn)中的每個(gè)節(jié)點(diǎn)的第二存儲(chǔ)桶存儲(chǔ)X個(gè)節(jié)點(diǎn)中的具有相同高m位的哈希碼,并且X個(gè)節(jié)點(diǎn)中的不同節(jié)點(diǎn)的第二存儲(chǔ)桶中存儲(chǔ)的哈希碼具有不同的高m位;第一節(jié)點(diǎn)將X個(gè)節(jié)點(diǎn)中與第一節(jié)點(diǎn)對(duì)應(yīng)的具有相同高m位的哈希碼存儲(chǔ)到第一節(jié)點(diǎn)的第二存儲(chǔ)桶中。
[0005]結(jié)合第一方面,在第一種可能的實(shí)現(xiàn)方式中,第一節(jié)點(diǎn)與X個(gè)節(jié)點(diǎn)中的第二節(jié)點(diǎn)交換各自的s個(gè)第一存儲(chǔ)桶中的哈希碼,使得X個(gè)節(jié)點(diǎn)中的每個(gè)節(jié)點(diǎn)的第二存儲(chǔ)桶存儲(chǔ)X個(gè)節(jié)點(diǎn)中的具有相同高m位的哈希碼,包括:第一節(jié)點(diǎn)確定第二節(jié)點(diǎn)對(duì)應(yīng)的哈希碼的高m位,將與第二節(jié)點(diǎn)對(duì)應(yīng)的哈希碼的高m位相同的第一節(jié)點(diǎn)的第p個(gè)存儲(chǔ)桶中的哈希碼發(fā)送至第二節(jié)點(diǎn),以便第二節(jié)點(diǎn)將第一節(jié)點(diǎn)的第P個(gè)存儲(chǔ)桶中的哈希碼與具有相同高m位的第二節(jié)點(diǎn)的第q個(gè)存儲(chǔ)桶中的哈希碼存儲(chǔ)在第二節(jié)點(diǎn)的第二存儲(chǔ)桶中;第一節(jié)點(diǎn)接收第二節(jié)點(diǎn)發(fā)送的第X個(gè)存儲(chǔ)桶中的哈希碼,其中,第一節(jié)點(diǎn)將X個(gè)節(jié)點(diǎn)中與第一節(jié)點(diǎn)對(duì)應(yīng)的具有相同高m位的哈希碼存儲(chǔ)到第一節(jié)點(diǎn)的第二存儲(chǔ)桶中,包括:第一節(jié)點(diǎn)將第二節(jié)點(diǎn)發(fā)送的第X個(gè)存儲(chǔ)桶中的哈希碼與具有相同高m位的第一節(jié)點(diǎn)的第y個(gè)存儲(chǔ)桶中的哈希碼存儲(chǔ)在第一節(jié)點(diǎn)的第二存儲(chǔ)桶中,使得具有相同高m位的哈希碼唯一對(duì)應(yīng)X個(gè)節(jié)點(diǎn)中的一個(gè)節(jié)點(diǎn)。
[0006]結(jié)合第一方面或第一種可能的實(shí)現(xiàn)方式,在第二種可能的實(shí)現(xiàn)方式中,該分類方法還包括:第一節(jié)點(diǎn)將第一節(jié)點(diǎn)的第二存儲(chǔ)桶中的哈希碼根據(jù)次高η位存儲(chǔ)到t個(gè)第三個(gè)存儲(chǔ)桶中,其中t個(gè)第三存儲(chǔ)桶中的每個(gè)第三存儲(chǔ)桶中的哈希碼具有相同的高m位和次高η位,并且t個(gè)第三存儲(chǔ)桶中的不同第三存儲(chǔ)桶中的哈希碼具有不同的高m位和次高η位。
[0007]結(jié)合第二種可能的實(shí)現(xiàn)方式,在第三種可能的實(shí)現(xiàn)方式中,該分類方法還包括:第一節(jié)點(diǎn)將t個(gè)第三存儲(chǔ)桶中的每個(gè)第三存儲(chǔ)桶中的哈希碼排序;第一節(jié)點(diǎn)獲取每個(gè)第三存儲(chǔ)桶中的預(yù)設(shè)哈希碼和預(yù)設(shè)哈希碼在第三存儲(chǔ)桶中的位置信息;第一節(jié)點(diǎn)根據(jù)每個(gè)第三存儲(chǔ)桶中的預(yù)設(shè)哈希碼和預(yù)設(shè)哈希碼在第三存儲(chǔ)桶中的位置信息生成查找表,以便第一節(jié)點(diǎn)根據(jù)查找表確定待查找的哈希碼在第三存儲(chǔ)桶中的位置。
[0008]結(jié)合第二種或第三種可能的實(shí)現(xiàn)方式中,在第四種可能的實(shí)現(xiàn)方式中,η和t滿足以下關(guān)系:t = 2n。
[0009]結(jié)合上述任一種可能的實(shí)現(xiàn)方式,在第五種可能的實(shí)現(xiàn)方式中,待分類數(shù)據(jù)為待分類文本中的多個(gè)單詞,在第一節(jié)點(diǎn)將主節(jié)點(diǎn)分配的待分類文本中的多個(gè)單詞根據(jù)哈希編碼得到多個(gè)哈希碼之后,分類方法還包括:第一節(jié)點(diǎn)確定多個(gè)哈希碼分別對(duì)應(yīng)的多個(gè)P位碼,多個(gè)P位碼分別表示多個(gè)哈希碼對(duì)應(yīng)的多個(gè)單詞的統(tǒng)計(jì)頻次;第一節(jié)點(diǎn)將多個(gè)P位碼與對(duì)應(yīng)的多個(gè)哈希碼分別結(jié)合為多個(gè)第一碼,使得多個(gè)P位碼分別為多個(gè)第一碼的低P位。
[0010]結(jié)合第五種可能的實(shí)現(xiàn)方式,在第六種可能的實(shí)現(xiàn)方式中,在第一節(jié)點(diǎn)將X個(gè)節(jié)點(diǎn)中與第一節(jié)點(diǎn)對(duì)應(yīng)的具有相同高m位的哈希碼存儲(chǔ)到第一節(jié)點(diǎn)的第二存儲(chǔ)桶中之后,該分類方法還包括:第一節(jié)點(diǎn)將第二存儲(chǔ)桶中具有相同哈希碼的第一碼的低P位相加。
[0011]結(jié)合第一方面的第一種至第六種可能的實(shí)現(xiàn)方式中的任一種可能的實(shí)現(xiàn)方式,在第七種可能的實(shí)現(xiàn)方式中,在第一節(jié)點(diǎn)確定第二節(jié)點(diǎn)對(duì)應(yīng)的哈希碼的高m位之前,分類方法還包括:第一節(jié)點(diǎn)接收主節(jié)點(diǎn)發(fā)送的信息,信息指示哈希碼的高m位與X個(gè)節(jié)點(diǎn)的對(duì)應(yīng)關(guān)系;其中,第一節(jié)點(diǎn)確定第二節(jié)點(diǎn)對(duì)應(yīng)的哈希碼的高m位包括:第一節(jié)點(diǎn)根據(jù)對(duì)應(yīng)關(guān)系,確定第二節(jié)點(diǎn)對(duì)應(yīng)的哈希碼的高m位。
[0012]結(jié)合上述任一種可能的實(shí)現(xiàn)方式,在第八種可能的實(shí)現(xiàn)方式中,s和m滿足以下關(guān)系:s = 2'
[0013]結(jié)合上述任一種可能的實(shí)現(xiàn)方式,在第九種可能的實(shí)現(xiàn)方式中,X和m滿足以下關(guān)系:X = 2"1。
[0014]第二方面,提供了一種分類方法,分類方法用于分布式系統(tǒng)中,分布式系統(tǒng)包括一個(gè)主節(jié)點(diǎn)和X個(gè)節(jié)點(diǎn),分類方法包括:主節(jié)點(diǎn)確定X個(gè)節(jié)點(diǎn)存儲(chǔ)的哈希碼的高m位與X個(gè)節(jié)點(diǎn)的對(duì)應(yīng)關(guān)系,使得具有相同高m位的哈希碼唯一對(duì)應(yīng)X個(gè)節(jié)點(diǎn)中的一個(gè)節(jié)點(diǎn);主節(jié)點(diǎn)向X個(gè)節(jié)點(diǎn)發(fā)送信息,信息用于指示哈希碼的高m位與X個(gè)節(jié)點(diǎn)的對(duì)應(yīng)關(guān)系。
[0015]第三方面,提供了一種查找方法,該查找方法包括:該查找方法用于分布式系統(tǒng)中,所述分布式系統(tǒng)包括一個(gè)主節(jié)點(diǎn)和X個(gè)節(jié)點(diǎn),X個(gè)節(jié)點(diǎn)中的第一節(jié)點(diǎn)根據(jù)第一方面及第一方面的第一種至第九種可能的實(shí)現(xiàn)方式中的任一種可能的實(shí)現(xiàn)方式所述的分類方法存儲(chǔ)哈希碼,查找方法包括:第一節(jié)點(diǎn)接收主節(jié)點(diǎn)發(fā)送的待查找的哈希碼;第一節(jié)點(diǎn)根據(jù)待查找的哈希碼的高m位查找待查找的哈希碼。
[0016]結(jié)合第三方面,在第三方面的第一種可能的實(shí)現(xiàn)方式中,第一節(jié)點(diǎn)根據(jù)待查找的哈希碼的高m位查找待查找的哈希碼包括:第一節(jié)點(diǎn)根據(jù)待查找的哈希碼的高m位和次高η位查找待查找的哈希碼。
[0017]第四方面,提供了一種查找方法,該查找方法用于分布式系統(tǒng)中,分布式系統(tǒng)包括一個(gè)主節(jié)點(diǎn)和X個(gè)節(jié)點(diǎn),主節(jié)點(diǎn)根據(jù)權(quán)利要求11的分類方法存儲(chǔ)哈希碼,查找方法包括:主節(jié)點(diǎn)對(duì)待查找數(shù)據(jù)進(jìn)行哈希編碼得到待查找的哈希碼;主節(jié)點(diǎn)根據(jù)哈希碼的高m位與X個(gè)節(jié)點(diǎn)的對(duì)應(yīng)關(guān)系確定待查找的哈希碼的高m位對(duì)應(yīng)的第一節(jié)點(diǎn),第一節(jié)點(diǎn)為X個(gè)節(jié)點(diǎn)之一;主節(jié)點(diǎn)將待查找的哈希碼發(fā)送至第一節(jié)點(diǎn),以便第一節(jié)點(diǎn)查找待查找的哈希碼。
[0018]第五方面,提供了一種節(jié)點(diǎn)設(shè)備,節(jié)點(diǎn)設(shè)備用于分布式系統(tǒng)中,分布式系統(tǒng)包括一個(gè)主節(jié)點(diǎn)設(shè)備和X個(gè)節(jié)點(diǎn)設(shè)備,節(jié)點(diǎn)設(shè)備包括:編碼模塊,用于將主節(jié)點(diǎn)分配的待分類數(shù)據(jù)進(jìn)行哈希編碼得到多個(gè)哈希碼;存儲(chǔ)模塊,用于將多個(gè)哈希碼根據(jù)高m位存儲(chǔ)到s個(gè)第一存儲(chǔ)桶中,使得s個(gè)第一存儲(chǔ)桶中的每個(gè)第一存儲(chǔ)桶中的哈希碼具有相同的高m位,并且s個(gè)第一存儲(chǔ)桶中的不同第一存儲(chǔ)桶中的哈希碼具有不同的高m位;交互模塊,用于與X個(gè)節(jié)點(diǎn)設(shè)備中的第二節(jié)點(diǎn)設(shè)備交換各自的s個(gè)第一存儲(chǔ)桶中的哈希碼,使得X個(gè)節(jié)點(diǎn)設(shè)備中的每個(gè)節(jié)點(diǎn)設(shè)備的第二存儲(chǔ)桶存儲(chǔ)X個(gè)節(jié)點(diǎn)設(shè)備中的具有相同高m位的哈希碼,并且X個(gè)節(jié)點(diǎn)設(shè)備中的不同節(jié)點(diǎn)設(shè)備的第二存儲(chǔ)桶存儲(chǔ)的哈希碼具有不同的高m位,其中,存儲(chǔ)模塊還用于將X個(gè)節(jié)點(diǎn)中與節(jié)點(diǎn)設(shè)備對(duì)應(yīng)的具有相同高m位的哈希碼存儲(chǔ)到節(jié)點(diǎn)設(shè)備的第二存儲(chǔ)桶中。
[0019]結(jié)合第五方面,在第五方面的第一種可能的實(shí)現(xiàn)方式中,該節(jié)點(diǎn)設(shè)備還包括:確定模塊,用于確定第二節(jié)點(diǎn)設(shè)備對(duì)應(yīng)的哈希碼的高m位;交互模塊包括:發(fā)送單元,用于將與第二節(jié)點(diǎn)設(shè)備對(duì)應(yīng)的哈希碼的高m位相同的節(jié)點(diǎn)設(shè)備的第p個(gè)存儲(chǔ)桶中的哈希碼發(fā)送至第二節(jié)點(diǎn)設(shè)備,以便第二節(jié)點(diǎn)設(shè)備將節(jié)點(diǎn)設(shè)備的第P個(gè)存儲(chǔ)桶中的哈希碼與具有相同高m位的第二節(jié)點(diǎn)設(shè)備的第q個(gè)存儲(chǔ)桶中的哈希碼存儲(chǔ)在第二節(jié)點(diǎn)設(shè)備的第二存儲(chǔ)桶中;接收單元,用于接收第二節(jié)點(diǎn)設(shè)備發(fā)送的第X個(gè)存儲(chǔ)桶中的哈希碼,其中,存儲(chǔ)模塊具體用于:將第二節(jié)點(diǎn)設(shè)備發(fā)送的第X個(gè)存儲(chǔ)桶中的哈希碼與具有相同高m位的節(jié)點(diǎn)設(shè)備的第y個(gè)存儲(chǔ)桶中的哈希碼存儲(chǔ)在節(jié)點(diǎn)設(shè)備的第二存儲(chǔ)桶中,使得具有相同高m位的哈希碼唯一對(duì)應(yīng)X個(gè)節(jié)點(diǎn)設(shè)備中的一個(gè)節(jié)點(diǎn)設(shè)備。
[0020]結(jié)合第五方面或第五方面的第一種可能的實(shí)現(xiàn)方式,在第五方面的第二種可能的實(shí)現(xiàn)方式中,存儲(chǔ)模塊還用于:將節(jié)點(diǎn)設(shè)備的第二存儲(chǔ)桶中的哈希碼根據(jù)次高η位存儲(chǔ)到t個(gè)第三個(gè)存儲(chǔ)桶中,其中t個(gè)第三存儲(chǔ)桶中的每個(gè)第三存儲(chǔ)桶中的哈希碼具有相同的高m位和次高η位,并且t個(gè)第三存儲(chǔ)桶中的不同第三存儲(chǔ)桶中的哈希碼具有不同的高m位和次高η位。
[0021]結(jié)合第五方面的第二種可能的實(shí)現(xiàn)方式,在第五方面的第三種可能的實(shí)現(xiàn)方式中,該節(jié)點(diǎn)設(shè)備還包括:查找表模塊:用于將t個(gè)第三存儲(chǔ)桶中的每個(gè)第三存儲(chǔ)桶中的哈希碼排序;獲取每個(gè)第三存儲(chǔ)桶中的預(yù)設(shè)哈希碼和預(yù)設(shè)哈希碼在第三存儲(chǔ)桶中的位置信息;根據(jù)每個(gè)第三存儲(chǔ)桶中的預(yù)設(shè)哈希碼和預(yù)設(shè)哈希碼在第三存儲(chǔ)桶中的位置信息生成查找表,以便節(jié)點(diǎn)設(shè)備根據(jù)查找表確定待查找的哈希碼在第三存儲(chǔ)桶中的位置。
[0022]結(jié)合第五方面的第二種或第三種可能的實(shí)現(xiàn)方式,在第五方面的第四種可能的實(shí)現(xiàn)方式中,η和t滿足以下關(guān)系:t = 2n。
[0023]結(jié)合第五方面或第五方面的第一種至第四種可能的實(shí)現(xiàn)方式中的任一種可能的實(shí)現(xiàn)方式,在第五方面的第五種可能的實(shí)現(xiàn)方式中,待分類數(shù)據(jù)為待分類文本中的多個(gè)單詞,編碼模塊還用于:在將主節(jié)點(diǎn)分配的待分類文本中的多個(gè)單詞進(jìn)行哈希編碼得到多個(gè)哈希碼之后,確定多個(gè)哈希碼分別對(duì)應(yīng)的多個(gè)P位碼,多個(gè)P位碼分別表示多個(gè)哈希碼對(duì)應(yīng)的的多個(gè)單詞的統(tǒng)計(jì)頻次;將多個(gè)P位碼與多個(gè)哈希碼分別結(jié)合為多個(gè)第一碼,使得多個(gè)P位碼分別為多個(gè)第一碼的低P位。
[0024]結(jié)合第五方面的第五種可能的實(shí)現(xiàn)方式中的任一中可能的實(shí)現(xiàn)方式,在第五方面的第六種可能的實(shí)現(xiàn)方式中,存儲(chǔ)模塊還用于:在將X個(gè)節(jié)點(diǎn)中與節(jié)點(diǎn)設(shè)備對(duì)應(yīng)的具有相同高m位的哈希碼存儲(chǔ)到節(jié)點(diǎn)設(shè)備的第二存儲(chǔ)桶中之后,將第二存儲(chǔ)桶中具有相同哈希碼的第一碼的低P位相加。
[0025]結(jié)合第五方面的第一種至第六種可能的實(shí)現(xiàn)方式中的任一種可能的實(shí)現(xiàn)方式,在第五方面的第七種可能的實(shí)現(xiàn)方式中,接收單元還用于:在確定模塊確定第二節(jié)點(diǎn)設(shè)備對(duì)應(yīng)的哈希碼的高m位之前,接收主節(jié)點(diǎn)設(shè)備發(fā)送的信息,信息指示哈希碼的高m位與X個(gè)節(jié)點(diǎn)設(shè)備的對(duì)應(yīng)關(guān)系;確定模塊具體用于:根據(jù)該對(duì)應(yīng)關(guān)系,確定第二節(jié)點(diǎn)設(shè)備對(duì)應(yīng)的哈希碼的高m位。
[0026]結(jié)合第五方面或第五方面的第一種至第七種可能的實(shí)現(xiàn)方式,在第五方面的第八種可能的實(shí)現(xiàn)方式中,s和m滿足以下關(guān)系:s = 2m。
[0027]結(jié)合第五方面或第五方面的第一種至第八種可能的實(shí)現(xiàn)方式中,在第九種可能的實(shí)現(xiàn)方式中,X和m ?兩足以下關(guān)系:Χ = 2m。
[0028]第六方面,提供了一種主節(jié)點(diǎn)設(shè)備,主節(jié)點(diǎn)設(shè)備用于分布式系統(tǒng)中,分布式系統(tǒng)包括一個(gè)主節(jié)點(diǎn)和X個(gè)節(jié)點(diǎn)設(shè)備,主節(jié)點(diǎn)設(shè)備包括:確定模塊,用于確定X個(gè)節(jié)點(diǎn)設(shè)備存儲(chǔ)的哈希碼的高m位與X個(gè)節(jié)點(diǎn)設(shè)備的對(duì)應(yīng)關(guān)系,使得具有相同高m位的哈希碼唯一對(duì)應(yīng)X
當(dāng)前第1頁1 2 3 4 5 6 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1