專利名稱:基于關(guān)鍵詞的文本的標(biāo)簽提取方法及裝置的制作方法
基于關(guān)鍵詞的文本的標(biāo)簽提取方法及裝置
技術(shù)領(lǐng)域:
本發(fā)明涉及標(biāo)簽提取技術(shù),尤其涉及一種基于關(guān)鍵詞的文本的標(biāo)簽提取方法及裝置。
背景技術(shù):
在基于文本的應(yīng)用中,有時(shí)候需要從文本中提煉出能夠描述文本內(nèi)容的詞語(yǔ),將其作為文本的標(biāo)簽(tag),還可以稱其為標(biāo)注?,F(xiàn)有技術(shù)中,將從文本中提取的關(guān)鍵詞,直接作為該文本的標(biāo)簽。然而,在一些情況下,例如,關(guān)鍵詞提取錯(cuò)誤,或者,再例如,個(gè)別關(guān)鍵詞只是位于文本內(nèi)容的語(yǔ)義邊緣位置,等,將從文本中提取的關(guān)鍵詞,直接作為該文本的標(biāo)簽,會(huì)出現(xiàn)所提取的標(biāo)簽不能準(zhǔn)確地描述文本,從而導(dǎo)致了標(biāo)簽提取的可靠性的降低。
發(fā)明內(nèi)容本發(fā)明的多個(gè)方面提供一種基于關(guān)鍵詞的文本的標(biāo)簽提取方法及裝置,用以提高標(biāo)簽提取的可靠性。本發(fā)明的一方面,提供一種基于關(guān)鍵詞的文本的標(biāo)簽提取方法,包括:確定待提取的文本;根據(jù)所述文本,提取所述文本的至少兩個(gè)關(guān)鍵詞;根據(jù)所述至少兩個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的相關(guān)信息,獲得每個(gè)所述關(guān)鍵詞與所述文本的相關(guān)度和/或每個(gè)所述關(guān)鍵詞與所述文本的緊密度;根據(jù)所述相關(guān)度和/或所述緊密度,從所述至少兩個(gè)關(guān)鍵詞中選擇部分關(guān)鍵詞或全部關(guān)鍵詞,以作為所述文本的標(biāo)簽。如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述根據(jù)所述至少兩個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的相關(guān)信息,獲得每個(gè)所述關(guān)鍵詞與所述文本的相關(guān)度,包括:根據(jù)所述關(guān)鍵詞在所述文本中的位置、所述關(guān)鍵詞在所述文本中的重復(fù)次數(shù)、所述關(guān)鍵詞在所述文本中的獨(dú)立表意能力、所述關(guān)鍵詞在所述文本中的詞性和所述關(guān)鍵詞在所述文本中的層次中的至少一項(xiàng)信息,獲得所述關(guān)鍵詞的權(quán)重;根據(jù)所述關(guān)鍵詞的權(quán)重,獲得所述關(guān)鍵詞與所述文本的相關(guān)度。如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述根據(jù)所述至少兩個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的相關(guān)信息,獲得每個(gè)所述關(guān)鍵詞與所述文本的緊密度,包括:根據(jù)所述至少兩個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的相關(guān)信息,構(gòu)造每個(gè)所述關(guān)鍵詞的
第一支持向量和第二支持向量;根據(jù) 所述第一支持向量和所述第二支持向量,獲得每個(gè)所述關(guān)鍵詞與所述文本的緊密度。
如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述根據(jù)所述至少兩個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的相關(guān)信息,構(gòu)造每個(gè)所述關(guān)鍵詞的第一支持向量和第二支持向量,包括:根據(jù)所述關(guān)鍵詞在所述文本中的位置、所述關(guān)鍵詞在所述文本中的重復(fù)次數(shù)、所述關(guān)鍵詞在所述文本中的獨(dú)立表意能力、所述關(guān)鍵詞在所述文本中的詞性和所述關(guān)鍵詞在所述文本中的層次中的至少一項(xiàng)信息,獲得所述關(guān)鍵詞的權(quán)重,以及根據(jù)所述關(guān)鍵詞和所述關(guān)鍵詞的權(quán)重,構(gòu)造所述第一支持向量;獲得與所述關(guān)鍵詞關(guān)聯(lián)的關(guān)聯(lián)詞,根據(jù)所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的位置、所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的重復(fù)次數(shù)、所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的獨(dú)立表意能力、所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的詞性和所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的層次中的至少一項(xiàng)信息,獲得所述關(guān)聯(lián)詞的權(quán)重,以及根據(jù)所述關(guān)聯(lián)詞和所述關(guān)聯(lián)詞的權(quán)重,構(gòu)造所述第二支持向量。如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述根據(jù)所述第一支持向量和所述第二支持向量,獲得每個(gè)所述關(guān)鍵詞與所述文本的緊密度,包括:根據(jù)所述第一支持向量和所述第二支持向量,構(gòu)造所述關(guān)鍵詞的第三支持向量;根據(jù)所述第二支持向量和所述第三支持向量,獲得所述第二支持向量與所述第三支持向量之間的向量距離;根據(jù)所述向量距離,獲得所述關(guān)鍵詞與所述文本的緊密度。本發(fā)明的另一方面,提供一種基于關(guān)鍵詞的文本的標(biāo)簽提取裝置,包括:確定單元, 用于確定待提取的文本;提取單元,用于根據(jù)所述文本,提取所述文本的至少兩個(gè)關(guān)鍵詞;獲得單元,用于根據(jù)所述至少兩個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的相關(guān)信息,獲得每個(gè)所述關(guān)鍵詞與所述文本的相關(guān)度和/或每個(gè)所述關(guān)鍵詞與所述文本的緊密度;選擇單元,用于根據(jù)所述相關(guān)度和/或所述緊密度,從所述至少兩個(gè)關(guān)鍵詞中選擇部分關(guān)鍵詞或全部關(guān)鍵詞,以作為所述文本的標(biāo)簽。如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述獲得單元,具體用于根據(jù)所述關(guān)鍵詞在所述文本中的位置、所述關(guān)鍵詞在所述文本中的重復(fù)次數(shù)、所述關(guān)鍵詞在所述文本中的獨(dú)立表意能力、所述關(guān)鍵詞在所述文本中的詞性和所述關(guān)鍵詞在所述文本中的層次中的至少一項(xiàng)信息,獲得所述關(guān)鍵詞的權(quán)重;以及根據(jù)所述關(guān)鍵詞的權(quán)重,獲得所述關(guān)鍵詞與所述文本的相關(guān)度。如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述獲得單元,具體用于 根據(jù)所述至少兩個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的相關(guān)信息,構(gòu)造每個(gè)所述關(guān)鍵詞的第一支持向量和第二支持向量;以及根據(jù)所述第一支持向量和所述第二支持向量,獲得每個(gè)所述關(guān)鍵詞與所述文本的緊密度。如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述獲得單元,具體用于根據(jù)所述關(guān)鍵詞在所述文本中的位置、所述關(guān)鍵詞在所述文本中的重復(fù)次數(shù)、所述關(guān)鍵詞在所述文本中的獨(dú)立表意能力、所述關(guān)鍵詞在所述文本中的詞性和所述關(guān)鍵詞在所述文本中的層次中的至少一項(xiàng)信息,獲得所述關(guān)鍵詞的權(quán)重,以及根據(jù)所述關(guān)鍵詞和所述關(guān)鍵詞的權(quán)重,構(gòu)造所述第一支持向量;獲得與所述關(guān)鍵詞關(guān)聯(lián)的關(guān)聯(lián)詞,根據(jù)所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的位置、所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的重復(fù)次數(shù)、所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的獨(dú)立表意能力、所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的詞性和所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的層次中的至少一項(xiàng)信息,獲得所述關(guān)聯(lián)詞的權(quán)重,以及根據(jù)所述關(guān)聯(lián)詞和所述關(guān)聯(lián)詞的權(quán)重,構(gòu)造所述第二支持向量。如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述獲得單元,具體用于根據(jù)所述第一支持向量和所述第二支持向量,構(gòu)造所述關(guān)鍵詞的第三支持向量;根據(jù)所述第二支持向量和所述第三支持向量,獲得所述第二支持向量與所述第三支持向量之間的向量距離;以及根據(jù)所述向量距離,獲得所述關(guān)鍵詞與所述文本的緊密度。由上述技術(shù)方案可知,本發(fā)明實(shí)施例通過(guò)根據(jù)文本 ,提取文本的至少兩個(gè)關(guān)鍵詞,進(jìn)而根據(jù)所述至少兩個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的相關(guān)信息,獲得每個(gè)所述關(guān)鍵詞與所述文本的相關(guān)度和/或每個(gè)所述關(guān)鍵詞與所述文本的緊密度,使得能夠根據(jù)所述相關(guān)度和/或所述緊密度,從所述至少兩個(gè)關(guān)鍵詞中選擇部分關(guān)鍵詞或全部關(guān)鍵詞,以作為所述文本的標(biāo)簽,由于根據(jù)關(guān)鍵詞與文本的相關(guān)度和/或關(guān)鍵詞與文本的緊密度,對(duì)所提取的關(guān)鍵詞進(jìn)行有條件的選擇,作為所述文本的標(biāo)簽,能夠避免現(xiàn)有技術(shù)中由于將從文本中提取的關(guān)鍵詞,直接作為該文本的標(biāo)簽而導(dǎo)致的所提取的標(biāo)簽不能準(zhǔn)確地描述文本的問(wèn)題,從而提聞了標(biāo)簽提取的可罪性。
為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明一實(shí)施例提供的基于關(guān)鍵詞的文本的標(biāo)簽提取方法的流程示意圖;圖2為本發(fā)明另一實(shí)施例提供的基于關(guān)鍵詞的文本的標(biāo)簽提取裝置的結(jié)構(gòu)不意圖。
具體實(shí)施方式為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的全部其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。需要說(shuō)明的是,本發(fā)明實(shí)施例中所涉及的終端可以包括但不限于手機(jī)、個(gè)人數(shù)字助理(Personal Digital Assistant, PDA)、無(wú)線手持裝置、無(wú)線上網(wǎng)本、個(gè)人電腦、便攜電腦、MP3播放器、MP4播放器等。另外,本文中術(shù)語(yǔ)“和/或”,僅僅是一種描述關(guān)聯(lián)對(duì)象的關(guān)聯(lián)關(guān)系,表示可以存在三種關(guān)系,例如,A和/或B,可以表示:單獨(dú)存在A,同時(shí)存在A和B,單獨(dú)存在B這三種情況。另外,本文中字符“/”,一般表示前后關(guān)聯(lián)對(duì)象是一種“或”的關(guān)系。圖1為本發(fā)明一實(shí)施例提供的基于關(guān)鍵詞的文本的標(biāo)簽提取方法的流程示意圖,如圖1所示。101、確定待提取的文本。102、根據(jù)所述文本,提取所述文本的至少兩個(gè)關(guān)鍵詞。具體地,可以采用現(xiàn)有技術(shù)中的任何提取方法,從所述文本中提取所述文本的至少兩個(gè)關(guān)鍵詞,詳細(xì)描述可以參見現(xiàn)有技術(shù)中的相關(guān)內(nèi)容,此處不再贅述。103、根據(jù)所述至少兩個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的相關(guān)信息,獲得每個(gè)所述關(guān)鍵詞與所述文本的相關(guān)度和/或每個(gè)所述關(guān)鍵詞與所述文本的緊密度。104、根據(jù)所述相關(guān)度和/或所述緊密度,從所述至少兩個(gè)關(guān)鍵詞中選擇部分關(guān)鍵詞或全部關(guān)鍵詞,以作為所述文本的標(biāo)簽。需要說(shuō)明的是,101 104的執(zhí)行主體可以是文本處理引擎,可以位于本地的客戶端中,以進(jìn)行離線處理,或者還可以位于網(wǎng)絡(luò)側(cè)的服務(wù)器中,以進(jìn)行在線處理,本實(shí)施例對(duì)此不進(jìn)行限定。需要說(shuō)明的是,101 104的執(zhí)行主體還可以是客戶端??梢岳斫獾氖?,所述客戶端可以是安裝在終端上的應(yīng)用程序,或者還可以是瀏覽器的一個(gè)網(wǎng)頁(yè),只要能夠 實(shí)現(xiàn)文本處理服務(wù),以獲得文本的應(yīng)用的客觀存在形式都可以,本實(shí)施例對(duì)此不進(jìn)行限定。這樣,通過(guò)根據(jù)文本,提取文本的至少兩個(gè)關(guān)鍵詞,進(jìn)而根據(jù)所述至少兩個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的相關(guān)信息,獲得每個(gè)所述關(guān)鍵詞與所述文本的相關(guān)度和/或每個(gè)所述關(guān)鍵詞與所述文本的緊密度,使得能夠根據(jù)所述相關(guān)度和/或所述緊密度,從所述至少兩個(gè)關(guān)鍵詞中選擇部分關(guān)鍵詞或全部關(guān)鍵詞,以作為所述文本的標(biāo)簽,由于根據(jù)關(guān)鍵詞與文本的相關(guān)度和/或關(guān)鍵詞與文本的緊密度,對(duì)所提取的關(guān)鍵詞進(jìn)行有條件的選擇,作為所述文本的標(biāo)簽,能夠避免現(xiàn)有技術(shù)中由于將從文本中提取的關(guān)鍵詞,直接作為該文本的標(biāo)簽而導(dǎo)致的所提取的標(biāo)簽不能準(zhǔn)確地描述文本的問(wèn)題,從而提高了標(biāo)簽提取的可靠性。另外,采用本發(fā)明提供的技術(shù)方案,能夠使得基于標(biāo)簽的深度閱讀成為可能。另外,采用本發(fā)明提供的技術(shù)方案,能夠有效提高基于標(biāo)簽的文本推薦的質(zhì)量。可選地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,在103中,具體可以根據(jù)所述關(guān)鍵詞在所述文本中的位置、所述關(guān)鍵詞在所述文本中的重復(fù)次數(shù)、所述關(guān)鍵詞在所述文本中的獨(dú)立表意能力、所述關(guān)鍵詞在所述文本中的詞性和所述關(guān)鍵詞在所述文本中的層次中的至少一項(xiàng)信息,獲得所述關(guān)鍵詞的權(quán)重。然后,則可以根據(jù)所述關(guān)鍵詞的權(quán)重,獲得所述關(guān)鍵詞與所述文本的相關(guān)度。例如,具體可以根據(jù)公式(I ),獲得所述關(guān)鍵詞的權(quán)重(Weight)。關(guān)鍵詞的權(quán)重=kl*關(guān)鍵詞在所述文本中的位置+k2*關(guān)鍵詞在所述文本中的重復(fù)次數(shù)+k3 *關(guān)鍵詞在所述文本中的獨(dú)立表意能力+k4 *關(guān)鍵詞在所述文本中的詞性+k5 *關(guān)鍵詞在所述文本中的層次公式(I)其中,kl、k2、k3、k4和k5均為系數(shù)。這樣,則可以將所述關(guān)鍵詞的權(quán)重,作為所述關(guān)聯(lián)度??蛇x地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,在103中,具體可以根據(jù)所述至少兩個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的相關(guān)信息,構(gòu)造每個(gè)所述關(guān)鍵詞的第一支持向量和第二支持向量。然后,則可以根據(jù)所述第一支持向量和所述第二支持向量,獲得每個(gè)所述關(guān)鍵詞與所述文本的緊密度。具體地,具體可以根據(jù)所述關(guān)鍵詞在所述文本中的位置、所述關(guān)鍵詞在所述文本中的重復(fù)次數(shù)、所述關(guān)鍵詞在所述文本中的獨(dú)立表意能力、所述關(guān)鍵詞在所述文本中的詞性和所述關(guān)鍵詞在所述文本中的層次中的至少一項(xiàng)信息,獲得所述關(guān)鍵詞的權(quán)重,以及根據(jù)所述關(guān)鍵詞和所述關(guān)鍵詞的權(quán)重,構(gòu)造所述第一支持向量。例如,具體可以根據(jù)公式(2),獲得所述關(guān)鍵詞的權(quán)重(weight)。關(guān)鍵詞的權(quán)重=ml*關(guān)鍵詞在所述文本中的位置+m2*關(guān)鍵詞在所述文本中的重復(fù)次數(shù)+m3 *關(guān)鍵詞在所述文本中的獨(dú)立表意能力+m4 *關(guān)鍵詞在所述文本中的詞性+m5 *關(guān)鍵詞在所述文本中的層次公式(2 )其中,ml、m2、m3、m4和m5均為系數(shù)。根據(jù)每個(gè)關(guān)鍵詞(termn)和每個(gè)關(guān)鍵詞的權(quán)重(weightn),構(gòu)成第一支持向量,即<(terml, weightl)> (term2, weight2)> (term3, weight3)> (term4, weight4)…(termn, weightn)> ;具體地,具體可以獲得與所述關(guān)鍵詞關(guān)聯(lián)的關(guān)聯(lián)詞,根據(jù)所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的位置、所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的重復(fù)次數(shù)、所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的獨(dú)立表意能力、所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的詞性和所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的層次中的至少一項(xiàng)信息,獲得所述關(guān)聯(lián)詞的權(quán)重,以及根據(jù)所述關(guān)聯(lián)詞和所述關(guān)聯(lián)詞的權(quán)重,構(gòu)造所述第二支持向量。例如,具體可以根據(jù)公式(3),獲得所述關(guān)聯(lián)詞的權(quán)重(weight)。關(guān)聯(lián)詞的權(quán)重=rl*關(guān)聯(lián)詞在所述文本中的位置+r2*關(guān)聯(lián)詞在所述文本中的重復(fù)次數(shù)+r3 *關(guān)聯(lián)詞在所述文本中的獨(dú)立表意能力+r4 *關(guān)聯(lián)詞在所述文本中的詞性+r5 *關(guān)聯(lián)詞在所述文本中的層次公式(3 )其中,rl、r2、r3、r4和r5均為系數(shù)。根據(jù)每個(gè)關(guān)聯(lián)詞(sm_termn)和每個(gè)關(guān)聯(lián)詞的權(quán)重(sm_weightn),構(gòu)成第二支持向量,即< (sl_terml, sl_weightl)、(s2_terml, s2_weightl)、(s3_terml, s3_weightl)、(s4_terml, s4_weightl) …(sm_terml, sm_weightl)、(sl_term2,sl_weight2)、(s2_term2, s2_weight2)、(s3_term2, s3_weight2)、(s4_term2, s4_weight2)…(sm_term2, sm_weight2)>(sl_termn, sl_weightn)>(s2_termn, s2_weightn)>(s3_termn, s3_weightn)>(s4_termn, s4_weightn)…(sm_termn, sm_weightn)> ;具體地,具體可以根據(jù)所述第一支持向量和所述第二支持向量,構(gòu)造所述關(guān)鍵詞的第三支持向量。進(jìn)而,可以根據(jù)所述第二支持向量和所述第三支持向量,獲得所述第二支持向量與所述第三支持向量之間的向量距離。然后,則可以根據(jù)所述向量距離,獲得所述關(guān)鍵詞與所述文本的緊密度。例如,具體可以根據(jù)公式(2)和公式(3),構(gòu)造第三支持向量,SP< (sl_terml, sl_weightl * weightl)>(s2_terml, s2_weightl * weightl)、(s3_terml, s3_weightl * weightl)>(s4_terml, s4_weightl * weightl) …(sm_terml, sm_weightl * weightl)>(sl_term2, sl_weight2 * weight2)>(s2_term2, s2_weight2 *weight2)、(s3_term2, s3_weight2 * weight2)>(s4_term2, s4_weight2 * weight2)…(sm_term2, sm_weight2 * weight2)>(sl_termn, sl_weightn * weightn)>(s2_termn, s2_weightn
*weightn)、(s3_termn, s3_weightn * weightn)> (s4_termn, s4_weightn * weightn)…(sm_termn, sm_weightn * weightn) > ;這樣,則可以計(jì)算第二支持向量與第三支持向量之間的向量距離即余弦距離,以作為所述緊密度??梢岳斫獾氖?,在104中,若所述相關(guān)度滿足預(yù)先設(shè)置的相關(guān)度閾值條件,那么,則可以選擇所述相關(guān)度對(duì)應(yīng)的關(guān)鍵詞,作為所述文本的標(biāo)簽。可以理解的是,在104中,若所述緊密度滿足預(yù)先設(shè)置的緊密度閾值條件,那么,則可以選擇所述緊密度對(duì)應(yīng)的關(guān)鍵詞,作為所述文本的標(biāo)簽。
可以理解的是,在104中,若所述相關(guān)度滿足預(yù)先設(shè)置的相關(guān)度閾值條件,且所述緊密度滿足預(yù)先設(shè)置的緊密度閾值條件,那么,則可以選擇所述緊密度對(duì)應(yīng)的關(guān)鍵詞,作為所述文本的標(biāo)簽。本實(shí)施例中,通過(guò)根據(jù)文本,提取文本的至少兩個(gè)關(guān)鍵詞,進(jìn)而根據(jù)所述至少兩個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的相關(guān)信息,獲得每個(gè)所述關(guān)鍵詞與所述文本的相關(guān)度和/或每個(gè)所述關(guān)鍵詞與所述文本的緊密度,使得能夠根據(jù)所述相關(guān)度和/或所述緊密度,從所述至少兩個(gè)關(guān)鍵詞中選擇部分關(guān)鍵詞或全部關(guān)鍵詞,以作為所述文本的標(biāo)簽,由于根據(jù)關(guān)鍵詞與文本的相關(guān)度和/或關(guān)鍵詞與文本的緊密度,對(duì)所提取的關(guān)鍵詞進(jìn)行有條件的選擇,作為所述文本的標(biāo)簽,能夠避免現(xiàn)有技術(shù)中由于將從文本中提取的關(guān)鍵詞,直接作為該文本的標(biāo)簽而導(dǎo)致的所提取的標(biāo)簽不能準(zhǔn)確地描述文本的問(wèn)題,從而提高了標(biāo)簽提取的可靠性。另外,采用本發(fā)明提供的技術(shù)方案,能夠使得基于標(biāo)簽的深度閱讀成為可能。另外,采用本發(fā)明提供的技術(shù)方案,能夠有效提高基于標(biāo)簽的文本推薦的質(zhì)量。需要說(shuō)明的是,對(duì)于前述的各方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說(shuō)明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本發(fā)明所必須的。在上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒(méi)有詳述的部分,可以參見其他實(shí)施例的相關(guān)描述。圖2為本發(fā)明另一實(shí)施例提供的基于關(guān)鍵詞的文本的標(biāo)簽提取裝置的結(jié)構(gòu)不意圖,如圖2所示。本實(shí)施例的基于關(guān)鍵詞的文本的標(biāo)簽提取裝置可以包括確定單元21、提取單元22、獲得單元23和選擇單元24。其中,確定單元21,用于確定待提取的文本;提取單元22,用于根據(jù)所述文本,提取所述文本的至少兩個(gè)關(guān)鍵詞;獲得單元23,用于根據(jù)所述至少兩個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的相關(guān)信息,獲得每個(gè)所述關(guān)鍵詞與所述文本的相關(guān)度和/或每個(gè)所述關(guān)鍵詞與所述文本的緊密度;選擇單元24,用于根據(jù)所述相關(guān)度和/或所述緊密度,從所述至少兩個(gè)關(guān)鍵詞中選擇部分關(guān)鍵詞或全部關(guān)鍵詞,以作為所述文本的標(biāo)簽。具體地,所述提取單元22可以采用現(xiàn)有技術(shù)中的任何提取方法,從所述文本中提取所述文本的至少兩個(gè)關(guān)鍵詞,詳細(xì)描述可以參見現(xiàn)有技術(shù)中的相關(guān)內(nèi)容,此處不再贅述。需要說(shuō)明的是,本實(shí)施例提供的裝置可以是文本處理引擎,可以位于本地的客戶端中,以進(jìn)行離線處理,或者還可以位于網(wǎng)絡(luò)側(cè)的服務(wù)器中,以進(jìn)行在線處理,本實(shí)施例對(duì)此不進(jìn)行限定。需要說(shuō)明的是,本實(shí)施例提供的裝置還可以是客戶端??梢岳斫獾氖?,所述客戶端可以是安裝在終端上的應(yīng)用程序,或者還可以是瀏覽器的一個(gè)網(wǎng)頁(yè),只要能夠?qū)崿F(xiàn)文本處理服務(wù),以獲得文本的應(yīng)用的客觀存在形式都可以,本實(shí)施例對(duì)此不進(jìn)行限定。這樣,通過(guò)提取單元根據(jù)文本,提取文本的至少兩個(gè)關(guān)鍵詞,進(jìn)而由獲得單元根據(jù)所述至少兩個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的相關(guān)信息,獲得每個(gè)所述關(guān)鍵詞與所述文本的相關(guān)度和/或每個(gè)所述關(guān)鍵詞與所述文本的緊密度,使得選擇單元能夠根據(jù)所述相關(guān)度和/或所述緊密度,從所述至少兩個(gè)關(guān)鍵詞中選擇部分關(guān)鍵詞或全部關(guān)鍵詞,以作為所述文本的標(biāo)簽,由于根據(jù)關(guān)鍵詞與文本的相關(guān)度和/或關(guān)鍵詞與文本的緊密度,對(duì)所提取的關(guān)鍵詞進(jìn)行有條件的選擇,作為所述文本的標(biāo)簽,能夠避免現(xiàn)有技術(shù)中由于將從文本中提取的關(guān)鍵詞,直接作為該文本的標(biāo)簽而導(dǎo)致的所提取的標(biāo)簽不能準(zhǔn)確地描述文本的問(wèn)題,從而提聞了標(biāo)簽提取的可罪性。另外,采用本發(fā)明提供的技術(shù)方案,能夠使得基于標(biāo)簽的深度閱讀成為可能。另外,采用本發(fā)明提供的技術(shù)方案,能夠有效提高基于標(biāo)簽的文本推薦的質(zhì)量。可選地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,所述獲得單元23,具體可以用于根據(jù)所述關(guān)鍵詞在所述文本中的位置、所述關(guān)鍵詞在所述文本中的重復(fù)次數(shù)、所述關(guān)鍵詞在所述文本中的獨(dú)立表意能力、所述關(guān)鍵詞在所述文本中的詞性和所述關(guān)鍵詞在所述文本中的層次中的至少一項(xiàng)信息,獲得所述關(guān)鍵詞的權(quán)重;以及根據(jù)所述關(guān)鍵詞的權(quán)重,獲得所述關(guān)鍵詞與所述文本的相關(guān)度。例如,所述獲得單元23具體可以根據(jù)公式(1),獲得所述關(guān)鍵詞的權(quán)重(Weight)。關(guān)鍵詞的權(quán)重=kl*關(guān)鍵詞在所述文本中的位置+k2*關(guān)鍵詞在所述文本中的重復(fù)次數(shù)+k3 *關(guān)鍵詞在所述文本中的獨(dú)立表意能力+k4 *關(guān)鍵詞在所述文本中的詞性+k5 *關(guān)鍵詞在所述文本中的層次公式(I)其中,kl、k2、k3、k4和k5均為系數(shù)。這樣,所述獲得單元23則可以將所述關(guān)鍵詞的權(quán)重,作為所述關(guān)聯(lián)度??蛇x地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,所述獲得單元23,具體可以用于根據(jù)所述至少兩個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的相關(guān)信息,構(gòu)造每個(gè)所述關(guān)鍵詞的第一支持向量和第二支持向量;以及根據(jù)所述第一支持向量和所述第二支持向量,獲得每個(gè)所述關(guān)鍵詞與所述文本的緊密度。具體地,所述獲得單元23,具體可以用于根據(jù)所述關(guān)鍵詞在所述文本中的位置、所述關(guān)鍵詞在所述文本中的重復(fù)次數(shù)、所述關(guān)鍵詞在所述文本中的獨(dú)立表意能力、所述關(guān)鍵詞在所述文本中的詞性和所述關(guān)鍵詞在所述文本中的層次中的至少一項(xiàng)信息,獲得所述關(guān)鍵詞的權(quán)重,以及根據(jù)所述關(guān)鍵詞和所述關(guān)鍵詞的權(quán)重,構(gòu)造所述第一支持向量。例如,所述獲得單元23具體可以根據(jù)公式(2),獲得所述關(guān)鍵詞的權(quán)重(weight)。
關(guān)鍵詞的權(quán)重=ml*關(guān)鍵詞在所述文本中的位置+m2*關(guān)鍵詞在所述文本中的重復(fù)次數(shù)+ m3 *關(guān)鍵詞在所述文本中的獨(dú)立表意能力+m4 *關(guān)鍵詞在所述文本中的詞性+m5 *關(guān)鍵詞在所述文本中的層次公式(2 )其中,ml、m2、m3、m4和m5均為系數(shù)。所述獲得單元23根據(jù)每個(gè)關(guān)鍵詞(termn)和每個(gè)關(guān)鍵詞的權(quán)重(weightn),構(gòu)成第一支持向量,即< (terml, weightl)> (term2, weight2)> (term3, weight3)> (term4, weight4)…(termn, weightn)> ;具體地,所述獲得單元23,具體還可以用于獲得與所述關(guān)鍵詞關(guān)聯(lián)的關(guān)聯(lián)詞,根據(jù)所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的位置、所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的重復(fù)次數(shù)、所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的獨(dú)立表意能力、所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的詞性和所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的層次中的至少一項(xiàng)信息,獲得所述關(guān)聯(lián)詞的權(quán)重,以及根據(jù)所述關(guān)聯(lián)詞和所述關(guān)聯(lián)詞的權(quán)重,構(gòu)造所述第二支持向量。
例如,所述獲得單元23具體可以根據(jù)公式(3),獲得所述關(guān)聯(lián)詞的權(quán)重(weight)。關(guān)聯(lián)詞的權(quán)重=rl*關(guān)聯(lián)詞在所述文本中的位置+r2*關(guān)聯(lián)詞在所述文本中的重復(fù)次數(shù)+r3 *關(guān)聯(lián)詞在所述文本中的獨(dú)立表意能力+r4 *關(guān)聯(lián)詞在所述文本中的詞性+r5 *關(guān)聯(lián)詞在所述文本中的層次公式(3 )其中,rl、r2、r3、r4和r5均為系數(shù)。所述獲得單元23根據(jù)每個(gè)關(guān)聯(lián)詞(sm_termn)和每個(gè)關(guān)聯(lián)詞的權(quán)重(sm_weightn),構(gòu)成第二支持向量,即< (sl_terml, sl_weightl)、(s2_terml, s2_weightl)、(s3_terml, s3_weightl)、(s4_terml, s4_weightl) …(sm_terml, sm_weightl)、(sl_term2, sl_weight2)、(s2_term2, s2_weight2)、(s3_term2, s3_weight2)、(s4_term2, s4_weight2)…(sm_term2, sm_weight2)>(sl_termn, sl_weightn)>(s2_termn, s2_weightn)>(s3_termn,s3_weightn)>(s4_termn, s4_weightn)…(sm_termn, sm_weightn)> ;具體地,所述獲得單元23具體可以根據(jù)所述第一支持向量和所述第二支持向量,構(gòu)造所述關(guān)鍵詞的第三支持向量;根據(jù)所述第二支持向量和所述第三支持向量,獲得所述第二支持向量與所述第三支持向量之間的向量距離;以及根據(jù)所述向量距離,獲得所述關(guān)鍵詞與所述文本的緊密度。例如,所述獲得單元23具體可以根據(jù)公式(2)和公式(3),構(gòu)造第三支持向量,SP< (sl_term I , s I _weightl * weightl )> (s2_terml, s2_weightl * weightl )>(s3_terml, s3_weightl*weightl)、(s4_terml, s4_weightl * weightl)…(sm_terml, sm_weightl * weightl)>(sl_term2, sl_weight2 * weight2)>(s2_term2, s2_weight2 *weight2)、(s3_term2, s3_weight2 * weight2)>(s4_term2, s4_weight2 * weight2)…(sm_term2, sm_weight2 * weight2)>(sl_termn, sl_weightn * weightn)、(s2_termn, s2_weightn
*weightn)、(s3_termn, s3_weightn * weightn)、(s4_termn, s4_weightn * weightn)…(sm_termn, sm_weightn * weightn) > ;這樣,所述獲得單元23則可以計(jì)算第二支持向量與第三支持向量之間的向量距離即余弦距離,以作為所述緊密度??梢岳斫獾氖?,若所述相關(guān)度滿足預(yù)先設(shè)置的相關(guān)度閾值條件,那么,所述選擇單元24則可以選擇所述相關(guān)度對(duì)應(yīng)的關(guān)鍵詞,作為所述文本的標(biāo)簽??梢岳斫獾氖牵羲鼍o密度滿足預(yù)先設(shè)置的緊密度閾值條件,那么,所述選擇單元24則可以選擇所述緊密度對(duì)應(yīng)的關(guān)鍵詞,作為所述文本的標(biāo)簽??梢岳斫獾氖?,若所述相關(guān)度滿足預(yù)先設(shè)置的相關(guān)度閾值條件,且所述緊密度滿足預(yù)先設(shè)置的緊密度閾值條件,那么,所述選擇單元24則可以選擇所述緊密度對(duì)應(yīng)的關(guān)鍵詞,作為所述文本的標(biāo)簽。本實(shí)施例中,通過(guò)提取單元根據(jù)文本,提取文本的至少兩個(gè)關(guān)鍵詞,進(jìn)而由獲得單元根據(jù)所述至少兩個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的相關(guān)信息,獲得每個(gè)所述關(guān)鍵詞與所述文本的相關(guān)度和/或每個(gè)所述關(guān)鍵詞與所述文本的緊密度,使得選擇單元能夠根據(jù)所述相關(guān)度和/或所述緊密度,從所述至少兩個(gè)關(guān)鍵詞中選擇部分關(guān)鍵詞或全部關(guān)鍵詞,以作為所述文本的標(biāo)簽,由于根據(jù)關(guān)鍵詞與文本的相關(guān)度和/或關(guān)鍵詞與文本的緊密度,對(duì)所提取的關(guān)鍵詞進(jìn)行有條件的選擇,作為所述文本的標(biāo)簽,能夠避免現(xiàn)有技術(shù)中由于將從文本中提取的關(guān)鍵詞,直接作為該文本的標(biāo)簽而導(dǎo)致的所提取的標(biāo)簽不能準(zhǔn)確地描述文本的問(wèn)題,從而提聞了標(biāo)簽提取的可罪性。另外,采用本發(fā)明提供的技術(shù)方案,能夠使得基于標(biāo)簽的深度閱讀成為可能。另外,采用本發(fā)明提供的技術(shù)方案,能夠有效提高基于標(biāo)簽的文本推薦的質(zhì)量。所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡(jiǎn)潔,上述描述的系統(tǒng),裝置和單元的具體工作過(guò)程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過(guò)程,在此不再贅述。在本發(fā)明所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng),裝置和方法,可以通過(guò)其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過(guò)一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用硬件加軟件功能單元的形式實(shí)現(xiàn)。上述以軟件功能單元的形式實(shí)現(xiàn)的集成的單元,可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。上述軟件功能單元存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)裝置(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)裝置等)或處理器(processor)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤、移動(dòng)硬盤、只讀存儲(chǔ)器(Read-Only Memory, ROM)、隨機(jī)存取存儲(chǔ)器(Random Access Memory, RAM)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。最后應(yīng)說(shuō)明的是:以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述 實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí) 施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍。
權(quán)利要求
1.一種基于關(guān)鍵詞的文本的標(biāo)簽提取方法,其特征在于,包括: 確定待提取的文本; 根據(jù)所述文本,提取所述文本的至少兩個(gè)關(guān)鍵詞; 根據(jù)所述至少兩個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的相關(guān)信息,獲得每個(gè)所述關(guān)鍵詞與所述文本的相關(guān)度和/或每個(gè)所述關(guān)鍵詞與所述文本的緊密度; 根據(jù)所述相關(guān)度 和/或所述緊密度,從所述至少兩個(gè)關(guān)鍵詞中選擇部分關(guān)鍵詞或全部關(guān)鍵詞,以作為所述文本的標(biāo)簽。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述至少兩個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的相關(guān)信息,獲得每個(gè)所述關(guān)鍵詞與所述文本的相關(guān)度,包括: 根據(jù)所述關(guān)鍵詞在所述文本中的位置、所述關(guān)鍵詞在所述文本中的重復(fù)次數(shù)、所述關(guān)鍵詞在所述文本中的獨(dú)立表意能力、所述關(guān)鍵詞在所述文本中的詞性和所述關(guān)鍵詞在所述文本中的層次中的至少一項(xiàng)信息,獲得所述關(guān)鍵詞的權(quán)重; 根據(jù)所述關(guān)鍵詞的權(quán)重,獲得所述關(guān)鍵詞與所述文本的相關(guān)度。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述根據(jù)所述至少兩個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的相關(guān)信息,獲得每個(gè)所述關(guān)鍵詞與所述文本的緊密度,包括: 根據(jù)所述至少兩個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的相關(guān)信息,構(gòu)造每個(gè)所述關(guān)鍵詞的第一支持向量和第二支持向量; 根據(jù)所述第一支持向量和所述第二支持向量,獲得每個(gè)所述關(guān)鍵詞與所述文本的緊密度。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述至少兩個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的相關(guān)信息,構(gòu)造每個(gè)所述關(guān)鍵詞的第一支持向量和第二支持向量,包括: 根據(jù)所述關(guān)鍵詞在所述文本中的位置、所述關(guān)鍵詞在所述文本中的重復(fù)次數(shù)、所述關(guān)鍵詞在所述文本中的獨(dú)立表意能力、所述關(guān)鍵詞在所述文本中的詞性和所述關(guān)鍵詞在所述文本中的層次中的至少一項(xiàng)信息,獲得所述關(guān)鍵詞的權(quán)重,以及根據(jù)所述關(guān)鍵詞和所述關(guān)鍵詞的權(quán)重,構(gòu)造所述第一支持向量; 獲得與所述關(guān)鍵詞關(guān)聯(lián)的關(guān)聯(lián)詞,根據(jù)所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的位置、所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的重復(fù)次數(shù)、所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的獨(dú)立表意能力、所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的詞性和所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的層次中的至少一項(xiàng)信息,獲得所述關(guān)聯(lián)詞的權(quán)重,以及根據(jù)所述關(guān)聯(lián)詞和所述關(guān)聯(lián)詞的權(quán)重,構(gòu)造所述第二支持向量。
5.根據(jù)權(quán)利要求3或4所述的方法,其特征在于,所述根據(jù)所述第一支持向量和所述第二支持向量,獲得每個(gè)所述關(guān)鍵詞與所述文本的緊密度,包括: 根據(jù)所述第一支持向量和所述第二支持向量,構(gòu)造所述關(guān)鍵詞的第三支持向量; 根據(jù)所述第二支持向量和所述第三支持向量,獲得所述第二支持向量與所述第三支持向量之間的向量距離; 根據(jù)所述向量距離,獲得所述關(guān)鍵詞與所述文本的緊密度。
6.一種基于關(guān)鍵詞的文本的標(biāo)簽提取裝置,其特征在于,包括: 確定單元,用于確定待提取的文本; 提取單元,用于根據(jù)所述文本,提取所述文本的至少兩個(gè)關(guān)鍵詞; 獲得單元,用于根據(jù)所述至少兩個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的相關(guān)信息,獲得每個(gè)所述關(guān)鍵詞與所述文本的相關(guān)度和/或每個(gè)所述關(guān)鍵詞與所述文本的緊密度; 選擇單元,用于根據(jù)所述相關(guān)度和/或所述緊密度,從所述至少兩個(gè)關(guān)鍵詞中選擇部分關(guān)鍵詞或全部關(guān)鍵詞,以作為所述文本的標(biāo)簽。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述獲得單元,具體用于 根據(jù)所述關(guān)鍵詞在所述文本中的位置、所述關(guān)鍵詞在所述文本中的重復(fù)次數(shù)、所述關(guān)鍵詞在所述文本中的獨(dú)立表意能力、所述關(guān)鍵詞在所述文本中的詞性和所述關(guān)鍵詞在所述文本中的層次中的至少一項(xiàng)信息,獲得所述關(guān)鍵詞的權(quán)重;以及根據(jù)所述關(guān)鍵詞的權(quán)重,獲得所述關(guān)鍵詞與所述文本的相關(guān)度。
8.根據(jù)權(quán)利要求6或7所述的裝置,其特征在于,所述獲得單元,具體用于 根據(jù)所述至少兩個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的相關(guān)信息,構(gòu)造每個(gè)所述關(guān)鍵詞的第一支持向量和第二支持向量;以及根據(jù)所述第一支持向量和所述第二支持向量,獲得每個(gè)所述關(guān)鍵詞與所述文本的緊密度。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述獲得單元,具體用于 根據(jù)所述關(guān)鍵詞在所述文本中的位置、所述關(guān)鍵詞在所述文本中的重復(fù)次數(shù)、所述關(guān)鍵詞在所述文本中的獨(dú)立表意能力、所述關(guān)鍵詞在所述文本中的詞性和所述關(guān)鍵詞在所述文本中的層次中的至少一項(xiàng)信息,獲得所述關(guān)鍵詞的權(quán)重,以及根據(jù)所述關(guān)鍵詞和所述關(guān)鍵詞的權(quán)重,構(gòu)造所述第一支持向量; 獲得與所述關(guān)鍵詞關(guān)聯(lián)的關(guān)聯(lián)詞,根據(jù)所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的位置、所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的重復(fù)次數(shù)、所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的獨(dú)立表意能力、所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的詞性和所述關(guān)聯(lián)詞在對(duì)應(yīng)文本中的層次中的至少一項(xiàng)信息,獲得所述關(guān)聯(lián)詞的權(quán)重,以及根據(jù)所述關(guān)聯(lián)詞和所述關(guān)聯(lián)詞的權(quán)重,構(gòu)造所述第二支持向量。
10.根據(jù)權(quán)利要求8或9所述的裝置,其特征在于,所述獲得單元,具體用于 根據(jù)所述第一支持向量和所述第二支持向量,構(gòu)造所述關(guān)鍵詞的第三支持向量;根據(jù)所述第二支持向量和所述第三支持向量,獲得所述第二支持向量與所述第三支持向量之間的向量距離;以及根據(jù)所述向量距離,獲得所述關(guān)鍵詞與所述文本的緊密度。
全文摘要
本發(fā)明提供一種基于關(guān)鍵詞的文本的標(biāo)簽提取方法及裝置。本發(fā)明實(shí)施例通過(guò)根據(jù)文本,提取文本的至少兩個(gè)關(guān)鍵詞,進(jìn)而根據(jù)所述至少兩個(gè)關(guān)鍵詞中每個(gè)所述關(guān)鍵詞的相關(guān)信息,獲得每個(gè)所述關(guān)鍵詞與所述文本的相關(guān)度和/或每個(gè)所述關(guān)鍵詞與所述文本的緊密度,使得能夠根據(jù)所述相關(guān)度和/或所述緊密度,從所述至少兩個(gè)關(guān)鍵詞中選擇部分關(guān)鍵詞或全部關(guān)鍵詞,以作為所述文本的標(biāo)簽,由于根據(jù)關(guān)鍵詞與文本的相關(guān)度和/或關(guān)鍵詞與文本的緊密度,對(duì)所提取的關(guān)鍵詞進(jìn)行有條件的選擇,作為所述文本的標(biāo)簽,能夠避免現(xiàn)有技術(shù)中由于將從文本中提取的關(guān)鍵詞,直接作為該文本的標(biāo)簽而導(dǎo)致的所提取的標(biāo)簽不能準(zhǔn)確地描述文本的問(wèn)題,從而提高了標(biāo)簽提取的可靠性。
文檔編號(hào)G06F17/27GK103235773SQ20131015085
公開日2013年8月7日 申請(qǐng)日期2013年4月26日 優(yōu)先權(quán)日2013年4月26日
發(fā)明者黃超, 劉其文 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司