亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

信息分割方法及裝置的制造方法

文檔序號(hào):9631525閱讀:619來源:國知局
信息分割方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本公開涉及信息處理技術(shù)領(lǐng)域,尤其涉及一種信息分割方法及裝置。
【背景技術(shù)】
[0002]計(jì)算機(jī)對自然語言處理所涉及的內(nèi)容有:分詞、詞性標(biāo)注、命名實(shí)體識(shí)別、雙語對齊、機(jī)器翻譯、信息檢索、知識(shí)抽取、自動(dòng)文摘、文本聚類、文本分類、拼寫糾錯(cuò)等。相關(guān)技術(shù)中,用戶通過移動(dòng)終端進(jìn)行通訊,例如通過短信、微信、qq等通訊工具來實(shí)現(xiàn)雙方的交流,這些交流的信息中可能包含有重要的信息,為提高用戶的體驗(yàn)度,移動(dòng)終端可對其中的重要信息進(jìn)行挖掘,從而為用戶自動(dòng)收集重要信息。

【發(fā)明內(nèi)容】

[0003]本公開實(shí)施例提供一種信息分割方法及裝置。所述技術(shù)方案如下:
[0004]根據(jù)本公開實(shí)施例的第一方面,提供一種信息分割方法,包括:
[0005]獲取通訊會(huì)話序列,所述通訊會(huì)話序列包括至少兩個(gè)消息;
[0006]確定所述通訊會(huì)話序列的特征;
[0007]根據(jù)所述通訊會(huì)話序列的特征及預(yù)設(shè)模型,確定所述通訊會(huì)話序列中每個(gè)消息的場景標(biāo)注信息;其中,所述預(yù)設(shè)模型是預(yù)先根據(jù)至少兩個(gè)樣本通訊會(huì)話序列的特征及其場景標(biāo)注彳g息訓(xùn)練獲得的;
[0008]按照所述場景標(biāo)注信息對所述通訊會(huì)話序列進(jìn)行場景分割。
[0009]本公開的實(shí)施例提供的技術(shù)方案可以包括以下有益效果:
[0010]上述技術(shù)方案,通過確定通訊會(huì)話序列的特征,并根據(jù)通訊會(huì)話序列的特征及預(yù)設(shè)模型確定通訊會(huì)話序列的場景標(biāo)注信息,進(jìn)而根據(jù)場景標(biāo)注信息對通訊會(huì)話序列進(jìn)行場景分割,使得對通訊會(huì)話序列的場景分割更加準(zhǔn)確,且更加符合用戶通訊會(huì)話時(shí)的場景。[0011 ] 在一個(gè)實(shí)施例中,所述獲取通訊會(huì)話序列,包括:
[0012]獲取通訊會(huì)話消息集合,所述通訊會(huì)話消息集合包括至少兩個(gè)消息;
[0013]根據(jù)預(yù)設(shè)參數(shù)對所述通訊會(huì)話消息集合進(jìn)行分割處理,得到至少兩個(gè)通訊會(huì)話序列。
[0014]該實(shí)施例中,通過預(yù)設(shè)參數(shù)對通訊會(huì)話消息集合進(jìn)行分割處理,從而得到多個(gè)通訊會(huì)話序列,使得后續(xù)對通訊會(huì)話序列進(jìn)行場景分割時(shí),能夠降低對大量消息進(jìn)行分割的復(fù)雜度,且能夠避免分割后的每個(gè)場景會(huì)話中語料稀疏的情況。
[0015]在一個(gè)實(shí)施例中,所述預(yù)設(shè)參數(shù)包括第一時(shí)間間隔、第一預(yù)設(shè)關(guān)鍵詞中的至少一種。
[0016]該實(shí)施例中,通過第一時(shí)間間隔、第一預(yù)設(shè)關(guān)鍵詞中的至少一種對通訊會(huì)話消息集合進(jìn)行分割處理,從而得到多個(gè)通訊會(huì)話序列,使得后續(xù)對通訊會(huì)話序列進(jìn)行場景分割時(shí),能夠降低對大量消息進(jìn)行分割的復(fù)雜度,且能夠避免分割后的每個(gè)場景會(huì)話中語料稀疏的情況。
[0017]在一個(gè)實(shí)施例中,當(dāng)所述預(yù)設(shè)參數(shù)包括第一時(shí)間間隔時(shí),根據(jù)預(yù)設(shè)參數(shù)對所述通訊會(huì)話消息集合進(jìn)行分割處理,包括:
[0018]判斷所述通訊會(huì)話消息集合中的相鄰兩個(gè)消息之間的第一時(shí)間間隔是否等于或大于預(yù)設(shè)時(shí)間間隔;
[0019]當(dāng)所述通訊會(huì)話消息集合中的相鄰兩個(gè)消息之間的第一時(shí)間間隔等于或大于預(yù)設(shè)時(shí)間間隔時(shí),將所述相鄰兩個(gè)消息分割至兩個(gè)不同的通訊會(huì)話序列中。
[0020]該實(shí)施例中,對于第一時(shí)間間隔等于或大于預(yù)設(shè)時(shí)間間隔的相鄰兩個(gè)消息,能夠?qū)⑦@兩個(gè)相鄰消息分割至兩個(gè)不同的通訊會(huì)話序列中,從而降低對通訊會(huì)話序列中大量消息進(jìn)行分割的復(fù)雜度,且能夠避免分割后的每個(gè)場景會(huì)話中語料稀疏的情況。
[0021]在一個(gè)實(shí)施例中,所述當(dāng)所述通訊會(huì)話消息集合中的相鄰兩個(gè)消息之間的第一時(shí)間間隔等于或大于預(yù)設(shè)時(shí)間間隔時(shí),將所述相鄰兩個(gè)消息分割至兩個(gè)不同的通訊會(huì)話序列中,包括:
[0022]當(dāng)所述通訊會(huì)話消息集合中的相鄰兩個(gè)消息之間的第一時(shí)間間隔等于或大于預(yù)設(shè)時(shí)間間隔時(shí),判斷所述通訊會(huì)話消息集合中的消息中是否包含第一預(yù)設(shè)關(guān)鍵詞,所述第一預(yù)設(shè)關(guān)鍵詞包括第一開始關(guān)鍵詞、第一結(jié)束關(guān)鍵詞中的至少一種;
[0023]當(dāng)所述通訊會(huì)話消息集合中的消息中包括所述第一開始關(guān)鍵詞時(shí),將所述消息和與其相鄰的前一個(gè)消息分割至兩個(gè)不同的通訊會(huì)話序列中;
[0024]當(dāng)所述通訊會(huì)話消息集合中的消息中包括所述第一結(jié)束關(guān)鍵詞時(shí),將所述消息和與其相鄰的后一個(gè)消息分割至兩個(gè)不同的通訊會(huì)話序列中。
[0025]該實(shí)施例中,能夠?qū)谝活A(yù)設(shè)關(guān)鍵詞的消息與其之前或之后的消息分割至兩個(gè)不同的通訊會(huì)話序列中,從而降低對通訊會(huì)話序列中大量消息進(jìn)行分割的復(fù)雜度,且能夠避免分割后的每個(gè)場景會(huì)話中語料稀疏的情況。
[0026]在一個(gè)實(shí)施例中,所述特征包括以下特征中的至少一種:
[0027]所述消息中包含第二預(yù)設(shè)關(guān)鍵詞,所述第二預(yù)設(shè)關(guān)鍵詞包括第二開始關(guān)鍵詞、第二結(jié)束關(guān)鍵詞中的至少一種;
[0028]相鄰的所述消息之間的第二時(shí)間間隔;
[0029]相鄰的所述消息具有相同來源;
[0030]相鄰的所述消息中包含相同的屬于預(yù)設(shè)詞性的詞;
[0031]所述消息中包含的屬于所述預(yù)設(shè)詞性的詞;
[0032]所述消息的開始詞;
[0033]所述消息的結(jié)束詞。
[0034]該實(shí)施例中,通過對通訊會(huì)話序列的一個(gè)或多個(gè)特征進(jìn)行確定,使得通訊會(huì)話序列的特征確定更加準(zhǔn)確,從而能夠準(zhǔn)確地根據(jù)特征確定通訊會(huì)話序列的場景標(biāo)注信息,實(shí)現(xiàn)對通訊會(huì)話序列的準(zhǔn)確分割。
[0035]在一個(gè)實(shí)施例中,所述方法還包括:
[0036]獲取至少兩個(gè)樣本通訊會(huì)話序列;
[0037]根據(jù)預(yù)設(shè)特征集合確定所述至少兩個(gè)樣本通訊會(huì)話序列的特征;
[0038]確定所述至少兩個(gè)樣本通訊會(huì)話序列的場景標(biāo)注信息;
[0039]根據(jù)所述至少兩個(gè)樣本通訊會(huì)話序列的特征及所述至少兩個(gè)樣本通訊會(huì)話序列的場景標(biāo)注信息進(jìn)行模型訓(xùn)練,生成預(yù)設(shè)模型。
[0040]該實(shí)施例中,通過確定多個(gè)樣本通訊會(huì)話序列的特征及場景標(biāo)注信息,并根據(jù)多個(gè)樣本通訊會(huì)話序列的特征及場景標(biāo)注信息生成預(yù)設(shè)模型,使得預(yù)設(shè)模型能夠被用于對樣本會(huì)話序列進(jìn)行場景分割。
[0041 ] 在一個(gè)實(shí)施例中,所述場景標(biāo)注信息包括開始會(huì)話場景、中間會(huì)話場景、結(jié)束會(huì)話場景和無關(guān)會(huì)話場景中的至少一種。
[0042]該實(shí)施例中,通過確定通訊會(huì)話序列的開始會(huì)話場景、中間會(huì)話場景、結(jié)束會(huì)話場景或無關(guān)會(huì)話場景,使得在根據(jù)場景標(biāo)注信息分割通訊會(huì)話序列時(shí)更加準(zhǔn)確,且更加符合用戶通訊會(huì)話時(shí)的場景。
[0043]根據(jù)本公開實(shí)施例的第二方面,提供一種信息分割裝置,包括:
[0044]第一獲取模塊,用于獲取通訊會(huì)話序列,所述通訊會(huì)話序列包括至少兩個(gè)消息;
[0045]第一確定模塊,用于確定所述第一獲取模塊獲取的通訊會(huì)話序列的特征;
[0046]第二確定模塊,用于根據(jù)所述第一確定模塊確定的通訊會(huì)話序列的特征及預(yù)設(shè)模型,確定所述通訊會(huì)話序息的場景標(biāo)注信息;其中,所述預(yù)設(shè)模型是預(yù)先根據(jù)至少兩個(gè)樣本通訊會(huì)話序列的特征及其場景標(biāo)注信息訓(xùn)練獲得的;
[0047]分割模塊,用于按照所述第二確定模塊確定的場景標(biāo)注信息對所述通訊會(huì)話序列進(jìn)行場景分割。
[0048]在一個(gè)實(shí)施例中,所述第一獲取模塊包括:
[0049]獲取子模塊,用于獲取通訊會(huì)話消息集合,所述通訊會(huì)話消息集合包括至少兩個(gè)消息;
[0050]分割子模塊,用于根據(jù)預(yù)設(shè)參數(shù)對所述獲取子模塊獲取到的通訊會(huì)話消息集合進(jìn)行分割處理,得到至少兩個(gè)通訊會(huì)話序列。
[0051 ] 在一個(gè)實(shí)施例中,所述預(yù)設(shè)參數(shù)包括第一時(shí)間間隔、第一預(yù)設(shè)關(guān)鍵詞中的至少一種。
[0052]在一個(gè)實(shí)施例中,所述分割子模塊,用于當(dāng)所述預(yù)設(shè)參數(shù)包括第一時(shí)間間隔時(shí),判斷所述通訊會(huì)話消息集合中的相鄰兩個(gè)消息之間的第一時(shí)間間隔是否等于或大于預(yù)設(shè)時(shí)間間隔;當(dāng)所述通訊會(huì)話消息集合中的相鄰兩個(gè)消息之間的第一時(shí)間間隔等于或大于預(yù)設(shè)時(shí)間間隔時(shí),將所述相鄰兩個(gè)消息分割至兩個(gè)不同的通訊會(huì)話序列中。
[0053]在一個(gè)實(shí)施例中,所述分割子模塊,用于當(dāng)所述通訊會(huì)話消息集合中的相鄰兩個(gè)消息之間的第一時(shí)間間隔等于或大于預(yù)設(shè)時(shí)間間隔時(shí),判斷所述通訊會(huì)話消息集合中的消息中是否包含第一預(yù)設(shè)關(guān)鍵詞,所述第一預(yù)設(shè)關(guān)鍵詞包括第一開始關(guān)鍵詞、第一結(jié)束關(guān)鍵詞中的至少一種;當(dāng)所述通訊會(huì)話消息集合中的消息中包括所述第一開始關(guān)鍵詞時(shí),將所述消息和與其相鄰的前一個(gè)消息分割至兩個(gè)不同的通訊會(huì)話序列中;當(dāng)所述通訊會(huì)話消息集合中的消息中包括所述第一結(jié)束關(guān)鍵詞時(shí),將所述消息和與其相鄰的后一個(gè)消息分割至兩個(gè)不同的通訊會(huì)話序列中。
[0054]在一個(gè)實(shí)施例中,所述第一確定模塊確定的特征包括以下特征中的至少一種:
[0055]所述消息中包含第二預(yù)設(shè)關(guān)鍵詞,所述第二預(yù)設(shè)關(guān)鍵詞包括第二開始關(guān)鍵詞、第二結(jié)束關(guān)鍵詞中的至少一種;
[0056]相鄰的所述消息之間的第二時(shí)間間隔;
[0057]相鄰的所述消息具有相同來源;
[0058]相鄰的所述消息中包含相同的屬于預(yù)設(shè)詞性的詞;
[0059]所述消息中包含的屬于所述預(yù)設(shè)詞性的詞;
[0060]所述消息的開始詞;
[0061]所述消息的結(jié)束詞。
[0062]在一個(gè)實(shí)施例中,所述裝置還包括:
[0063]第二獲取模塊,用于獲取至少兩個(gè)樣本通訊會(huì)話序列;
[0064]第三確定模塊,用于根據(jù)預(yù)設(shè)特征集合確定所述第二獲取模塊獲取的至少兩個(gè)樣本通訊會(huì)話序列的特征;
[0065]第四確定模塊,用于確定所述第二獲取模塊獲取的至少兩個(gè)樣本通訊會(huì)話序列的場景標(biāo)注信息;
[0066]生成模塊,用于根據(jù)所述第三確定模塊確定的至少兩個(gè)樣本通訊會(huì)話序列的特征及所述第四確定模塊確定的至少兩個(gè)樣本通訊會(huì)話序列的場景標(biāo)注信息進(jìn)行模型訓(xùn)練,生成預(yù)設(shè)模型。
[0067]在一個(gè)實(shí)施例中,所述場景標(biāo)注信息包括開始會(huì)話場景、中間會(huì)話場景、結(jié)束會(huì)話場景和無關(guān)會(huì)話場景中的至少一種。
[0068]根據(jù)本公開實(shí)施例的第三方面,提供一種信息分割裝置,包括:
[0069]獲取通訊會(huì)話序列,所述通訊會(huì)話序列包括至少兩個(gè)消息;
[0070]確定所述通訊會(huì)話序列的特征;
[0071]根據(jù)所述通訊會(huì)話序列的特征及預(yù)設(shè)模型,確定所述通訊會(huì)話序列的場景標(biāo)注信息;其中,所述預(yù)設(shè)模型是預(yù)先根據(jù)至少兩個(gè)樣本通訊會(huì)話序列的特征及其場景標(biāo)注信息訓(xùn)練獲得的;
[0072]按照所述場景標(biāo)注信息對所述通訊會(huì)話序列進(jìn)行場景分割。
[0073]應(yīng)當(dāng)理解的是,以上的一般描述和后文的
當(dāng)前第1頁1 2 3 4 5 6 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1