用于分割文本的方法和設(shè)備與流程

文檔序號：11177129閱讀：256來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及用于分割文本的方法和設(shè)備，并且特別涉及用于根據(jù)主題將文本分割成多個部分的方法和設(shè)備。
背景技術(shù)：
：在現(xiàn)有技術(shù)中，已經(jīng)提出了幾種用于將文本分割成多個片段的方法。例如，美國申請公開us2014/0052753a1(method,deviceandsystemforprocessingpublicopiniontopics)公開了確定輿情話題是否符合報警條件的方法，其包括使用詞匯特征(例如概念)對文本進(jìn)行分割。然而，在那些現(xiàn)有技術(shù)中存在一些缺點(diǎn)，諸如準(zhǔn)確性低等。準(zhǔn)確性低的原因可能是分割得到的文本片段與概念之間的映射有時不一致。例如，在分割醫(yī)療成像報告(諸如放射學(xué)報告)的情況下，醫(yī)師經(jīng)常在該報告中針對一個身體部位寫出多于一個診斷。當(dāng)使用身體部位作為概念來分割醫(yī)療成像報告時，對于一個身體部位的連續(xù)的多個診斷將被分在同一片段中，而不能彼此區(qū)分開。也就是說，在分割時，將遺漏對于一個身體部位的連續(xù)的多個診斷之間的邊界。圖1示出ct圖像診斷報告以作為醫(yī)療成像報告的示例，圖2示出對于圖1中示出的醫(yī)療成像報告的文本的分割的期望結(jié)果，并且圖3示出通過使用現(xiàn)有技術(shù)方法獲得的對于圖1中示出的醫(yī)療成像報告的文本的分割結(jié)果。在該示例中，待分割的文本是該報告的“發(fā)現(xiàn)”部分。期望的是，將文本分割成多個片段，其中每個片段對應(yīng)于報告的“診斷”部分中列出的生理失調(diào)(disorder)中的一個，并且因此能夠容易地將寫出的生理失調(diào)中的每一個與其對應(yīng)的發(fā)現(xiàn)(即，發(fā)現(xiàn)的異常)關(guān)聯(lián)。因此，期望的分割結(jié)果包括5個片段，如圖2所示。然而，如圖3所示，現(xiàn)有技術(shù)方法僅識別出4個片段。這是因?yàn)?，在該報告中，兩個生理失調(diào)(即，“肺癌”和“肺氣腫”)都涉及身體部位“肺”，并且根據(jù)現(xiàn)有技術(shù)的方法，“發(fā)現(xiàn)”部分中的與身體部位“肺”關(guān)聯(lián)的所有句子將被分割到同一片段中。也就是說，將遺漏對應(yīng)于“肺癌”的句子與對應(yīng)于“肺氣腫”的句子之間的分割邊界。在醫(yī)療成像報告領(lǐng)域中，醫(yī)師經(jīng)常在報告中針對一個身體部位寫出多于一個診斷。當(dāng)然，在與醫(yī)療成像報告領(lǐng)域類似的其它種類的文本領(lǐng)域中存在同樣的問題。因此，為了解決上述問題，需要新的文本分割技術(shù)。技術(shù)實(shí)現(xiàn)要素：深入研究之后，本發(fā)明的發(fā)明人發(fā)現(xiàn)了，寫醫(yī)療成像報告或類似報告的寫作者在作出推論時具有對發(fā)現(xiàn)或做出診斷的證據(jù)(以下稱為證據(jù))進(jìn)行排序的特定的偏好或慣例。以醫(yī)療成像報告為例，下面的表1列出幾種排序規(guī)則及其示例。一般，放射科醫(yī)師喜歡把具有顯著診斷意義的發(fā)現(xiàn)寫在不具有顯著診斷意義的發(fā)現(xiàn)前面；把一般的發(fā)現(xiàn)寫在對發(fā)現(xiàn)的詳細(xì)描寫前面；以及把對診斷呈陽性的發(fā)現(xiàn)寫在對診斷呈陰性的發(fā)現(xiàn)前面。另外，一些發(fā)現(xiàn)是為診斷疾病所必需的，而其它發(fā)現(xiàn)是可選的。放射科醫(yī)師通常把必需的發(fā)現(xiàn)寫在可選的發(fā)現(xiàn)前面。id對發(fā)現(xiàn)進(jìn)行排序的規(guī)則示例1顯著的->不顯著的結(jié)節(jié)->肥大2一般的->詳細(xì)的結(jié)節(jié)->子結(jié)節(jié)3陽性->陰性淋巴結(jié)病(+)->胸腔積液(-)4必需的->可選的結(jié)節(jié)->淋巴結(jié)病表1因此，文本的一個片段中的句子的序列(每個句子包含證據(jù))一般遵循特定的規(guī)則，該規(guī)則可以憑經(jīng)驗(yàn)或通過分析分割歷史而獲得。也就是說，一些類型的句子總是位于片段的開頭附近或在片段的開頭處，即，片段的開始，并且其它一些類型的句子大部分位于片段的尾部附近或尾部處，即，片段的結(jié)束。另外，一些類型的句子可能大部分位于片段的中間附近或中間處。通過根據(jù)特定的規(guī)則估計每個句子在片段中最可能的位置，能夠容易地確定不同片段之間的邊界。因此，本發(fā)明的發(fā)明人提出了一種新的分割方法，其基于文本和/或分割歷史確定每個證據(jù)(對應(yīng)于每個句子)在對于一個推論的片段中的優(yōu)先位置(即，最可能的位置)，并且然后基于證據(jù)的優(yōu)先位置將文本分割成多個片段。換句話說，本發(fā)明的一個概念是，在醫(yī)療報告中，用于描述一個醫(yī)療現(xiàn)象的片段(例如，一個完整的診斷)的句子序列的開始句子和結(jié)束句子總是包含某些特定的醫(yī)學(xué)術(shù)語(諸如，異常，生理失調(diào))，因此，本發(fā)明能夠通過確定這些特定的醫(yī)學(xué)術(shù)語在句子序列中的位置(諸如，頭部、尾部)來確定醫(yī)療現(xiàn)象片段之間的邊界。當(dāng)然，本領(lǐng)域技術(shù)人員容易理解，本發(fā)明的這個概念不限于醫(yī)療報告，并且還能夠被應(yīng)用于與醫(yī)療報告類似的其它報告。本發(fā)明的一個方面提供了一種用于分割包括多個句子的文本的方法，其包括：提取步驟，從所述文本中提取多個證據(jù)和多個推論；確定步驟，對于所述多個推論中的每一個推論，基于所述文本和/或分割歷史來確定所述多個證據(jù)中的每一個證據(jù)的優(yōu)先位置，其中所述優(yōu)先位置表示該證據(jù)在用來作出該推論的證據(jù)的序列中最可能處于的位置；以及分割步驟，通過基于證據(jù)的優(yōu)先位置將所述文本中的每兩個連續(xù)句子之間的邊界中的一個或更多個邊界確定為片段邊界，來將所述文本分割成多個片段。利用根據(jù)本發(fā)明的文本分割方法和設(shè)備，分割將更為準(zhǔn)確，并且使得更容易分析和比較專業(yè)報告，因此節(jié)省用戶的時間。根據(jù)本發(fā)明的文本分割技術(shù)對醫(yī)療成像報告尤其有用，醫(yī)療成像報告通常在一個報告中作出若干診斷，該醫(yī)療成像報告諸如為放射學(xué)報告、核磁共振成像報告、醫(yī)療超聲檢查或超聲報告、核醫(yī)學(xué)報告、彈性成像報告、觸覺成像報告、光聲成像報告、熱成像報告等。根據(jù)參照附圖的以下描述，本發(fā)明的其它特性特征和優(yōu)點(diǎn)將變得清晰。附圖說明并入說明書中并且構(gòu)成說明書的一部分的附圖示出了本發(fā)明的實(shí)施例，并且與描述一起用于說明本發(fā)明的原理。圖1示出ct圖像診斷報告作為醫(yī)療成像報告的示例。圖2示出對于圖1中示出的醫(yī)療成像報告的文本的分割的期望結(jié)果。圖3示出通過使用現(xiàn)有技術(shù)方法獲得的對于圖1中示出的醫(yī)療成像報告的文本的分割結(jié)果。圖4是示出根據(jù)本發(fā)明的第一實(shí)施例的用于分割包括多個句子的文本的方法的流程圖。圖5是示出根據(jù)本發(fā)明的第一實(shí)施例的用于分割包括多個句子的文本的文本分割設(shè)備的框圖。圖6是示出根據(jù)本發(fā)明的第一實(shí)施例的用于分割包括多個句子的文本的另一種文本分割設(shè)備的框圖。圖7示出對于第一實(shí)施例的文本分割方法的第一具體示例、及其提取的證據(jù)和推論。圖8(a)到圖8(c)示出第一示例中的基于分割歷史確定的優(yōu)先位置。圖9示出第一具體示例的分割結(jié)果。圖10示出對于第一實(shí)施例的文本分割方法的第二具體示例的處理和結(jié)果。圖11示出根據(jù)本發(fā)明的示例性實(shí)施例的通用的硬件環(huán)境，在此公開的每個實(shí)施例可應(yīng)用于其中。圖12是示出根據(jù)本發(fā)明的第二實(shí)施例的用于顯示文本的方法的流程圖。圖13示出了根據(jù)本發(fā)明的第二實(shí)施例的方法的示例性顯示結(jié)果。圖14是示出根據(jù)本發(fā)明的第二實(shí)施例的用于顯示文本的設(shè)備的框圖。圖15是示出根據(jù)本發(fā)明的第三實(shí)施例的用于鏈接文本的方法的流程圖。圖16是示出根據(jù)本發(fā)明的第三實(shí)施例的用于鏈接文本的設(shè)備的框圖。圖17是示出根據(jù)本發(fā)明的第四實(shí)施例的用于提取診斷對象的方法的流程圖，其中所述診斷對象為一組與診斷有關(guān)的實(shí)體。圖18是示出根據(jù)本發(fā)明的第四實(shí)施例的用于提取診斷對象的設(shè)備的框圖。圖19是示出根據(jù)本發(fā)明的第五實(shí)施例的用于為給定的推論建議證據(jù)的方法的流程圖。圖20是示出根據(jù)本發(fā)明的第五實(shí)施例的用于為給定的推論建議證據(jù)的設(shè)備的框圖。具體實(shí)施方式下面將參考附圖來詳細(xì)描述本發(fā)明的實(shí)施例。請注意，類似的參考數(shù)字和字母指的是圖中的類似的項(xiàng)目，因而一旦在一幅圖中定義了一個項(xiàng)目，就不需要在之后的圖中討論了。首先，將說明在本公開的上下文中的一些術(shù)語的含義。在本發(fā)明中待分割的文本一般包含多個句子，該多個句子描述多個證據(jù)和/或發(fā)現(xiàn)，并且基于這些證據(jù)和/或發(fā)現(xiàn)作出多于一個推論。在這種文本中，文本的某個片段中的句子的排序一般遵循特定的規(guī)則，該規(guī)則可以憑經(jīng)驗(yàn)或通過分析分割歷史而獲得。因此，通過基于文本和/或分割歷史確定每個證據(jù)和/或發(fā)現(xiàn)的優(yōu)先位置，能夠容易地確定片段邊界。優(yōu)先位置表示證據(jù)和/或發(fā)現(xiàn)在用來作出推論的證據(jù)的序列中最可能處于的位置。該文本可以是醫(yī)療成像報告的文本，該醫(yī)療成像報告諸如為放射學(xué)報告、核磁共振成像報告、醫(yī)療超聲檢查或超聲報告、核醫(yī)學(xué)報告、彈性成像報告、觸覺成像報告、光聲成像報告、熱成像報告等。當(dāng)然，本領(lǐng)域技術(shù)人員容易理解，在本發(fā)明中待分割的文本不限于醫(yī)療成像報告，而是能夠是任何種類的文本，只要它包含多個證據(jù)和多個推論即可。這種文本的示例包括：臨床報告、手術(shù)前的報告和手術(shù)后的報告、入院記錄、出院小結(jié)等。(第一實(shí)施例)圖4是示出根據(jù)本發(fā)明的第一實(shí)施例的用于分割包括多個句子的文本的方法的流程圖。如圖4所示，在提取步驟410中，從所述文本中提取多個證據(jù)和多個推論。在一些示例中，證據(jù)和推論可以是實(shí)體或者命名實(shí)體。在一個實(shí)施方式中，所述提取步驟410可以包括：根據(jù)預(yù)定義的詞匯表來從所述文本中識別證據(jù)和/或推論。上述識別操作能夠通過本領(lǐng)域中已知的任何種類的適當(dāng)方法實(shí)現(xiàn)。例如，詞匯表可以是通過用戶或?qū)嶒?yàn)基于文本中討論的內(nèi)容而預(yù)定義的。詞匯表可以包括這種文本中可能存在的證據(jù)和/或推論的所有實(shí)體或常見的實(shí)體?？梢酝ㄟ^例如搜索和匹配詞匯表中的實(shí)體與文本而從文本中識別出證據(jù)和/或推論?？商娲?，所述提取步驟410可以包括：通過使用實(shí)體識別技術(shù)來從所述文本中提取實(shí)體以作為證據(jù)和/或推論。上述提取操作能夠通過本領(lǐng)域中已知的任何種類的適當(dāng)方法(例如，通過任何已知命名實(shí)體識別(ner)方法)來實(shí)現(xiàn)。在其它示例中，證據(jù)和/或推論可以是由實(shí)體及實(shí)體之間的關(guān)系構(gòu)成的事實(shí)。相應(yīng)地，在另一實(shí)施方式中，所述提取步驟410可以包括：通過使用實(shí)體識別技術(shù)和關(guān)系提取技術(shù)來從所述文本中提取由實(shí)體及實(shí)體之間的關(guān)系構(gòu)成的事實(shí)以作為證據(jù)和/或推論。上述提取操作能夠通過本領(lǐng)域中已知的任何種類的適當(dāng)方法(例如，通過本領(lǐng)域中的任何已知的命名實(shí)體識別(ner)方法和任何已知的關(guān)系提取方法)來實(shí)現(xiàn)。在一些情況中，還可以從文本中識別出證據(jù)的特性。例如，證據(jù)的特性可以是證據(jù)的極性，即，“陰性”或“陽性”?！瓣幮浴弊C據(jù)意指，文本中其對應(yīng)的句子是表示未找到該證據(jù)的否定句，或明確地敘述該證據(jù)是不顯著的。例如，對于句子“未看到胸腔積液”，其提取的證據(jù) “胸腔積液”是“陰性”證據(jù)。相反，“陽性”證據(jù)意指，文本中其對應(yīng)的句子是表示找到該證據(jù)的肯定句，或明確地敘述該證據(jù)是顯著的。例如，對于句子“在右肺s4的外圍中，觀察到直徑2.5cm的結(jié)節(jié)”，其提取的證據(jù)“結(jié)節(jié)”是“陽性”證據(jù)?？梢酝ㄟ^例如確定其對應(yīng)句子是肯定句還是否定句來識別證據(jù)的極性。接下來，在確定步驟420中，對于所述多個推論中的每一個推論，基于所述文本和/或分割歷史來確定所述多個證據(jù)中的每一個證據(jù)的優(yōu)先位置，其中所述優(yōu)先位置表示該證據(jù)在用來作出該推論的證據(jù)的序列中最可能處于的位置。在一個實(shí)施方式中，確定步驟420可以包括：對于多個推論中的每一個推論，基于所述文本中的證據(jù)的特性和/或分割歷史來確定多個證據(jù)中的每一個證據(jù)的優(yōu)先位置的分類值或者數(shù)值。在一些情況中，用來作出推論的證據(jù)的序列中的所有位置能夠被分類成多個種類，諸如“頭部位置”、“中間位置”、“尾部位置”等。然后可以給每個種類分配一個分類值(諸如，‘尾部’、‘中間’、‘頭部’等)。因此，可以由分類值表示優(yōu)先位置。例如，優(yōu)先位置的分類值可以至少包括‘尾部’和‘頭部’，并且可以根據(jù)證據(jù)的極性(陽性或陰性)來確定。在證據(jù)的極性為陰性的情況下可以確定所述證據(jù)的優(yōu)先位置為‘尾部’，并且在證據(jù)的極性為陽性的情況下可以確定所述證據(jù)的優(yōu)先位置為‘頭部’?？商娲兀梢酝ㄟ^如下操作來確定優(yōu)先位置的分類值：計算證據(jù)屬于與各個分類值對應(yīng)的每個種類的概率，并且然后基于所計算的概率來選擇分類值中的一個分類值以作為證據(jù)的優(yōu)先位置。在一些示例中，可以以簡單的方式選擇與最高概率關(guān)聯(lián)的分類值作為優(yōu)先位置?？梢曰诜指顨v史和/或文本中的證據(jù)的特性計算概率。在其它一些情況中，優(yōu)先位置可以由數(shù)值來表示。可以通過如下操作來確定優(yōu)先位置的數(shù)值：計算和規(guī)格化證據(jù)在每個分割歷史中用來作出推論的證據(jù)的序列中的位置；以及對證據(jù)在所有分割歷史中的位置求平均值以作為證據(jù)的優(yōu)先位置的數(shù)值。例如，計算和規(guī)格化證據(jù)的位置的步驟可以包括：計算在每個分割歷史中用來作出推論的證據(jù)的序列中證據(jù)到尾部位置的距離，并且將所述距離規(guī)格化到從0到1的數(shù)值范圍以作為證據(jù)的位置。在一個示例中，在每個分割歷史中，當(dāng)證據(jù)恰好處于與推論有關(guān)的分割片段的尾部時，證據(jù)的距離為0，并且當(dāng)證據(jù)恰好處于該片段的頭部時，證據(jù)的距離為1?？梢酝ㄟ^本領(lǐng)域中任何已知的距離計算方法來計算和規(guī)格化證據(jù)的位置與尾部位置之間的距離，而不會受特別地限制。接下來，如圖4所示，在分割步驟430中，通過基于證據(jù)的優(yōu)先位置將所述文本中的每兩個連續(xù)句子之間的邊界中的一個或更多個邊界確定為片段邊界，來將所述文本分割成多個片段。在一個實(shí)施方式中，在確定片段邊界之前，可以濾掉不滿足推論所施加的約束的候選片段邊界。例如，在必須通過使用三個連續(xù)的特定證據(jù)才能作出推論(例如，某個診斷必須由三個連續(xù)的特殊步驟來確定)的情況下，這些連續(xù)的證據(jù)之中的兩個證據(jù)之間的邊界不可能是片段邊界，并且需要被濾掉。也就是說，在用來作出推論的證據(jù)的序列必須由兩個或更多個特定證據(jù)構(gòu)成的情況下，在確定片段邊界之前，可以濾掉所述兩個或更多個特定證據(jù)之間的候選的片段邊界。在一些示例中，可以通過使用預(yù)定義的規(guī)則或使用機(jī)器學(xué)習(xí)算法基于優(yōu)先位置來確定片段邊界。該規(guī)則可以通過用戶或通過實(shí)驗(yàn)預(yù)定義。例如，對于兩個連續(xù)的句子，在前一句子的優(yōu)先位置為尾部位置而后一句子的優(yōu)先位置為頭部位置的情況下，它通常意味著下一片段的頭部跟隨著前一片段的尾部。也就是說，在這兩個連續(xù)的句子之間存在片段邊界。因此，在如上所述地確定優(yōu)先位置的分類值的情況下，所述分割步驟可以包括：在兩個連續(xù)句子中的前一句子包含具有‘尾部’的優(yōu)先位置的證據(jù)并且后一句子包含具有‘頭部’的優(yōu)先位置的證據(jù)的情況下，將所述兩個連續(xù)句子之間的邊界確定為片段邊界。在其它示例中，在如上所述地確定優(yōu)先位置的數(shù)值的情況下，所述分割步驟可以包括：在兩個連續(xù)句子中包含的證據(jù)的優(yōu)先位置的數(shù)值之間的差值大于預(yù)定義的閾值的情況下，將所述兩個連續(xù)句子之間的邊界確定為片段邊界。另外，如果數(shù)值表示到尾部位置的距離，則前一句子的優(yōu)先位置的數(shù)值需要小于后一句子的優(yōu)先位置的數(shù)值。在另一實(shí)施例中，可以通過使用機(jī)器學(xué)習(xí)算法基于優(yōu)先位置來分割文本。例如，機(jī)器學(xué)習(xí)算法通過使用優(yōu)先位置作為特征來為句子分配分?jǐn)?shù)以便確定它是否作為一個新的片段的開始；可替代地，機(jī)器學(xué)習(xí)算法通過使用優(yōu)先位置作為特征來從一組候選分割方式中選出最佳的分割方式。機(jī)器學(xué)習(xí)算法可以通過本領(lǐng)域中已知的任何技術(shù)(諸如基于hmm或crf的序列標(biāo)記技術(shù)等)實(shí)現(xiàn)。在另一實(shí)施方式中，根據(jù)本實(shí)施例的方法還可以包括：從所述文本中提取身體部位并且基于所述身體部位將所述文本分割成多個部分；以及對于所分割的部分中的一個或更多個部分，通過基于證據(jù)的優(yōu)先位置將一個部分中的每兩個連續(xù)句子之間的邊界中的一個或更多個邊界確定為片段邊界，來將所述部分分割成多個片段。這種實(shí)施方式可以是根據(jù)本發(fā)明的分割方法與現(xiàn)有技術(shù)分割方法的組合。首先，利用現(xiàn)有技術(shù)分割方法，通過提取身體部位作為話題，基于話題將文本預(yù)先分割成多個部分。每個部分對應(yīng)于一個身體部位，如圖3所示。然后，在存在與同一身體部位有關(guān)的多于一個推論的情況下，通過利用如上所述的根據(jù)本發(fā)明的文本分割方法將對應(yīng)于這個身體部位的部分進(jìn)一步分割成多個片段。這種組合實(shí)現(xiàn)方式能夠結(jié)合根據(jù)本發(fā)明的分割方法和現(xiàn)有技術(shù)分割方法兩者的優(yōu)點(diǎn)。在上述的文本分割方法中，所述文本可以為醫(yī)療成像報告。在這種情況下，所述證據(jù)對應(yīng)于所成像的對象的異常，并且所述推論包括所成像的對象的生理失調(diào)。另外，例如，可以僅對醫(yī)療成像報告中的記錄發(fā)現(xiàn)(包含證據(jù))的部分進(jìn)行分割。圖5是示出根據(jù)本發(fā)明第一實(shí)施例的用于分割包括多個句子的文本的文本分割設(shè)備500的框圖。如圖5所示，文本分割設(shè)備500包括：提取單元510、確定單元520和分割單元530。更具體地，提取單元510被配置用于從所述文本中提取多個證據(jù)和多個推論。確定單元520被配置用于，對于所述多個推論中的每一個推論，基于所述文本和/或分割歷史來確定所述多個證據(jù)中的每一個證據(jù)的優(yōu)先位置，其中所述優(yōu)先位置表示該證據(jù)在用來作出該推論的證據(jù)的序列中最可能處于的位置。分割單元530被配置用于通過基于證據(jù)的優(yōu)先位置將所述文本中的每兩個連續(xù)句子之間的邊界中的一個或更多個邊界確定為片段邊界，來將所述文本分割成多個片段。設(shè)備500中的各個單元能夠被配置為執(zhí)行圖4中的流程圖中示出的各個步驟。圖6是示出根據(jù)本發(fā)明第一實(shí)施例的用于分割包括多個句子的文本的另一種文本分割設(shè)備600的框圖。如圖6所示，文本分割設(shè)備600包括：處理器610和存儲裝置620。更具體地，存儲裝置620存儲計算機(jī)執(zhí)行的指令，所述指令能夠使得處理器610執(zhí)行以下操作：從所述文本中提取多個證據(jù)和多個推論；對于所述多個推論中的每一個推論，基于所述文本和/或分割歷史來確定所述多個證據(jù)中的每一個證據(jù)的優(yōu)先位置，其中所述優(yōu)先位置表示所述證據(jù)在用來作出所述推論的證據(jù)的序列中最可能處于的位置；以及通過基于證據(jù)的優(yōu)先位置將所述文本中的每兩個連續(xù)句子之間的邊界中的一個或更多個邊界確定為片段邊界，來將所述文本分割成多個片段。設(shè)備600可以適于通過修改所存儲的計算機(jī)執(zhí)行的指令來執(zhí)行如上所述的根據(jù)本發(fā)明的文本分割方法中的各個操作。另外，用于執(zhí)行圖4中示出的方法的第一實(shí)施例的設(shè)備還能夠通過在下文中將詳細(xì)描述的圖11中示出的硬件環(huán)境具體實(shí)現(xiàn)。利用上述的文本分割方法和設(shè)備，能夠提高分割的準(zhǔn)確性。[第一示例]接下來，為了讓本領(lǐng)域技術(shù)人員更好地和充分地理解本發(fā)明，將詳細(xì)描述上述第一實(shí)施例的文本分割方法的第一具體示例。該示例僅僅是示例性的，而不意圖限制本發(fā)明。為了更好顯示本發(fā)明的操作和效果，僅取圖1中示出的醫(yī)療成像報告的一部分作為待分割文本的示例。待分割部分僅包含與肺有關(guān)的發(fā)現(xiàn)，即，第1個句子到第11個句子，如圖7所示。在這種情況下，從每個句子中提取一個異常作為證據(jù)。并且從文本中提取生理失調(diào)作為推論，如圖7所示?？梢酝ㄟ^使用預(yù)定義的詞匯表或通過使用任何已知的實(shí)體識別技術(shù)來提取異常和生理失調(diào)。對于每一對證據(jù)和推論，可以基于分割歷史統(tǒng)計地計算所述證據(jù)在用來作出所述推論的證據(jù)的序列中的優(yōu)先位置。具體地，已經(jīng)提取了醫(yī)療成像報告的歷史中的生理失調(diào)和異常的序列。那些醫(yī)療成像報告已經(jīng)被分割以使得一個片段中的所有異常與一個特定的生理失調(diào)有關(guān)。此外，記錄在作出特定的診斷(即，生理失調(diào))時異常所處的位置。在該示例中，該位置是作為‘頭部’、‘中間’或‘尾部’的分類值。然后對于每一對異常和生理失調(diào)，對歷史中的異常的位置為‘頭部’的次數(shù)進(jìn)行計數(shù)，對歷史中的異常的位置為‘中間’的次數(shù)進(jìn)行計數(shù)，并且對歷史中的異常的位置為‘尾部’的次數(shù)進(jìn)行計數(shù)。相應(yīng)地，計算對于各個位置(即，‘頭部’、‘中間’和‘尾部’)的概率。然后，選擇具有大于預(yù)定義閾值的概率的位置作為對于這對異常和生理失調(diào)的優(yōu)先位置，如圖8(a)和圖8(b)所示。在該示例中，對于每個異常，將分別針對兩個生理失調(diào)的兩個優(yōu)先位置結(jié)合以獲得最終的優(yōu)先位置，如圖8(c)所示。可以通過以簡單規(guī)則對兩個分類值求平均來實(shí)現(xiàn)結(jié)合。不用說，兩個相同位置被結(jié)合成相同位置。另外，‘頭部’位置和‘中間’位置被平均為‘頭部’位置，并且‘尾部’位置和‘中間’位置被平均為‘尾部’位置。在一個異常在報告中出現(xiàn)多于一次的情況下，可以通過使用例如如在美國專利us8457950中所公開的指代消解(co-referenceresolution)技術(shù)來僅把優(yōu)先位置分配給第一次出現(xiàn)的異常。因此，在該示例中缺少有些證據(jù)的優(yōu)先位置，如圖8(c)所示。然后，包含這十一個句子的部分根據(jù)它們的優(yōu)先位置而被分割成兩個片段，如圖9所示。具體地，如上所述，可以通過使用預(yù)定義的規(guī)則分割該部分。該規(guī)則是，在優(yōu)先位置的序列中連續(xù)的尾部位置和頭部位置之間分割文本。也就是說，對于圖9中示出的每一對相鄰句子，存在一個候選的片段邊界，并且在這兩個連續(xù)句子中的前一句子包含具有‘尾部’的優(yōu)先位置的證據(jù)而后一句子包含具有‘頭部’的優(yōu)先位置的證據(jù)的情況下，這個候選的邊界被確定作為片段邊界。如圖9所示，第六個句子和第七個句子滿足該預(yù)定義的規(guī)則，并且在其之間的邊界被確定作為片段邊界。最后，可選的是，通過本領(lǐng)域中已知的任何技術(shù)將分割得到的片段與推論相關(guān)聯(lián)，如圖9的最后一列所示。[第二示例]另外，為了讓本領(lǐng)域技術(shù)人員更好地和充分地理解本發(fā)明，接下來將詳細(xì)描述上述第一實(shí)施例的文本分割方法的第二具體示例。同樣，該示例僅僅是示例性的，而不意圖限制本發(fā)明。在該示例中，待分割文本對應(yīng)于圖1中示出的醫(yī)療成像報告。這個示例如上面所討論的那樣將根據(jù)本發(fā)明的分割方法與現(xiàn)有技術(shù)分割方法結(jié)合。首先，利用現(xiàn)有技術(shù)分割方法，通過提取身體部位作為話題，基于身體部位將文本預(yù)先分割成多個部分。在該示例中，主要器官被用作身體部位。每個部分對應(yīng)于一個身體部位，如圖10所示。然后，注意，第二部分、第三部分和第四部分分別僅包含一個句子，并且因此不必被進(jìn)一步分割。但是對應(yīng)于肺的第一部分包含許多句子，其可能涉及多于一個推論，因此這個部分可以通過利用根據(jù)本發(fā)明的文本分割方法來被進(jìn)一步分割成多個片段。能夠通過第一示例中的方法將第一部分分割成兩個片段，如圖9所示。然而，在第二示例中，可以通過可替代的根據(jù)第一實(shí)施例的另一方法來分割第一部分。如上所述，可以從句子中識別證據(jù)的極性，即，‘陰性’和‘陽性’。然后，‘頭部’被分配作為陽性證據(jù)的優(yōu)先位置，并且‘尾部’被分配作為陰性證據(jù)的優(yōu)先位置，如圖10所示。接下來，可以根據(jù)預(yù)定義的規(guī)則通過使用優(yōu)先位置來分割第一部分。該規(guī)則是，在優(yōu)先位置的序列中連續(xù)的尾部位置和頭部位置之間分割文本。也就是說，對于圖10中示出的每一對相鄰的句子，在其之間存在一個候選的片段邊界，并且在這兩個連續(xù)句子中的前一句子包含具有‘尾部’的優(yōu)先位置的證據(jù)而后一句子包含具有‘頭部’的優(yōu)先位置的證據(jù)的情況下這個候選的邊界被確定作為片段邊界。如圖10所示，第六個句子和第七個句子滿足該預(yù)定義的規(guī)則，并且在其之間的邊界被確定作為片段邊界。根據(jù)第一實(shí)施例的上述文本分割方法能夠被用在很多應(yīng)用中。接下來，下文將介紹幾種主要的應(yīng)用。(第二實(shí)施例)本實(shí)施例涉及應(yīng)用第一實(shí)施例的文本分割方法來以更好的方式顯示文本。圖12是示出根據(jù)本發(fā)明的第二實(shí)施例的用于顯示文本的方法的流程圖。如圖12所示，首先，在步驟1210中，通過利用第一實(shí)施例的文本分割方法將所述文本分割成多個片段。然后，在步驟1220中，通過將每個片段與一個推論關(guān)聯(lián)來顯示分割得到的片段。以圖1中示出的醫(yī)療成像報告作為待分割和顯示的文本的示例。如上面所討論的，這個報告可以被分割成五個片段，如圖10所示。然后，每個片段與一個推論相關(guān)聯(lián)，并且利用多個頁面來顯示文本，其中每個頁面具有描述對應(yīng)推論的標(biāo)簽。在具有推論標(biāo)簽的頁面中，顯示對應(yīng)片段中的發(fā)現(xiàn)和診斷。然而，醫(yī)師有時發(fā)現(xiàn)了一些異常但是沒有作出有關(guān)的診斷，因而第五片段沒有對應(yīng)的推論。在這種情況下，第五片段被分配有最后的標(biāo)簽“其它”。最終，報告能夠通過利用推論的標(biāo)簽來顯示，并且能夠被用戶容易地和快速地閱讀，如圖13所示。圖14是示出根據(jù)本發(fā)明的第二實(shí)施例的用于顯示文本的設(shè)備1400的框圖。如圖14所示，設(shè)備1400包括：根據(jù)第一實(shí)施例的文本分割設(shè)備500和顯示單元1410，該文本分割設(shè)備500被配置用于將文本分割成多個片段，該顯示單元1410被配置用于通過將每個片段與一個推論關(guān)聯(lián)來顯示分割得到的片段。設(shè)備1400中的各個單元能夠被配置為執(zhí)行圖12中的流程圖中示出的各個步驟。(第三實(shí)施例)本實(shí)施例涉及應(yīng)用第一實(shí)施例的文本分割方法來跨越多個文檔地鏈接文本。圖15是示出根據(jù)本發(fā)明的第三實(shí)施例的用于鏈接文本的方法的流程圖。如圖15所示，首先，在步驟1510中，通過利用第一實(shí)施例的文本分割方法將所述文本中的每個文本分割成多個片段。然后，在步驟1520中，將每個片段與一個推論關(guān)聯(lián)。然后，在步驟1530中，將與同一推論關(guān)聯(lián)的片段鏈接在一起。鏈接操作可以通過本領(lǐng)域中已知的任何技術(shù)來實(shí)現(xiàn)。例如，可以基于標(biāo)記實(shí)現(xiàn)跨越文檔的鏈接。本實(shí)施例跨越文檔地鏈接相同推論的文本片段。在一個示例中，如果同一個病人的多份放射學(xué)報告中的多個文本片段與同一個生理失調(diào)有關(guān)，則將這些片段鏈接在一起。圖16是示出根據(jù)本發(fā)明的第三實(shí)施例的用于鏈接文本的設(shè)備1600的框圖。如圖16所示，設(shè)備1600包括：根據(jù)第一實(shí)施例的文本分割設(shè)備500、關(guān)聯(lián)單元1610和鏈接單元1620。具體地，文本分割設(shè)備500被配置用于將文本中的每個文本分割成多個片段。關(guān)聯(lián)單元1610被配置用于將每個片段與一個推論關(guān)聯(lián)。鏈接單元1620被配置用于將與同一推論關(guān)聯(lián)的片段鏈接在一起。設(shè)備1600中的各個單元能夠被配置為執(zhí)行圖15中的流程圖中示出的各個步驟。(第四實(shí)施例)本實(shí)施例涉及應(yīng)用第一實(shí)施例的文本分割方法來提取診斷對象。圖17是示出根據(jù)本發(fā)明的第四實(shí)施例的用于提取診斷對象的方法的流程圖，其中所述診斷對象為一組與診斷有關(guān)的實(shí)體。如圖17所示，首先，在步驟1710中，通過利用第一實(shí)施例的文本分割方法將醫(yī)療成像報告分割成多個片段。然后，在步驟1720中，對于每個片段，輸出該片段中的所有證據(jù)以及有關(guān)的推論作為一個診斷對象，或輸出該片段中的身體部位的所有證據(jù)作為一個診斷對象。圖18是示出根據(jù)本發(fā)明的第四實(shí)施例的用于提取診斷對象的設(shè)備1800的框圖。如圖18所示，設(shè)備1800包括：根據(jù)第一實(shí)施例的文本分割設(shè)備500和輸出單元1810。具體地，文本分割設(shè)備500被配置用于將醫(yī)療成像報告分割成多個片段。輸出單元1810被配置用于，對于每個片段，輸出該片段中的所有證據(jù)以及有關(guān)的推論作為一個診斷對象，或輸出該片段中的身體部位的所有證據(jù)作為一個診斷對象，其中所述診斷對象為一組與診斷有關(guān)的實(shí)體。設(shè)備1800中的各個單元能夠被配置為執(zhí)行圖17中的流程圖中示出的各個步驟。(第五實(shí)施例)本實(shí)施例涉及應(yīng)用第一實(shí)施例的文本分割方法來為給定的推論建議證據(jù)。圖19是示出根據(jù)本發(fā)明的第五實(shí)施例的用于為給定的推論建議證據(jù)的方法的流程圖。如圖19所示，首先，在步驟1910中，從預(yù)定義的列表或歷史中提取能夠被用來作出所述推論的多個證據(jù)。然后，在步驟1920中，確定每個證據(jù)的優(yōu)先位置，其中所述優(yōu)先位置表示所述證據(jù)在用來作出所述推論的證據(jù)的序列中最可能處于的位置。優(yōu)先位置可以通過如上所述的第一實(shí)施例中的各種方式來確定，并且因此這里省略其細(xì)節(jié)。然后，在步驟1930中，基于所提取的證據(jù)的優(yōu)先位置來對所提取的證據(jù)進(jìn)行排序，并且為所述給定的推論建議排序后的證據(jù)的序列。在一個示例中，該方法獲取從臨床醫(yī)生給放射科醫(yī)師的檢查請求作為其輸入?？梢詮念A(yù)定義的列表或歷史中識別請求檢查的異常。對于每一個異常，計算用來作出對于相同請求的診斷的異常的序列中的優(yōu)先位置。然后優(yōu)先位置被用來對放射科醫(yī)師很可能告知的異常的建議進(jìn)行排序。然后可以輸出排序后的異常的序列作為對于給定的推論的建議。圖20是示出根據(jù)本發(fā)明的第五實(shí)施例的用于為給定的推論建議證據(jù)的設(shè)備2000的框圖。如圖20所示，設(shè)備2000包括：提取單元2010、確定單元2020和排序單元2030。具體地，提取單元2010被配置用于從預(yù)定義的列表或歷史中提取能夠被用來作出所述推論的多個證據(jù)。確定單元2020被配置用于確定每個證據(jù)的優(yōu)先位置，其中所述優(yōu)先位置表示所述證據(jù)在用來作出所述推論的證據(jù)的序列中最可能處于的位置。排序單元2030被配置用于基于所提取的證據(jù)的優(yōu)先位置來對所提取的證據(jù)進(jìn)行排序，并且為所述給定的推論建議排序后的證據(jù)的序列。設(shè)備2000中的各個單元能夠被配置為執(zhí)行圖19中的流程圖中示出的各個步驟?？梢酝ㄟ^許多方式來實(shí)施本發(fā)明的方法和設(shè)備。例如，可以通過軟件、硬件、固件、或其任何組合來實(shí)施本發(fā)明的方法和設(shè)備。上述的方法步驟的次序僅是說明性的，本發(fā)明的方法步驟不限于以上具體描述的次序，除非以其它方式明確說明。此外，在一些實(shí)施例中，本發(fā)明還可以被實(shí)施為記錄在記錄介質(zhì)中的程序，其包括用于實(shí)現(xiàn)根據(jù)本發(fā)明的方法的機(jī)器可讀指令。因而，本發(fā)明還覆蓋存儲用于實(shí)現(xiàn)根據(jù)本發(fā)明的方法的程序的記錄介質(zhì)。另外，能夠理解上述實(shí)施例中的每個實(shí)施例的各個方面/特征可以與上述實(shí)施例中的其它實(shí)施例結(jié)合，除非明確陳述了這種結(jié)合不被允許或者這種結(jié)合不合邏輯。(硬件實(shí)現(xiàn)方式)圖11圖示出根據(jù)本發(fā)明的示例性實(shí)施例的其中可應(yīng)用在此公開的實(shí)施例中的每一個的一般硬件環(huán)境1100。參考圖11，現(xiàn)將描述作為可應(yīng)用到本發(fā)明的各方面的硬件設(shè)備的例子的計算設(shè)備1100。計算設(shè)備1100可以是被配置成執(zhí)行處理和/或計算的任何機(jī)器，其可以是但不限于是工作站、服務(wù)器、桌上型計算機(jī)、膝上型計算機(jī)、平板計算機(jī)、個人數(shù)字助理、智能手機(jī)、車載計算機(jī)或者其任意組合。前述設(shè)備500、600、1400、1600、1800和2000中的每一個可以整體地或至少部分地由計算設(shè)備1100或類似設(shè)備或系統(tǒng)來實(shí)現(xiàn)。計算設(shè)備1100可以包括與總線1102連接的或者與之通信的元件，該連接或者通信可能是經(jīng)由一個或多個接口實(shí)現(xiàn)。例如，計算設(shè)備1100可以包括總線1102、一個或多個處理器1104、一個或多個輸入設(shè)備1106及一個或多個輸出設(shè)備1108。一個或多個處理器1104可以是任何種類的處理器，并且可以包括但不限于一個或多個通用處理器和/或一個或多個專用處理器(比如專用處理芯片)。輸入設(shè)備1106可以是能夠?qū)⑿畔⑤斎氲接嬎阍O(shè)備的任何種類的設(shè)備，并且可以包括但不限于鼠標(biāo)、鍵盤、觸摸屏、麥克風(fēng)和/或遙控器。輸出設(shè)備1108可以是能夠呈現(xiàn)信息的任何種類的設(shè)備，并且可以包括但不限于顯示器、揚(yáng)聲器、視頻/音頻輸出終端、振動器和/或打印機(jī)。計算設(shè)備1100還可以包括非瞬態(tài)存儲設(shè)備1110或者與非瞬態(tài)存儲設(shè)備1110連接，該非瞬態(tài)存儲設(shè)備1110可以是非瞬態(tài)的且能實(shí)現(xiàn)數(shù)據(jù)存儲的任何存儲設(shè)備，并且可包括但不限于磁盤驅(qū)動器、光學(xué)存儲設(shè)備、固態(tài)存儲器、軟盤、軟磁盤、硬盤、磁帶或者任何其他磁介質(zhì)、光盤或者任何其他光學(xué)介質(zhì)、rom(只讀存儲器)、ram(隨機(jī)存取存儲器)、高速緩存存儲器和/或任何其他存儲器芯片或盒和/或計算機(jī)可以從其讀取數(shù)據(jù)、指令和/或代碼的任何其他介質(zhì)。非瞬態(tài)存儲設(shè)備1110可以能從接口拆卸。非瞬態(tài)存儲設(shè)備1110可以具有用于實(shí)現(xiàn)上述的方法和步驟的數(shù)據(jù)/指令/代碼。計算設(shè)備1100還可以包括通信設(shè)備1112。通信設(shè)備1112可以是能實(shí)現(xiàn)與外部裝置和/或與網(wǎng)絡(luò)的通信的任何種類的設(shè)備或系統(tǒng)，并且可以包括但不限于調(diào)制解調(diào)器、網(wǎng)絡(luò)卡、紅外通信設(shè)備、無線通信設(shè)備和/或芯片集，比如藍(lán)牙tm設(shè)備、1302.11設(shè)備、wifi設(shè)備、wimax設(shè)備、蜂窩通信設(shè)施等。總線1102可以包括但不限于工業(yè)標(biāo)準(zhǔn)架構(gòu)(isa)總線、微通道架構(gòu)(mca)總線、增強(qiáng)isa(eisa)總線、視頻電子標(biāo)準(zhǔn)協(xié)會(vesa)局部總線及外圍設(shè)備互連(pci)總線。計算設(shè)備1100還可以包括工作存儲器1114，其可以是可存儲對于處理器1104的工作有用的指令和/或數(shù)據(jù)的任何種類的工作存儲器，并且可以包括但不限于隨機(jī)存取存儲器和/或只讀存儲器設(shè)備。軟件要素可以位于工作存儲器1114中，其包括但不限于操作系統(tǒng) 1116、一個或多個應(yīng)用程序1118、驅(qū)動器和/或其他數(shù)據(jù)和代碼。用于執(zhí)行上述方法和步驟的指令可以包括在一個或多個應(yīng)用程序1118中，并且前述設(shè)備500、600、1400、1600、1800和2000的部件可以通過處理器1104讀取并執(zhí)行一個或多個應(yīng)用程序1118的指令來實(shí)現(xiàn)。更具體而言，前述設(shè)備500的提取單元510例如可以在執(zhí)行具有執(zhí)行圖4的步驟410的指令的應(yīng)用1118時由處理器1104實(shí)現(xiàn)。此外，前述設(shè)備500的確定單元520例如可以在執(zhí)行具有執(zhí)行圖4的步驟420的指令的應(yīng)用1118時由處理器1104實(shí)現(xiàn)。此外，前述設(shè)備500的分割單元530例如可以在執(zhí)行具有執(zhí)行圖4的步驟430的指令的應(yīng)用1118時由處理器1104實(shí)現(xiàn)。此外，前述設(shè)備1400、1600、1800和2000的各個單元例如也可以在執(zhí)行具有執(zhí)行圖12、15、17和19中的前述各個步驟的指令的應(yīng)用1118時由處理器1104實(shí)現(xiàn)。軟件要素的指令的可執(zhí)行代碼或源代碼可以存儲在非瞬態(tài)計算機(jī)可讀存儲介質(zhì)中，比如上述的一個或多個存儲設(shè)備1110，并且可以被讀取到工作存儲器1114中并可能被編譯和/或安裝。軟件要素的指令的可執(zhí)行代碼或源代碼也可以從遠(yuǎn)程位置下載。應(yīng)注意，本發(fā)明還提供了使指令存儲于其上的非瞬態(tài)計算機(jī)可讀介質(zhì)，所述指令在被處理器執(zhí)行時使得處理器執(zhí)行第一到第三實(shí)施例的上述方法中的每一種方法的步驟。雖然已通過示例詳細(xì)展示了本發(fā)明的一些具體實(shí)施例，但是本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解，上述示例僅意圖是說明性的而不限制本發(fā)明的范圍。本領(lǐng)域技術(shù)人員應(yīng)該理解，上述實(shí)施例可以在不脫離本發(fā)明的范圍和實(shí)質(zhì)的情況下被修改。本發(fā)明的范圍是通過所附的權(quán)利要求限定的。當(dāng)前第1頁12

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：黃耀海;胡欽諳;郭瑞山
技術(shù)所有人：佳能株式會社
我是此專利的發(fā)明人

上一篇：一種情感數(shù)據(jù)的分析方法及裝置與流程
上一篇：光伏應(yīng)急照明系統(tǒng)的制造方法與工藝

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

文本分割相關(guān)技術(shù)

易語言分割文本相關(guān)技術(shù)

txt文本分割器相關(guān)技術(shù)

文本分割器相關(guān)技術(shù)

易語言分割文本到數(shù)組相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

用于分割文本的方法和設(shè)備與流程