亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種中文疾病診斷信息的自然語言處理方法及系統(tǒng)的制作方法

文檔序號:9376047閱讀:682來源:國知局
一種中文疾病診斷信息的自然語言處理方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明的實施方式涉及醫(yī)療信息化領(lǐng)域,更具體地,本發(fā)明的實施方式涉及一種 中文疾病診斷信息的自然語言處理方法及系統(tǒng)。
【背景技術(shù)】
[0002] 本部分旨在為權(quán)利要求書中陳述的本發(fā)明的實施方式提供背景或上下文。此處的 描述不因為包括在本部分中就承認是現(xiàn)有技術(shù)。
[0003] 隨著信息技術(shù)的快速發(fā)展,我國越來越多的醫(yī)院正加速建設醫(yī)療信息化平臺,以 提高醫(yī)院的服務水平與核心競爭力。醫(yī)療信息化平臺的使用有助于提升醫(yī)生的工作效率, 給患者提供很好的體驗,為提高醫(yī)療服務質(zhì)量提供很大幫助。
[0004] 依托醫(yī)療信息化平臺,醫(yī)療從業(yè)人員可在計算機中直接輸入疾病診斷結(jié)果等醫(yī)療 信息,為共享醫(yī)療信息和查閱醫(yī)療信息提供了極大方便。

【發(fā)明內(nèi)容】

[0005] 實際臨床作業(yè)中每天會產(chǎn)生大量的病案信息,醫(yī)療從業(yè)人員會將這些病案信息以 中文疾病診斷信息的形式輸入醫(yī)療信息化平臺中,研究和利用中文疾病診斷信息對于醫(yī)療 信息化發(fā)展具有非常重要的意義。由于每天都會有海量的中文疾病診斷信息輸入,僅靠人 工力量識別這些信息然后再進行研究和利用幾乎是不可能的,必須借助計算機對其識別和 利用。
[0006] 但是由于輸入的中文疾病診斷信息屬于自然語言,格式復雜多樣,沒有統(tǒng)一的標 準,例如,采用多種語言混合表達、使用不規(guī)范語法、錄入有誤信息、采用縮略語或俗稱代替 標準術(shù)語、文字中夾雜符號等雜亂信息等等,就使得計算機識別中文疾病診斷信息具有相 當大的難度。
[0007] 為了提高計算機對中文疾病診斷信息的識別成功率,非常需要一種中文疾病診斷 信息的自然語言處理方法,以便識別和利用輸入至醫(yī)療信息化平臺中的中文疾病診斷信 息。
[0008] 在本上下文中,本發(fā)明的實施方式期望提供一種中文疾病診斷信息的自然語言處 理方法及系統(tǒng)。
[0009] 在本發(fā)明實施方式的第一方面中,提供了一種中文疾病診斷信息的自然語言處理 方法,包括:
[0010] 步驟1,輸入中文疾病診斷信息字符串;
[0011] 步驟2,對所述中文疾病診斷信息字符串進行預處理,得到預處理后的中文疾病診 斷信息字符串;
[0012] 步驟3,基于預先建立的本體詞典、疾病程度術(shù)語詞典、疾病并發(fā)術(shù)語詞典、發(fā)病部 位術(shù)語詞典,將所述預處理后的中文疾病診斷信息字符串切分成若干第一類型子字符串和 第二類型子字符串;
[0013] 其中,所述第一類型子字符串能夠與所述本體詞典中的本體直接匹配,所述第二 類型子字符串不能夠與所述本體詞典中的本體直接匹配;
[0014] 所述本體詞典包括若干本體,所述本體為標準術(shù)語或擴充術(shù)語;所述國際疾病分 類ICD版本中規(guī)定的疾病名稱;所述擴充術(shù)語為與所述標準術(shù)語具有同義關(guān)系的詞語或具 有屬種關(guān)系的詞語;
[0015] 所述疾病程度術(shù)語詞典包括若干疾病程度術(shù)語,所述疾病程度術(shù)語是用于描述疾 病急慢性程度或疾病嚴重程度或病理類型或臨床分期的詞語;
[0016] 所述疾病并發(fā)術(shù)語詞典包括若干疾病并發(fā)術(shù)語,所述疾病并發(fā)術(shù)語是用于描述至 少兩種疾病并發(fā)出現(xiàn)的詞語;
[0017] 所述發(fā)病部位術(shù)語詞典包括若干發(fā)病部位術(shù)語,所述發(fā)病部位術(shù)語是用于描述疾 病發(fā)病部位的詞語;
[0018] 步驟4,對所述第二類型子字符串和所述本體詞典中的每個本體進行預設維度的 解析,得到所述第二類型子字符串的解析結(jié)果,以及所述本體詞典中每個本體的解析結(jié)果; 并通過將所述第二類型子字符串的解析結(jié)果與所述本體詞典中每個本體的解析結(jié)果進行 匹配,查找所述第二類型子字符串相匹配的本體,或查找與所述第二類型子字符串達到預 設匹配條件的一個或多個本體;
[0019] 步驟5,輸出所述第一類型子字符串相匹配的本體,以及輸出所述第二類型子字符 串相匹配的本體或與所述第二類型子字符串達到預設匹配條件的一個或多個本體。
[0020] 在本發(fā)明實施方式的第二方面中,提供了一種中文疾病診斷信息的自然語言處理 系統(tǒng),包括:
[0021] 詞典數(shù)據(jù)庫,用于提供本體詞典、疾病程度術(shù)語詞典、疾病并發(fā)術(shù)語詞典和發(fā)病部 位術(shù)語詞典;其中,
[0022] 所述本體詞典包括若干本體,所述本體為標準術(shù)語或擴充術(shù)語;所述國際疾病分 類ICD版本中規(guī)定的疾病名稱;所述擴充術(shù)語為與所述標準術(shù)語具有同義關(guān)系的詞語或具 有屬種關(guān)系的詞語;
[0023] 所述疾病程度術(shù)語詞典包括若干疾病程度術(shù)語,所述疾病程度術(shù)語是用于描述疾 病急慢性程度或疾病嚴重程度或病理類型或臨床分期的詞語;
[0024] 所述疾病并發(fā)術(shù)語詞典包括若干疾病并發(fā)術(shù)語,所述疾病并發(fā)術(shù)語是用于描述至 少兩種疾病并發(fā)出現(xiàn)的詞語;
[0025] 所述發(fā)病部位術(shù)語詞典包括若干發(fā)病部位術(shù)語,所述發(fā)病部位術(shù)語是用于描述疾 病發(fā)病部位的詞語;
[0026] 輸入模塊,用于輸入中文疾病診斷信息字符串;
[0027] 預處理模塊,用于對所述中文疾病診斷信息字符串進行預處理,得到預處理后的 中文疾病診斷信息字符串;
[0028] 切分模塊,用于基于所述本體詞典、疾病程度術(shù)語詞典、疾病并發(fā)術(shù)語詞典、發(fā)病 部位術(shù)語詞典,將所述預處理后的中文疾病診斷信息字符串切分成第一類型子字符串和第 二類型子字符串;其中,
[0029] 所述第一類型子字符串能夠與所述本體詞典中的本體直接匹配,所述第二類型子 字符串不能夠與所述本體詞典中的本體直接匹配;
[0030] 匹配模塊,用于對所述第二類型子字符串和所述本體詞典中的每個本體進行預設 維度的解析,得到所述第二類型子字符串的解析結(jié)果,以及所述本體詞典中每個本體的解 析結(jié)果;并通過將所述第二類型子字符串的解析結(jié)果與所述本體詞典中每個本體的解析結(jié) 果進行匹配,查找所述第二類型子字符串相匹配的本體,或查找與所述第二類型子字符串 達到預設匹配條件的一個或多個本體;
[0031] 輸出模塊,用于輸出所述第一類型子字符串相匹配的本體,以及輸出所述第二類 型子字符串相匹配的本體或與所述第二類型子字符串達到預設匹配條件的一個或多個本 體。
[0032] 本發(fā)明實施方式提供的中文疾病診斷信息的自然語言處理方法及系統(tǒng),充分考慮 了醫(yī)療從業(yè)人員輸入的中文疾病診斷信息字符串屬于自然語言、格式復雜多樣、沒有統(tǒng)一 標準等特點,利用預先建立的多種詞典對中文疾病診斷信息字符串進行切分和匹配,以此 將中文疾病診斷信息字符串識別成為符合醫(yī)療領(lǐng)域通用標準的術(shù)語。本發(fā)明在對中文疾病 診斷信息字符串切分之后,將能夠與本體直接匹配的第一類型子字符串直接作為最終的識 別結(jié)果,而對于不能夠與本體直接匹配的第二類型子字符串,則通過解析查找與其相匹配 或達到預設匹配條件的一個或多個本體作為最終輸出的結(jié)果,即,本發(fā)明對中文疾病診斷 信息字符串進行自然語言處理之后所輸出的結(jié)果均為符合醫(yī)療領(lǐng)域通用標準的術(shù)語。本發(fā) 明克服了現(xiàn)有技術(shù)無法順利實現(xiàn)對中文疾病診斷信息進行自然與演化處理的問題,提升了 中文疾病診斷信息的識別成功率,為有效利用中文疾病診斷信息提供了便利。
【附圖說明】
[0033] 通過參考附圖閱讀下文的詳細描述,本發(fā)明示例性實施方式的上述以及其他目 的、特征和優(yōu)點將變得易于理解。在附圖中,以示例性而非限制性的方式示出了本發(fā)明的若 干實施方式,其中:
[0034] 圖1示意性地示出了本發(fā)明實施方式的應用場景;
[0035] 圖2示意性地示出了本發(fā)明示例性的中文疾病診斷信息的自然語言處理方法流 程圖;
[0036] 圖3示意性地示出了本發(fā)明示例性方法中切分中文疾病診斷信息的流程圖;
[0037] 圖4示意性地示出了本發(fā)明示例性方法中查找第二類型子字符串相匹配的本體 的流程圖;
[0038] 圖5示意性地示出了本發(fā)明示例性的中文疾病診斷信息的自然語言處理系統(tǒng)模 塊框圖。
[0039] 在附圖中,相同或?qū)臉颂柋聿幌嗤驅(qū)牟糠帧?br>【具體實施方式】
[0040] 下面將參考若干示例性實施方式來描述本發(fā)明的原理和精神。應當理解,給出這 些實施方式僅僅是為了使本領(lǐng)域技術(shù)人員能夠更好地理解進而實現(xiàn)本發(fā)明,而并非以任何 方式限制本發(fā)明的范圍。相反,提供這些實施方式是為了使本公開更加透徹和完整,并且能 夠?qū)⒈竟_的范圍完整地傳達給本領(lǐng)域的技術(shù)人員。
[0041] 本領(lǐng)域技術(shù)技術(shù)人員知道,本發(fā)明的實施方式可以實現(xiàn)為一種系統(tǒng)、裝置、設備、 方法或計算機程序產(chǎn)品。因此,本公開可以具體實現(xiàn)為以下形式,即:完全的硬件、完全的軟 件(包括固件、駐留軟件、微代碼等),或者硬件和軟件結(jié)合的形式。
[0042] 根據(jù)本發(fā)明的實施方式,提出了一種中文疾病診斷信息的自然語言處理方法及系 統(tǒng)。
[0043] 在本文中,需要理解的是,附圖中的任何元素數(shù)量均用于示例而非限制,以及任何 命名都僅用于區(qū)分,而不具有任何限制含義。
[0044] 下面參考本發(fā)明的若干代表性實施方式,詳細闡釋本發(fā)明的原理和精神。
[0045] 發(fā)明概沐
[0046] 本發(fā)明人發(fā)現(xiàn),醫(yī)療從業(yè)人員在醫(yī)療信息化平臺中輸入的中文疾病診斷信息格式 復雜多樣,沒有統(tǒng)一的標準,經(jīng)常會出現(xiàn)采用多種語言混合表達、使用不規(guī)范語法、錄入有 誤信息、采用縮略語或俗稱代替標準術(shù)語、文字中夾雜符號等雜亂信息等等情況,導致計算 機不能順暢地實現(xiàn)對中文疾病診斷信息進行自然語言化處理。
[0047] 更進一步的,本發(fā)明人發(fā)現(xiàn),醫(yī)療從業(yè)人員輸入的中文疾病診斷信息中經(jīng)常會夾 雜一些即便基于醫(yī)療領(lǐng)域通用標準也不能夠識別出的信息,例如夾雜在漢字中的符號、數(shù) 字或不能識別的漢字等,這些符號或數(shù)字有的可能是用于形容疾病的嚴重程度(如"糖尿 病I型"、"糖尿病II型"),也有的可能表示對疾病診斷結(jié)果還需進一步確診(如"肝癌,晚 期? "),這些不能識別的漢字可能是疾病名稱的俗稱、簡稱或英文縮略語(如"冠狀動脈粥 樣硬化性心臟病"的俗稱為"冠心病")等等。總之,由于夾雜了一些基于醫(yī)療領(lǐng)域通用標 準所不能識別出的
當前第1頁1 2 3 4 5 6 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1