一種中文診療信息的自然語言處理方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明的實施方式涉及醫(yī)療信息化領(lǐng)域,更具體地,本發(fā)明的實施方式涉及一種 中文診療信息的自然語言處理方法及系統(tǒng)。
【背景技術(shù)】
[0002] 本部分旨在為權(quán)利要求書中陳述的本發(fā)明的實施方式提供背景或上下文。此處的 描述不因為包括在本部分中就承認(rèn)是現(xiàn)有技術(shù)。
[0003] 隨著信息技術(shù)的快速發(fā)展,我國越來越多的醫(yī)院正加速建設(shè)醫(yī)療信息化平臺,以 提高醫(yī)院的服務(wù)水平與核心競爭力。醫(yī)療信息化平臺的使用有助于提升醫(yī)生的工作效率, 給患者提供很好的體驗,為提高醫(yī)療服務(wù)質(zhì)量提供很大幫助。
[0004] 依托醫(yī)療信息化平臺,醫(yī)療從業(yè)人員可在計算機中直接輸入為治療疾病所需的診 療項目等診療信息,為共享診療信息和查閱診療信息提供了極大方便。
【發(fā)明內(nèi)容】
[0005] 實際臨床作業(yè)中每天會進(jìn)行大量的診療項目,醫(yī)療從業(yè)人員會將這些診療項目以 中文診療信息的形式輸入醫(yī)療信息化平臺中,研究和利用中文診療信息對于醫(yī)療信息化發(fā) 展具有非常重要的意義。由于每天都會有海量的中文診療信息輸入,僅靠人工力量識別這 些信息然后再進(jìn)行研究和利用幾乎是不可能的,必須借助計算機對其識別和利用。
[0006] 但是由于輸入的中文診療信息屬于自然語言,格式復(fù)雜多樣,沒有統(tǒng)一的標(biāo)準(zhǔn),例 如,采用多種語言混合表達(dá)、使用不規(guī)范語法、錄入有誤信息、采用縮略語或俗稱代替標(biāo)準(zhǔn) 術(shù)語、文字中夾雜符號等雜亂信息等等,就使得計算機識別中文診療信息具有相當(dāng)大的難 度。
[0007] 為了提高計算機對中文診療信息的識別成功率,非常需要一種中文診療信息的自 然語言處理方法,以便識別和利用輸入至醫(yī)療信息化平臺中的中文診療信息。
[0008] 在本上下文中,本發(fā)明的實施方式期望提供一種中文診療信息的自然語言處理方 法及系統(tǒng)。
[0009] 在本發(fā)明實施方式的第一方面中,提供了一種中文診療信息的自然語言處理方 法,包括:
[0010] 步驟1,輸入中文診療信息字符串;
[0011] 步驟2,對所述中文診療信息字符串進(jìn)行預(yù)處理,得到預(yù)處理后的中文診療信息字 符串;
[0012] 步驟3,基于預(yù)先建立的本體詞典、診療方位詞典、診療等級詞典,將所述預(yù)處理后 的中文診療信息字符串切分成若干第一類型子字符串和第二類型子字符串;
[0013] 其中,所述第一類型子字符串和所述第二類型子字符串所表示的診療項目信息不 受其在所述中文診療信息字符串中所在位置之前或之后的字符影響,且所述第一類型子字 符串能夠與所述本體詞典中的本體直接匹配,所述第二類型子字符串不能夠與所述本體詞 典中的本體直接匹配;
[0014] 所述本體詞典包括若干本體,所述本體為標(biāo)準(zhǔn)診療術(shù)語或擴充診療術(shù)語;所述標(biāo) 準(zhǔn)術(shù)語為全國醫(yī)療服務(wù)價格項目規(guī)范中規(guī)定的項目名稱或國際疾病分類ICD中規(guī)定的手 術(shù)操作名稱;所述擴充術(shù)語為與所述標(biāo)準(zhǔn)術(shù)語具有同義關(guān)系的詞語或具有屬種關(guān)系的詞 語;
[0015] 所述診療方位詞典包括若干診療方位術(shù)語,所述診療方位術(shù)語是用于描述診療項 目所針對的方位的詞語;
[0016] 所述診療等級詞典包括若干診療等級術(shù)語,所述診療等級術(shù)語是用于描述診療項 目的級別、類型的詞語;
[0017] 步驟4,對所述第二類型子字符串和所述本體詞典中的每個本體進(jìn)行預(yù)設(shè)維度的 解析,得到所述第二類型子字符串的解析結(jié)果,以及所述本體詞典中每個本體的解析結(jié)果; 并通過將所述第二類型子字符串的解析結(jié)果與所述本體詞典中每個本體的解析結(jié)果進(jìn)行 匹配,查找所述第二類型子字符串相匹配的本體,或查找與所述第二類型子字符串達(dá)到預(yù) 設(shè)匹配條件的一個或多個本體;
[0018] 步驟5,輸出所述第一類型子字符串相匹配的本體,以及輸出所述第二類型子字符 串相匹配的本體或與所述第二類型子字符串達(dá)到預(yù)設(shè)匹配條件的一個或多個本體。
[0019] 在本發(fā)明實施方式的第二方面中,提供了一種中文診療信息的自然語言處理系 統(tǒng),包括:
[0020] 詞典數(shù)據(jù)庫,用于提供本體詞典、診療方位詞典和診療等級詞典;其中,
[0021] 所述本體詞典包括若干本體,所述本體為標(biāo)準(zhǔn)診療術(shù)語或擴充診療術(shù)語;所述標(biāo) 準(zhǔn)術(shù)語為全國醫(yī)療服務(wù)價格項目規(guī)范中規(guī)定的項目名稱或國際疾病分類ICD中規(guī)定的手 術(shù)操作名稱;所述擴充術(shù)語為與所述標(biāo)準(zhǔn)術(shù)語具有同義關(guān)系的詞語或具有屬種關(guān)系的詞 語;
[0022] 所述診療方位詞典包括若干診療方位術(shù)語,所述診療方位術(shù)語是用于描述診療項 目所針對的方位的詞語;
[0023] 所述診療等級詞典包括若干診療等級術(shù)語,所述診療等級術(shù)語是用于描述診療項 目的級別、類型的詞語;
[0024] 輸入模塊,用于輸入中文診療信息字符串;
[0025] 預(yù)處理模塊,用于對所述中文診療信息字符串進(jìn)行預(yù)處理,得到預(yù)處理后的中文 診療信息字符串;
[0026] 切分模塊,用于基于預(yù)先建立的本體詞典、診療方位詞典、診療等級詞典,將所述 預(yù)處理后的中文診療信息字符串切分成若干第一類型子字符串和第二類型子字符串;其 中,
[0027] 所述第一類型子字符串和所述第二類型子字符串所表示的診療項目信息不受其 在所述中文診療信息字符串中所在位置之前或之后的字符影響,且所述第一類型子字符串 能夠與所述本體詞典中的本體直接匹配,所述第二類型子字符串不能夠與所述本體詞典中 的本體直接匹配;
[0028] 匹配模塊,用于對所述第二類型子字符串和所述本體詞典中的每個本體進(jìn)行預(yù)設(shè) 維度的解析,得到所述第二類型子字符串的解析結(jié)果,以及所述本體詞典中每個本體的解 析結(jié)果;并通過將所述第二類型子字符串的解析結(jié)果與所述本體詞典中每個本體的解析結(jié) 果進(jìn)行匹配,查找所述第二類型子字符串相匹配的本體,或查找與所述第二類型子字符串 達(dá)到預(yù)設(shè)匹配條件的一個或多個本體;
[0029] 輸出模塊,用于輸出所述第一類型子字符串相匹配的本體,以及輸出所述第二類 型子字符串相匹配的本體或與所述第二類型子字符串達(dá)到預(yù)設(shè)匹配條件的一個或多個本 體。
[0030] 借助于上述技術(shù)方案,本發(fā)明充分考慮了醫(yī)療從業(yè)人員輸入的中文診療信息字符 串屬于自然語言、格式復(fù)雜多樣、沒有統(tǒng)一標(biāo)準(zhǔn)等特點,利用預(yù)先建立的多種詞典對中文診 療信息字符串進(jìn)行切分和匹配,以此將中文診療信息字符串識別成為符合醫(yī)療領(lǐng)域通用標(biāo) 準(zhǔn)的術(shù)語。本發(fā)明在對中文診療信息字符串切分之后,將能夠與本體直接匹配的第一類型 子字符串直接作為最終的識別結(jié)果,而對于不能夠與本體直接匹配的第二類型子字符串, 則通過解析查找與其相匹配或達(dá)到預(yù)設(shè)匹配條件的一個或多個本體作為最終輸出的結(jié)果, 即,本發(fā)明對中文診療信息字符串進(jìn)行自然語言處理之后所輸出的結(jié)果均為符合醫(yī)療領(lǐng)域 通用標(biāo)準(zhǔn)的術(shù)語。本發(fā)明克服了現(xiàn)有技術(shù)無法順利實現(xiàn)對中文診療信息進(jìn)行自然與演化處 理的問題,提升了中文診療信息的識別成功率,為有效利用中文診療信息、結(jié)算診療項目費 用提供了便利。
【附圖說明】
[0031] 通過參考附圖閱讀下文的詳細(xì)描述,本發(fā)明示例性實施方式的上述以及其他目 的、特征和優(yōu)點將變得易于理解。在附圖中,以示例性而非限制性的方式示出了本發(fā)明的若 干實施方式,其中:
[0032] 圖1示意性地示出了根據(jù)本發(fā)明實施方式的應(yīng)用場景;
[0033] 圖2示意性地示出了本發(fā)明示例性的中文診療信息的自然語言處理方法流程圖;
[0034] 圖3示意性地示出了本發(fā)明示例性方法中切分中文診療信息的流程圖;
[0035] 圖4示意性地示出了本發(fā)明示例性方法中查找第二類型子字符串相匹配的本體 的流程圖;
[0036] 圖5示意性地示出了本發(fā)明示例性的中文診療信息的自然語言處理系統(tǒng)模塊框 圖。
[0037] 在附圖中,相同或?qū)?yīng)的標(biāo)號表不相同或?qū)?yīng)的部分。
【具體實施方式】
[0038] 下面將參考若干示例性實施方式來描述本發(fā)明的原理和精神。應(yīng)當(dāng)理解,給出這 些實施方式僅僅是為了使本領(lǐng)域技術(shù)人員能夠更好地理解進(jìn)而實現(xiàn)本發(fā)明,而并非以任何 方式限制本發(fā)明的范圍。相反,提供這些實施方式是為了使本公開更加透徹和完整,并且能 夠?qū)⒈竟_的范圍完整地傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0039] 本領(lǐng)域技術(shù)技術(shù)人員知道,本發(fā)明的實施方式可以實現(xiàn)為一種系統(tǒng)、裝置、設(shè)備、 方法或計算機程序產(chǎn)品。因此,本公開可以具體實現(xiàn)為以下形式,即:完全的硬件、完全的軟 件(包括固件、駐留軟件、微代碼等),或者硬件和軟件結(jié)合的形式。
[0040] 根據(jù)本發(fā)明的實施方式,提出了一種中文診療信息的自然語言處理方法及系統(tǒng)。
[0041] 在本文中,附圖中的任何元素數(shù)量均用于示例而非限制,以及任何命名都僅用于 區(qū)分,而不具有任何限制含義。
[0042] 下面參考本發(fā)明的若干代表性實施方式,詳細(xì)闡釋本發(fā)明的原理和精神。
[0043] 發(fā)明概沐
[0044] 本發(fā)明人發(fā)現(xiàn),醫(yī)療從業(yè)人員在醫(yī)療信息化平臺中輸入的中文診療信息格式復(fù)雜 多樣,沒有統(tǒng)一的標(biāo)準(zhǔn),經(jīng)常會出現(xiàn)采用多種語言混合表達(dá)、使用不規(guī)范語法、錄入有誤信 息、采用縮略語或俗稱代替標(biāo)準(zhǔn)術(shù)語、文字中夾雜符號等雜亂信息等等情況,導(dǎo)致計算機不 能順暢地實現(xiàn)對中文診療信息進(jìn)行自然語言化處理。
[0045] 更進(jìn)一步的,本發(fā)明人發(fā)現(xiàn),醫(yī)療從業(yè)人員輸入的中文診療信息中經(jīng)常會夾雜一 些即便基于醫(yī)療領(lǐng)域的通用標(biāo)準(zhǔn)也不能夠識別出的信息,例如夾雜在漢字中的符號、數(shù)字 或不能識別的漢字等,這些符號、數(shù)字或不能識別的漢字有的可能是用于形容診療項目的 等級、類型(如"I型"、"II型"、"A等"、"B等"),也有的可能表示診療項目所針對的方位 (如"單側(cè)"、"雙側(cè)"、"左側(cè)"、"右側(cè)"),還有可能是符合醫(yī)療領(lǐng)域通用標(biāo)準(zhǔn)的診療項目的俗 稱、簡稱或英文縮略語(如"全身骨顯像"的俗稱為"骨全身顯像")等等。總之,由于夾雜 了一些基于醫(yī)療領(lǐng)域的通用標(biāo)準(zhǔn)所不能識別出的信息,也是計算機不能順暢地識別中文診 療信息的重要原因。
[0046] 為此,本發(fā)明提供了一種中文診療信息的自然語言處理方法,基于該方法對中文 診療信息進(jìn)行的自然語言處理過程大致包括如下過程:
[0047] 首先,輸入中文診療信息字符串;
[0048] 然后,對中文診療信息字符串進(jìn)行預(yù)處理;
[0049] 其次,參照預(yù)先建立的本體詞典、診療方位詞典、診療等級詞典,將預(yù)處理后的中 文診療信息切分成具有獨立語義的兩類子字符串:第一類型子字符串和第二類型子字符 串;其中,第一類型子字符串和第二類型子字符串的區(qū)別是:第一類型子字符串能夠與所 述本體詞典中的本體直接匹配,所述第二類型子字符串不能夠與所述本體詞典中的本體直 接匹配。
[0050] 再次,對第二類型子字符串進(jìn)行預(yù)設(shè)維度的解析,根據(jù)解析結(jié)果查找第二類型子 字符串相匹配的本體,或查找與第二類型子字符串達(dá)到預(yù)設(shè)匹配條件的一個或多個本體。
[0051] 最后,輸出第一類型子字符串相匹配的本體,以及輸出第二類型子字符串相匹配 的本體或與第二類型子字符串達(dá)到預(yù)設(shè)匹配條件的一個或多個本體。
[0052] 本發(fā)明中,"具有獨立語義"是指切分出的這兩類子字符串所表示的診療項目信息 不受其之前或之后的字符所影響,僅通過子字符串內(nèi)部的各個字符即可確定其完整的醫(yī)學(xué) 專業(yè)概念。例如,"椎管內(nèi)麻醉"不能被切分為"椎管內(nèi)"和"麻醉",因為僅"麻