一種藥品信息的自然語(yǔ)言處理方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明的實(shí)施方式涉及醫(yī)療信息化領(lǐng)域,更具體地,本發(fā)明的實(shí)施方式涉及一種 藥品信息的自然語(yǔ)言處理方法及系統(tǒng)。
【背景技術(shù)】
[0002] 本部分旨在為權(quán)利要求書(shū)中陳述的本發(fā)明的實(shí)施方式提供背景或上下文。此處的 描述不因?yàn)榘ㄔ诒静糠种芯统姓J(rèn)是現(xiàn)有技術(shù)。
[0003] 隨著信息技術(shù)的快速發(fā)展,我國(guó)醫(yī)藥行業(yè)正加速醫(yī)療信息化建設(shè)。醫(yī)療信息化建 設(shè)有助于提升醫(yī)療處理效率,給患者提供很好的體驗(yàn),為提高醫(yī)療服務(wù)質(zhì)量提供很大幫助。
[0004] 藥品信息管理是醫(yī)療信息化建設(shè)的重要組成部分,規(guī)范、準(zhǔn)確的藥品信息是管理 藥品信息的基礎(chǔ)保障。
【發(fā)明內(nèi)容】
[0005] 實(shí)際臨床作業(yè)中每天會(huì)產(chǎn)生大量的病案信息,這些病案信息中有很多醫(yī)療從業(yè)人 員為治療患者的疾病而輸入的藥品信息,研究和利用藥品信息對(duì)于醫(yī)療信息化發(fā)展具有非 常重要的意義。由于每天都會(huì)有海量的藥品信息輸入,僅靠人工力量識(shí)別這些藥品信息然 后再進(jìn)行研究和利用幾乎是不可能的,必須借助計(jì)算機(jī)對(duì)其識(shí)別和利用。
[0006] 但是由于醫(yī)療從業(yè)人員輸入的藥品信息屬于自然語(yǔ)言,格式復(fù)雜多樣,沒(méi)有統(tǒng)一 的標(biāo)準(zhǔn),例如,采用多種語(yǔ)言混合表達(dá)、使用不規(guī)范語(yǔ)法、錄入有誤信息、采用縮略語(yǔ)或俗稱 代替標(biāo)準(zhǔn)術(shù)語(yǔ)、文字中夾雜無(wú)關(guān)符號(hào)等雜亂信息等等,就使得計(jì)算機(jī)識(shí)別藥品信息具有相 當(dāng)大的難度。
[0007] 為了提高計(jì)算機(jī)對(duì)藥品信息的識(shí)別成功率,非常需要一種藥品信息的自然語(yǔ)言處 理方法,以便識(shí)別和利用輸入至醫(yī)療信息化平臺(tái)中的藥品信息。
[0008] 在本發(fā)明實(shí)施方式的第一方面中,提供了一種藥品信息的自然語(yǔ)言處理方法,包 括:
[0009]步驟1,輸入藥品信息字符串;
[0010] 步驟2,對(duì)所述藥品信息字符串進(jìn)行預(yù)處理,得到預(yù)處理藥品信息字符串;
[0011] 步驟3,基于預(yù)設(shè)的規(guī)格詞典和包裝規(guī)格詞典,從所述預(yù)處理藥品信息字符串中切 分出規(guī)格字符串和包裝規(guī)格字符串;其中,所述規(guī)格詞典包括若干表示藥品的規(guī)格單位的 詞條;所述包裝規(guī)格詞典包括若干表示藥品的包裝規(guī)格單位的詞條;所述規(guī)格字符串表示 藥品的規(guī)格信息;所述包裝規(guī)格字符串表示藥品的包裝規(guī)格信息;
[0012] 步驟4,基于預(yù)設(shè)的詞典集,從所述預(yù)處理藥品信息字符串的剩余字符中切分出若 干第一類(lèi)型子字符串和/或第二類(lèi)型子字符串;其中,所述詞典集包括若干表示藥品的通 用名稱、商品名稱、產(chǎn)品名稱、給藥途徑、劑型、生產(chǎn)廠家、包材的詞條;所述第一類(lèi)型子字符 串能夠與所述詞典集中的詞條直接匹配,所述第二類(lèi)型子字符串不能夠與所述詞典集中的 詞條直接匹配;
[0013] 步驟5,對(duì)所述第二類(lèi)型子字符串和所述詞典集中的詞條進(jìn)行解析,得到第二類(lèi)型 子字符串的解析結(jié)果,以及對(duì)詞典集中每個(gè)詞條的解析結(jié)果;并通過(guò)將第二類(lèi)型子字符串 的解析結(jié)果與詞典集中每個(gè)詞條的解析結(jié)果進(jìn)行匹配,查找第二類(lèi)型子字符串相匹配的一 個(gè)或多個(gè)詞條;
[0014] 步驟6,輸出所述規(guī)格字符串、所述包裝規(guī)格字符串及其對(duì)應(yīng)的詞條屬性,以及輸 出所述第一類(lèi)型子字符串、所述第二類(lèi)型子字符串相匹配的詞條及其對(duì)應(yīng)的詞條屬性;所 述詞條屬性與所述詞條所屬的詞典一一對(duì)應(yīng),所述詞典具有預(yù)先設(shè)定的詞條屬性。
[0015] 相應(yīng)的,本發(fā)明提供一種藥品信息的自然語(yǔ)言處理系統(tǒng),包括:
[0016] 詞典數(shù)據(jù)庫(kù),提供預(yù)設(shè)的規(guī)格詞典、包裝規(guī)格詞典和詞典集;
[0017] 輸入模塊,用于輸入藥品信息字符串;
[0018] 預(yù)處理模塊,用于對(duì)所述藥品信息字符串進(jìn)行預(yù)處理,得到預(yù)處理藥品信息字符 串;
[0019] 第一切分模塊,用于基于所述規(guī)格詞典和包裝規(guī)格詞典,從所述預(yù)處理藥品信息 字符串中切分出規(guī)格字符串和包裝規(guī)格字符串;其中,所述規(guī)格詞典包括若干表示藥品的 規(guī)格單位的詞條;所述包裝規(guī)格詞典包括若干表示藥品的包裝規(guī)格單位的詞條;所述規(guī)格 字符串表示藥品的規(guī)格信息;所述包裝規(guī)格字符串表示藥品的包裝規(guī)格信息;
[0020] 第二切分模塊,用于基于所述詞典集,從所述預(yù)處理藥品信息字符串的剩余字符 中切分出若干第一類(lèi)型子字符串和/或第二類(lèi)型子字符串;其中,所述詞典集包括若干表 示藥品的通用名稱、商品名稱、產(chǎn)品名稱、給藥途徑、劑型、生產(chǎn)廠家、包材的詞條;所述第一 類(lèi)型子字符串能夠與所述詞典集中的詞條直接匹配,所述第二類(lèi)型子字符串不能夠與所述 詞典集中的詞條直接匹配;
[0021] 匹配模塊,用于對(duì)所述第二類(lèi)型子字符串和所述詞典集中的詞條進(jìn)行解析,得到 第二類(lèi)型子字符串的解析結(jié)果,以及對(duì)詞典集中每個(gè)詞條的解析結(jié)果;并通過(guò)將第二類(lèi)型 子字符串的解析結(jié)果與詞典集中每個(gè)詞條的解析結(jié)果進(jìn)行匹配,查找第二類(lèi)型子字符串相 匹配的一個(gè)或多個(gè)詞條;
[0022] 輸出模塊,用于輸出所述規(guī)格字符串、所述包裝規(guī)格字符串及其對(duì)應(yīng)的詞條屬性, 以及輸出所述第一類(lèi)型子字符串、所述第二類(lèi)型子字符串相匹配的詞條及其對(duì)應(yīng)的詞條屬 性;所述詞條屬性與所述詞條所屬的詞典一一對(duì)應(yīng),所述詞典具有預(yù)先設(shè)定的詞條屬性。
[0023] 借助于上述技術(shù)方案,本發(fā)明充分考慮了醫(yī)療從業(yè)人員輸入的藥品信息屬于自然 語(yǔ)言、格式復(fù)雜多樣、沒(méi)有統(tǒng)一標(biāo)準(zhǔn)等特點(diǎn),利用預(yù)先建立的多種詞典對(duì)藥品信息字符串進(jìn) 行切分和匹配,將藥品信息分類(lèi)識(shí)別出來(lái),并以醫(yī)療領(lǐng)域的標(biāo)準(zhǔn)形式分類(lèi)輸出精確匹配的 詞條,對(duì)于沒(méi)有精確匹配的詞條的字符,采用模糊匹配的方式對(duì)其進(jìn)行識(shí)別,并以模糊匹配 出的詞條作為識(shí)別結(jié)果,最后將識(shí)別結(jié)果以醫(yī)療領(lǐng)域的標(biāo)準(zhǔn)形式分類(lèi)輸出模糊匹配的詞 條。通過(guò)上述技術(shù)手段,本發(fā)明可實(shí)現(xiàn)對(duì)帶符號(hào)、數(shù)字和漢字的藥品信息字符串的識(shí)別,并 克服了現(xiàn)有技術(shù)無(wú)法順利實(shí)現(xiàn)對(duì)藥品信息進(jìn)行自然與演化處理的問(wèn)題,提升了藥品信息的 識(shí)別成功率,為有效利用藥品信息提供了便利。
【附圖說(shuō)明】
[0024] 通過(guò)參考附圖閱讀下文的詳細(xì)描述,本發(fā)明示例性實(shí)施方式的上述以及其他目 的、特征和優(yōu)點(diǎn)將變得易于理解。在附圖中,以示例性而非限制性的方式示出了本發(fā)明的若 干實(shí)施方式,其中:
[0025] 圖1示意性地示出了本發(fā)明實(shí)施方式的適用場(chǎng)景;
[0026] 圖2示意性地示出了本發(fā)明示例性方法的流程;
[0027] 圖3示意性地示出了本發(fā)明示例性方法中切分第一類(lèi)型子字符串、第二類(lèi)型子字 符串的過(guò)程;
[0028] 圖4示意性地示出了本發(fā)明示例性方法中對(duì)第二類(lèi)型子字符串進(jìn)行模糊匹配的 過(guò)程;
[0029] 圖5示意性地示出了本發(fā)明示例性系統(tǒng)的結(jié)構(gòu)框圖。
[0030] 在附圖中,相同或?qū)?yīng)的標(biāo)號(hào)表不相同或?qū)?yīng)的部分。
【具體實(shí)施方式】
[0031] 下面將參考若干示例性實(shí)施方式來(lái)描述本發(fā)明的原理和精神。應(yīng)當(dāng)理解,給出這 些實(shí)施方式僅僅是為了使本領(lǐng)域技術(shù)人員能夠更好地理解進(jìn)而實(shí)現(xiàn)本發(fā)明,而并非以任何 方式限制本發(fā)明的范圍。相反,提供這些實(shí)施方式是為了使本公開(kāi)更加透徹和完整,并且能 夠?qū)⒈竟_(kāi)的范圍完整地傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0032] 本領(lǐng)域技術(shù)技術(shù)人員知道,本發(fā)明的實(shí)施方式可以實(shí)現(xiàn)為一種系統(tǒng)、裝置、設(shè)備、 方法或計(jì)算機(jī)程序產(chǎn)品。因此,本公開(kāi)可以具體實(shí)現(xiàn)為以下形式,即:完全的硬件、完全的軟 件(包括固件、駐留軟件、微代碼等),或者硬件和軟件結(jié)合的形式。
[0033] 根據(jù)本發(fā)明的實(shí)施方式,提出了一種藥品信息的自然語(yǔ)言處理方法及系統(tǒng)。
[0034]此外,附圖中的任何元素?cái)?shù)量均用于示例而非限制,以及任何命名都僅用于區(qū)分, 而不具有任何限制含義。
[0035] 下面參考本發(fā)明的若干代表性實(shí)施方式,詳細(xì)闡釋本發(fā)明的原理和精神。
[0036]發(fā)明概沐
[0037] 本發(fā)明人發(fā)現(xiàn),醫(yī)療從業(yè)人員在醫(yī)療信息化平臺(tái)中輸入的藥品信息格式復(fù)雜多 樣,沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),經(jīng)常會(huì)出現(xiàn)采用多種語(yǔ)言混合表達(dá)、使用不規(guī)范語(yǔ)法、錄入有誤信息、 采用縮略語(yǔ)或俗稱代替標(biāo)準(zhǔn)術(shù)語(yǔ)、文字中夾雜符號(hào)等雜亂信息等等情況,導(dǎo)致計(jì)算機(jī)不能 順暢地實(shí)現(xiàn)對(duì)藥品信息進(jìn)行自然語(yǔ)言化處理。
[0038] 本發(fā)明充分考慮了藥品信息的以上特點(diǎn),利用預(yù)先建立的多種詞典對(duì)藥品信息字 符串進(jìn)行切分和匹配,將藥品信息分類(lèi)識(shí)別出來(lái),并以醫(yī)療領(lǐng)域的標(biāo)準(zhǔn)形式分類(lèi)輸出精確 匹配的詞條,對(duì)于沒(méi)有精確匹配的詞條的字符,采用模糊匹配的方式對(duì)其進(jìn)行識(shí)別,并以模 糊匹配出的詞條作為識(shí)別結(jié)果,最后將識(shí)別結(jié)果以醫(yī)療領(lǐng)域的標(biāo)準(zhǔn)形式分類(lèi)輸出模糊匹配 的詞條。通過(guò)上述技術(shù)手段,本發(fā)明可實(shí)現(xiàn)對(duì)帶符號(hào)、數(shù)字和漢字的藥品信息字符串的識(shí) 另IJ,并克服了現(xiàn)有技術(shù)無(wú)法順利實(shí)現(xiàn)對(duì)藥品信息進(jìn)行自然與演化處理的問(wèn)題,提升了藥品 信息的識(shí)別成功率,為有效利用藥品信息提供了便利。
[0039]應(yīng)用場(chǎng)景總覽
[0040]首先參考圖1,其示出了本發(fā)明的實(shí)施方式可以在其中實(shí)施的應(yīng)用場(chǎng)景。
[0041]圖1中所示的場(chǎng)景包括醫(yī)療信息化平臺(tái)100和藥品信息的自然語(yǔ)言處理系統(tǒng)200。 醫(yī)療信息化平臺(tái)100可以是裝載于醫(yī)生所用的臺(tái)式電腦、筆記本電腦、平板電腦、個(gè)人數(shù)字 助理等設(shè)備中的軟件。藥品信息的自然語(yǔ)言處理系統(tǒng)200可以是運(yùn)行于醫(yī)院信息服務(wù)器中 的軟件等。醫(yī)療信息化平臺(tái)100和藥品信息的自然語(yǔ)言處理系統(tǒng)200之間例如可以通過(guò)醫(yī) 院局域網(wǎng)等進(jìn)行通信連接。
[0042] 醫(yī)療從業(yè)人員(例如醫(yī)生)在醫(yī)療信息化平臺(tái)100中輸入藥品信息之后,藥品信 息被傳輸至藥品信息的自然語(yǔ)言處理系統(tǒng)200,由藥品信息的自然語(yǔ)言處理系統(tǒng)200對(duì)其 進(jìn)行識(shí)別,最后輸出識(shí)別結(jié)果。
[0043] 示例件方法
[0044] 本示例性方法介紹本發(fā)明的一種示例性的藥品信息的自然語(yǔ)言處理方法。該示例 性方法用于對(duì)醫(yī)療從業(yè)人員輸入的藥品信息進(jìn)行自然語(yǔ)言處理,識(shí)別并輸出多個(gè)不同信息 類(lèi)型的詞條。
[0045] 在介紹該示例性方法之前,通過(guò)表1至表18介紹該示例性實(shí)施方式需要調(diào)用的各 種詞典。
[0046] (1)規(guī)格詞典
[0047] 規(guī)格詞典包括若干表示藥品的規(guī)格單位的詞條,本發(fā)明中,規(guī)格詞典是用于從藥 品信息字符串中切分出規(guī)格字符串,規(guī)格字符串表示藥品的規(guī)格信息。
[0048] 以下為一種示例性的規(guī)格詞典:
[0049] 規(guī)格詞典包括標(biāo)準(zhǔn)規(guī)格表和規(guī)格同義詞表。
[0050] 標(biāo)準(zhǔn)規(guī)格表包括若干標(biāo)準(zhǔn)裝量規(guī)格單位和標(biāo)準(zhǔn)成分規(guī)格單位。
[0051] 標(biāo)準(zhǔn)裝量規(guī)格單位,表示藥品最小制劑單位的重量或裝量,如一片藥有多重,一瓶 注射液裝了多少毫升藥。
[0052] 標(biāo)準(zhǔn)成分規(guī)格單位,表示藥品最小制劑單位中含有效成分的劑量或效價(jià)。
[0053] 標(biāo)準(zhǔn)裝量規(guī)格單位和標(biāo)準(zhǔn)成分規(guī)格單位均來(lái)自于國(guó)家食品藥品監(jiān)督管理總局 (China Food and Drug Administration,CFDA)對(duì)各種藥品公布的【規(guī)格】信息。
[0054] 表1表示了標(biāo)準(zhǔn)規(guī)格表包括的部分標(biāo)準(zhǔn)裝量規(guī)格單位和標(biāo)準(zhǔn)成分規(guī)格單位。
[0055]表1
[0056]
[0057] 規(guī)格同義詞表包括若干裝量規(guī)格單位同義詞和成分規(guī)格單位同義詞。
[0058] 裝量規(guī)格單位同義詞是標(biāo)準(zhǔn)裝量規(guī)格單位的別名、俗稱、英文縮寫(xiě)、錯(cuò)別字等。
[0059] 成分規(guī)格單位同義詞是標(biāo)準(zhǔn)成分規(guī)格單位的別名、俗稱、英文縮寫(xiě)、錯(cuò)別字等。
[0060] 規(guī)格同義詞表記錄了裝量規(guī)格單位同義詞與標(biāo)準(zhǔn)裝量規(guī)格單位之間的對(duì)應(yīng)關(guān)系, 以及成分規(guī)格單位同義詞與標(biāo)準(zhǔn)成分規(guī)格單位之間的對(duì)應(yīng)關(guān)系。
[0061] 表2表示了規(guī)格同義詞表包括的部分裝量規(guī)格單位同義詞、成分規(guī)格單位同義 詞,以及對(duì)應(yīng)的標(biāo)準(zhǔn)裝量規(guī)格單位和標(biāo)準(zhǔn)成分規(guī)格單位。
[0062]表2
[0063]
[0064] 需要說(shuō)明的是,在實(shí)施本發(fā)明時(shí),可以根據(jù)實(shí)際情況采用包含其他類(lèi)型詞條的規(guī) 格詞典,以達(dá)到切分出規(guī)格字符串的目的,本發(fā)明對(duì)規(guī)格詞典所包含的詞條的類(lèi)型或來(lái)源 不作具體限定,即以上說(shuō)明僅為本發(fā)明的具體實(shí)施例而已,并不用于限定本發(fā)明的保護(hù)范 圍,凡在本發(fā)明的精神和原則之內(nèi),采用包含其它類(lèi)型或來(lái)源的詞條的規(guī)格詞典均應(yīng)包含 在本發(fā)明的保護(hù)范圍之內(nèi)。
[0065] (2)包裝規(guī)格詞典
[00