亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種電子病歷文本結(jié)構化方法

文檔序號:10725038閱讀:484來源:國知局
一種電子病歷文本結(jié)構化方法
【專利摘要】本發(fā)明公開了一種電子病歷文本結(jié)構化方法,包括以下步驟:S1、載入醫(yī)學知識庫;S2、讀入電子病歷文本;S3、利用正向最大匹配算法對短句進行分詞,獲取句子中的詞語及其詞性、相對位置關系;S4、判斷短句中對疾病信息描述的語義正反;S5、提取疾病信息元素;S6、重復步驟S2至S5,直至獲得電子病歷中的全部感興趣內(nèi)容;S7、合并疾病信息元素的不同表達,根據(jù)醫(yī)學同義詞詞庫,將相同的疾病信息合并,去除冗余信息;S8、將疾病描述信息的元素以結(jié)構體/類的形式存儲,完成結(jié)構化過程,能有效的從病歷的描述性文本中提取疾病的相關信息,形成對疾病信息的結(jié)構化表達,從而對疾病的發(fā)病規(guī)律、確診方式、治療效果等進行深層探索。
【專利說明】
一種電子病歷文本結(jié)構化方法
技術領域
[0001]本發(fā)明涉及一種自然語言文本結(jié)構化方法,尤其涉及一種電子病歷文本結(jié)構化方法。
【背景技術】
[0002]電子病歷是記錄患者進入醫(yī)院后進行診斷、治療全過程的電子文檔。醫(yī)生在進行電子病歷錄入的時候,相關字段會存儲到關系型數(shù)據(jù)庫對應內(nèi)的字段內(nèi);患者在進行電子病歷打印時,再從數(shù)據(jù)庫內(nèi)調(diào)取所需字段,以一定的文檔版式展現(xiàn)出來。
[0003]當前流行病學、巡診醫(yī)學的發(fā)展要求醫(yī)學工作者不僅能夠為患者提供有效的治療,還需要對臨床治療、臨床實驗進行經(jīng)驗總結(jié)、規(guī)律探索。這就要求對電子病歷進行深入的數(shù)據(jù)挖掘,從而發(fā)現(xiàn)疾病的新趨勢、新療法。
[0004]電子病歷關系型數(shù)據(jù)庫中除了年齡、性別等常見的結(jié)構化信息外,還存儲有大量的描述性語句。這類語句通常作為一個單元直接存儲在數(shù)據(jù)庫內(nèi)。例如:“病情摘要:患者老年女性,病史較長;反復右上腹痛30余年,伴腰背部痛,惡心嘔吐及低熱;既往曾有“高血壓病、冠心病”病史;”。類似的描述性語句往往包含病人的既往史、入院時狀態(tài)、確診方式、治療過程等記錄,蘊含了大量的臨床信息。充分挖掘這些描述性語句中對疾病癥狀、既往史等方面的信息,并以統(tǒng)計報表的形式呈現(xiàn)給醫(yī)學研究人員,是探索疾病發(fā)病規(guī)律的一種重要方式。
[0005]由于信息的統(tǒng)計實質(zhì)上是同性質(zhì)數(shù)據(jù)的比較,因此國內(nèi)外一致認為,對電子病歷結(jié)構化是進行疾病信息統(tǒng)計規(guī)律探索的基礎。當前,電子病歷結(jié)構化存在兩種思路:
[0006]1.病歷的結(jié)構化錄入
[0007]醫(yī)生在進行電子病歷錄入時,病歷錄入系統(tǒng)會提供相應的病歷錄入模板,模板的關鍵字段會存儲到關系型數(shù)據(jù)庫對應內(nèi)的字段內(nèi)。對于醫(yī)生的大段描述性語句或?qū)Σv的額外標注,一般會作為一個整體存儲在數(shù)據(jù)庫結(jié)構單元內(nèi)。病歷結(jié)構化錄入后,患者可以將電子病歷打印出來。這個過程系統(tǒng)需要從數(shù)據(jù)庫內(nèi)調(diào)取所需字段,并以一定的文檔版式輸出。
[0008]這種思路對于病歷的規(guī)范錄入具有顯著的作用,通過提供結(jié)構化錄入模板,讓醫(yī)生快速、準確的對病人的診斷治療過程進行記錄。這種思路的主要缺點在于,過密集的結(jié)構化錄入節(jié)點會導致醫(yī)生的使用體驗急劇下降,而過稀疏的結(jié)構化錄入節(jié)點則導致疾病描述信息結(jié)構化不徹底。
[0009]2.病歷的后結(jié)構化
[0010]病歷的結(jié)構化錄入過程導致我們無法從病歷數(shù)據(jù)庫獲取到完整的疾病信息,這就需要對病歷數(shù)據(jù)庫中的描述性語句進行結(jié)構化解析。國內(nèi)外對此問題的研究均基于自然語言的處理方法,通過采用類似于日常自然語言處理的方法,提取疾病的描述信息。不同的是針對不同種類的語言采用不同的語言處理方式,針對醫(yī)學術語采用不同的處理策略。
[0011]這種思路在無法訪問病歷數(shù)據(jù)庫,或無法通過病歷數(shù)據(jù)庫獲得完整疾病信息時具有極大價值,為挖掘病歷數(shù)據(jù)所反映的臨床信息提供了可靠的技術支撐。
[0012]當前,病歷的結(jié)構化錄入工作已較成熟,各大醫(yī)療軟件公司已推出相關產(chǎn)品;由于自然語言表達方式的復雜性及醫(yī)學術語的專業(yè)性,病歷的后結(jié)構化工作存在任務量大、難度高的特點,國內(nèi)相關研究開展較為遲滯,該發(fā)明對病歷數(shù)據(jù)的深度挖掘具有重大推動作用。

【發(fā)明內(nèi)容】

[0013]為解決【背景技術】中存在的技術問題,本發(fā)明提出一種電子病歷文本結(jié)構化方法,該方法能有效的從病歷的描述性文本中提取疾病的相關信息,形成對疾病信息的結(jié)構化表達,從而對疾病的發(fā)病規(guī)律、確診方式、治療效果等進行深層探索,包括以下步驟:
[0014]S1、載入醫(yī)學知識庫;
[0015]S2、讀入電子病歷文本,并依據(jù)醫(yī)生病歷書寫的標點習慣進行斷句,將病歷文本劃分為一系列短句;
[0016]S3、利用正向最大匹配算法對短句進行分詞,獲取句子中的詞語及其詞性、相對位置關系;
[0017]S4、判斷短句中對疾病信息描述的語義正反:當短句中存在否定性修飾詞且不存在否定性醫(yī)學專業(yè)術語時,認為對疾病信息單元的描述是否定的;其他情況下,認為短句對疾病信息單元的描述是肯定的;
[0018]S5、提取疾病信息元素:根據(jù)短句分詞的詞性標注結(jié)果及正反語義判斷,提取疾病的信息元素,否定性術語詞匯作為一個整體進行提??;
[0019]S6、重復步驟S2至S5,直至獲得電子病歷中的全部感興趣內(nèi)容;
[0020]S7、合并疾病信息元素的不同表達,根據(jù)醫(yī)學同義詞詞庫,將相同的疾病信息合并,去除冗余?目息;
[0021]S8、將疾病描述信息的元素以結(jié)構體/類的形式存儲,完成結(jié)構化過程。
[0022]優(yōu)選的,所述步驟SI包括如下四個部分:
[0023](I)載入醫(yī)學專業(yè)詞庫,該詞庫可由手工或算法整理得到,其中記錄了大量醫(yī)學專業(yè)術語及術語對應的詞性及在病歷中出現(xiàn)的詞頻;
[0024](2)載入醫(yī)學同義詞詞庫,該詞庫可由手工或算法整理得到,其中記錄了包括大量醫(yī)學專業(yè)術語的不同表述;
[0025](3)載入否定性專業(yè)術語詞庫,該詞庫可由手工或算法整理得到,其中記錄了大量否定性專業(yè)術語及其詞性標注;
[0026](4)載入否定性修飾詞詞庫,該詞庫可由手工或算法整理得到,其中記錄了大量否定性修飾詞。
[0027]本發(fā)明提出的一種電子病歷文本結(jié)構化方法,該方法能有效的從病歷的描述性文本中提取疾病的相關信息,形成對疾病信息的結(jié)構化表達,從而對疾病的發(fā)病規(guī)律、確診方式、治療效果等進行深層探索。
【附圖說明】
[0028]圖1為本發(fā)明電子病歷文本結(jié)構化方法流程圖;
[0029]圖2為本發(fā)明病歷文本分詞結(jié)果示例圖;
[0030]圖3為本發(fā)明病歷文本結(jié)構化完成之后的疾病信息結(jié)構體示例圖。
[0031 ]圖4為本發(fā)明病歷結(jié)構化及信息統(tǒng)計過程示意圖。
【具體實施方式】
[0032]下面,通過具體實施例對本發(fā)明的技術方案進行詳細說明。
[0033]實施例:
[0034]參照圖1至圖4,本發(fā)明為實現(xiàn)電子病歷文本結(jié)構化,可采用如下的實現(xiàn)步驟:
[0035]收集整理醫(yī)學知識庫
[0036]醫(yī)學知識庫包含以下內(nèi)容:
[0037]1.醫(yī)學專業(yè)詞庫
[0038]該詞庫可由手工或算法整理得到,其中記錄了大量醫(yī)學專業(yè)術語及術語對應的詞性及在病歷中出現(xiàn)的詞頻。例如:“頭暈zz 2000”。其中,“頭暈”是一個醫(yī)學術語,“zz”是該詞的詞性標注,表示“頭暈”這個詞描述的是癥狀,“2000”表示該詞的詞頻。
[0039]2.醫(yī)學同義詞詞庫
[0040]該詞庫可由手工或算法整理得到,其中記錄了包括大量醫(yī)學專業(yè)術語的不同表述。例如:“I型糖尿病I型糖尿病”,“非胰島素依耐性糖尿病“非胰島素依耐型糖尿病”
[0041]3.否定性專業(yè)術語詞庫
[0042]該詞庫可由手工或算法整理得到,其中記錄了大量否定性專業(yè)術語及其詞性標注。例如:“無明顯誘因fS_fx”,“不完全性腸梗阻fs_jb”、“無痛性甲狀腺炎fs_jb”、“先天性卵圓孔未閉f S_ jb”等O
[0043]4.否定性修飾詞詞庫
[0044]該詞庫可由手工或算法整理得到,其中記錄了大量否定性修飾詞。例如:“不存在FD”,“未聞及FD”,“否認FD”,“無FD”
[0045]以上詞庫可通過文本形式按指定格式保存,供實現(xiàn)電子病歷文本結(jié)構化算法時載入調(diào)用。
[0046]實現(xiàn)電子病歷文本結(jié)構化算法
[0047]依據(jù)前期準備的醫(yī)學知識庫,可采用下述流程實現(xiàn)電子病歷文本結(jié)構化算法(算法流程參考圖1):
[0048]1.載入醫(yī)學知識庫
[0049]分別載入醫(yī)學專業(yè)詞庫、醫(yī)學同義詞詞庫、否定性專業(yè)術語詞庫及否定性修飾詞詞庫。
[0050]2.讀入電子病歷文本
[0051]讀病歷文本,并依據(jù)醫(yī)生病歷書寫的標點習慣進行斷句(一般是句號、逗號、冒號和分號),將病歷文本劃分為一系列短句,順序保存到內(nèi)存中;
[0052]3.短句分詞
[0053]利用正向最大匹配算法對短句進行逐句分詞,劃分句子中的詞語及其對應詞性。分詞前后示例可參考圖2。
[0054]4.判斷語義正反
[0055]利用分詞結(jié)果及詞語間的相對位置關系,判斷短句中對疾病信息描述的語義正反。判斷語義正反的依據(jù):當短句中存在否定性修飾詞且不存在否定性醫(yī)學專業(yè)術語時,認為對疾病信息單元的描述是否定的;其他情況下,認為短句對疾病信息單元的描述是肯定的。
[0056]5.提取疾病信息元素
[0057]根據(jù)短句分詞的詞性標注結(jié)果及正反語義判斷,提取疾病的信息元素。將肯定信息元素與否定信息元素分開存儲。其中,否定性術語詞匯作為一個整體進行提取。至此,完成一個病歷文本短句的信息元素提取。
[0058]6.重復2?5直至獲得電子病歷中的全部感興趣內(nèi)容
[0059]7.合并疾病信息元素的不同表達
[0060]根據(jù)醫(yī)學同義詞詞庫,將相同的疾病信息合并,去除冗余信息。至此,完成當前病歷文本的結(jié)構化操作,結(jié)構化表達的病歷數(shù)據(jù)邏輯結(jié)構示意圖如圖3所示。
[0061 ] 8.病歷結(jié)構化信息存儲
[0062]將疾病描述信息的元素以結(jié)構體/類的形式存儲,完成結(jié)構化過程。由于病歷結(jié)構化結(jié)果為一個結(jié)構化對象,常規(guī)關系型數(shù)據(jù)庫不便對類似結(jié)構的信息進行存儲、查詢等操作。實現(xiàn)時可采用對象型數(shù)據(jù)庫如MongoDB或Hbase進行病歷結(jié)構化結(jié)果的存儲,實現(xiàn)數(shù)據(jù)的持久化。
[0063]以上所述,僅為本發(fā)明較佳的【具體實施方式】,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術領域的技術人員在本發(fā)明揭露的技術范圍內(nèi),根據(jù)本發(fā)明的技術方案及其發(fā)明構思加以等同替換或改變,都應涵蓋在本發(fā)明的保護范圍之內(nèi)。
【主權項】
1.一種電子病歷文本結(jié)構化方法,其特征在于,包括以下步驟: 51、載入醫(yī)學知識庫; 52、讀入電子病歷文本,并依據(jù)醫(yī)生病歷書寫的標點習慣進行斷句,將病歷文本劃分為一系列短句; 53、利用正向最大匹配算法對短句進行分詞,獲取句子中的詞語及其詞性、相對位置關系; 54、判斷短句中對疾病信息描述的語義正反:當短句中存在否定性修飾詞且不存在否定性醫(yī)學專業(yè)術語時,認為對疾病信息單元的描述是否定的;其他情況下,認為短句對疾病信息單元的描述是肯定的; 55、提取疾病信息元素:根據(jù)短句分詞的詞性標注結(jié)果及正反語義判斷,提取疾病的信息元素,否定性術語詞匯作為一個整體進行提??; 56、重復步驟S2至S5,直至獲得電子病歷中的全部感興趣內(nèi)容; 57、合并疾病信息元素的不同表達,根據(jù)醫(yī)學同義詞詞庫,將相同的疾病信息合并,去除冗余信息; 58、將疾病描述信息的元素以結(jié)構體/類的形式存儲,完成結(jié)構化過程。2.如權利要求1所述的一種電子病歷文本結(jié)構化方法,其特征在于,所述步驟SI包括如下四個部分: (1)載入醫(yī)學專業(yè)詞庫,該詞庫可由手工或算法整理得到,其中記錄了大量醫(yī)學專業(yè)術語及術語對應的詞性及在病歷中出現(xiàn)的詞頻; (2)載入醫(yī)學同義詞詞庫,該詞庫可由手工或算法整理得到,其中記錄了包括大量醫(yī)學專業(yè)術語的不同表述; (3)載入否定性專業(yè)術語詞庫,該詞庫可由手工或算法整理得到,其中記錄了大量否定性專業(yè)術語及其詞性標注; (4)載入否定性修飾詞詞庫,該詞庫可由手工或算法整理得到,其中記錄了大量否定性修飾詞。
【文檔編號】G06F17/27GK106095913SQ201610405133
【公開日】2016年11月9日
【申請日】2016年6月8日
【發(fā)明人】馮前進, 蔣君, 龐樹茂
【申請人】廣州同構醫(yī)療科技有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1