亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種電子病歷查詢語句的構(gòu)造方法

文檔序號:6623222閱讀:499來源:國知局
一種電子病歷查詢語句的構(gòu)造方法
【專利摘要】本發(fā)明公開了一種電子病歷查詢語句的構(gòu)造方法,該方法包括電子病歷語料預(yù)處理,醫(yī)學(xué)術(shù)語抽取及篩選,醫(yī)學(xué)術(shù)語權(quán)重計(jì)算,新查詢語句構(gòu)造四步驟;其中:電子病歷語料預(yù)處理包括分詞、詞頻統(tǒng)計(jì)、概率分布參數(shù)計(jì)算;醫(yī)學(xué)術(shù)語抽取及篩選包括分詞、醫(yī)學(xué)術(shù)語抽取及去掉醫(yī)學(xué)停用詞;醫(yī)學(xué)術(shù)語權(quán)重計(jì)算包括泊松分布擬合詞分布、醫(yī)學(xué)術(shù)語出現(xiàn)概率計(jì)算及醫(yī)學(xué)術(shù)語自信息計(jì)算;新查詢構(gòu)造是將得到的帶權(quán)重醫(yī)學(xué)術(shù)語與原始查詢語句,通過線性平滑參數(shù)結(jié)合,得到新查詢語句。本發(fā)明應(yīng)用到一個(gè)新的病歷集合上,就可以在該病歷集合上進(jìn)行更加有效的查詢,提高了電子病歷檢索的準(zhǔn)確度。
【專利說明】-種電子病歷查詢語句的構(gòu)造方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息檢索、查詢擴(kuò)展、查詢詞加權(quán)、自然語言處理等【技術(shù)領(lǐng)域】,具體地 說是一種利用自信息來度量查詢詞權(quán)重,根據(jù)輸入的原始查詢語句,重新構(gòu)造帶權(quán)重的查 詢語句的方法,用來提高電子病歷檢索的準(zhǔn)確率和召回率。

【背景技術(shù)】
[0002] 隨著醫(yī)療系統(tǒng)的信息化,電子病歷(electronic medical records,簡稱EMR)被 廣泛使用,正在以前所未有的速度增長。病歷一般包括病人的臨床診斷,以往病史,檢查報(bào) 告,治療藥物等豐富的信息。把這些信息檢索出來,進(jìn)行統(tǒng)計(jì)分析,有利于臨床醫(yī)學(xué)研究,可 以更好地診斷、預(yù)防和治療人類的疾病。顯然,使用人工的方法處理這些信息是一件不可能 的任務(wù)。因此,電子病歷檢索給信息檢索帶來了新的挑戰(zhàn)。
[0003] 電子病歷的檢索,更多的是涉及這樣的查詢:查詢的目標(biāo)是一個(gè)病人群體,附帶的 查詢條件是,這些病人患有的病,使用過的藥物,進(jìn)行過的檢查,目前的康復(fù)情況等等。病 名,治療藥物,檢查項(xiàng)目等,都是專門的醫(yī)學(xué)術(shù)語。針對這樣的查詢語句,有必要提出一種新 的查詢詞權(quán)重設(shè)置方法。


【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的是針對現(xiàn)有技術(shù)的不足而提供的一種電子病歷查詢語句的構(gòu)造方 法,該方法利用醫(yī)學(xué)術(shù)語抽取方法得到查詢語句中的醫(yī)學(xué)術(shù)語;隨后通過分析整個(gè)電子病 歷集合中這些醫(yī)學(xué)術(shù)語的概率分布來得到醫(yī)學(xué)術(shù)語的自信息;最后加入平滑參數(shù)構(gòu)造了新 的帶權(quán)重的查詢語句。
[0005] 本發(fā)明的目的是這樣實(shí)現(xiàn)的: 一種電子病歷查詢語句的構(gòu)造方法,該方法包括以下具體步驟: a) 、電子病歷語料預(yù)處理 對電子病歷語料文本進(jìn)行分詞,去掉停用詞之后,得到所有語料中出現(xiàn)的詞;利用公式 (1)計(jì)算每個(gè)詞t在每篇病歷中的平均出現(xiàn)次數(shù);

【權(quán)利要求】
1. 一種電子病歷查詢語句的構(gòu)造方法,其特征在于該方法包括以下具體步驟: a) 、電子病歷語料預(yù)處理 對電子病歷語料文本進(jìn)行分詞,去掉停用詞之后,得到語料中出現(xiàn)的所有詞;利用公式 (1)計(jì)算每個(gè)詞t在每篇病歷中的平均出現(xiàn)次數(shù);
其中,X表示詞t的平均出現(xiàn)次數(shù),n表示電子病歷語料集合的大小,表示詞t在第 i篇病歷中出現(xiàn)的次數(shù);通過計(jì)算得到每個(gè)詞t對應(yīng)的1 ; b) 、醫(yī)學(xué)術(shù)語抽取及篩選 首先,抽取原始查詢語句中出現(xiàn)的醫(yī)學(xué)術(shù)語;再在抽取出的醫(yī)學(xué)術(shù)語中去掉醫(yī)學(xué)停用 詞,剩下的醫(yī)學(xué)術(shù)語的集合記為
,其中表示第i個(gè)醫(yī) 學(xué)術(shù)語,每個(gè)醫(yī)學(xué)術(shù)語有可能由多個(gè)詞組成; c) 、醫(yī)學(xué)術(shù)語權(quán)重計(jì)算 計(jì)算每個(gè)醫(yī)學(xué)術(shù)語<$的權(quán)重Wt ,具體包括: i)、計(jì)算組成醫(yī)學(xué)術(shù)語的詞的出現(xiàn)概率P(X);使用泊松分布來擬合詞t的概率分布; 那么使用公式(2)來計(jì)算;
其中,T表示詞t的出現(xiàn)次數(shù),1表示詞t的平均出現(xiàn)次數(shù),e表示自然常數(shù); ii)、計(jì)算醫(yī)學(xué)術(shù)語|^在電子病歷語料中出現(xiàn)的概率pfPj;醫(yī)學(xué)術(shù)語中每個(gè)詞的 出現(xiàn)是相互獨(dú)立事件使用公式(3)計(jì)算;
iii)、計(jì)算每個(gè)醫(yī)學(xué)術(shù)語的權(quán)重,使用自信息的定義,即公式(4)計(jì)算;
d)、新查詢語句構(gòu)造 使用原始查詢語句、¢1,,,.,?以及對應(yīng)的Wi,W2,Wft構(gòu)造新的查詢語 句,具體包括: i )、對于原始查詢語句,組成原始查詢語句的詞之間的權(quán)重平均分配,得到查詢子句 1 ; ii )、對于醫(yī)學(xué)術(shù)語內(nèi)部,醫(yī)學(xué)術(shù)語中每個(gè)詞的權(quán)重平均分配; iii) 、對于醫(yī)學(xué)術(shù)語之間,每個(gè)醫(yī)學(xué)術(shù)語分配到的權(quán)重是
,得到查詢 子句2 ; iv)、將查詢子句1和查詢子句2,按照[I: (1一的比例分配權(quán)重,得到新查詢語 句,其中[1的取值范圍是[〇,1]。
【文檔編號】G06Q50/24GK104268144SQ201410394537
【公開日】2015年1月7日 申請日期:2014年8月12日 優(yōu)先權(quán)日:2014年8月12日
【發(fā)明者】王文斌, 顧君忠 申請人:華東師范大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1