基于醫(yī)學(xué)信息本體數(shù)據(jù)庫的疾病自我分析方法
【專利摘要】本發(fā)明提供一種基于醫(yī)學(xué)信息數(shù)據(jù)庫的疾病自我分析方法,包括如下步驟:建立醫(yī)學(xué)信息本體(Medical Ontology)數(shù)據(jù)庫,即MO數(shù)據(jù)庫;根據(jù)病情描述,提取特征詞匯;根據(jù)特征詞匯在MO數(shù)據(jù)庫中搜索并進(jìn)行匹配;根據(jù)匹配得到的terms標(biāo)號(hào)集合,計(jì)算病友對(duì)應(yīng)的MO terms集合所患疾病的概率。通過本發(fā)明的方法,建立起基于疾病特征的醫(yī)學(xué)信息本體數(shù)據(jù)庫,并建立起一種基于醫(yī)學(xué)信息數(shù)據(jù)庫的疾病自我分析方法,使有效的數(shù)據(jù)與人體的實(shí)際狀況相結(jié)合,使病患初期的病征得到更有效的甄別,最大可能的為幫助病患自診提供準(zhǔn)確有效的數(shù)據(jù)依據(jù)。
【專利說明】基于醫(yī)學(xué)信息本體數(shù)據(jù)庫的疾病自我分析方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于計(jì)算機(jī)信息領(lǐng)域,特別是涉及到一種基于醫(yī)學(xué)信息本體數(shù)據(jù)庫的疾病 自我分析方法。
【背景技術(shù)】
[0002] 現(xiàn)階段人們的生活節(jié)奏很快,生活壓力也很大,這就為人們的身體健康帶來了很 多隱憂。人們一旦身體健康出現(xiàn)問題,首選是去醫(yī)院,但是醫(yī)院里看病的人又似乎永遠(yuǎn)是非 常多,哪怕是一些小病征,整個(gè)看病的流程走下來會(huì)花費(fèi)很多時(shí)間;而如果人們覺得耽誤時(shí) 間,不愿意去醫(yī)院,只是依據(jù)自己的經(jīng)驗(yàn)買些藥服用,這樣又有可能錯(cuò)過最佳治療時(shí)間,耽 誤病情。
[0003] 基于這種現(xiàn)象,如果能夠有一個(gè)幫助人們進(jìn)行疾病自診的信息平臺(tái),將會(huì)對(duì)人們 產(chǎn)生巨大的幫助,人們可以通過信息平臺(tái)的內(nèi)容,結(jié)合自身的狀況,先對(duì)自己的病患進(jìn)行初 期的判斷,病征輕微的,可以根據(jù)信息平臺(tái)的內(nèi)容進(jìn)行自我簡單的治療,病征有危險(xiǎn)的發(fā)展 趨勢(shì)時(shí),再去醫(yī)院治療。
[0004] 要建立一個(gè)這樣的幫助人們進(jìn)行疾病自診的信息平臺(tái),需要有一個(gè)完善的醫(yī)學(xué)信 息數(shù)據(jù)庫,才能保證自診的準(zhǔn)確性,既能幫助人們節(jié)省時(shí)間,又不會(huì)耽誤疾病的最佳治療時(shí) 間。
[0005] 在有了完善的醫(yī)學(xué)信息數(shù)據(jù)庫之后,還要有基于醫(yī)學(xué)信息數(shù)據(jù)庫的疾病自我分析 方法,才能準(zhǔn)確的完成自診。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明要解決的問題是設(shè)計(jì)一種基于醫(yī)學(xué)信息數(shù)據(jù)庫的疾病自我分析方法,為疾 病自診信息平臺(tái)提供完備的信息分析方法,為病患初期的自診提供科學(xué)的依據(jù)。
[0007] 需要說明的是,本發(fā)明基于醫(yī)學(xué)信息數(shù)據(jù)庫的疾病自我分析方法,是信息學(xué)的一 種應(yīng)用,并非屬于疾病的診斷和治療方法,因此不違反專利法第二十五條的相關(guān)規(guī)定。
[0008] 為了達(dá)到上述目的,本發(fā)明采取的技術(shù)方案為:一種基于醫(yī)學(xué)信息數(shù)據(jù)庫的疾病 自我分析方法,其特征在于,包括如下步驟:
[0009] (1)建立醫(yī)學(xué)信息本體(MedicalOntology)數(shù)據(jù)庫,即MO數(shù)據(jù)庫;
[0010] ⑵根據(jù)病情描述,提取特征詞匯;
[0011] (3)根據(jù)特征詞匯在MO數(shù)據(jù)庫中搜索并進(jìn)行匹配;
[0012] (4)根據(jù)匹配得到的terms標(biāo)號(hào)集合,計(jì)算病友對(duì)應(yīng)的MOterms集合所患疾病的 概率。
[0013] 優(yōu)選的,所述步驟(1)中,創(chuàng)建MO數(shù)據(jù)庫的方法為:
[0014] a.將疾病及其特征用MOterms進(jìn)行編號(hào),每個(gè)MOterms代表一個(gè)頂點(diǎn),兩個(gè) terms之間的關(guān)系用有向邊表示,這樣將疾病和病征表示在一個(gè)有向無環(huán)圖中;
[0015] b.頂點(diǎn)之間的關(guān)聯(lián)分成兩種類型:is_a關(guān)系和part_of關(guān)系;is_a關(guān)系是一種簡 單的包含關(guān)系;part_of關(guān)系表示一部分的包含關(guān)系,一種疾病往往有多種病征表現(xiàn),病征 和疾病之間是part_of的關(guān)系,疾病和疾病之間是is_a的關(guān)系,病征和病征之間是is_a的 關(guān)系;
[0016] c.對(duì)于任兩個(gè)terms之間的有向邊,若是part_of的關(guān)系,則賦予權(quán)重;權(quán)重用關(guān) 聯(lián)概率d表示;將父term與之關(guān)聯(lián)的子terms之間進(jìn)行關(guān)聯(lián)度d分配(0〈d〈 = 1);其中關(guān) 聯(lián)度d(terml,term2)表示父病征terml出現(xiàn)term2子病征的概率;
[0017] d.對(duì)于任兩個(gè)terms之間的有向邊,若是is_a的關(guān)系,則賦予權(quán)重;權(quán)重用關(guān)聯(lián) 百分比表示;父term與子terms之間的關(guān)聯(lián)百分比用該子term在父term所關(guān)聯(lián)的所有子 terms中出現(xiàn)比率,所述子terms的關(guān)聯(lián)百分比之和為1。
[0018] 優(yōu)選的,所述步驟(2)中特征詞匯的提取方法為:
[0019] (2. 1)將表示程度和是否的詞匯一起提取。將頻率詞匯去除;
[0020] (2. 2)根據(jù)標(biāo)點(diǎn)符號(hào)將病情描述的長字符串拆分成很多短字符串,對(duì)每個(gè)短字符 串按照2?4的長度依次進(jìn)行遍歷截??;
[0021] 優(yōu)選的,所述步驟(3)中采用分治算法技術(shù),對(duì)每個(gè)疾病下的癥狀進(jìn)行并行計(jì)算 處理;
[0022] 優(yōu)選的,所述步驟(3)中所述的匹配,需要特征詞匯與MO數(shù)據(jù)庫中的terms詞匯 進(jìn)行精確匹配;
[0023] 優(yōu)選的,所述步驟(4)中所述的計(jì)算概率,運(yùn)用廣度優(yōu)先搜索方法,得到對(duì)應(yīng)病情 描述病癥term集合It1,t2,..V··}和邊權(quán)重集合Wj={wWw2j,…,Wij,…},然后計(jì)算得 該疾病的概率。
[0024] 進(jìn)一步的,所述步驟(4)中根據(jù)概率大小排序,可以判斷所患疾病的概率。然后按 照概率大小,推薦相應(yīng)的科室和醫(yī)生。
[0025] 本發(fā)明的有益效果為:通過本發(fā)明的方法,建立起基于疾病特征的醫(yī)學(xué)信息本體 數(shù)據(jù)庫,并建立起一種基于醫(yī)學(xué)信息數(shù)據(jù)庫的疾病自我分析方法,使有效的數(shù)據(jù)與人體的 實(shí)際狀況相結(jié)合,使病患初期的病征得到更有效的甄別,最大可能的為幫助病患自診提供 準(zhǔn)確有效的數(shù)據(jù)依據(jù),既為人們節(jié)省不必要的時(shí)間消耗,又不會(huì)耽誤疾病的最佳治療時(shí)間。
【專利附圖】
【附圖說明】
[0026] 圖1是本發(fā)明的步驟示意圖;
[0027] 圖2是本發(fā)明中提取詞匯方法示意圖。
【具體實(shí)施方式】
[0028] 下面結(jié)合具體實(shí)施例對(duì)本發(fā)明做進(jìn)一步說明。
[0029] 按照?qǐng)D1所示的步驟,
[0030] 首先,建立醫(yī)學(xué)信息本體(MedicalOntology)數(shù)據(jù)庫,即MO數(shù)據(jù)庫;
[0031] (1)將疾病及其特征用MOterms進(jìn)行編號(hào),每個(gè)MOterms代表一個(gè)頂點(diǎn),兩個(gè) terms之間的關(guān)系用有向邊表示,這樣將疾病和病征表示在一個(gè)有向無環(huán)圖中;
[0032] (2)頂點(diǎn)之間的關(guān)聯(lián)分成兩種類型:is_a關(guān)系和part_of關(guān)系;is_a關(guān)系是一種 簡單的包含關(guān)系;part_of關(guān)系表示一部分的包含關(guān)系,一種疾病往往有多種病征表現(xiàn),病 征和疾病之間是part_of的關(guān)系,疾病和疾病之間是is_a的關(guān)系,病征和病征之間是is_a的關(guān)系;
[0033] (3)對(duì)于任兩個(gè)terms之間的有向邊,若是part_of的關(guān)系,則賦予權(quán)重;權(quán)重用 關(guān)聯(lián)概率d表示;將父term與之關(guān)聯(lián)的子terms之間進(jìn)行關(guān)聯(lián)度d分配(0〈d〈 = 1);其中 關(guān)聯(lián)度d(terml,term2)表示父病征terml出現(xiàn)term2子病征的概率;
[0034] (4)對(duì)于任兩個(gè)terms之間的有向邊,若是is_a的關(guān)系,則賦予權(quán)重;權(quán)重用關(guān)聯(lián) 百分比表示;父term與子terms之間的關(guān)聯(lián)百分比用該子term在父term所關(guān)聯(lián)的所有子 terms中出現(xiàn)比率,所述子terms的關(guān)聯(lián)百分比之和為1。
[0035] 然后,基于MO數(shù)據(jù)庫,進(jìn)行疾病的自我分析方法為:
[0036] 第一步:根據(jù)病情描述,提取特征詞匯,提取方法:
[0037] 注1 :將{:不,沒,無,非常,有,存在,高于,低于,嚴(yán)重等表示程度和是否的 詞匯一起提取。將{:可,可以,呈,呈現(xiàn),常,經(jīng)常,···..}等頻率詞匯去除。
[0038] 注2 :提取詞匯方法:根據(jù)標(biāo)點(diǎn)符號(hào)將病情描述的長字符串拆分成很多短字符串, 對(duì)每個(gè)短字符串按照2?4的長度依次進(jìn)行遍歷截?。h字詞匯一般為2到4長的文字組 成)。如圖2所示。
[0039] 這樣得到病情的特征詞匯提取集合S= (S1,S2,…,Si,….sn}。
[0040] 注3 :搜索技術(shù):因?yàn)樵贛O數(shù)據(jù)庫對(duì)應(yīng)關(guān)系(即有向無圈圖中)中is_a關(guān)系與 part_of關(guān)系的分界點(diǎn)恰好是疾病名稱與癥狀的分界點(diǎn),根據(jù)有向無圈圖的性質(zhì),可以采用 分治算法(divideandconqueralgorithm)技術(shù),對(duì)每個(gè)疾病下的癥狀進(jìn)行"分而治之", 分治算法能夠減少搜索時(shí)間,并且分治下的每個(gè)疾病分支可以并行計(jì)算處理(parallel computing)〇
[0041] 注4 :進(jìn)行匹配:醫(yī)學(xué)信息本體(MedicalOntology)數(shù)據(jù)庫中每個(gè)term都有對(duì)應(yīng) 的定義和所有可能的同義詞與相近意思或相關(guān)詞(這些詞組成一個(gè)詞匯組T=Itpt2,… tn})。因?yàn)閷?duì)病情描述的詞匯進(jìn)行了全部可能提取,所以的匹配需要與MO數(shù)據(jù)庫中的terms 詞匯進(jìn)行精確匹配(一個(gè)特征詞匯Si的一部分或全部完全匹配數(shù)據(jù)庫中的某個(gè)term對(duì)應(yīng) 的詞匯組T中的一個(gè)完整詞匯)。
[0042] 第二步:對(duì)于該病情描述得到的terms標(biāo)號(hào)集合,計(jì)算病友對(duì)應(yīng)的MOterms集合 所患疾病的概率。每個(gè)癥狀的MOterm&都可以通過一條有向路回溯到上層的疾病對(duì)應(yīng)的 terms集合(運(yùn)用廣度優(yōu)先搜索方法),并且記下離對(duì)應(yīng)疾病term最近的有向邊的權(quán)重w。 這樣每個(gè)癥狀&就對(duì)應(yīng)疾病term集合{dud2,…,dt}和對(duì)應(yīng)的權(quán)重{wn,wi2,….,wit}。
[0043] 這樣,每個(gè)疾病Wpd2,…,dt}也都得到了對(duì)應(yīng)病情描述病癥term集合 {?" 七2,· ·ti···}
[0044] 和邊權(quán)重集合Wj={w$w2j,…,Wij,…},然后計(jì)算得該疾病的概率
[0045]
【權(quán)利要求】
1. 一種基于醫(yī)學(xué)信息數(shù)據(jù)庫的疾病自我分析方法,其特征在于,包括如下步驟: (1) 建立醫(yī)學(xué)信息本體(Medical Ontology)數(shù)據(jù)庫,即M0數(shù)據(jù)庫; (2) 根據(jù)病情描述,提取特征詞匯; (3) 根據(jù)特征詞匯在M0數(shù)據(jù)庫中搜索并進(jìn)行匹配; (4) 根據(jù)匹配得到的terms標(biāo)號(hào)集合,計(jì)算病友對(duì)應(yīng)的MO terms集合所患疾病的概率。
2. 根據(jù)權(quán)利要求1所述的一種基于醫(yī)學(xué)信息數(shù)據(jù)庫的疾病自我分析方法,其特征在 于,所述步驟(1)中,創(chuàng)建M0數(shù)據(jù)庫的方法為: a. 將疾病及其特征用MO terms進(jìn)行編號(hào),每個(gè)MO terms代表一個(gè)頂點(diǎn),兩個(gè)terms之 間的關(guān)系用有向邊表示,這樣將疾病和病征表示在一個(gè)有向無環(huán)圖中; b. 頂點(diǎn)之間的關(guān)聯(lián)分成兩種類型:is_a關(guān)系和part_of關(guān)系;is_a*系是一種簡單 的包含關(guān)系;part_of關(guān)系表示一部分的包含關(guān)系,一種疾病往往有多種病征表現(xiàn),病征和 疾病之間是part_of的關(guān)系,疾病和疾病之間是is_a的關(guān)系,病征和病征之間是is_a的關(guān) 系; c. 對(duì)于任兩個(gè)terms之間的有向邊,若是part_of的關(guān)系,則賦予權(quán)重;權(quán)重用關(guān)聯(lián)概 率d表示;將父term與之關(guān)聯(lián)的子terms之間進(jìn)行關(guān)聯(lián)度d分配(0〈d〈 = 1);其中關(guān)聯(lián)度 d(terml, term2)表示父病征terml出現(xiàn)term2子病征的概率; d. 對(duì)于任兩個(gè)terms之間的有向邊,若是is_a的關(guān)系,則賦予權(quán)重;權(quán)重用關(guān)聯(lián)百 分比表示;父term與子terms之間的關(guān)聯(lián)百分比用該子term在父term所關(guān)聯(lián)的所有子 terms中出現(xiàn)比率,所述子terms的關(guān)聯(lián)百分比之和為1。
3. 根據(jù)權(quán)利要求1所述的一種基于醫(yī)學(xué)信息數(shù)據(jù)庫的疾病自我分析方法,其特征在 于,所述步驟(2)中特征詞匯的提取方法為: (2. 1)將表示程度和是否的詞匯一起提取。將頻率詞匯去除; (2. 2)根據(jù)標(biāo)點(diǎn)符號(hào)將病情描述的長字符串拆分成很多短字符串,對(duì)每個(gè)短字符串按 照2?4的長度依次進(jìn)行遍歷截取。
4. 根據(jù)權(quán)利要求1所述的一種基于醫(yī)學(xué)信息數(shù)據(jù)庫的疾病自我分析方法,其特征在 于,所述步驟(3)中采用分治算法技術(shù),對(duì)每個(gè)疾病下的癥狀進(jìn)行并行計(jì)算處理。
5. 根據(jù)權(quán)利要求1所述的一種基于醫(yī)學(xué)信息數(shù)據(jù)庫的疾病自我分析方法,其特征在 于,所述步驟(3)中所述的匹配,需要特征詞匯與M0數(shù)據(jù)庫中的terms詞匯進(jìn)行精確匹配。
6. 根據(jù)權(quán)利要求1所述的一種基于醫(yī)學(xué)信息數(shù)據(jù)庫的疾病自我分析方法,其特征在 于,所述步驟(4)中所述的計(jì)算概率,運(yùn)用廣度優(yōu)先搜索方法,得到對(duì)應(yīng)病情描述病癥term 集合{ti, t2, . . V" }和邊權(quán)重集合Wj= {w ij, w2j,…,Wij,…},然后計(jì)算得該疾病的概率。
7. 根據(jù)權(quán)利要求1所述的一種基于醫(yī)學(xué)信息數(shù)據(jù)庫的疾病自我分析方法,其特征在 于,所述步驟(4)中根據(jù)概率大小排序,可以判斷所患疾病的概率。然后按照概率大小,推 薦相應(yīng)的科室和醫(yī)生。
【文檔編號(hào)】G06F17/30GK104484845SQ201410848794
【公開日】2015年4月1日 申請(qǐng)日期:2014年12月30日 優(yōu)先權(quán)日:2014年12月30日
【發(fā)明者】趙欣, 張少強(qiáng) 申請(qǐng)人:天津邁沃醫(yī)藥技術(shù)有限公司