亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種語料標(biāo)注方法及裝置的制作方法

文檔序號:6368093閱讀:235來源:國知局
專利名稱:一種語料標(biāo)注方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種語料標(biāo)注方法及裝置。
背景技術(shù)
在語言學(xué)中,語料庫是指大量文本的集合,庫中的文本即為語料,語料經(jīng)過整理后,便具有既定的格式與標(biāo)記。由大量既定格式與標(biāo)記的語料組成的語料庫可應(yīng)用于詞典編纂、語言教學(xué)、傳統(tǒng)語言研究、自然語言處理中基于統(tǒng)計(jì)或者實(shí)例的研究等方面,因此,語料庫是語言學(xué)研究的基礎(chǔ)資源。語料標(biāo)注是對語料庫中的文本進(jìn)行分詞、詞性標(biāo)注、命名實(shí)體識別、句法加工、信息抽取等方面的 工作,是建立準(zhǔn)確的語料庫和語言分析模型的基礎(chǔ)。例如,詞性語料標(biāo)注就是對語句中每一個詞的詞性進(jìn)行標(biāo)注,比如對下面已經(jīng)完成分詞的語句進(jìn)行詞性標(biāo)注我是一個兵正確的標(biāo)注結(jié)果為我/r是/v—個/mq 兵/n其中,r為代詞;v為動詞;mq為數(shù)量詞;n為名詞。如圖I所示,現(xiàn)有技術(shù)中的計(jì)算機(jī)輔助語料標(biāo)注系統(tǒng)大致包含七個部分,分別為待標(biāo)注語料存儲模塊,語料選擇模塊,語料標(biāo)注模塊,語料標(biāo)注結(jié)果顯示模塊,語料標(biāo)注結(jié)果收集模塊,完成標(biāo)注語料存儲模塊,用戶交互界面。具體工作過程參見圖1,計(jì)算機(jī)將錄入的語料存放至待標(biāo)注語料存儲模塊中,語料選擇模塊從待標(biāo)注語料存儲模塊中隨機(jī)抽取一條或者多條語料;語料標(biāo)注模塊對語料選擇模塊抽取出的語料進(jìn)行標(biāo)注;語料標(biāo)注結(jié)果顯示模塊將語料的標(biāo)注結(jié)果顯示在用戶交互界面上,由人工在語料標(biāo)注結(jié)果顯示模塊中對語料標(biāo)注結(jié)果進(jìn)行校對,校對包含同意正確的標(biāo)注,和對錯誤語料標(biāo)注進(jìn)行添加、刪除和更改,若語料標(biāo)注錯誤,也可在語料標(biāo)注結(jié)果顯示模塊中對標(biāo)注結(jié)果進(jìn)行修改,如語料標(biāo)注模塊可能對某些非常見的詞語不能標(biāo)注,例如,輸入“我/r是/V—個/mq特種/ 兵/n”,“?”表示未對“特種”進(jìn)行標(biāo)注,此時(shí)需要在語句標(biāo)注結(jié)果顯示模塊中對標(biāo)注結(jié)果進(jìn)行修改;用戶交互界面為用戶顯示語料標(biāo)注結(jié)果;語料標(biāo)注結(jié)果收集模塊可以采集校對結(jié)果;完成標(biāo)注語料存儲模塊存儲語料標(biāo)注結(jié)果收集模塊采集的結(jié)果。由此可見,雖然現(xiàn)有技術(shù)中的計(jì)算機(jī)輔助語料標(biāo)注系統(tǒng)對提高語料標(biāo)注效率進(jìn)行了很大的改進(jìn),在一定程度上降低了語料標(biāo)注占用的時(shí)間長度和錯誤率,但由于人工校對需要長時(shí)間集中精力工作,標(biāo)注速率和標(biāo)注準(zhǔn)確度還是有待于進(jìn)一步提高。

發(fā)明內(nèi)容
本發(fā)明實(shí)施例中,在常規(guī)的計(jì)算機(jī)輔助語料標(biāo)注系統(tǒng)中,設(shè)置了可信度指示單元,可以指示出不同語料標(biāo)注結(jié)果對應(yīng)各標(biāo)注結(jié)果的可信度,用以解決語料標(biāo)注效率低和準(zhǔn)確率低的問題。本發(fā)明實(shí)施例提供的具體技術(shù)方案如下
一種語料標(biāo)注方法,包括選擇待標(biāo)注的語料,并對所述語料進(jìn)行標(biāo)注;根據(jù)已保存的語料標(biāo)注歷史記錄,對所述語料對應(yīng)的任意一標(biāo)注結(jié)果分別進(jìn)行可信度指示;將所述語料對應(yīng)的各標(biāo)注結(jié)果與相應(yīng)的可信度指示進(jìn)行呈現(xiàn)。一種語料標(biāo)注裝置,包括標(biāo)注單元20,用于選擇待標(biāo)注的語料,并對所述語料進(jìn)行標(biāo)注;可信度指示單元21,用于根據(jù)已保存的語料標(biāo)注歷史記錄,對所述語料對應(yīng)的任意一標(biāo)注結(jié)果分別進(jìn)行可信度指示;呈現(xiàn)單元22,用于將所述語料對應(yīng)的各標(biāo)注結(jié)果與相應(yīng)的可信度指示進(jìn)行呈現(xiàn)。本發(fā)明實(shí)施例中,語料標(biāo)注裝置在每次進(jìn)行語料標(biāo)注時(shí),選擇待標(biāo)注的語料,并對該語料進(jìn)行標(biāo)注,以及根據(jù)已保存的語料標(biāo)注歷史記錄,對上述語料對應(yīng)的任意一標(biāo)注結(jié)果分別進(jìn)行可信度指示,這樣,可以合理分配人工校對過程中的人力資源,有效解決現(xiàn)有技術(shù)中存在的龐大語料庫中語料標(biāo)注工作量大,效率低,準(zhǔn)確率低的問題。


圖I為現(xiàn)有技術(shù)中的計(jì)算機(jī)輔助語料標(biāo)注系統(tǒng)結(jié)構(gòu)圖;圖2為本發(fā)明實(shí)施例中的語料標(biāo)注裝置結(jié)構(gòu)圖;圖3為本發(fā)明實(shí)施例中的語料標(biāo)注裝置工作流程圖;圖4為本發(fā)明實(shí)施例中構(gòu)成語料標(biāo)注歷史記錄的流程圖。
具體實(shí)施例方式為了提高計(jì)算機(jī)輔助語料標(biāo)注系統(tǒng)的標(biāo)注速率和標(biāo)注準(zhǔn)確度,本發(fā)明實(shí)施例中,語料標(biāo)注裝置在每次進(jìn)行語料標(biāo)注時(shí),選擇待標(biāo)注的語料,并對該語料進(jìn)行標(biāo)注,以及根據(jù)已保存的語料標(biāo)注歷史記錄,對上述語料對應(yīng)的任意一標(biāo)注結(jié)果分別進(jìn)行可信度指示,這樣,可以有效節(jié)約人力資源,解決現(xiàn)有技術(shù)中存在的龐大語料庫中語料標(biāo)注工作量大,效率低,準(zhǔn)確率低的問題。下面結(jié)合附圖對本發(fā)明優(yōu)選的實(shí)施方式進(jìn)行詳細(xì)說明。參閱圖2所示,本發(fā)明實(shí)施例中,語料標(biāo)注裝置包括標(biāo)注單元20、可信度指示單元21和呈現(xiàn)單元22。標(biāo)注單元20進(jìn)一步包括待標(biāo)注語料存儲模塊201、語料選擇模塊202、語料標(biāo)注模塊203 ;可信度指示單元21進(jìn)一步包括可信度學(xué)習(xí)模塊211、知識庫212、可信度標(biāo)注模塊213 ;呈現(xiàn)單元22進(jìn)一步包括語料標(biāo)注結(jié)果顯示模塊221、語料標(biāo)注結(jié)果收集模塊222、完成標(biāo)注語料存儲模塊223。參閱圖3所示,本發(fā)明實(shí)施例中,語料標(biāo)注裝置的詳細(xì)流程如下步驟300 :語料標(biāo)注裝置選擇待標(biāo)注的一條或多條語料,并對該語料進(jìn)行標(biāo)注。所謂語料標(biāo)注即是指語料標(biāo)注是對語料庫中的文本進(jìn)行分詞、詞性標(biāo)注、命名實(shí)體識別、句法加工、信息抽取等方面的工作,是建立準(zhǔn)確的語料庫和語言分析模型的基礎(chǔ)。
本發(fā)明實(shí)施例中,各種語料可以預(yù)先保存在設(shè)定的存儲區(qū)域內(nèi),為了避免一條語料進(jìn)行多次重復(fù)標(biāo)注,每一條存儲在上述存儲區(qū)域內(nèi)的語料的屬性都會被初始化為“未標(biāo)注”狀態(tài),這樣,語料標(biāo)注裝置只需要選擇屬性為“未標(biāo)注”的語料進(jìn)行標(biāo)注即可。此外,如果語料標(biāo)注裝置允許多個客戶端同時(shí)對語料進(jìn)行標(biāo)注,則還可以將選取的語料的屬性修改為“正在標(biāo)注”,從而避免了多客戶端同時(shí)對同一條語料進(jìn)行標(biāo)注。同時(shí),語料標(biāo)注裝置中還設(shè)置了存有所有詞性、詞語搭配關(guān)系等語料標(biāo)注庫,例如,語料標(biāo)注庫中記錄的詞性為r代表代詞,mq代表數(shù)量詞,a代表形容詞,n代表名詞。步驟310 :語料標(biāo)注裝置根據(jù)已保存的語料標(biāo)注歷史記錄,對上述語料對應(yīng)的各個標(biāo)注結(jié)果分別進(jìn)行可信度指示。以任意一個標(biāo)注結(jié)果為例,語料標(biāo)注裝置根據(jù)已保存的語料標(biāo)注歷史記錄,計(jì)算在歷史語料標(biāo)注過程中,各個語料與其對應(yīng)的任意一標(biāo)注結(jié)果之間準(zhǔn)確存在對應(yīng)關(guān)系的次數(shù),與上述語料與其對應(yīng)的任意一標(biāo)注結(jié)果之間被標(biāo)注存在對應(yīng)關(guān)系的總次數(shù)之間的百分t匕,并基于所述百分比獲得所述任意一標(biāo)注結(jié)果的可信度指示。語料標(biāo)注裝置根據(jù)所保存的語料標(biāo)注歷史記錄對上述語料對應(yīng)的任意一個標(biāo)注結(jié)果進(jìn)行可信度指示時(shí),可以采用但不限于以下任意一種方法直接將上述百分比作為上述語料對應(yīng)的任意一標(biāo)注結(jié)果的可信度指示。將上述百分比對應(yīng)的錯誤等級作為上述語料對應(yīng)的任意一標(biāo)注結(jié)果的可信度指示,例如,用阿拉伯?dāng)?shù)字0 6指示六個等級的語料指示語料標(biāo)注裝置進(jìn)行語料標(biāo)注的可信度指示,如用0代表完全可信,I代表比較可信,6代表未知可信度等作為語料標(biāo)注結(jié)果的可信度指示。將上述百分比對應(yīng)的提示性語言作為上述語料對應(yīng)的任意一標(biāo)注結(jié)果的可信度指示,例如,用“完全可信”、“比較可信”、“可能出錯”、“未知”等作為語料標(biāo)注結(jié)果的可信度指示。將上述百分比對應(yīng)的顏色作為上述語料對應(yīng)的任意一標(biāo)注結(jié)果的可信度指示,例如,用黑色代表完全可信,藍(lán)色代表比較可信,紅色代表很可能出錯,紫色代表未知可信度等作為語料標(biāo)注結(jié)果的可信度指示。將上述百分比對應(yīng)的符號作為上述語料對應(yīng)的任意一標(biāo)注結(jié)果的可信度指示,例如,用“&”代表完全可信,“#”代表比較可信,“ ! ”代表很可能出錯,“? ”代表未知可信度等作為語料標(biāo)注結(jié)果的可信度指示。此外,語料標(biāo)注裝置對語料對應(yīng)的一個標(biāo)注結(jié)果進(jìn)行可信度指示后,還可以進(jìn)一步提示可能的正確標(biāo)注結(jié)果。例如,在“我Ix是/V —個/a兵/n”中,對“一個”的標(biāo)注是“a”(形容詞),語料標(biāo)注裝置對該標(biāo)注結(jié)果作出的可信度指示為“5”(表示該標(biāo)注結(jié)果很可能錯誤)的同時(shí),指出其可能的正確標(biāo)注結(jié)果為“mq”(數(shù)量詞)。步驟320 :語料標(biāo)注裝置將標(biāo)注后的語料對應(yīng)的各標(biāo)注結(jié)果及相應(yīng)的可信度指示進(jìn)行呈現(xiàn)。本發(fā)明實(shí)施例中,語料標(biāo)注裝置將標(biāo)注后的語料對應(yīng)的各標(biāo)注結(jié)果及相應(yīng)的可信度指示進(jìn)行呈現(xiàn)后,可以對其進(jìn)行校對處理,即修改可信度指示的具體數(shù)值,這一操作可以根據(jù)管理員(可以是普通標(biāo)注者,可以是權(quán)威標(biāo)注者)的指示完成。
在根據(jù)管理員指示進(jìn)行校對處理的過程中,若管理員點(diǎn)擊“確定”按鈕,則語料標(biāo)注裝置確定當(dāng)前校對的標(biāo)注結(jié)果正確,若管理員點(diǎn)擊“錯誤”按鈕,則管理員確定當(dāng)前校對的標(biāo)注結(jié)果錯誤,在確定標(biāo)注結(jié)果錯誤后,語料標(biāo)注裝置可根據(jù)管理員的指示對該標(biāo)注結(jié)果進(jìn)行修改。在本發(fā)明實(shí)施例中,為了避免校對過程中的誤輸入,例如,將mq誤輸入為ma,而ma不是正確的詞性標(biāo)記,則語料標(biāo)注裝置可以設(shè)置詞性選擇下拉列表,方便管理員在校對過程中直接進(jìn)行詞性選擇即可對錯誤的標(biāo)注結(jié)果進(jìn)行修改,而無須進(jìn)行輸入詞性操作。當(dāng)出現(xiàn)特殊詞性或者特殊搭配關(guān)系,下拉列表中不存在時(shí),也可以選擇人工輸入方法;此外,語料標(biāo)注裝置也可以根據(jù)管理員的指令對輸入結(jié)果進(jìn)行檢查,以及時(shí)提醒管理員對誤輸入進(jìn)行更改。為了避免重復(fù)標(biāo)注,語料標(biāo)注裝置會將每一條經(jīng)過標(biāo)注的語料的屬性修改為“標(biāo)注完畢”?;谏鲜鰧?shí)施例,語料標(biāo)注裝置可以采用以下方式在預(yù)處理階段生成上述步驟310中使用語料標(biāo)注歷史記錄,該語料標(biāo)注歷史記錄中包括根據(jù)歷次語料標(biāo)注過程中獲得的各標(biāo)注結(jié)果進(jìn)行規(guī)律學(xué)習(xí)后形成的可信度指示知識庫;具體為 語料標(biāo)注裝置在每次執(zhí)行語料標(biāo)注過程后,收集歷次語料標(biāo)注結(jié)果生成可信度指示知識庫。其中,收集歷次語料標(biāo)注結(jié)果生成可信度指示知識庫的方法,包括統(tǒng)計(jì)歷次語料標(biāo)注過程中獲得的各標(biāo)注結(jié)果內(nèi),任意語料對應(yīng)的任意一標(biāo)注結(jié)果的錯誤次數(shù),與所述語料在歷次語料標(biāo)注中出現(xiàn)的總次數(shù)之間的百分比,并基于所述百分比獲得所述任意一標(biāo)注結(jié)果的可信度,根據(jù)所述語料可信度生成語料標(biāo)注結(jié)果可信度表,并將語料標(biāo)注結(jié)果可信度表作為可信度指示知識庫,或者,選擇不同的語料特征,通過計(jì)算機(jī)學(xué)習(xí)生成相應(yīng)語料可信度模型,基于該述模型能夠判斷任何一種語料標(biāo)注結(jié)果是否錯誤,并將語料可信度模型作為可信度指示知識庫。例如,參閱圖4所示,語料標(biāo)注裝置生成可信度指示知識庫的詳細(xì)過程如下步驟400 :語料標(biāo)注裝置產(chǎn)生一個錯誤集合。語料標(biāo)注裝置產(chǎn)生錯誤集合具體包含兩種方法第一種方法為,對一部分語料進(jìn)行標(biāo)注,然后由管理員對獲得的各標(biāo)注結(jié)果進(jìn)行檢查,從中選取出錯誤的標(biāo)注結(jié)果從而生成錯誤集合。第二種方法為,存儲一個包含正確標(biāo)注結(jié)果的標(biāo)注結(jié)果集合,從標(biāo)注結(jié)果集合中任取一定數(shù)量語料標(biāo)注結(jié)果作為訓(xùn)練集合,該標(biāo)注結(jié)果集合中的剩余語料標(biāo)注結(jié)果作為測試集合,則訓(xùn)練集合和測試集合可根據(jù)選取標(biāo)注結(jié)果數(shù)量的不同可有多種組合方式,從上述所有組合中抽取任意種組合應(yīng)用在訓(xùn)練集合上進(jìn)行語料標(biāo)注,生成模型后將其應(yīng)用到測試集合中進(jìn)行語料標(biāo)注,記錄上述模型在測試集合中的錯誤標(biāo)注結(jié)果作為錯誤集合。具體為語料標(biāo)注裝置存儲一個包含正確標(biāo)注結(jié)果的標(biāo)注結(jié)果集合C (簡稱,集合C),集合C可以基于一批的語料標(biāo)注結(jié)果,經(jīng)管理員校對后獲得,語料標(biāo)注裝置將集合C分為n份,從n中任意抽取k份組成訓(xùn)練集合T,剩下的(n-k)份組成測試集合H,此時(shí)不同的訓(xùn)練集合T和測試集合H共有Cnk種組合,從Cnk種組合中隨機(jī)選取若干種(或者全部),所選取的每一種組合,應(yīng)用在訓(xùn)練集合T上,選用Bayes(貝葉斯)、決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、條件隨機(jī)場等方法,從而學(xué)習(xí)得出一個模型M,再將模型M應(yīng)用到測試集合H上,獲得模型M在測試集合H上進(jìn)行語料標(biāo)注的錯誤結(jié)果和正確結(jié)果,最后記錄模型M在測試集合H中的錯誤的標(biāo)注結(jié)果,得出錯誤集合。例如,將集合C分為10份,即n = 10,從n中任意抽取k = 9份作為訓(xùn)練集合T,剩下的n-k = I份作為測試集合H,則不同的訓(xùn)練集合T和測試集合H共有Cltl9 = 10中組合,取全部10種組合,語料標(biāo)注裝置對所述組合中的每一種在訓(xùn)練集合T上,從而學(xué)習(xí)得出模型M,再將模型M應(yīng)用到測試集合H上,在測試集合H上對比模型M語料標(biāo)注的錯誤結(jié)果和正確結(jié)果進(jìn)行區(qū)別,最后收集模型M在測試集合H中錯誤的語料標(biāo)注結(jié)果。又如,將集合C分為6份,從n中任意抽取k = 4份作為訓(xùn)練集合T,剩下的n_k = 2份作為測試集合H,則不同的訓(xùn)練集合T和測試集合H共有C64 = 15中組合,從中選取8種組合,語料標(biāo)注裝置對所述組合中的每一種在訓(xùn)練集合T上學(xué)習(xí)得出模型M,再將模型M應(yīng)用到測試集合H上,最后收集模型M在測試集合H中錯誤的語料標(biāo)注結(jié)果。通常來說,對于不同的訓(xùn)練集合T和測試集合H,從Cnk種組合中選擇的種類越多,則獲得的語料標(biāo)注的標(biāo)注結(jié)果越能全面反映模型可能產(chǎn)生的錯誤。
第二種方法中記錄計(jì)算機(jī)學(xué)習(xí)模型M在語料庫中進(jìn)行語料標(biāo)注過程中產(chǎn)生的錯誤,可以直接記錄錯誤的標(biāo)注結(jié)果,可以記錄錯誤的標(biāo)注結(jié)果的上下文情況,可以記錄錯誤的標(biāo)注結(jié)果的出現(xiàn)頻率,還可以記錄正確的標(biāo)注結(jié)果,與記錄不相符的即是錯誤的標(biāo)注結(jié)果。例如,具體如表I所示表I
權(quán)利要求
1.一種語料標(biāo)注方法,其特征在于,包括 選擇待標(biāo)注的語料,并對所述語料進(jìn)行標(biāo)注; 根據(jù)已保存的語料標(biāo)注歷史記錄,對所述語料對應(yīng)的任意一標(biāo)注結(jié)果分別進(jìn)行可信度指示; 將所述語料對應(yīng)的各標(biāo)注結(jié)果與相應(yīng)的可信度指示進(jìn)行呈現(xiàn)。
2.如權(quán)利要求I所述的方法,其特征在于,根據(jù)已保存的語料標(biāo)注歷史記錄,對所述語料對應(yīng)的任意一標(biāo)注結(jié)果分別進(jìn)行可信度指示,包括 根據(jù)已保存的語料標(biāo)注歷史記錄,計(jì)算在歷史標(biāo)注過程中,所述語料與所述任意一標(biāo)注結(jié)果之間準(zhǔn)確存在對應(yīng)關(guān)系的次數(shù),與所述語料與所述任意一標(biāo)注結(jié)果之間被標(biāo)注存在對應(yīng)關(guān)系的總次數(shù)之間的百分比,并基于所述百分比獲得所述任意一標(biāo)注結(jié)果的可信度指
3.如權(quán)利要求2所述的方法,其特征在于,基于所述百分比獲得所述任意一標(biāo)注結(jié)果的可信度指示,包括 直接將所述百分比作為所述任意一標(biāo)注結(jié)果的可信度指示;或者, 將所述百分比對應(yīng)的錯誤等級作為所述任意一標(biāo)注結(jié)果的可信度指示;或者, 將所述百分比對應(yīng)的提示性語言作為所述任意一標(biāo)注結(jié)果的可信度指示;或者, 將所述百分比對應(yīng)的顏色作為所述任意一標(biāo)注結(jié)果的可信度指示;或者, 將所述百分比對應(yīng)的符號作為所述任意一標(biāo)注結(jié)果的可信度指示。
4.如權(quán)利要求I所述的方法,其特征在于,所述語料標(biāo)注歷史記錄包括根據(jù)歷次語料標(biāo)注過程中獲得的各標(biāo)注結(jié)果生成的可信度指示知識庫。
5.如權(quán)利要求4所述的方法,其特征在于,根據(jù)歷次語料標(biāo)注過程獲得各標(biāo)注結(jié)果,包括 存儲一個包含正確標(biāo)注結(jié)果的標(biāo)注結(jié)果集合,從所述標(biāo)注結(jié)果集合中任取一定數(shù)量標(biāo)注結(jié)果作為訓(xùn)練集合,該標(biāo)注結(jié)果集合中的剩余標(biāo)注結(jié)果作為測試集合,則訓(xùn)練集合和測試集合可根據(jù)選取的具體標(biāo)注結(jié)果的不同,有多種組合方式,從所述所有組合中抽取任意種組合應(yīng)用在訓(xùn)練集合上進(jìn)行語料標(biāo)注,生成模型后將其應(yīng)用到測試集合中進(jìn)行語料標(biāo)注,并將獲得的錯誤標(biāo)注結(jié)果作為歷次語料標(biāo)注獲得的標(biāo)注結(jié)果。
6.如權(quán)利要求4所述的方法,其特征在于,根據(jù)歷次語料標(biāo)注過程中獲得的各標(biāo)注結(jié)果,生成可信度指示知識庫,包括 在每次執(zhí)行語料標(biāo)注過程后,根據(jù)各標(biāo)注結(jié)果的可信度進(jìn)行規(guī)律學(xué)習(xí)生成可信度指示知識庫。
7.如權(quán)利要求6所述的方法,其特征在于,在每次執(zhí)行語料標(biāo)注過程后根據(jù)各標(biāo)注結(jié)果的可信度進(jìn)行規(guī)律學(xué)習(xí)生成可信度指示知識庫,包括 分別統(tǒng)計(jì)歷次語料標(biāo)注過程中獲得的各標(biāo)注結(jié)果內(nèi),每一種語料對應(yīng)的每一個標(biāo)注結(jié)果的錯誤次數(shù),與相應(yīng)語料在歷次語料標(biāo)注中出現(xiàn)的總次數(shù)之間的百分比,并基于獲得的各百分比獲得相應(yīng)標(biāo)注結(jié)果的可信度,再根據(jù)各標(biāo)注結(jié)果的可信度生成語料標(biāo)注結(jié)果可信度表,并將語料標(biāo)注結(jié)果可信度表作為可信度指示知識庫;或者, 選擇不同的語料特征進(jìn)行任意語料特征組合,分別統(tǒng)計(jì)每一種語料特征組合對應(yīng)的每一個標(biāo)注結(jié)果的錯誤次數(shù),與相應(yīng)語料特征組合在歷次語料標(biāo)注中出現(xiàn)的總次數(shù)之間的百分比,基于所獲得的各百分比生成相應(yīng)語料可信度模型,并將語料可信度模型作為可信度指示知識庫。
8.如權(quán)利要求I所述的方法,其特征在于,將所述語料對應(yīng)的各標(biāo)注結(jié)果與對應(yīng)的可信度指示進(jìn)行呈現(xiàn),進(jìn)一步包括 將標(biāo)注后的語料對應(yīng)的各標(biāo)注結(jié)果及相應(yīng)的可信度指示進(jìn)行呈現(xiàn)后,對其進(jìn)行校對處理并存儲。
9.一種語料標(biāo)注裝置,其特征在于,包括 標(biāo)注單元,用于選擇待標(biāo)注的語料,并對所述語料進(jìn)行標(biāo)注; 可信度指示單元,用于根據(jù)已保存的語料標(biāo)注歷史記錄,對所述語料對應(yīng)的任意一標(biāo)注結(jié)果分別進(jìn)行可信度指示; 呈現(xiàn)單元,用于將所述語料對應(yīng)的各標(biāo)注結(jié)果與相應(yīng)的可信度指示進(jìn)行呈現(xiàn)。
10.如權(quán)利要求9所述的裝置,其特征在于,可信度指示單元根據(jù)已保存的語料標(biāo)注歷史記錄,對所述語料對應(yīng)的任意一標(biāo)注結(jié)果分別進(jìn)行可信度指示,包括 可信度指示單元根據(jù)已保存的語料標(biāo)注歷史記錄,計(jì)算在歷史標(biāo)注過程中,所述語料與所述任意一標(biāo)注結(jié)果之間準(zhǔn)確存在對應(yīng)關(guān)系的次數(shù),與所述語料與所述任意一標(biāo)注結(jié)果之間被標(biāo)注存在對應(yīng)關(guān)系的總次數(shù)之間的百分比,并基于所述百分比獲得所述任意一標(biāo)注結(jié)果的可信度指示。
11.如權(quán)利要求10所述的裝置,其特征在于,可信度指示單元基于所述百分比獲得所述任意一標(biāo)注結(jié)果的可信度指示,包括 可信度指示單元直接將所述百分比作為所述任意一標(biāo)注結(jié)果的可信度指示;或者, 可信度指示單元將所述百分比對應(yīng)的錯誤等級作為所述任意一標(biāo)注結(jié)果的可信度指示;或者, 可信度指示單元將所述百分比對應(yīng)的提示性語言作為所述任意一標(biāo)注結(jié)果的可信度指示;或者, 可信度指示單元將所述百分比對應(yīng)的顏色作為所述任意一標(biāo)注結(jié)果的可信度指示;或者, 可信度指示單元將所述百分比對應(yīng)的符號作為所述任意一標(biāo)注結(jié)果的可信度指示。
12.如權(quán)利要求9所述的裝置,其特征在于,可信度指示單元根據(jù)歷次語料標(biāo)注過程中獲得的各標(biāo)注結(jié)果生成可信度指示知識庫。
13.如權(quán)利要求12所述的裝置,其特征在于,可信度指示單元根據(jù)歷次語料標(biāo)注過程獲得各標(biāo)注結(jié)果,包括 可信度指示單元存儲一個包含正確標(biāo)注結(jié)果的標(biāo)注結(jié)果集合,從所述標(biāo)注結(jié)果集合中任取一定數(shù)量標(biāo)注結(jié)果作為訓(xùn)練集合,該標(biāo)注結(jié)果集合中的剩余標(biāo)注結(jié)果作為測試集合,則訓(xùn)練集合和測試集合可根據(jù)選取的具體標(biāo)注結(jié)果的不同,有多種組合方式,從所述所有組合中抽取任意種組合應(yīng)用在訓(xùn)練集合上進(jìn)行語料標(biāo)注,生成模型后將其應(yīng)用到測試集合中進(jìn)行語料標(biāo)注,并將獲得的錯誤標(biāo)注結(jié)果作為歷次語料標(biāo)注獲得的標(biāo)注結(jié)果。
14.如權(quán)利要求12所述的裝置,其特征在于,可信度指示單元根據(jù)歷次語料標(biāo)注過程中獲得的標(biāo)注結(jié)果生成的可信度指示知識庫,包括 在每次執(zhí)行語料標(biāo)注過程后,可信度指示單元根據(jù)各標(biāo)注結(jié)果的可信度進(jìn)行規(guī)律學(xué)習(xí)形成可信度指示知識庫。
15.如權(quán)利要求14所述的裝置,其特征在于,所述可信度指示單元在每次執(zhí)行語料標(biāo)注過程后根據(jù)各標(biāo)注結(jié)果的可信度進(jìn)行規(guī)律學(xué)習(xí)生成可信度指示知識庫,包括 可信度指示單元分別統(tǒng)計(jì)歷次語料標(biāo)注過程中獲得的各標(biāo)注結(jié)果內(nèi),每一種語料對應(yīng)的每一個標(biāo)注結(jié)果的錯誤次數(shù),與相應(yīng)語料在歷次語料標(biāo)注中出現(xiàn)的總次數(shù)之間的百分t匕,并基于獲得的各百分比獲得相應(yīng)標(biāo)注結(jié)果的可信度,再根據(jù)各標(biāo)注結(jié)果的可信度生成語料標(biāo)注結(jié)果可信度表,并將語料標(biāo)注結(jié)果可信度表作為可信度指示知識庫;或者, 可信度指示單元選擇不同的語料特征進(jìn)行任意語料特征組合,分別統(tǒng)計(jì)每一種語料特征組合對應(yīng)的每一個標(biāo)注結(jié)果的錯誤次數(shù),與相應(yīng)語料特征組合在歷次語料標(biāo)注中出現(xiàn)的總次數(shù)之間的百分比,基于所獲得的各百分比生成相應(yīng)語料可信度模型,并將語料可信度模型作為可信度指示知識庫。
16.如權(quán)利要求9所述的裝置,其特征在于,呈現(xiàn)單元將所述語料對應(yīng)的各標(biāo)注結(jié)果與對應(yīng)的可信度指示進(jìn)行呈現(xiàn),進(jìn)一步包括 呈現(xiàn)單元將標(biāo)注后的語料對應(yīng)的各標(biāo)注結(jié)果及相應(yīng)的可信度指示進(jìn)行呈現(xiàn)后,對其進(jìn)行校對處理并存儲。
全文摘要
本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,公開了一種語料標(biāo)注方法及裝置,該方法為語料標(biāo)注裝置在每次進(jìn)行語料標(biāo)注時(shí),選擇待標(biāo)注的語料,并對該語料進(jìn)行標(biāo)注,以及根據(jù)已保存的語料標(biāo)注歷史記錄,對上述語料對應(yīng)的任意一標(biāo)注結(jié)果分別進(jìn)行可信度指示,這樣,可以合理分配人工校對過程中的人力資源,有效解決現(xiàn)有技術(shù)中存在的龐大語料庫中語料標(biāo)注工作量大,效率低,準(zhǔn)確率低的問題。
文檔編號G06F17/27GK102662930SQ201210111080
公開日2012年9月12日 申請日期2012年4月16日 優(yōu)先權(quán)日2012年4月16日
發(fā)明者邱立坤, 金澎 申請人:樂山師范學(xué)院
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1