亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種語境標注的雙語平行語料庫構建系統(tǒng)的制作方法

文檔序號:10697618閱讀:906來源:國知局
一種語境標注的雙語平行語料庫構建系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種語境標注的雙語平行語料庫構建系統(tǒng),該系統(tǒng)由上位機與并行的語境標注數據生成單元組成。通過上位機進行雙語語料的前置處理,再將語料分詞發(fā)送至并行標注數據生成單元。在生成單元的主控模塊控制下由單元內各節(jié)點模塊生成語境標注數據并將數據存儲在模塊外接的FLASH芯片中。當雙語平行語料庫達到一定規(guī)模后,由上位機讀取存儲在各節(jié)點模塊中詞共句關系的統(tǒng)計數據實現(xiàn)對語料庫中雙語語料的語境標識。本構建系統(tǒng)充分利用了并行處理的架構優(yōu)勢,能快速處理較大規(guī)模的語料庫語境標注數據的生成。并基于標注數據標注出語料庫中語料的語境,實現(xiàn)語境標注的雙語平行語料庫。
【專利說明】
一種語境標注的雙語平行語料庫構建系統(tǒng)
技術領域
[0001]本發(fā)明涉及一種基于并行處理架構的語料庫構建系統(tǒng),實現(xiàn)了基于語境標注的雙語平行語料庫構建系統(tǒng),屬于大領域是信息技術技術領域。
【背景技術】
[0002]語料庫是具有一定規(guī)模的規(guī)格化的語料集合,以電子文本形式集中存儲信息系統(tǒng)中。語料庫在語言學研究領域中有廣泛的應用,是語言學研究的基礎資源,也是現(xiàn)代機器語言翻譯,語義理解等研究基礎。照語料的語種,語料庫也可以分成單語的(Monolingual)、雙語的(Bi I inguaI)和多語的(Mu11i I ingual)。本發(fā)明涉及的就是雙語語料庫的構建。按雙語語料的組織形式,語料庫還可以分為平行(對齊)語料庫和比較語料庫,前者的語料是互為譯文關系,多用于機器翻譯、雙語詞典編撰等應用領域,后者將表述同樣內容的不同語言文本收集到一起,多用于語言對比研究。本發(fā)明側重于平行語料庫的構建。
[0003]語料庫構建中語料的標注是一項重要的內容。標注是通過對語料庫中的原始語料進行加工,把表示語料特征的各種特征標記附加到相應的語料成分上,目的是為了便于機器識讀與處理。
[0004]現(xiàn)有語料庫的標注,主要有詞性標注、漢語拼音標注、語料詞頻率統(tǒng)計等,對于中文,日文這些語言類型的語料還有分詞標注等。標注可以分為人工方式和計算機自動標注處理方式。與其它語料標注不同,本發(fā)明涉及的構建系統(tǒng)是使用算法實現(xiàn)對語料語境的自動標注。
[0005]但是目前語境研究還主要集中在語言學領域定性的研究,對于機器可計算的語境模型還沒有太多的研究。
[0006]本發(fā)明提出一種基于詞的共句關系頻率統(tǒng)計來構建以句為單位的語境模型,但是由于一般中等規(guī)模的語料庫大多有十萬條左右的語料,這些語料后大約會形成上百萬的分詞,每個分詞都要統(tǒng)計由其它詞的共句關系,因此統(tǒng)計關系的計算次數會達到億級,計算量非常大。由于本發(fā)明提出并行語境標注數據的生成架構來處理這統(tǒng)計過程,有效提高了語境標注數據的生成效率,為構建基于標注語境的雙語平行語料庫提供了有力的支持。
[0007]發(fā)明專利內容
[0008]本發(fā)明提出了一種語境標注的雙語平行語料庫構建系統(tǒng)。該構建系統(tǒng)主要的內容是:提出了一種生成語境標注數據的并行處理架構,該架構利用上位機預處理語料,利用并行的語境標注數據生成單元來生成語境標注所需的統(tǒng)計數據。用以解決語境標注生成過程中所需的海量計算,提高構建雙語平行語料庫的效率
[0009]為了解決上述技術問題,本發(fā)明專利采用的技術方案如下:
[0010]一種語境標注的雙語平行語料庫構建系統(tǒng),包括:
[0011]上位機:上位機主要是用于語料的前置處理,以及與語境標注數據生成單元的交互,傳遞該單元需要處理的分詞數據,接收該單元上傳的數據處理狀態(tài)信號,其中:
[0012]語料前置處理模塊:主要是存儲語料電子文本,去掉包含語料的電子文本中與語料無關的部分,轉換語料電子文本為統(tǒng)一的格式等,并建立雙語語句的對應關聯(lián)關系;
[0013]語境計算與標注模塊:該模塊基于語境標注數據生成單元生成的詞共句關系統(tǒng)計數據實現(xiàn)語料庫中所有語料的語境計算,并將各語料的語境存儲到系統(tǒng)數據庫中,以備進一步的分析與研究。
[0014]語境標注數據生成單元:包括主控模塊與多節(jié)點可擴展處理模塊,其中主控模塊主要用于接收上位機發(fā)來的分詞數據,控制各處理節(jié)點生成語境標注數據;
[0015]多節(jié)點可擴展處理模塊:主要包括分詞數據緩存的數據結構和所屬本節(jié)點的詞共句關聯(lián)關系數據存儲,其中:
[0016]詞共句關聯(lián)關系指的是不同兩個詞位于同一語料的頻度,該頻度來自語料庫詞反向語料索引統(tǒng)計,各節(jié)點按分詞映射到節(jié)點號算法并行分配等處理的分詞,并保存處理結果到本節(jié)點的FLASH存儲器中;
[0017]多節(jié)點可擴展處理模塊:主要包括分詞數據緩存的數據結構和所屬本節(jié)點的詞共句關聯(lián)關系數據存儲,多節(jié)點可擴展處理模塊的電路構成是由中央處理器ARM芯片,外接的RAM芯片以及FLASH芯片,還有外圍的數據總線接口、控制總線路接口,以FLASH外圍讀寫接口組成。其中ARM芯片只要用于計算,在本專利中選用低成本的32位ARM芯片,但是通用32位ARM芯片內存容量較小,所以在本專利中對ARM芯片外接擴展內存實現(xiàn)內存擴展,提高節(jié)點的數據緩存能力,相應提高了本專利的語境數據生成速度。多節(jié)點可擴展處理模塊通過數據總線接口與控制總線接口掛接在主控單元的總線上,接入到并行標注數據生成單元中。節(jié)點同時使用FLASH作為語境數據的存儲器,存儲詞索引數據以及詞共句關聯(lián)關系數據,其中:
[0018]詞共句關聯(lián)關系指的是不同兩個詞位于同一語料的頻度,該頻度來自語料庫詞反向語料索引統(tǒng)計,各節(jié)點按分詞映射到節(jié)點號算法并行分配等處理的分詞,并保存處理結果到本節(jié)點的FLASH存儲器中;
[0019]所述詞索引結構,包括詞,詞的MD5碼以及二進制的反向語料有序索引數組,每個索引數組元素為corpusID,index二元組,其中:corpusID為語料唯一ID,以及詞在語料中的位置,數組以corpusID為序從小到大排列,提供二分法插入與查找,詞與詞句共現(xiàn)關系的分析接口;
[0020]所述詞共句關系統(tǒng)計,每個統(tǒng)計項為wordID ,wordID, count,其中前二個wordID分別代表在同一個句子中出現(xiàn)的二個詞的ID,Count代表到目前為止這二個詞共句出現(xiàn)的頻率。
[0021]有益效果
[0022]本發(fā)明的上述技術方案相比現(xiàn)有技術具有以下優(yōu)點:
[0023]本發(fā)明通過軟硬件結合的方式,給出了一種并行的語境標注數據生成架構,由于語境標注生成過程中隨著語料庫的擴展,所需的計算量會以指數方式增長。因此本發(fā)明通過上位機與外部處理單元并行處理的方式,有效提高了語境標注數據生成的效率;
[0024]本發(fā)明提出了一種新型的詞共句關系統(tǒng)計方法,該結構實現(xiàn)了通過詞的節(jié)點號映射算法,將詞分配到各并行處理模塊節(jié)點中。在該節(jié)點中生成詞與語料的雙向索引,同時保存詞在語料中的位置,并通過節(jié)點中分詞緩存的數據結構實現(xiàn)詞共句關系的統(tǒng)計計算,實現(xiàn)了語境標注基礎數據的獲??;
[0025]本發(fā)明中設計了一種新的語料標注,即語境標注,語境在語言研究以及計算機文本處理方面有很深遠的意義,所以本發(fā)明實現(xiàn)的語境標注語料庫必然對這些方面的研究起到重要的促進作用。
【附圖說明】
[0026]圖1為本發(fā)明基于語境標注的雙語平行語料庫構建系統(tǒng)架構設計圖。
[0027]圖2為本發(fā)明基于語境標注的雙語平行語料庫構建系統(tǒng)的語境標注數據生成單元組成圖。
[0028]具體的實施方式
[0029]本發(fā)明所提出的雙語平行語料庫構建系統(tǒng)如圖1所示,其中包括最主要的部分為六個組成部分:
[0030]上位機,上位機主要負責雙語平行語料庫存儲、語料的前置處理、語料庫中語料的語境標注以及與并行處理單元的數據交互。其中雙語平行語料庫中語料組織形式為結構化的語料數據記錄,每條語料分別包括對應互譯的雙語語句,唯一的標識符,以及語料的來源。該語料庫的語料來自于系統(tǒng)外采集的生語料,經過清洗,格式轉換和雙語語句匹配后賦予唯一標識符以及標注其來源后存儲進入語料庫;
[0031]主控單元,主控單元主要負責上位機之間的通訊以及控制各可擴展處理節(jié)點,接收來自于上位機的分詞數據,分發(fā)至各可擴展處理節(jié)點,收集各可擴展處理節(jié)點的處理狀態(tài),再上報到上位機,實現(xiàn)語境標注數據處理流程的控制。
[0032]可擴展處理節(jié)點,主要負責分詞的雙向索引建立以及統(tǒng)計詞共句關系,它通過接收主控單元發(fā)來的分詞數據,判斷分詞數據處理節(jié)點是否為本節(jié)點,再更新本地分詞索引庫與詞共句關系統(tǒng)計庫,實現(xiàn)語境標注數據的生成與存儲。
[0033]詞索引庫,該庫是針對雙語語料中的語句采用分詞形成的詞索引,本發(fā)明中詞索引是雙向索引的,索引庫中每條紀錄代表一個詞,分別賦予唯一的標識符,該標識符使用MD5算法生成,除此之外,每個詞附帶一個二進制字節(jié)流的索引,該索引采用二進制數組方式實現(xiàn)對所有出現(xiàn)過該詞的語料索引,其元素結構所前所述,如此實現(xiàn)詞對語料的索引,此夕卜,該索引數組是依據語料的唯一標識符從小到大有序排列的。語料對詞的索引同樣是先分詞后,對各詞生成MD5碼,依據該碼即可實現(xiàn)對應詞的索引。
[0034]詞共句關系統(tǒng)計庫,是由詞索引庫直接生成的,主要通過兩兩遍歷詞索引紀錄,對比兩個詞關于語料索引的元素是否相同,如果相同則這兩個詞出現(xiàn)在同一語料中,則記錄到庫中,最終生成完成的詞共句關系統(tǒng)計庫。
[0035]基于語境的雙語平行語料庫,是通過遍歷語料庫中語料,語料分詞后,以語料包含的各分詞詞共句關系統(tǒng)計模型構成的無向有權圖作為語料的語境模型。將該模型作為語料庫的一部分存儲到語料庫數據庫中,形成基于語境的雙語平行語料庫。
[0036]如此以上各組成部分構建完成后,即實現(xiàn)了本發(fā)明所提出的語境標注雙語平行語料庫系統(tǒng)。
【主權項】
1.一種語境標注的雙語平行語料庫構建系統(tǒng),其特征在于,包括: 1)并行的語境標注數據生成架構:由上機位與外接的并行語境標注數據生成單元組成,通過上位機將語料分詞結果發(fā)送到生成單元,由生成單元完成詞的雙向索引和詞共句關系統(tǒng)計,作為語境標注所需的基礎數據; 2)并行語境標注數據生成單元:由一個主控模塊和多個可擴展的處理節(jié)點模塊構成,由主控模塊實現(xiàn)與上位機的交互,可擴展并行節(jié)點實現(xiàn)對詞的索引與詞共句關系統(tǒng)計,作為語境標注的數據來源; 3)面向語境的詞索引結構:該結構實現(xiàn)了一種面向語境的詞索引結構,能實現(xiàn)詞與語料的雙向索引,保存詞在語料中位置,實現(xiàn)詞與詞之間的共現(xiàn)關聯(lián)關系統(tǒng)計; 4)基于語境的雙語平行語料庫的構建:基于語境模型實現(xiàn)對語料庫中語料語境的構建,實現(xiàn)包含語境標注的雙語平行語料庫; 其中,所述可擴展的節(jié)點模塊由ARM、擴展內存、外接FLASH芯片以及相關的控制與數據線組成,其接收從主控模塊發(fā)送來的分詞以及語料ID,緩存于模塊語料分詞緩存數據結構中,再遍歷各分詞,將分詞生成MD5再映射成節(jié)點號,判斷該分詞是否由本節(jié)點處理,若由本節(jié)點處理,則生成該詞的面向語境的詞索引結構和詞共現(xiàn)關系統(tǒng)計數據; 所述詞索引結構,包括詞,詞的MD5碼以及二進制的反向語料有序索引數組,每個索引數組元素為corpusID,index二元組,其中:corpusID為語料唯一ID,以及詞在語料中的位置,數組以corpusID為序從小到大排列,提供二分法插入與查找,詞與詞句共現(xiàn)關系的分析接口; 所述詞共句關系統(tǒng)計,每個統(tǒng)計項為wordID,wordID, count三元組,其中前二個wordID分別代表在同一個句子中出現(xiàn)的二個詞的ID,Count代表到目前為止這二個詞共句出現(xiàn)的頻率。
【文檔編號】G06F17/30GK106066870SQ201610368937
【公開日】2016年11月2日
【申請日】2016年5月27日 公開號201610368937.3, CN 106066870 A, CN 106066870A, CN 201610368937, CN-A-106066870, CN106066870 A, CN106066870A, CN201610368937, CN201610368937.3
【發(fā)明人】尹娜, 高湘, 韓進, 李潼潼, 林弋嵐, 李亞州
【申請人】南京信息工程大學
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1