1.融合實體特性的越南語命名實體識別方法,其特征在于:所述融合實體特性的越南語命名實體識別方法的具體步驟如下:
Step1、首先根據(jù)越南語命名實體特點,提取越南語命名實體有效特征,對形成的越南語句子級命名實體語料進行識別建模,得到越南語最大熵命名實體識別模型;
Step2、從越南語句子級命名實體語料中隨機選取測試語料通過已建好的越南語最大熵命名實體識別模型進行識別,得到最大熵命名實體識別結果。
2.根據(jù)權利要求1所述的融合實體特性的越南語命名實體識別方法,其特征在于:所述步驟Step1的具體步驟為:
Step1.1、首先人工編寫爬蟲程序,從越南語網(wǎng)站和中越交流圈中收集越南語新聞語料網(wǎng)頁信息;
Step1.2、獲取到的越南語新聞語料網(wǎng)頁信息進行過濾、去重、去垃圾信息等操作,得到越南語文本級語料庫,并把越南語文本級語料庫存放到數(shù)據(jù)庫中;
Step1.3、從Step1.2數(shù)據(jù)庫中取出越南語文本級語料,根據(jù)越南語分詞工具進行越南語文本級語料庫的語料分詞,并進行人工校對,形成越南語分詞句子級語料庫,并把越南語分詞句子級語料庫的語料存放到數(shù)據(jù)庫中;
Step1.4、從Step1.3數(shù)據(jù)庫中取出越南語分詞句子級語料,根據(jù)越南語詞性標注工具對越南語分詞句子級語料進行越南語句子級詞性標注;再進行人工校對,形成越南語句子級詞性標注語料庫,并把越南語句子級詞性標注語料庫的語料存放到數(shù)據(jù)庫中;
Step1.5、從Step1.4數(shù)據(jù)庫中取出越南語句子級詞性標注語料,再應用越南語組塊標注工具對越南語句子級詞性標注語料進行越南語句子級組塊標記,再進行人工校對,形成越南語句子級組塊標記語料庫,并把越南語句子級組塊標記語料庫的語料存放到數(shù)據(jù)庫中;
Step1.6、從Step1.5數(shù)據(jù)庫中取出越南語句子級組塊標記語料,再人工標記越南語命名實體語料,形成越南語句子級命名實體語料,并把越南語句子級命名實體語料存入數(shù)據(jù)庫中;
Step1.7、根據(jù)越南語命名實體特點,并結合Step1.6步驟取出越南語句子級命名實體語料,提取越南語命名實體有效特征,包括局部特征和全局特征;全局特征包括:詞上下文信息特征、詞性上下文信息的特征、組塊上下文信息特征;局部特征包括音節(jié)個數(shù)信息特征、指示詞信息特征、首詞素是否存在姓氏庫信息特征、首字母是否為大寫信息特征、字首字母是否為大寫信息特征、外來詞信息特征等;
Step1.8、根據(jù)Step1.7中已選取的越南語命名實體有效特征,結合從Step1.6中取出的越南語句子級命名實體語料,制定最大熵模型訓練所需要的訓練格式;
Step1.9、從Step1.8中獲取已標注好的訓練格式語料,使用最大熵統(tǒng)計方法進行分析,生成越南語最大熵命名實體識別模型。
3.根據(jù)權利要求1或2所述的融合實體特性的越南語命名實體識別方法,其特征在于:所述步驟Step2的具體步驟為:
Step2.1、隨機選取越南語句子級命名實體語料,得到越南語句子級命名實體測試語料;
Step2.2、根據(jù)獲得的越南語句子級的命名實體測試語料,經過已建好的越南語最大熵命名實體識別模型進行標注,得到越南語句子級命名實體標注序列化標記結果。