一種稿件數(shù)據(jù)分類的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)翻譯領(lǐng)域,特別是指一種稿件數(shù)據(jù)分類的方法。
【背景技術(shù)】
[0002] 隨著全球聯(lián)系越來(lái)越緊密,各語(yǔ)種信息之間的轉(zhuǎn)換需求也越來(lái)越大,面對(duì)海量的 多語(yǔ)信息轉(zhuǎn)換和翻譯任務(wù),通常采用任務(wù)平均分配和流水作業(yè)方法的小規(guī)模翻譯模式,效 率低無(wú)法利用信息化平臺(tái)進(jìn)行自動(dòng)化的高效處理,無(wú)法滿足即時(shí)、海量的翻譯需求。隨著信 息技術(shù)的發(fā)展,基于云計(jì)算和互聯(lián)網(wǎng)技術(shù)的的多任務(wù)分布式的云翻譯平臺(tái),成為翻譯行業(yè) 走向信息化、標(biāo)準(zhǔn)化、產(chǎn)業(yè)化的重要工作平臺(tái)。
[0003] 待處理稿件進(jìn)入云翻譯平臺(tái)后,首先會(huì)對(duì)其進(jìn)行初步的預(yù)分類,即將其中一些時(shí) 間緊急、翻譯難度大或翻譯流程復(fù)雜的待處理稿件標(biāo)記為可能需人工干預(yù)的風(fēng)險(xiǎn)稿件,以 便人工監(jiān)控,并在適當(dāng)時(shí)間將此類稿件轉(zhuǎn)入人工輔助處理流程。以往為了區(qū)分出此類稿件, 一般是通過(guò)人工對(duì)稿件進(jìn)行預(yù)覽,判斷稿件難度、預(yù)估翻譯時(shí)間和確定翻譯流程。這種方法 雖然分類準(zhǔn)確度較高,但對(duì)于速度要求高于準(zhǔn)確度要求的稿件預(yù)分類而言,該方法不能滿 足平臺(tái)快速處理的稿件需求,無(wú)法實(shí)現(xiàn)平臺(tái)的高吞吐率,同時(shí)所需的人力耗費(fèi)非常巨大。
【發(fā)明內(nèi)容】
[0004] 有鑒于此,本發(fā)明在于提供一種稿件數(shù)據(jù)分類的方法,以解決上述人工區(qū)分稿件 的類型,效率低下的問(wèn)題。
[0005] 為解決上述問(wèn)題,本發(fā)明提供一種稿件數(shù)據(jù)分類的方法,包括:
[0006] 根據(jù)手動(dòng)分類后的歷史稿件數(shù)據(jù),確定感知機(jī)分類模型中的系數(shù);
[0007] 提取待分類的稿件數(shù)據(jù)的輸入空間的信息,代入所述分類模型中,并根據(jù)所述模 型和系數(shù)得到對(duì)應(yīng)分類的值;
[0008] 根據(jù)所述分類的值判別所述待分類的稿件數(shù)據(jù)的類別。
[0009] 優(yōu)選地,根據(jù)所述歷史稿件數(shù)據(jù)中的以下輸入空間、輸出空間的各維度信息確定 所述系數(shù);
[0010] y:該稿件是否為人工干預(yù)過(guò)的稿件,是:y= 1,否:y= -1 ;
[0011] X維度的至少包括以下之一:
[0012] X1:稿件被瀏覽次數(shù);
[0013]X2:稿件領(lǐng)取后被放棄次數(shù);
[0014]X3:稿件被標(biāo)注次數(shù);
[0015] \:稿件每百字術(shù)語(yǔ)個(gè)數(shù);
[0016]X5:稿件緊急度。
[0017] 優(yōu)選地,所述感知機(jī)模型包括:
[0018]f(x) =sign(WX+b)所述系數(shù)為:W,b。
[0019] 優(yōu)選地,通過(guò)感知機(jī)模型確定所述系數(shù)之前,還包括:消除錯(cuò)誤類別對(duì)應(yīng)的數(shù)據(jù)。
[0020] 優(yōu)選地,通過(guò)感知機(jī)模型確定所述系數(shù)的過(guò)程中,還包括:設(shè)定學(xué)習(xí)率系數(shù)α。
[0021] 優(yōu)選地,確所述系數(shù)過(guò)程中,還包括:
[0022] 如果歷史數(shù)據(jù)中存在(XyYJ,使得Yi(WXfb)彡0,
[0023] 貝lj:采用以下公式更新W、b;
[0024] ff^ff+αΥχΧχ
[0025] b-b+α丫丄
[0026] 直到歷史數(shù)據(jù)中所有樣本,對(duì)于更新后的(W,b)都有Yi(WXjb) > 0 ;
[0027] f(x) =sign(WX+b)所述系數(shù)為:W,b;其中i為輸入空間、輸出空間中的X、Y的序 號(hào);sign為符號(hào)函數(shù)。
[0028] 本發(fā)明的方法,通過(guò)上述的流程,可有效將稿件數(shù)據(jù)區(qū)分為兩類,提高了工作效 率。該方法能滿足平臺(tái)快速處理的稿件需求,實(shí)現(xiàn)平臺(tái)的高吞吐率,同時(shí)提高了的稿件的分 類效率。
【附圖說(shuō)明】
[0029] 圖1是實(shí)施例的流程圖。
【具體實(shí)施方式】
[0030] 為清楚說(shuō)明本發(fā)明中的方案,下面給出優(yōu)選的實(shí)施例并結(jié)合附圖詳細(xì)說(shuō)明。
[0031] 下面結(jié)合附圖詳細(xì)說(shuō)明本發(fā)明的實(shí)施例,參加圖1,具體包括:
[0032] S11根據(jù)手動(dòng)分類后的歷史稿件數(shù)據(jù),確定感知機(jī)分類模型中的系數(shù);
[0033] S12提取待分類的稿件數(shù)據(jù)的輸入空間信息,代入所述分類模型中,并根據(jù)所述模 型和系數(shù)得到對(duì)應(yīng)分類的值;
[0034] S13根據(jù)所述分類的值判別所述待分類的稿件數(shù)據(jù)的類別。
[0035] 本發(fā)明的方法,可實(shí)現(xiàn)數(shù)據(jù)的快速分類,且準(zhǔn)確度高,減少人為的干擾,分類效率 極大的提尚。
[0036] 實(shí)施例中的感知機(jī)模型的系數(shù)包括輸入空間、輸出空間和分類超平面等,
[0037] 輸入空間:X= {X!,X2,X3,X4,XJ;
[0038] 輸出空間:Y= {1,-1};
[0039] 分類超平面:F(x) =sign(WX+b);即為確定W和b的值,其中sign(x)為符號(hào)函數(shù) sign,當(dāng)X彡 0,sign(X)= 1,否貝丨Jsign(x) = _1 ;
[0040] 輸入:訓(xùn)練數(shù)據(jù)集輸入:訓(xùn)練數(shù)據(jù)集T={(XpYJ,(X2,Y2),…,(Xn,Yn)},其中η 為訓(xùn)練集大小,即為清洗好的歷史稿件數(shù),X#X,YY(i= 1,2,…,η)。
[0041] 采用感知機(jī)模型f(χ) =sign(WX+b)輸出:W,b。
[0042] w、b計(jì)算過(guò)程:
[0043] 1)為W、b選取初值W。,b。;
[0044] 2)確定學(xué)習(xí)率α(〇 <α彡1);
[0045] 3)若訓(xùn)練集Τ中存在(ΧρYJ,使得Yi(WXjb)彡0,則:
[0046] ff^ff+αΥχΧχ
[0047] b-b+α丫丄
[0048] 4)直到T中所有樣本,對(duì)于新的(W,b)都有Yi(WXjb) > 0,否則轉(zhuǎn)3)。
[0049] 例如,以實(shí)施例中的只有5個(gè)歷史稿件數(shù)據(jù)的集合進(jìn)行示例;
[0050]
[0051 ] 其中,輸入空間X,輸出空間Y的數(shù)據(jù)包括:
[0052] y:該稿件是否為人工干預(yù)過(guò)的稿件,是:y= 1,否:y= -1 ;
[0053] X維度的系數(shù)至少包括以下之一:
[0054] X1:稿件被瀏覽次數(shù);
[0055] X2:稿件領(lǐng)取后被放棄次數(shù);
[0056] X3:稿件被標(biāo)注次數(shù);
[0057] \:稿件每百字術(shù)語(yǔ)個(gè)數(shù);
[0058] X5:稿件緊急度。
[0059] 首先,通過(guò)人工判斷,消除錯(cuò)誤數(shù)據(jù),例如:歷史稿件5其X類數(shù)據(jù)和Y值明顯沖 突,明顯不屬于,予以剔除,得到如下訓(xùn)練集:
[0060]
[0061] 得到訓(xùn)練集T:
[0062] Χ1= (6,2,4,7,1),Υ!= 1
[0063] Χ2= (8,1,3,9,1· 5),Υ2= 1
[0064] Χ3= (1,0,1,2,3),Υ3=-1
[0065] Χ4= (2,0,3,1,3),Υ4=-1
[0066] 采用前述的感知機(jī)算法,確立一個(gè)對(duì)于上述訓(xùn)練集的分類平面:
[0067] 學(xué)習(xí)率α取值為1 ;確定學(xué)習(xí)率α(〇 <α彡1);
[0068] W,b的初值取為:W= (0,0,0,0,0),b= 0
[0069] 對(duì)于W= (0,0,0,0,0),b= 0,4個(gè)樣本數(shù)據(jù)中,存在有歷史稿件tlAjWXi+b)= 〇 < 〇,更新W和b如下:
[0070] W=(0,0,0,0,0)+¥&= (0,0,0,0,0) + (6,2,4,7,1) = (6,2,4,7,1)
[0071] b= 0+Yi= 1
[0072] 對(duì)于W= (6,2,4,7,1),b= 1,4個(gè)樣本數(shù)據(jù)中,有歷史稿件t3 :Y3(WX3+b) =-28 < 0,更新W和b如下:
[0073] W= (6,2,4,7,1)+Y3X3= (6,2,4,7,1) + (-1) (1,0,1,2,3) = (5,2,3,5,-2)
[0074] b= 1+Y3= 1+(-1) = 0
[0075] 對(duì)于W= (5,2,3,5, -2),b= 0,4個(gè)樣本數(shù)據(jù)中,有歷史稿件t3 :Y3(WX3+b) =-12 < 0,更新W和b如下:
[0076] W= (5,2,3,5,-2)+Y3X3= (5,2,3,5,-2) + (-1) (1,0,1,2,3) = (4,2,2,3,-5)
[0077] b= 1+Y3= 0+(-1) = -1
[0078] 對(duì)于W= (4,2,2,3, -5),b= -1,4 個(gè)樣本數(shù)據(jù)中,有歷史稿件t4 :Y4(WX4+b) =-1 < 0,更新W和b如下:
[0079] W= (4,2,2,3,-5)+Y4X4= (4,2,2,3,-5) + (-1) (2,0,3,1,3)
[0080] =(2,2, _1,2,-8)
[0081]b= -1+Y4= -1+(-1) = -2
[0082] 對(duì)于W= (2, 2, -1,2, -8),b= -2,歷史稿件tl~t4 都滿足Yi(WXjb) > 0
[0083] 得到的一個(gè)對(duì)于該訓(xùn)練集的分類平面為:
[0084] f(x) =sign(2X1+2X2-X3+2X4-8X5-2)
[0085] 采用上述得到的分類平面,對(duì)于平臺(tái)上的新稿件,提取輸入空間的系數(shù),代入模 型,得到分類結(jié)果。確定出稿件的類型。
[0086] 例如:
[0087] 若某稿件數(shù)據(jù)如下:
[0088] 稿件被瀏覽次數(shù):4
[0089] 稿件領(lǐng)取后被放棄次數(shù):0
[0090] 稿件被標(biāo)注次數(shù):4
[0091] 稿件每百字術(shù)語(yǔ)個(gè)數(shù):2
[0092] 稿件緊急度:3
[0093] f(x) =sign(2X1+2X2-X3+2X4-8X5-2)
[0094] =sign(8+0-3+4-16-2) =sign(-9) = -1
[0095] 將該稿件歸類為自動(dòng)處理類稿件。
[0096] 如果為1,則歸類為需要人工干預(yù)的稿件。
[0097] 上述的稿件的類型可以用多種數(shù)值建立對(duì)應(yīng)關(guān)系,并不限于上述方案中所提到的 兩種類型的稿件。該方法能滿足平臺(tái)快速處理的稿件需求,實(shí)現(xiàn)平臺(tái)的高吞吐率,同時(shí)提高 了的稿件的分類效率。
[0098] 對(duì)于本發(fā)明各個(gè)實(shí)施例中所闡述的方案,凡在本發(fā)明的精神和原則之內(nèi),所作的 任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種稿件數(shù)據(jù)分類的方法,其特征在于,包括: 根據(jù)手動(dòng)分類后的歷史稿件數(shù)據(jù),確定感知機(jī)分類模型中的系數(shù); 提取待分類的稿件數(shù)據(jù)的輸入空間的維度信息,代入所述分類模型中,并根據(jù)所述模 型和系數(shù)得到對(duì)應(yīng)分類的值; 根據(jù)所述分類的值判別所述待分類的稿件數(shù)據(jù)的類別。2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述歷史稿件數(shù)據(jù)中的以下輸入空 間、輸出空間的各維度信息確定所述系數(shù); y :該稿件是否為人工干預(yù)過(guò)的稿件,是:y = 1,否:y = -1 ; X維度的至少包括以下之一: X1:稿件被瀏覽次數(shù); X2:稿件領(lǐng)取后被放棄次數(shù); X3:稿件被標(biāo)注次數(shù); \:稿件每百字術(shù)語(yǔ)個(gè)數(shù); X5:稿件緊急度。3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述感知機(jī)模型包括: f (X)= sign (WX+b)所述系數(shù)為:W,b。4. 根據(jù)權(quán)利要求2所述的方法,其特征在于,通過(guò)感知機(jī)模型確定所述系數(shù)之前,還包 括:消除錯(cuò)誤類別對(duì)應(yīng)的數(shù)據(jù)。5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,通過(guò)感知機(jī)模型確定所述系數(shù)的過(guò)程中, 還包括:設(shè)定學(xué)習(xí)率系數(shù)a。6. 根據(jù)權(quán)利要求5所述的方法,其特征在于,確所述系數(shù)過(guò)程中,還包括: 如果歷史數(shù)據(jù)中存在(X1, Y1),使得Y1 (WXJb) < 0, 貝1J:采用以下公式更新W、b; W一W+ a Y1X1 b一b+ a Yi 直到歷史數(shù)據(jù)中所有樣本,對(duì)于更新后的(W,b)都有Y1(WXdb) > 0 ; f(x) = sign(WX+b)所述系數(shù)為:W,b ;其中i為輸入空間、輸出空間中的X、Y的序號(hào); sign為符號(hào)函數(shù)。
【專利摘要】本發(fā)明公開(kāi)了本發(fā)明在于提供一種稿件數(shù)據(jù)分類的方法,以解決人工區(qū)分稿件的類型,效率低下的問(wèn)題。包括:根據(jù)手動(dòng)分類后的歷史稿件數(shù)據(jù),確定感知機(jī)分類模型中的系數(shù);提取待分類的稿件數(shù)據(jù)的輸入空間的信息,代入所述分類模型中,并根據(jù)所述模型和系數(shù)得到對(duì)應(yīng)分類的值;根據(jù)所述分類的值判別所述待分類的稿件數(shù)據(jù)的類別。該方法能滿足平臺(tái)快速處理的稿件需求,實(shí)現(xiàn)平臺(tái)的高吞吐率,同時(shí)提高了的稿件的分類效率。
【IPC分類】G06F17/30, G06K9/62, G06F17/28
【公開(kāi)號(hào)】CN105243118
【申請(qǐng)?zhí)枴緾N201510631410
【發(fā)明人】江潮, 張芃
【申請(qǐng)人】武漢傳神信息技術(shù)有限公司
【公開(kāi)日】2016年1月13日
【申請(qǐng)日】2015年9月29日