一種稿件數(shù)據(jù)分類的方法

文檔序號(hào)：9489480閱讀：830來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種稿件數(shù)據(jù)分類的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)翻譯領(lǐng)域，特別是指一種稿件數(shù)據(jù)分類的方法。
【背景技術(shù)】
[0002] 隨著全球聯(lián)系越來(lái)越緊密，各語(yǔ)種信息之間的轉(zhuǎn)換需求也越來(lái)越大，面對(duì)海量的多語(yǔ)信息轉(zhuǎn)換和翻譯任務(wù)，通常采用任務(wù)平均分配和流水作業(yè)方法的小規(guī)模翻譯模式，效率低無(wú)法利用信息化平臺(tái)進(jìn)行自動(dòng)化的高效處理，無(wú)法滿足即時(shí)、海量的翻譯需求。隨著信息技術(shù)的發(fā)展，基于云計(jì)算和互聯(lián)網(wǎng)技術(shù)的的多任務(wù)分布式的云翻譯平臺(tái)，成為翻譯行業(yè) 走向信息化、標(biāo)準(zhǔn)化、產(chǎn)業(yè)化的重要工作平臺(tái)。
[0003] 待處理稿件進(jìn)入云翻譯平臺(tái)后，首先會(huì)對(duì)其進(jìn)行初步的預(yù)分類，即將其中一些時(shí) 間緊急、翻譯難度大或翻譯流程復(fù)雜的待處理稿件標(biāo)記為可能需人工干預(yù)的風(fēng)險(xiǎn)稿件，以便人工監(jiān)控，并在適當(dāng)時(shí)間將此類稿件轉(zhuǎn)入人工輔助處理流程。以往為了區(qū)分出此類稿件，一般是通過(guò)人工對(duì)稿件進(jìn)行預(yù)覽，判斷稿件難度、預(yù)估翻譯時(shí)間和確定翻譯流程。這種方法雖然分類準(zhǔn)確度較高，但對(duì)于速度要求高于準(zhǔn)確度要求的稿件預(yù)分類而言，該方法不能滿足平臺(tái)快速處理的稿件需求，無(wú)法實(shí)現(xiàn)平臺(tái)的高吞吐率，同時(shí)所需的人力耗費(fèi)非常巨大。

【發(fā)明內(nèi)容】

[0004] 有鑒于此，本發(fā)明在于提供一種稿件數(shù)據(jù)分類的方法，以解決上述人工區(qū)分稿件的類型，效率低下的問(wèn)題。
[0005] 為解決上述問(wèn)題，本發(fā)明提供一種稿件數(shù)據(jù)分類的方法，包括：
[0006] 根據(jù)手動(dòng)分類后的歷史稿件數(shù)據(jù)，確定感知機(jī)分類模型中的系數(shù)；
[0007] 提取待分類的稿件數(shù)據(jù)的輸入空間的信息，代入所述分類模型中，并根據(jù)所述模型和系數(shù)得到對(duì)應(yīng)分類的值；
[0008] 根據(jù)所述分類的值判別所述待分類的稿件數(shù)據(jù)的類別。
[0009] 優(yōu)選地，根據(jù)所述歷史稿件數(shù)據(jù)中的以下輸入空間、輸出空間的各維度信息確定所述系數(shù)；
[0010] y:該稿件是否為人工干預(yù)過(guò)的稿件，是：y= 1，否：y= -1 ;
[0011] X維度的至少包括以下之一：
[0012] X1:稿件被瀏覽次數(shù)；
[0013]X2:稿件領(lǐng)取后被放棄次數(shù)；
[0014]X3:稿件被標(biāo)注次數(shù)；
[0015] \:稿件每百字術(shù)語(yǔ)個(gè)數(shù)；
[0016]X5:稿件緊急度。
[0017] 優(yōu)選地，所述感知機(jī)模型包括：
[0018]f(x) =sign(WX+b)所述系數(shù)為：W，b。
[0019] 優(yōu)選地，通過(guò)感知機(jī)模型確定所述系數(shù)之前，還包括：消除錯(cuò)誤類別對(duì)應(yīng)的數(shù)據(jù)。
[0020] 優(yōu)選地，通過(guò)感知機(jī)模型確定所述系數(shù)的過(guò)程中，還包括：設(shè)定學(xué)習(xí)率系數(shù)α。
[0021] 優(yōu)選地，確所述系數(shù)過(guò)程中，還包括：
[0022] 如果歷史數(shù)據(jù)中存在（XyYJ，使得Yi(WXfb)彡0，
[0023] 貝lj:采用以下公式更新W、b;
[0024] ff^ff+αΥχΧχ
[0025] b-b+α丫丄
[0026] 直到歷史數(shù)據(jù)中所有樣本，對(duì)于更新后的（W，b)都有Yi(WXjb) > 0 ;
[0027] f(x) =sign(WX+b)所述系數(shù)為：W，b;其中i為輸入空間、輸出空間中的X、Y的序號(hào)；sign為符號(hào)函數(shù)。
[0028] 本發(fā)明的方法，通過(guò)上述的流程，可有效將稿件數(shù)據(jù)區(qū)分為兩類，提高了工作效率。該方法能滿足平臺(tái)快速處理的稿件需求，實(shí)現(xiàn)平臺(tái)的高吞吐率，同時(shí)提高了的稿件的分類效率。
【附圖說(shuō)明】
[0029] 圖1是實(shí)施例的流程圖。
【具體實(shí)施方式】
[0030] 為清楚說(shuō)明本發(fā)明中的方案，下面給出優(yōu)選的實(shí)施例并結(jié)合附圖詳細(xì)說(shuō)明。
[0031] 下面結(jié)合附圖詳細(xì)說(shuō)明本發(fā)明的實(shí)施例，參加圖1，具體包括：
[0032] S11根據(jù)手動(dòng)分類后的歷史稿件數(shù)據(jù)，確定感知機(jī)分類模型中的系數(shù)；
[0033] S12提取待分類的稿件數(shù)據(jù)的輸入空間信息，代入所述分類模型中，并根據(jù)所述模型和系數(shù)得到對(duì)應(yīng)分類的值；
[0034] S13根據(jù)所述分類的值判別所述待分類的稿件數(shù)據(jù)的類別。
[0035] 本發(fā)明的方法，可實(shí)現(xiàn)數(shù)據(jù)的快速分類，且準(zhǔn)確度高，減少人為的干擾，分類效率極大的提尚。
[0036] 實(shí)施例中的感知機(jī)模型的系數(shù)包括輸入空間、輸出空間和分類超平面等，
[0037] 輸入空間：X= {X!，X2,X3,X4,XJ;
[0038] 輸出空間：Y= {1，-1};
[0039] 分類超平面：F(x) =sign(WX+b);即為確定W和b的值，其中sign(x)為符號(hào)函數(shù) sign，當(dāng)X彡 0,sign(X)= 1，否貝丨Jsign(x) = _1 ;
[0040] 輸入：訓(xùn)練數(shù)據(jù)集輸入：訓(xùn)練數(shù)據(jù)集T={(XpYJ，（X2,Y2)，…，（Xn，Yn)}，其中η 為訓(xùn)練集大小，即為清洗好的歷史稿件數(shù)，X#X，YY(i= 1，2，…，η)。
[0041] 采用感知機(jī)模型f(χ) =sign(WX+b)輸出：W，b。
[0042] w、b計(jì)算過(guò)程：
[0043] 1)為W、b選取初值W。，b。；
[0044] 2)確定學(xué)習(xí)率α(〇 <α彡1);
[0045] 3)若訓(xùn)練集Τ中存在（ΧρYJ，使得Yi(WXjb)彡0,則：
[0046] ff^ff+αΥχΧχ
[0047] b-b+α丫丄
[0048] 4)直到T中所有樣本，對(duì)于新的（W，b)都有Yi(WXjb) > 0,否則轉(zhuǎn)3)。
[0049] 例如，以實(shí)施例中的只有5個(gè)歷史稿件數(shù)據(jù)的集合進(jìn)行示例；
[0050]
[0051 ] 其中，輸入空間X，輸出空間Y的數(shù)據(jù)包括：
[0052] y:該稿件是否為人工干預(yù)過(guò)的稿件，是：y= 1，否：y= -1 ;
[0053] X維度的系數(shù)至少包括以下之一：
[0054] X1:稿件被瀏覽次數(shù)；
[0055] X2:稿件領(lǐng)取后被放棄次數(shù)；
[0056] X3:稿件被標(biāo)注次數(shù)；
[0057] \:稿件每百字術(shù)語(yǔ)個(gè)數(shù)；
[0058] X5:稿件緊急度。
[0059] 首先，通過(guò)人工判斷，消除錯(cuò)誤數(shù)據(jù)，例如：歷史稿件5其X類數(shù)據(jù)和Y值明顯沖突，明顯不屬于，予以剔除，得到如下訓(xùn)練集：
[0060]
[0061] 得到訓(xùn)練集T:
[0062] Χ1= (6,2,4,7，1)，Υ!= 1
[0063] Χ2= (8,1，3,9,1· 5)，Υ2= 1
[0064] Χ3= (1，0,1，2,3)，Υ3=-1
[0065] Χ4= (2,0,3，1，3)，Υ4=-1
[0066] 采用前述的感知機(jī)算法，確立一個(gè)對(duì)于上述訓(xùn)練集的分類平面：
[0067] 學(xué)習(xí)率α取值為1 ;確定學(xué)習(xí)率α(〇 <α彡1);
[0068] W，b的初值取為：W= (0,0,0,0,0)，b= 0
[0069] 對(duì)于W= (0,0,0,0,0)，b= 0,4個(gè)樣本數(shù)據(jù)中，存在有歷史稿件tlAjWXi+b)= 〇 < 〇，更新W和b如下：
[0070] W=(0,0,0,0,0)+￥&= (0,0,0,0,0) + (6,2,4,7,1) = (6,2,4,7,1)
[0071] b= 0+Yi= 1
[0072] 對(duì)于W= (6,2,4,7，1)，b= 1，4個(gè)樣本數(shù)據(jù)中，有歷史稿件t3 :Y3(WX3+b) =-28 < 0,更新W和b如下：
[0073] W= (6,2,4,7,1)+Y3X3= (6,2,4,7,1) + (-1) (1，0,1，2,3) = (5,2,3,5,-2)
[0074] b= 1+Y3= 1+(-1) = 0
[0075] 對(duì)于W= (5,2,3,5, -2)，b= 0,4個(gè)樣本數(shù)據(jù)中，有歷史稿件t3 :Y3(WX3+b) =-12 < 0,更新W和b如下：
[0076] W= (5,2,3,5,-2)+Y3X3= (5,2,3,5,-2) + (-1) (1，0,1，2,3) = (4,2,2,3,-5)
[0077] b= 1+Y3= 0+(-1) = -1
[0078] 對(duì)于W= (4,2,2,3, -5)，b= -1，4 個(gè)樣本數(shù)據(jù)中，有歷史稿件t4 :Y4(WX4+b) =-1 < 0,更新W和b如下：
[0079] W= (4,2,2,3,-5)+Y4X4= (4,2,2,3,-5) + (-1) (2,0,3，1，3)
[0080] =(2,2, _1，2,-8)
[0081]b= -1+Y4= -1+(-1) = -2
[0082] 對(duì)于W= (2, 2, -1，2, -8)，b= -2,歷史稿件tl~t4 都滿足Yi(WXjb) > 0
[0083] 得到的一個(gè)對(duì)于該訓(xùn)練集的分類平面為：
[0084] f(x) =sign(2X1+2X2-X3+2X4-8X5-2)
[0085] 采用上述得到的分類平面，對(duì)于平臺(tái)上的新稿件，提取輸入空間的系數(shù)，代入模型，得到分類結(jié)果。確定出稿件的類型。
[0086] 例如：
[0087] 若某稿件數(shù)據(jù)如下：
[0088] 稿件被瀏覽次數(shù)：4
[0089] 稿件領(lǐng)取后被放棄次數(shù)：0
[0090] 稿件被標(biāo)注次數(shù)：4
[0091] 稿件每百字術(shù)語(yǔ)個(gè)數(shù)：2
[0092] 稿件緊急度：3
[0093] f(x) =sign(2X1+2X2-X3+2X4-8X5-2)
[0094] =sign(8+0-3+4-16-2) =sign(-9) = -1
[0095] 將該稿件歸類為自動(dòng)處理類稿件。
[0096] 如果為1，則歸類為需要人工干預(yù)的稿件。
[0097] 上述的稿件的類型可以用多種數(shù)值建立對(duì)應(yīng)關(guān)系，并不限于上述方案中所提到的兩種類型的稿件。該方法能滿足平臺(tái)快速處理的稿件需求，實(shí)現(xiàn)平臺(tái)的高吞吐率，同時(shí)提高了的稿件的分類效率。
[0098] 對(duì)于本發(fā)明各個(gè)實(shí)施例中所闡述的方案，凡在本發(fā)明的精神和原則之內(nèi)，所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種稿件數(shù)據(jù)分類的方法，其特征在于，包括：根據(jù)手動(dòng)分類后的歷史稿件數(shù)據(jù)，確定感知機(jī)分類模型中的系數(shù)；提取待分類的稿件數(shù)據(jù)的輸入空間的維度信息，代入所述分類模型中，并根據(jù)所述模型和系數(shù)得到對(duì)應(yīng)分類的值；根據(jù)所述分類的值判別所述待分類的稿件數(shù)據(jù)的類別。2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，根據(jù)所述歷史稿件數(shù)據(jù)中的以下輸入空間、輸出空間的各維度信息確定所述系數(shù)； y :該稿件是否為人工干預(yù)過(guò)的稿件，是：y = 1，否：y = -1 ; X維度的至少包括以下之一： X1:稿件被瀏覽次數(shù)； X2:稿件領(lǐng)取后被放棄次數(shù)； X3:稿件被標(biāo)注次數(shù)； \:稿件每百字術(shù)語(yǔ)個(gè)數(shù)； X5:稿件緊急度。3. 根據(jù)權(quán)利要求2所述的方法，其特征在于，所述感知機(jī)模型包括： f (X)= sign (WX+b)所述系數(shù)為：W，b。4. 根據(jù)權(quán)利要求2所述的方法，其特征在于，通過(guò)感知機(jī)模型確定所述系數(shù)之前，還包括：消除錯(cuò)誤類別對(duì)應(yīng)的數(shù)據(jù)。5. 根據(jù)權(quán)利要求4所述的方法，其特征在于，通過(guò)感知機(jī)模型確定所述系數(shù)的過(guò)程中，還包括：設(shè)定學(xué)習(xí)率系數(shù)a。6. 根據(jù)權(quán)利要求5所述的方法，其特征在于，確所述系數(shù)過(guò)程中，還包括：如果歷史數(shù)據(jù)中存在（X1, Y1)，使得Y1 (WXJb) < 0，貝1J:采用以下公式更新W、b; W一W+ a Y1X1 b一b+ a Yi 直到歷史數(shù)據(jù)中所有樣本，對(duì)于更新后的（W，b)都有Y1(WXdb) > 0 ; f(x) = sign(WX+b)所述系數(shù)為：W，b ;其中i為輸入空間、輸出空間中的X、Y的序號(hào)； sign為符號(hào)函數(shù)。
【專利摘要】本發(fā)明公開(kāi)了本發(fā)明在于提供一種稿件數(shù)據(jù)分類的方法，以解決人工區(qū)分稿件的類型，效率低下的問(wèn)題。包括：根據(jù)手動(dòng)分類后的歷史稿件數(shù)據(jù)，確定感知機(jī)分類模型中的系數(shù)；提取待分類的稿件數(shù)據(jù)的輸入空間的信息，代入所述分類模型中，并根據(jù)所述模型和系數(shù)得到對(duì)應(yīng)分類的值；根據(jù)所述分類的值判別所述待分類的稿件數(shù)據(jù)的類別。該方法能滿足平臺(tái)快速處理的稿件需求，實(shí)現(xiàn)平臺(tái)的高吞吐率，同時(shí)提高了的稿件的分類效率。
【IPC分類】G06F17/30, G06K9/62, G06F17/28
【公開(kāi)號(hào)】CN105243118
【申請(qǐng)?zhí)枴緾N201510631410
【發(fā)明人】江潮, 張芃
【申請(qǐng)人】武漢傳神信息技術(shù)有限公司
【公開(kāi)日】2016年1月13日
【申請(qǐng)日】2015年9月29日

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：江潮;張芃;
技術(shù)所有人：武漢傳神信息技術(shù)有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

數(shù)據(jù)分類方法相關(guān)技術(shù)

數(shù)據(jù)挖掘分類方法相關(guān)技術(shù)

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種稿件數(shù)據(jù)分類的方法