一種基于自然語(yǔ)言分析的隨堂測(cè)試答案快速自動(dòng)分類方法

文檔序號(hào)：10655134閱讀：273來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于自然語(yǔ)言分析的隨堂測(cè)試答案快速自動(dòng)分類方法
【專利摘要】本發(fā)明提供一種基于自然語(yǔ)言分析的移動(dòng)端隨堂測(cè)試答案快速自動(dòng)分類的方法，包括下列步驟：1)課堂測(cè)試回答文本的收集；2)課堂測(cè)試回答文本的預(yù)處理；3)回答文本的分詞；4)停止詞過(guò)濾；5)同義詞替換；6)關(guān)鍵詞提取；7)構(gòu)建關(guān)鍵詞集合；8)文本分類。本發(fā)明解決了教師教學(xué)過(guò)程中，隨堂測(cè)試學(xué)生回答結(jié)果的少量短文本快速自動(dòng)分類的問(wèn)題。使得教師可以及時(shí)得到問(wèn)題回答情況的匯總報(bào)告，免去了以往需要收集紙質(zhì)答案再人工匯總的工作，提高課堂中師生互動(dòng)的效率。
【專利說(shuō)明】
-種基于自然語(yǔ)言分析的隨堂測(cè)試答案快速自動(dòng)分類方法
技術(shù)領(lǐng)域
[0001 ]本發(fā)明屬于計(jì)算機(jī)技術(shù)領(lǐng)域，設(shè)及自然語(yǔ)言文本分析技術(shù)，為一種基于自然語(yǔ)言分析的移動(dòng)端隨堂測(cè)試答案快速自動(dòng)分類的方法。解決了教師教學(xué)過(guò)程中，隨堂測(cè)試學(xué)生回答結(jié)果的少量短文本快速自動(dòng)分類的問(wèn)題。使得教師可W及時(shí)得到問(wèn)題回答情況的匯總報(bào)告，免去了 W往需要收集紙質(zhì)答案再人工匯總的工作，提高了課堂中師生互動(dòng)活動(dòng)的效率。
【背景技術(shù)】
[0002] 移動(dòng)端隨堂測(cè)試是指教師通過(guò)手機(jī)應(yīng)用，通過(guò)互聯(lián)網(wǎng)將學(xué)生組織在一個(gè)虛擬的班級(jí)中。教師在運(yùn)個(gè)班級(jí)中向?qū)W生們發(fā)布隨堂測(cè)試，學(xué)生們參與并回答隨堂測(cè)試中的問(wèn)題，教師就可W及時(shí)得到隨堂測(cè)試的結(jié)果。隨堂測(cè)試的問(wèn)題有判斷題，單項(xiàng)/多項(xiàng)選擇題，問(wèn)答題運(yùn)巧中形式。其中判斷題，單項(xiàng)/多項(xiàng)選擇題，W-個(gè)或多個(gè)數(shù)值作為答案的問(wèn)答題，計(jì)算機(jī) 都可W很容易地將答案進(jìn)行分類。但是對(duì)于W-小段文本作為答案的問(wèn)答題，其自動(dòng)分類仍是個(gè)難題，運(yùn)也是本發(fā)明解決的問(wèn)題。
[0003] 中文自然語(yǔ)言處理是指將中文文本轉(zhuǎn)換為計(jì)算機(jī)能夠理解的格式，并對(duì)其進(jìn)行處理，并將處理結(jié)果存儲(chǔ)在計(jì)算機(jī)中，是計(jì)算機(jī)科學(xué)，人工智能，語(yǔ)言學(xué)關(guān)注計(jì)算機(jī)和人類自然語(yǔ)言之間的相互作用的領(lǐng)域?；跈C(jī)器學(xué)習(xí)的技術(shù)，將自然語(yǔ)言的文本通過(guò)一系列分詞、關(guān)鍵詞提取等技術(shù)進(jìn)行理解。本發(fā)明中使用中文分析、關(guān)鍵字提取，對(duì)隨堂測(cè)試中的回答進(jìn) 行自動(dòng)分類，方便教師及時(shí)得到隨堂測(cè)試結(jié)果的反饋。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明要解決的問(wèn)題是:提出一種基于自然語(yǔ)言分析將隨堂測(cè)試學(xué)生回答結(jié)果的少量短文本快速自動(dòng)分類的方法，使得教師可W及時(shí)得到問(wèn)題回答情況的匯總報(bào)告，免去了W往需要收集紙質(zhì)答案再人工匯總的工作。
[0005] 本發(fā)明的技術(shù)方案為:基于自然語(yǔ)言分析的隨堂測(cè)試答案快速自動(dòng)分類方法，使用自然語(yǔ)言分析，對(duì)學(xué)生們?cè)谡n堂上提交的問(wèn)答題答案進(jìn)行自動(dòng)分類。具體步驟為：
[0006] 1川欠集并預(yù)處理回答
[0007] 使用移動(dòng)終端應(yīng)用的方式，向?qū)W生發(fā)布課堂測(cè)試的問(wèn)題，并收集學(xué)生們的回答。過(guò) 濾并去除存在格式異常的文本。格式異常的情況有：回答中的信息缺失;所回答題目的基本信息與教師所出題目不匹配；回答題目的時(shí)間超出教師規(guī)定的時(shí)間；回答題目的文本中包含注入的攻擊代碼。根據(jù)文本內(nèi)容自動(dòng)判斷需要自動(dòng)歸類的類型。對(duì)于所有回答均為中文回答的情況，采用中文自然語(yǔ)言分析的方式進(jìn)行分類;對(duì)于所有回答均包含數(shù)值的情況，采用數(shù)值匹配進(jìn)行分類;對(duì)于所有回答均包含并僅包含英文單詞的情況，采用英文自然語(yǔ)言分析的方式進(jìn)行分類。
[000引2)自然語(yǔ)言分析
[0009]在得到回答的預(yù)處理結(jié)果之后，如果是數(shù)值匹配形式的分類，只需將答案中的數(shù) 值提取出來(lái)，相互匹配并分類即可，運(yùn)種類型相對(duì)比較簡(jiǎn)單。如果是中文形式或者英文形式的回答，需要使用自然語(yǔ)言分析對(duì)其進(jìn)行處理并分類。對(duì)于英文和中文的自動(dòng)分類方法基本一致，僅僅在分詞方法的選擇、詞庫(kù)的選擇上存在差異。在自然語(yǔ)言分析中又分為五個(gè)步驟:分詞、停止詞過(guò)濾、同義詞替換、關(guān)鍵詞提取、構(gòu)建關(guān)鍵詞集合。
[0010] 分詞:對(duì)學(xué)生回答中的自然語(yǔ)言描述的部分進(jìn)行分詞操作，將每份回答劃分成獨(dú) 立的詞語(yǔ)。對(duì)于中文形式的回答，使用中文自然語(yǔ)言處理引擎，將中文文本劃分為若干個(gè)詞組，并為運(yùn)些詞組標(biāo)注了詞性;對(duì)于英文形式的回答，使用英文自然語(yǔ)言處理引擎，將英文文本劃分為若干個(gè)詞組，并為運(yùn)些詞組標(biāo)注了詞性。
[0011] 停止詞過(guò)濾:對(duì)于分詞的結(jié)果，選取中英文停止詞的詞庫(kù)，去掉其中的停止詞。停止詞是語(yǔ)言中出現(xiàn)頻率很高但是對(duì)于語(yǔ)意沒(méi)有影響的詞語(yǔ)，運(yùn)些詞極其普遍，但與其他詞相比，運(yùn)些詞沒(méi)有什么實(shí)際含義。
[0012] 同義詞替換：生成一個(gè)同義詞的詞庫(kù)，將指代同一個(gè)對(duì)象的不同詞語(yǔ)歸為一個(gè)集合，用運(yùn)個(gè)集合中的一個(gè)詞語(yǔ)作為代表詞，并用代表詞替換學(xué)生回答中含有的該集合中的其他詞語(yǔ)。使用同義詞替換后可W降低分類結(jié)果中的歧義性，使得最終結(jié)果更為精確。
[0013] 關(guān)鍵詞提取:通過(guò)自然語(yǔ)言分析，將每份學(xué)生回答中的關(guān)鍵詞提取出來(lái)，按權(quán)重大小降序排列，權(quán)重的值表示該關(guān)鍵詞能夠代表語(yǔ)句含義的程度，取權(quán)重最大的k個(gè)關(guān)鍵詞。
[0014] 權(quán)重是指:評(píng)估一個(gè)詞對(duì)于整個(gè)回答中的其中一份文本的重要程度，量化運(yùn)個(gè)重要程度，將其作為運(yùn)個(gè)詞的權(quán)重。常用的技術(shù)是TF-IDF，其主要思想是如果某個(gè)詞或短語(yǔ)在一篇文章中出現(xiàn)的頻率TF高，并且在其他文章中很少出現(xiàn)，則認(rèn)為此詞或者短語(yǔ)具有很好的類別區(qū)分能力，適合用來(lái)分類。
[0015] TFID巧旨的是TF和IDF相乘所得到的結(jié)果。其中TF是詞頻(Term Frequency); IDF代表逆向文件頻率（Inverse Do州ment Frequen巧），主要思想是：如果包含詞條的文檔越少， IDF越大。
[0016] 式1
[0017] 式1中分子是該詞在文件中的出現(xiàn)次數(shù)，而分母則是在文件中所有字詞的出現(xiàn)次數(shù)之和。
[001引式2
[0019] 式2中對(duì)數(shù)中的分子是總文件數(shù)目，而分母則是該詞語(yǔ)之文件的數(shù)目。
[0020] 式3:tfi壯i, j = tfi, j X idfi
[0021] 式3中TFIDF由TF和IDF相乘所得。
[0022] 構(gòu)建關(guān)鍵詞集合:根據(jù)關(guān)鍵詞在所有錯(cuò)誤報(bào)告中出現(xiàn)的次數(shù)，選出出現(xiàn)次數(shù)超過(guò) 設(shè)定闊值a的關(guān)鍵詞，按出現(xiàn)次數(shù)降序排列，并選取出現(xiàn)次數(shù)最多的m個(gè)關(guān)鍵詞，構(gòu)成關(guān)鍵詞集合。將集合中關(guān)鍵詞和題干進(jìn)行對(duì)比，將超過(guò)設(shè)定闊值b并且在題干中出現(xiàn)的詞去除。
[0023] 3)回答分類：
[0024] 選出出現(xiàn)次數(shù)最多的n個(gè)關(guān)鍵字，單個(gè)回答中如果包含一個(gè)或多個(gè)關(guān)鍵字，選取權(quán) 重最高的關(guān)鍵字作為運(yùn)個(gè)回答的代表關(guān)鍵字。將代表關(guān)鍵字相同的回答歸為一類，n個(gè)關(guān)鍵字將回答分為n類，n個(gè)關(guān)鍵字都不包含的回答單獨(dú)歸為一類。
【附圖說(shuō)明】
[0025] 圖1為本發(fā)明實(shí)施例的一種基于自然語(yǔ)言分析的隨堂測(cè)試答案快速自動(dòng)分類方法的流程圖
【具體實(shí)施方式】
[0026] 為了更了解本發(fā)明的技術(shù)內(nèi)容，特舉具體實(shí)施例并配合所附圖式說(shuō)明如下。
[0027] 圖1為本發(fā)明實(shí)施例的一種基于自然語(yǔ)言分析的隨堂測(cè)試答案快速自動(dòng)分類方法的流程圖。
[0028] -種基于自然語(yǔ)言分析的隨堂測(cè)試答案快速自動(dòng)分類方法，其特征在于，包括下列步驟：
[0029] 流程中的第①步是從移動(dòng)應(yīng)用或是微信公眾號(hào)收集回答。本發(fā)明解決的是師生在課堂互動(dòng)中，如何使用移動(dòng)端高效地完成隨堂測(cè)試的問(wèn)題。所W教師需要使用移動(dòng)終端應(yīng) 用的方式，向?qū)W生發(fā)布課堂測(cè)試的問(wèn)題，系統(tǒng)收集學(xué)生們的回答，W供后續(xù)步驟使用。
[0030] 流程中的第②步是預(yù)處理。收集的回答的標(biāo)準(zhǔn)格式包含3個(gè)主要信息:文本形式的題目回答;參與的學(xué)生基本信息;所回答的題目的基本信息(包含題干、班級(jí)、教師、時(shí)間）。如果格式不符合要求，則將其丟棄。格式不符合要求的情況有：回答中的信息缺失;所回答題目的基本信息與教師所出題目不匹配；回答題目的時(shí)間超出教師規(guī)定的時(shí)間；回答題目的文本中包含注入的攻擊代碼。在格式正常的情況下，分析回答的文本，分為=類。使用正則表達(dá)式對(duì)回答進(jìn)行分類。對(duì)于所有回答均包含數(shù)值的情況，歸為數(shù)值形式;對(duì)于所有回答均包含并僅包含英文單詞的情況，歸為英文形式;對(duì)于所有回答均包含中文回答的情況，歸為中文形式。
[0031] 流程中的第③步是中文分詞/英文分詞/數(shù)值提取。根據(jù)預(yù)處理的結(jié)果，對(duì)于數(shù)值形式的回答，提取其中的具體數(shù)值，W具體數(shù)值作為關(guān)鍵字，通過(guò)匹配具體數(shù)值對(duì)其進(jìn)行分類;對(duì)于中文形式的回答，使用中文自然語(yǔ)言處理引擎，將中文文本劃分為若干個(gè)詞組，并為運(yùn)些詞組標(biāo)注了詞性。在具體實(shí)施流程中采用了 ansj_seg作為自然語(yǔ)言處理引擎。運(yùn)是一個(gè)基于google語(yǔ)義模型+條件隨機(jī)場(chǎng)模型的中文分詞的java實(shí)現(xiàn)，效率在同類工具中處于領(lǐng)先地位，分詞速度達(dá)到每秒鐘大約200萬(wàn)字左右(mac air下測(cè)試），準(zhǔn)確率能達(dá)到96% W上。ansj_seg是一個(gè)開(kāi)源項(xiàng)目，在作者在2016年1月剛剛提交了最新的版本，距離上一次更新已經(jīng)相隔兩年，在運(yùn)個(gè)版本中，ansj_seg已經(jīng)可W對(duì)英文進(jìn)行分詞。所W，對(duì)于預(yù)處理中的中文自然語(yǔ)言處理和英文自然語(yǔ)言處理都可W使用ansj_seg作為分詞工具。
[0032] 流程中的第④步是停止詞過(guò)濾。停止詞是語(yǔ)言中出現(xiàn)頻率很高但是對(duì)于語(yǔ)意沒(méi)有影響的詞語(yǔ)，運(yùn)些詞極其普遍，但與其他詞相比，運(yùn)些詞沒(méi)有什么實(shí)際含義。英語(yǔ)里面會(huì)遇到很多a,the,or等使用頻率很多的字或詞，常為冠詞、介詞、副詞或連詞等。類似的，中文中的"在"、"里面"、"也"、"的"、"它"、"為"運(yùn)些詞都是停止詞。將運(yùn)些停止詞從分詞結(jié)果中濾去。
[0033] 流程中的第⑤步是同義詞替換。由于收集來(lái)的回答是不同的同學(xué)提交的，他們對(duì) 于同一個(gè)事物可能會(huì)使用不同的詞組去描述，或者使用同義的詞語(yǔ)去回答同一個(gè)問(wèn)題。比如"唐太宗"和"李世民"所指的是同一個(gè)人物，運(yùn)兩個(gè)詞語(yǔ)就應(yīng)該被視為同義詞，在自然語(yǔ) 言處理中應(yīng)該被作為同一個(gè)詞語(yǔ)處理。在具體實(shí)施流程中生成一個(gè)同義詞的詞庫(kù)，將指代同一個(gè)對(duì)象的不同詞語(yǔ)歸為一個(gè)集合，用運(yùn)個(gè)集合中的一個(gè)詞語(yǔ)作為代表詞，并用代表詞替換學(xué)生回答中含有的該集合中的其他詞語(yǔ)。
[0034] 流程中的第⑥步是提取關(guān)鍵詞。使用是ansj_seg中的關(guān)鍵詞提取工具。ansj_seg 中的關(guān)鍵詞提取方法是基于TF-IDF方法的。TF-IDF(te;rm frequen巧-inverse document frequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。具體來(lái)說(shuō)，TF-IDF方法用W 評(píng)估一個(gè)詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。一個(gè)詞對(duì)于其所在的文本來(lái)說(shuō)的重要性，隨著它在其所在的文本中出現(xiàn)的次數(shù)成正比上升，同時(shí)隨著其在其他文本中出現(xiàn)的頻率成反比下降。取其中權(quán)重最大的k個(gè)關(guān)鍵詞，k值越大，挑選出來(lái)的關(guān) 鍵對(duì)語(yǔ)句的代表性越好，但是相應(yīng)的，時(shí)間代價(jià)越大。對(duì)于學(xué)生答題的文本來(lái)說(shuō)，由于是數(shù) 十個(gè)最多數(shù)百個(gè)的短文本，字?jǐn)?shù)一般為幾十最多幾百，針對(duì)運(yùn)種情況，TF-IDF的效率并不高。如果服務(wù)器的性能不佳，也可采用統(tǒng)計(jì)相同詞的出現(xiàn)頻率來(lái)代替它的權(quán)重。
[0035] 流程中的第⑦步是構(gòu)建關(guān)鍵詞集合。根據(jù)關(guān)鍵詞在所有回答中出現(xiàn)的次數(shù)，選出出現(xiàn)次數(shù)超過(guò)設(shè)定闊值a的關(guān)鍵詞，按出現(xiàn)次數(shù)降序排列，并選取出現(xiàn)次數(shù)最多的m個(gè)關(guān)鍵詞，構(gòu)成關(guān)鍵詞集合。將集合中關(guān)鍵詞和題干進(jìn)行對(duì)比，將超過(guò)設(shè)定闊值b并且在題干中出現(xiàn)的詞去除。
[0036] 流程中的第⑧步是文本分類。選出出現(xiàn)次數(shù)最多的n個(gè)關(guān)鍵字，單個(gè)回答中如果包含一個(gè)或多個(gè)關(guān)鍵字，選取權(quán)重最高的關(guān)鍵字作為運(yùn)個(gè)回答的代表關(guān)鍵字。將代表關(guān)鍵字相同的回答歸為一類，n個(gè)關(guān)鍵字將回答分為n類，n個(gè)關(guān)鍵字都不包含的回答單獨(dú)歸為一類。將結(jié)果存入數(shù)據(jù)庫(kù)，供相關(guān)教師查看。
[0037] 綜上所述，本發(fā)明基于自然語(yǔ)言分析，對(duì)學(xué)生們?cè)谡n堂上提交的問(wèn)答題答案進(jìn)行自動(dòng)分類，解決了教師教學(xué)過(guò)程中，隨堂測(cè)試學(xué)生回答結(jié)果的少量短文本快速自動(dòng)分類的問(wèn)題。使得教師可W及時(shí)得到問(wèn)題回答情況的匯總報(bào)告，免去了 W往需要收集紙質(zhì)答案再人工匯總的工作，提高課堂中師生互動(dòng)的效率。
【主權(quán)項(xiàng)】
1. 一種基于自然語(yǔ)言分析的隨堂測(cè)試答案快速自動(dòng)分類方法，其特征是使用自然語(yǔ)言分析，對(duì)學(xué)生們?cè)谡n堂上提交的問(wèn)答題答案進(jìn)行分詞，提取其中的有效關(guān)鍵字，對(duì)所提交的文本答案進(jìn)行自動(dòng)分類，使得教師可以及時(shí)得到問(wèn)題回答情況的匯總報(bào)告，免去了以往需要收集紙質(zhì)答案再人工匯總的工作，解決了少量短文本快速自動(dòng)分類的問(wèn)題。2. 根據(jù)權(quán)利要求1所述的自然語(yǔ)言分析的隨堂測(cè)試答案快速自動(dòng)分類方法，其具體步驟為： 1) 收集并預(yù)處理回答收集學(xué)生在課堂上提交的問(wèn)題回答，接收用戶發(fā)送的問(wèn)題回答，并根據(jù)設(shè)定的錯(cuò)誤格式標(biāo)準(zhǔn)，將其中存在異常的文本進(jìn)行過(guò)濾，防止在后續(xù)步驟中引發(fā)錯(cuò)誤。根據(jù)文本內(nèi)容自動(dòng) 判斷需要自動(dòng)歸類的類型。具體分為中文形式、英文形式、數(shù)值形式； 2) 自然語(yǔ)言分析對(duì)1)中的結(jié)果進(jìn)行自然語(yǔ)言分析。對(duì)于數(shù)值形式回答的分類，將答案中的數(shù)值提取出來(lái)，相互匹配并分類;對(duì)于中文和英文形式回答的分類，需要使用自然語(yǔ)言分析對(duì)其進(jìn)行處理并分類。對(duì)于英文和中文的自動(dòng)分類方法在分詞方法的選擇、詞庫(kù)的選擇上存在差異。包括以下幾個(gè)子步驟： 2a)分詞：對(duì)學(xué)生回答中的自然語(yǔ)言描述的部分進(jìn)行分詞操作，將每份回答劃分成獨(dú)立的詞語(yǔ)。使用自然語(yǔ)言處理引擎，將文本劃分為若干個(gè)詞組，并為這些詞組標(biāo)注了詞性； 2b)停止詞過(guò)濾：定義1:停止詞是語(yǔ)言中出現(xiàn)頻率很高但是對(duì)于語(yǔ)意沒(méi)有影響的詞語(yǔ)，這些詞極其普遍，但與其他詞相比，這些詞沒(méi)有什么實(shí)際含義；對(duì)于2a)的結(jié)果，去掉其中的停止詞； 2c)同義詞替換：生成一個(gè)同義詞集合，將指代同一個(gè)對(duì)象的不同詞語(yǔ)歸為一個(gè)集合，用這個(gè)集合中的一個(gè)詞語(yǔ)作為代表詞，并用代表詞替換學(xué)生回答中含有的該集合中的其他詞語(yǔ)，降低最終結(jié)果的歧義性； 2d)關(guān)鍵詞提?。? 通過(guò)自然語(yǔ)言分析，將每份學(xué)生回答中的關(guān)鍵詞提取出來(lái)，按權(quán)重大小降序排列，權(quán)重的值表示該關(guān)鍵詞能夠代表語(yǔ)句含義的程度，取權(quán)重最大的k個(gè)關(guān)鍵詞； 2e)構(gòu)建關(guān)鍵詞集合：根據(jù)關(guān)鍵詞在所有錯(cuò)誤報(bào)告中出現(xiàn)的次數(shù)，選出出現(xiàn)次數(shù)超過(guò)設(shè)定閾值a的關(guān)鍵詞，按出現(xiàn)次數(shù)降序排列，并選取出現(xiàn)次數(shù)最多的m個(gè)關(guān)鍵詞，構(gòu)成關(guān)鍵詞集合。將集合中關(guān)鍵詞和題干進(jìn)行對(duì)比，將超過(guò)設(shè)定閾值b并且在題干中出現(xiàn)的詞去除； 3) 回答分類：選出出現(xiàn)次數(shù)最多的η個(gè)關(guān)鍵字，單個(gè)回答中如果包含一個(gè)或多個(gè)關(guān)鍵字，選取權(quán)重最高的關(guān)鍵字作為這個(gè)回答的代表關(guān)鍵字。將代表關(guān)鍵字相同的回答歸為一類，η個(gè)關(guān)鍵字將回答分為η類，η個(gè)關(guān)鍵字都不包含的回答單獨(dú)歸為一類。3. 根據(jù)權(quán)利要求2所述的自然語(yǔ)言分析的隨堂測(cè)試答案快速自動(dòng)分類方法的具體步驟，其特征在于，步驟1)中，使用移動(dòng)端應(yīng)用或者微信公眾賬號(hào)接受用戶發(fā)送的問(wèn)題回答，并存入數(shù)據(jù)庫(kù)。4. 根據(jù)權(quán)利要求2所述的自然語(yǔ)言分析的隨堂測(cè)試答案快速自動(dòng)分類方法的具體步驟，其特征在于，步驟1)中，使用正則表達(dá)式對(duì)回答進(jìn)行分類。對(duì)于所有回答均包含數(shù)值的情況，歸為數(shù)值形式;對(duì)于所有回答均包含并僅包含英文單詞的情況，歸為英文形式;對(duì)于所有回答均包含中文回答的情況，歸為中文形式。5. 根據(jù)權(quán)利要求2所述的自然語(yǔ)言分析的隨堂測(cè)試答案快速自動(dòng)分類方法的具體步驟，其特征在于，步驟2a)中，對(duì)于中文形式的回答，使用中文自然語(yǔ)言處理引擎，將中文文本劃分為若干個(gè)詞組，并為這些詞組標(biāo)注了詞性;對(duì)于英文形式的回答，使用英文自然語(yǔ)言處理引擎，將英文文本劃分為若干個(gè)詞組，并為這些詞組標(biāo)注了詞性。6. 根據(jù)權(quán)利要求2所述的自然語(yǔ)言分析的隨堂測(cè)試答案快速自動(dòng)分類方法的具體步驟，其特征在于，步驟2d)中，評(píng)估一個(gè)字詞對(duì)于整個(gè)回答中的其中一份文本的重要程度，量化這個(gè)重要程度，將其作為這個(gè)字詞的權(quán)重。最常采用的技術(shù)是TF-IDF，其主要思想是如果某個(gè)詞或短語(yǔ)在一篇文章中出現(xiàn)的頻率TF高，并且在其他文章中很少出現(xiàn)，則認(rèn)為此詞或者短語(yǔ)具有很好的類別區(qū)分能力，適合用來(lái)分類； TFIDF指的是TF*IDF;TF是詞頻（Term Frequency); IDF代表逆向文件頻率（Inverse Document Frequency)，IDF主要思想是：如果包含詞條的文檔越少，IDF越大；式1式1中分子是該詞在文件中的出現(xiàn)次數(shù)，而分母則是在文件中所有字詞的出現(xiàn)次數(shù)之和；式2 式2中對(duì)數(shù)中的分子是總文件數(shù)目，而分母則是該詞語(yǔ)之文件的數(shù)目；式3:tfidfi, j = tfi, j X idfi 式3中TFIDF就由TF和IDF相乘所得。7. 根據(jù)權(quán)利要求2所述的自然語(yǔ)言分析的隨堂測(cè)試答案快速自動(dòng)分類方法的具體步驟，其特征在于，步驟2d)中，選取的k值越大，挑選出來(lái)的關(guān)鍵對(duì)語(yǔ)句的代表性越好，但是相應(yīng)的，時(shí)間代價(jià)越大。本發(fā)明針對(duì)的場(chǎng)景需要時(shí)間代價(jià)比較小，考慮實(shí)際場(chǎng)景，k值選取2-5 較為合適。
【文檔編號(hào)】G06F17/30GK106021288SQ201610283931
【公開(kāi)日】2016年10月12日
【申請(qǐng)日】2016年4月27日
【發(fā)明人】陳振宇, 馮奕彬, 李舒穎, 劉子聰, 張智軼
【申請(qǐng)人】南京慕測(cè)信息科技有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳振宇;馮奕彬;李舒穎;劉子聰;張智軼;
技術(shù)所有人：南京慕測(cè)信息科技有限公司;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于自然語(yǔ)言分析的隨堂測(cè)試答案快速自動(dòng)分類方法