一種基于自然語(yǔ)言分析的隨堂測(cè)試答案快速自動(dòng)分類方法
【專利摘要】本發(fā)明提供一種基于自然語(yǔ)言分析的移動(dòng)端隨堂測(cè)試答案快速自動(dòng)分類的方法,包括下列步驟:1)課堂測(cè)試回答文本的收集;2)課堂測(cè)試回答文本的預(yù)處理;3)回答文本的分詞;4)停止詞過(guò)濾;5)同義詞替換;6)關(guān)鍵詞提取;7)構(gòu)建關(guān)鍵詞集合;8)文本分類。本發(fā)明解決了教師教學(xué)過(guò)程中,隨堂測(cè)試學(xué)生回答結(jié)果的少量短文本快速自動(dòng)分類的問(wèn)題。使得教師可以及時(shí)得到問(wèn)題回答情況的匯總報(bào)告,免去了以往需要收集紙質(zhì)答案再人工匯總的工作,提高課堂中師生互動(dòng)的效率。
【專利說(shuō)明】
-種基于自然語(yǔ)言分析的隨堂測(cè)試答案快速自動(dòng)分類方法
技術(shù)領(lǐng)域
[0001 ]本發(fā)明屬于計(jì)算機(jī)技術(shù)領(lǐng)域,設(shè)及自然語(yǔ)言文本分析技術(shù),為一種基于自然語(yǔ)言 分析的移動(dòng)端隨堂測(cè)試答案快速自動(dòng)分類的方法。解決了教師教學(xué)過(guò)程中,隨堂測(cè)試學(xué)生 回答結(jié)果的少量短文本快速自動(dòng)分類的問(wèn)題。使得教師可W及時(shí)得到問(wèn)題回答情況的匯總 報(bào)告,免去了 W往需要收集紙質(zhì)答案再人工匯總的工作,提高了課堂中師生互動(dòng)活動(dòng)的效 率。
【背景技術(shù)】
[0002] 移動(dòng)端隨堂測(cè)試是指教師通過(guò)手機(jī)應(yīng)用,通過(guò)互聯(lián)網(wǎng)將學(xué)生組織在一個(gè)虛擬的班 級(jí)中。教師在運(yùn)個(gè)班級(jí)中向?qū)W生們發(fā)布隨堂測(cè)試,學(xué)生們參與并回答隨堂測(cè)試中的問(wèn)題,教 師就可W及時(shí)得到隨堂測(cè)試的結(jié)果。隨堂測(cè)試的問(wèn)題有判斷題,單項(xiàng)/多項(xiàng)選擇題,問(wèn)答題 運(yùn)巧中形式。其中判斷題,單項(xiàng)/多項(xiàng)選擇題,W-個(gè)或多個(gè)數(shù)值作為答案的問(wèn)答題,計(jì)算機(jī) 都可W很容易地將答案進(jìn)行分類。但是對(duì)于W-小段文本作為答案的問(wèn)答題,其自動(dòng)分類 仍是個(gè)難題,運(yùn)也是本發(fā)明解決的問(wèn)題。
[0003] 中文自然語(yǔ)言處理是指將中文文本轉(zhuǎn)換為計(jì)算機(jī)能夠理解的格式,并對(duì)其進(jìn)行處 理,并將處理結(jié)果存儲(chǔ)在計(jì)算機(jī)中,是計(jì)算機(jī)科學(xué),人工智能,語(yǔ)言學(xué)關(guān)注計(jì)算機(jī)和人類自 然語(yǔ)言之間的相互作用的領(lǐng)域?;跈C(jī)器學(xué)習(xí)的技術(shù),將自然語(yǔ)言的文本通過(guò)一系列分詞、 關(guān)鍵詞提取等技術(shù)進(jìn)行理解。本發(fā)明中使用中文分析、關(guān)鍵字提取,對(duì)隨堂測(cè)試中的回答進(jìn) 行自動(dòng)分類,方便教師及時(shí)得到隨堂測(cè)試結(jié)果的反饋。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明要解決的問(wèn)題是:提出一種基于自然語(yǔ)言分析將隨堂測(cè)試學(xué)生回答結(jié)果的 少量短文本快速自動(dòng)分類的方法,使得教師可W及時(shí)得到問(wèn)題回答情況的匯總報(bào)告,免去 了W往需要收集紙質(zhì)答案再人工匯總的工作。
[0005] 本發(fā)明的技術(shù)方案為:基于自然語(yǔ)言分析的隨堂測(cè)試答案快速自動(dòng)分類方法,使 用自然語(yǔ)言分析,對(duì)學(xué)生們?cè)谡n堂上提交的問(wèn)答題答案進(jìn)行自動(dòng)分類。具體步驟為:
[0006] 1川欠集并預(yù)處理回答
[0007] 使用移動(dòng)終端應(yīng)用的方式,向?qū)W生發(fā)布課堂測(cè)試的問(wèn)題,并收集學(xué)生們的回答。過(guò) 濾并去除存在格式異常的文本。格式異常的情況有:回答中的信息缺失;所回答題目的基本 信息與教師所出題目不匹配;回答題目的時(shí)間超出教師規(guī)定的時(shí)間;回答題目的文本中包 含注入的攻擊代碼。根據(jù)文本內(nèi)容自動(dòng)判斷需要自動(dòng)歸類的類型。對(duì)于所有回答均為中文 回答的情況,采用中文自然語(yǔ)言分析的方式進(jìn)行分類;對(duì)于所有回答均包含數(shù)值的情況,采 用數(shù)值匹配進(jìn)行分類;對(duì)于所有回答均包含并僅包含英文單詞的情況,采用英文自然語(yǔ)言 分析的方式進(jìn)行分類。
[000引2)自然語(yǔ)言分析
[0009]在得到回答的預(yù)處理結(jié)果之后,如果是數(shù)值匹配形式的分類,只需將答案中的數(shù) 值提取出來(lái),相互匹配并分類即可,運(yùn)種類型相對(duì)比較簡(jiǎn)單。如果是中文形式或者英文形式 的回答,需要使用自然語(yǔ)言分析對(duì)其進(jìn)行處理并分類。對(duì)于英文和中文的自動(dòng)分類方法基 本一致,僅僅在分詞方法的選擇、詞庫(kù)的選擇上存在差異。在自然語(yǔ)言分析中又分為五個(gè)步 驟:分詞、停止詞過(guò)濾、同義詞替換、關(guān)鍵詞提取、構(gòu)建關(guān)鍵詞集合。
[0010] 分詞:對(duì)學(xué)生回答中的自然語(yǔ)言描述的部分進(jìn)行分詞操作,將每份回答劃分成獨(dú) 立的詞語(yǔ)。對(duì)于中文形式的回答,使用中文自然語(yǔ)言處理引擎,將中文文本劃分為若干個(gè)詞 組,并為運(yùn)些詞組標(biāo)注了詞性;對(duì)于英文形式的回答,使用英文自然語(yǔ)言處理引擎,將英文 文本劃分為若干個(gè)詞組,并為運(yùn)些詞組標(biāo)注了詞性。
[0011] 停止詞過(guò)濾:對(duì)于分詞的結(jié)果,選取中英文停止詞的詞庫(kù),去掉其中的停止詞。停 止詞是語(yǔ)言中出現(xiàn)頻率很高但是對(duì)于語(yǔ)意沒(méi)有影響的詞語(yǔ),運(yùn)些詞極其普遍,但與其他詞 相比,運(yùn)些詞沒(méi)有什么實(shí)際含義。
[0012] 同義詞替換:生成一個(gè)同義詞的詞庫(kù),將指代同一個(gè)對(duì)象的不同詞語(yǔ)歸為一個(gè)集 合,用運(yùn)個(gè)集合中的一個(gè)詞語(yǔ)作為代表詞,并用代表詞替換學(xué)生回答中含有的該集合中的 其他詞語(yǔ)。使用同義詞替換后可W降低分類結(jié)果中的歧義性,使得最終結(jié)果更為精確。
[0013] 關(guān)鍵詞提取:通過(guò)自然語(yǔ)言分析,將每份學(xué)生回答中的關(guān)鍵詞提取出來(lái),按權(quán)重大 小降序排列,權(quán)重的值表示該關(guān)鍵詞能夠代表語(yǔ)句含義的程度,取權(quán)重最大的k個(gè)關(guān)鍵詞。
[0014] 權(quán)重是指:評(píng)估一個(gè)詞對(duì)于整個(gè)回答中的其中一份文本的重要程度,量化運(yùn)個(gè)重 要程度,將其作為運(yùn)個(gè)詞的權(quán)重。常用的技術(shù)是TF-IDF,其主要思想是如果某個(gè)詞或短語(yǔ)在 一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或者短語(yǔ)具有很好 的類別區(qū)分能力,適合用來(lái)分類。
[0015] TFID巧旨的是TF和IDF相乘所得到的結(jié)果。其中TF是詞頻(Term Frequency); IDF代 表逆向文件頻率(Inverse Do州ment Frequen巧),主要思想是:如果包含詞條的文檔越少, IDF越大。
[0016] 式1
[0017] 式1中分子是該詞在文件中的出現(xiàn)次數(shù),而分母則是在文件中所有字詞的出現(xiàn)次 數(shù)之和。
[001引式2
[0019] 式2中對(duì)數(shù)中的分子是總文件數(shù)目,而分母則是該詞語(yǔ)之文件的數(shù)目。
[0020] 式3:tfi壯i, j = tfi, j X idfi
[0021] 式3中TFIDF由TF和IDF相乘所得。
[0022] 構(gòu)建關(guān)鍵詞集合:根據(jù)關(guān)鍵詞在所有錯(cuò)誤報(bào)告中出現(xiàn)的次數(shù),選出出現(xiàn)次數(shù)超過(guò) 設(shè)定闊值a的關(guān)鍵詞,按出現(xiàn)次數(shù)降序排列,并選取出現(xiàn)次數(shù)最多的m個(gè)關(guān)鍵詞,構(gòu)成關(guān)鍵詞 集合。將集合中關(guān)鍵詞和題干進(jìn)行對(duì)比,將超過(guò)設(shè)定闊值b并且在題干中出現(xiàn)的詞去除。
[0023] 3)回答分類:
[0024] 選出出現(xiàn)次數(shù)最多的n個(gè)關(guān)鍵字,單個(gè)回答中如果包含一個(gè)或多個(gè)關(guān)鍵字,選取權(quán) 重最高的關(guān)鍵字作為運(yùn)個(gè)回答的代表關(guān)鍵字。將代表關(guān)鍵字相同的回答歸為一類,n個(gè)關(guān)鍵 字將回答分為n類,n個(gè)關(guān)鍵字都不包含的回答單獨(dú)歸為一類。
【附圖說(shuō)明】
[0025] 圖1為本發(fā)明實(shí)施例的一種基于自然語(yǔ)言分析的隨堂測(cè)試答案快速自動(dòng)分類方法 的流程圖
【具體實(shí)施方式】
[0026] 為了更了解本發(fā)明的技術(shù)內(nèi)容,特舉具體實(shí)施例并配合所附圖式說(shuō)明如下。
[0027] 圖1為本發(fā)明實(shí)施例的一種基于自然語(yǔ)言分析的隨堂測(cè)試答案快速自動(dòng)分類方法 的流程圖。
[0028] -種基于自然語(yǔ)言分析的隨堂測(cè)試答案快速自動(dòng)分類方法,其特征在于,包括下 列步驟:
[0029] 流程中的第①步是從移動(dòng)應(yīng)用或是微信公眾號(hào)收集回答。本發(fā)明解決的是師生在 課堂互動(dòng)中,如何使用移動(dòng)端高效地完成隨堂測(cè)試的問(wèn)題。所W教師需要使用移動(dòng)終端應(yīng) 用的方式,向?qū)W生發(fā)布課堂測(cè)試的問(wèn)題,系統(tǒng)收集學(xué)生們的回答,W供后續(xù)步驟使用。
[0030] 流程中的第②步是預(yù)處理。收集的回答的標(biāo)準(zhǔn)格式包含3個(gè)主要信息:文本形式的 題目回答;參與的學(xué)生基本信息;所回答的題目的基本信息(包含題干、班級(jí)、教師、時(shí)間)。 如果格式不符合要求,則將其丟棄。格式不符合要求的情況有:回答中的信息缺失;所回答 題目的基本信息與教師所出題目不匹配;回答題目的時(shí)間超出教師規(guī)定的時(shí)間;回答題目 的文本中包含注入的攻擊代碼。在格式正常的情況下,分析回答的文本,分為=類。使用正 則表達(dá)式對(duì)回答進(jìn)行分類。對(duì)于所有回答均包含數(shù)值的情況,歸為數(shù)值形式;對(duì)于所有回答 均包含并僅包含英文單詞的情況,歸為英文形式;對(duì)于所有回答均包含中文回答的情況,歸 為中文形式。
[0031] 流程中的第③步是中文分詞/英文分詞/數(shù)值提取。根據(jù)預(yù)處理的結(jié)果,對(duì)于數(shù)值 形式的回答,提取其中的具體數(shù)值,W具體數(shù)值作為關(guān)鍵字,通過(guò)匹配具體數(shù)值對(duì)其進(jìn)行分 類;對(duì)于中文形式的回答,使用中文自然語(yǔ)言處理引擎,將中文文本劃分為若干個(gè)詞組,并 為運(yùn)些詞組標(biāo)注了詞性。在具體實(shí)施流程中采用了 ansj_seg作為自然語(yǔ)言處理引擎。運(yùn)是 一個(gè)基于google語(yǔ)義模型+條件隨機(jī)場(chǎng)模型的中文分詞的java實(shí)現(xiàn),效率在同類工具中處 于領(lǐng)先地位,分詞速度達(dá)到每秒鐘大約200萬(wàn)字左右(mac air下測(cè)試),準(zhǔn)確率能達(dá)到96% W上。ansj_seg是一個(gè)開(kāi)源項(xiàng)目,在作者在2016年1月剛剛提交了最新的版本,距離上一次 更新已經(jīng)相隔兩年,在運(yùn)個(gè)版本中,ansj_seg已經(jīng)可W對(duì)英文進(jìn)行分詞。所W,對(duì)于預(yù)處理 中的中文自然語(yǔ)言處理和英文自然語(yǔ)言處理都可W使用ansj_seg作為分詞工具。
[0032] 流程中的第④步是停止詞過(guò)濾。停止詞是語(yǔ)言中出現(xiàn)頻率很高但是對(duì)于語(yǔ)意沒(méi)有 影響的詞語(yǔ),運(yùn)些詞極其普遍,但與其他詞相比,運(yùn)些詞沒(méi)有什么實(shí)際含義。英語(yǔ)里面會(huì)遇 到很多a,the,or等使用頻率很多的字或詞,常為冠詞、介詞、副詞或連詞等。類似的,中文中 的"在"、"里面"、"也"、"的"、"它"、"為"運(yùn)些詞都是停止詞。將運(yùn)些停止詞從分詞結(jié)果中濾 去。
[0033] 流程中的第⑤步是同義詞替換。由于收集來(lái)的回答是不同的同學(xué)提交的,他們對(duì) 于同一個(gè)事物可能會(huì)使用不同的詞組去描述,或者使用同義的詞語(yǔ)去回答同一個(gè)問(wèn)題。比 如"唐太宗"和"李世民"所指的是同一個(gè)人物,運(yùn)兩個(gè)詞語(yǔ)就應(yīng)該被視為同義詞,在自然語(yǔ) 言處理中應(yīng)該被作為同一個(gè)詞語(yǔ)處理。在具體實(shí)施流程中生成一個(gè)同義詞的詞庫(kù),將指代 同一個(gè)對(duì)象的不同詞語(yǔ)歸為一個(gè)集合,用運(yùn)個(gè)集合中的一個(gè)詞語(yǔ)作為代表詞,并用代表詞 替換學(xué)生回答中含有的該集合中的其他詞語(yǔ)。
[0034] 流程中的第⑥步是提取關(guān)鍵詞。使用是ansj_seg中的關(guān)鍵詞提取工具。ansj_seg 中的關(guān)鍵詞提取方法是基于TF-IDF方法的。TF-IDF(te;rm frequen巧-inverse document frequency)是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù)。具體來(lái)說(shuō),TF-IDF方法用W 評(píng)估一個(gè)詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。一個(gè)詞對(duì)于其所 在的文本來(lái)說(shuō)的重要性,隨著它在其所在的文本中出現(xiàn)的次數(shù)成正比上升,同時(shí)隨著其在 其他文本中出現(xiàn)的頻率成反比下降。取其中權(quán)重最大的k個(gè)關(guān)鍵詞,k值越大,挑選出來(lái)的關(guān) 鍵對(duì)語(yǔ)句的代表性越好,但是相應(yīng)的,時(shí)間代價(jià)越大。對(duì)于學(xué)生答題的文本來(lái)說(shuō),由于是數(shù) 十個(gè)最多數(shù)百個(gè)的短文本,字?jǐn)?shù)一般為幾十最多幾百,針對(duì)運(yùn)種情況,TF-IDF的效率并不 高。如果服務(wù)器的性能不佳,也可采用統(tǒng)計(jì)相同詞的出現(xiàn)頻率來(lái)代替它的權(quán)重。
[0035] 流程中的第⑦步是構(gòu)建關(guān)鍵詞集合。根據(jù)關(guān)鍵詞在所有回答中出現(xiàn)的次數(shù),選出 出現(xiàn)次數(shù)超過(guò)設(shè)定闊值a的關(guān)鍵詞,按出現(xiàn)次數(shù)降序排列,并選取出現(xiàn)次數(shù)最多的m個(gè)關(guān)鍵 詞,構(gòu)成關(guān)鍵詞集合。將集合中關(guān)鍵詞和題干進(jìn)行對(duì)比,將超過(guò)設(shè)定闊值b并且在題干中出 現(xiàn)的詞去除。
[0036] 流程中的第⑧步是文本分類。選出出現(xiàn)次數(shù)最多的n個(gè)關(guān)鍵字,單個(gè)回答中如果包 含一個(gè)或多個(gè)關(guān)鍵字,選取權(quán)重最高的關(guān)鍵字作為運(yùn)個(gè)回答的代表關(guān)鍵字。將代表關(guān)鍵字 相同的回答歸為一類,n個(gè)關(guān)鍵字將回答分為n類,n個(gè)關(guān)鍵字都不包含的回答單獨(dú)歸為一 類。將結(jié)果存入數(shù)據(jù)庫(kù),供相關(guān)教師查看。
[0037] 綜上所述,本發(fā)明基于自然語(yǔ)言分析,對(duì)學(xué)生們?cè)谡n堂上提交的問(wèn)答題答案進(jìn)行 自動(dòng)分類,解決了教師教學(xué)過(guò)程中,隨堂測(cè)試學(xué)生回答結(jié)果的少量短文本快速自動(dòng)分類的 問(wèn)題。使得教師可W及時(shí)得到問(wèn)題回答情況的匯總報(bào)告,免去了 W往需要收集紙質(zhì)答案再 人工匯總的工作,提高課堂中師生互動(dòng)的效率。
【主權(quán)項(xiàng)】
1. 一種基于自然語(yǔ)言分析的隨堂測(cè)試答案快速自動(dòng)分類方法,其特征是使用自然語(yǔ)言 分析,對(duì)學(xué)生們?cè)谡n堂上提交的問(wèn)答題答案進(jìn)行分詞,提取其中的有效關(guān)鍵字,對(duì)所提交的 文本答案進(jìn)行自動(dòng)分類,使得教師可以及時(shí)得到問(wèn)題回答情況的匯總報(bào)告,免去了以往需 要收集紙質(zhì)答案再人工匯總的工作,解決了少量短文本快速自動(dòng)分類的問(wèn)題。2. 根據(jù)權(quán)利要求1所述的自然語(yǔ)言分析的隨堂測(cè)試答案快速自動(dòng)分類方法,其具體步 驟為: 1) 收集并預(yù)處理回答 收集學(xué)生在課堂上提交的問(wèn)題回答,接收用戶發(fā)送的問(wèn)題回答,并根據(jù)設(shè)定的錯(cuò)誤格 式標(biāo)準(zhǔn),將其中存在異常的文本進(jìn)行過(guò)濾,防止在后續(xù)步驟中引發(fā)錯(cuò)誤。根據(jù)文本內(nèi)容自動(dòng) 判斷需要自動(dòng)歸類的類型。具體分為中文形式、英文形式、數(shù)值形式; 2) 自然語(yǔ)言分析 對(duì)1)中的結(jié)果進(jìn)行自然語(yǔ)言分析。對(duì)于數(shù)值形式回答的分類,將答案中的數(shù)值提取出 來(lái),相互匹配并分類;對(duì)于中文和英文形式回答的分類,需要使用自然語(yǔ)言分析對(duì)其進(jìn)行處 理并分類。對(duì)于英文和中文的自動(dòng)分類方法在分詞方法的選擇、詞庫(kù)的選擇上存在差異。包 括以下幾個(gè)子步驟: 2a)分詞: 對(duì)學(xué)生回答中的自然語(yǔ)言描述的部分進(jìn)行分詞操作,將每份回答劃分成獨(dú)立的詞語(yǔ)。 使用自然語(yǔ)言處理引擎,將文本劃分為若干個(gè)詞組,并為這些詞組標(biāo)注了詞性; 2b)停止詞過(guò)濾: 定義1:停止詞是語(yǔ)言中出現(xiàn)頻率很高但是對(duì)于語(yǔ)意沒(méi)有影響的詞語(yǔ),這些詞極其普 遍,但與其他詞相比,這些詞沒(méi)有什么實(shí)際含義; 對(duì)于2a)的結(jié)果,去掉其中的停止詞; 2c)同義詞替換: 生成一個(gè)同義詞集合,將指代同一個(gè)對(duì)象的不同詞語(yǔ)歸為一個(gè)集合,用這個(gè)集合中的 一個(gè)詞語(yǔ)作為代表詞,并用代表詞替換學(xué)生回答中含有的該集合中的其他詞語(yǔ),降低最終 結(jié)果的歧義性; 2d)關(guān)鍵詞提?。? 通過(guò)自然語(yǔ)言分析,將每份學(xué)生回答中的關(guān)鍵詞提取出來(lái),按權(quán)重大小降序排列,權(quán)重 的值表示該關(guān)鍵詞能夠代表語(yǔ)句含義的程度,取權(quán)重最大的k個(gè)關(guān)鍵詞; 2e)構(gòu)建關(guān)鍵詞集合: 根據(jù)關(guān)鍵詞在所有錯(cuò)誤報(bào)告中出現(xiàn)的次數(shù),選出出現(xiàn)次數(shù)超過(guò)設(shè)定閾值a的關(guān)鍵詞,按 出現(xiàn)次數(shù)降序排列,并選取出現(xiàn)次數(shù)最多的m個(gè)關(guān)鍵詞,構(gòu)成關(guān)鍵詞集合。將集合中關(guān)鍵詞 和題干進(jìn)行對(duì)比,將超過(guò)設(shè)定閾值b并且在題干中出現(xiàn)的詞去除; 3) 回答分類: 選出出現(xiàn)次數(shù)最多的η個(gè)關(guān)鍵字,單個(gè)回答中如果包含一個(gè)或多個(gè)關(guān)鍵字,選取權(quán)重最 高的關(guān)鍵字作為這個(gè)回答的代表關(guān)鍵字。將代表關(guān)鍵字相同的回答歸為一類,η個(gè)關(guān)鍵字將 回答分為η類,η個(gè)關(guān)鍵字都不包含的回答單獨(dú)歸為一類。3. 根據(jù)權(quán)利要求2所述的自然語(yǔ)言分析的隨堂測(cè)試答案快速自動(dòng)分類方法的具體步 驟,其特征在于,步驟1)中,使用移動(dòng)端應(yīng)用或者微信公眾賬號(hào)接受用戶發(fā)送的問(wèn)題回答, 并存入數(shù)據(jù)庫(kù)。4. 根據(jù)權(quán)利要求2所述的自然語(yǔ)言分析的隨堂測(cè)試答案快速自動(dòng)分類方法的具體步 驟,其特征在于,步驟1)中,使用正則表達(dá)式對(duì)回答進(jìn)行分類。對(duì)于所有回答均包含數(shù)值的 情況,歸為數(shù)值形式;對(duì)于所有回答均包含并僅包含英文單詞的情況,歸為英文形式;對(duì)于 所有回答均包含中文回答的情況,歸為中文形式。5. 根據(jù)權(quán)利要求2所述的自然語(yǔ)言分析的隨堂測(cè)試答案快速自動(dòng)分類方法的具體步 驟,其特征在于,步驟2a)中,對(duì)于中文形式的回答,使用中文自然語(yǔ)言處理引擎,將中文文 本劃分為若干個(gè)詞組,并為這些詞組標(biāo)注了詞性;對(duì)于英文形式的回答,使用英文自然語(yǔ)言 處理引擎,將英文文本劃分為若干個(gè)詞組,并為這些詞組標(biāo)注了詞性。6. 根據(jù)權(quán)利要求2所述的自然語(yǔ)言分析的隨堂測(cè)試答案快速自動(dòng)分類方法的具體步 驟,其特征在于,步驟2d)中,評(píng)估一個(gè)字詞對(duì)于整個(gè)回答中的其中一份文本的重要程度,量 化這個(gè)重要程度,將其作為這個(gè)字詞的權(quán)重。最常采用的技術(shù)是TF-IDF,其主要思想是如果 某個(gè)詞或短語(yǔ)在一篇文章中出現(xiàn)的頻率TF高,并且在其他文章中很少出現(xiàn),則認(rèn)為此詞或 者短語(yǔ)具有很好的類別區(qū)分能力,適合用來(lái)分類; TFIDF指的是TF*IDF;TF是詞頻(Term Frequency); IDF代表逆向文件頻率(Inverse Document Frequency),IDF主要思想是:如果包含詞條的文檔越少,IDF越大; 式1式1中分子是該詞在文件中的出現(xiàn)次數(shù),而分母則是在文件中所有字詞的出現(xiàn)次數(shù)之 和; 式2 式2中對(duì)數(shù)中的分子是總文件數(shù)目,而分母則是該詞語(yǔ)之文件的數(shù)目; 式3:tfidfi, j = tfi, j X idfi 式3中TFIDF就由TF和IDF相乘所得。7. 根據(jù)權(quán)利要求2所述的自然語(yǔ)言分析的隨堂測(cè)試答案快速自動(dòng)分類方法的具體步 驟,其特征在于,步驟2d)中,選取的k值越大,挑選出來(lái)的關(guān)鍵對(duì)語(yǔ)句的代表性越好,但是相 應(yīng)的,時(shí)間代價(jià)越大。本發(fā)明針對(duì)的場(chǎng)景需要時(shí)間代價(jià)比較小,考慮實(shí)際場(chǎng)景,k值選取2-5 較為合適。
【文檔編號(hào)】G06F17/30GK106021288SQ201610283931
【公開(kāi)日】2016年10月12日
【申請(qǐng)日】2016年4月27日
【發(fā)明人】陳振宇, 馮奕彬, 李舒穎, 劉子聰, 張智軼
【申請(qǐng)人】南京慕測(cè)信息科技有限公司