一種關(guān)于英語閱讀理解測試疑問式簡答題的自動化命題方法
【專利摘要】本發(fā)明公開了一種關(guān)于英語閱讀理解測試疑問式簡答題的自動化命題方法,包括自然語言處理、考點選取、問句生成和同義改寫四個步驟。該方法首先對輸入的文章進(jìn)行自然語言處理;然后基于詞頻密度、段落長度和句義近似度選取考點句子;根據(jù)詞匯功能語法理論將陳述句轉(zhuǎn)化為疑問句;最后對疑問句實施同義詞替換和代詞替換,形成疑問式簡答題。本發(fā)明自動化命題方法由于加入了考點選取和同義改寫,生成的疑問句可適用于閱讀理解測試;同義改寫部分由于采用了限定詞匯范圍和義項范圍的方法,可突破語義消歧精度較低的瓶頸,實現(xiàn)準(zhǔn)確率較高的同義詞替換;疑問句生成部分由于同時參考了句法和語義信息,能夠高效地生成類型多樣、質(zhì)量較高的問句。
【專利說明】—種關(guān)于英語閱讀理解測試疑問式簡答題的自動化命題方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于語言自動化測試【技術(shù)領(lǐng)域】,具體涉及一種關(guān)于英語閱讀理解測試疑問式簡答題的自動化命題方法。
【背景技術(shù)】
[0002]計算機(jī)化是現(xiàn)代教育測試的重要發(fā)展方向。目前語言測試在施測環(huán)節(jié)已能夠?qū)崿F(xiàn)計算機(jī)自適應(yīng)測試,在評分環(huán)節(jié)能夠?qū)崿F(xiàn)主觀題機(jī)器自動評分,然而在命題環(huán)節(jié),自動化水平依然很低,命題者基本僅在文字編輯和詞典查詢方面獲取計算機(jī)的輔助。
[0003]語言測試命題環(huán)節(jié)的計算機(jī)化具有迫切性。在標(biāo)準(zhǔn)化閱讀理解測試開發(fā)中,人工命題的成本很高,效率卻比較低。命題者需接受專業(yè)培訓(xùn),還要經(jīng)歷繁雜的命題環(huán)節(jié),包括改編文章、尋找考點、編寫和研磨題目,以及試測題目。即使是經(jīng)驗豐富的命題者,也無法準(zhǔn)確預(yù)知題目質(zhì)量,試測后只有部分題目得以采用,這些問題導(dǎo)致大規(guī)模題庫難以建立,進(jìn)而阻礙了計算機(jī)自適應(yīng)閱讀理解測試的發(fā)展。
[0004]關(guān)于閱讀理解測試自動化命題的研究較少。Ruslan Mitkov和Le An Ha在標(biāo)題為Computer-aided generation of multiple-choice tests(Proceedings of the2003HumanLanguage Technology Conference of the North American Chapter of the Associationfor Computational Linguistics Workshop on Building Educational ApplicationsUsing Natural Language Processing,2003,17-22)的文獻(xiàn)中提出基于淺層句法分析識別短語,根據(jù)語料庫詞頻和WordNet構(gòu)造干擾項生成多項選擇題的命題方法。其研究表明,與直接命題相比,命題者在計算機(jī)所生成題目的基礎(chǔ)上修改時效率可提高十多倍,且最終編寫出來的題目質(zhì)量更高。然而,該研究中計算機(jī)產(chǎn)生的問題類型有限,提問對象只限于名詞,疑問詞只限于which和what。
[0005]Jack Mostow和Wei Che`n在標(biāo)題為Generating instruction automatically forthe reading strategy of self-questioning (Proceedings of the2009Conference onArtificial Intelligence in Education:Building Learning Systems that Care:FromKnowledge Representation to Affective Modeling,2009,465-472)的文獻(xiàn)中提出基于情境模型和題目模板產(chǎn)生簡答題的方法,該方法只能針對具有人物情節(jié)的語篇命題,提問對象的范圍限于人物心理狀態(tài)。
[0006]Michael Heilman 和 Smith Noah 在標(biāo)題為 Good question! Statistical rankingfor question generation (Human Language Technologies:The2010Annual Conferenceof the North American Chapter of the Association for Computational Linguistics,2010,609-617)的文獻(xiàn)中提出基于短語結(jié)構(gòu)生成問句的方法。該方法沒有考慮句子成分間的語義關(guān)系,且只依據(jù)特定詞語這種表層信息決定疑問詞,準(zhǔn)確度不夠高。
[0007]PrashanthMannemjRashmiPrasad 和 AravindJoshi 在題目為 Questiongeneration from paragraphs at UPenn:QGSTEC system description (Proceedings ofQuestion Generation2010, 2010,84-91)的文獻(xiàn)中提出基于語義角色生成問句的方法。該方法雖然考慮了語義關(guān)系,由于采用針對專有名詞的命名實體識別方法區(qū)分詞匯范疇,無法把普通名詞作為提問對象。
[0008]Xuchen Yao, GosseBouma 和 Yi Zhang 在題目為 Semantics-based questiongeneration and implementation (Dialogue&Discourse, 2012,11-42)的文獻(xiàn)中提出基于最小遞歸語義理論生成問句的方法,該方法利用了深層語義結(jié)構(gòu),可生成質(zhì)量較高的問句,但是該方法計算量大,效率較低。
[0009]上述方法生成的問句不適用于閱讀理解測試,因為這些問句未經(jīng)過同義改寫,而且這些方法未包含針對測試篩選題目的機(jī)制。閱讀理解指對信息通過字形、語音和語義編碼抽象出意義的過程。如果題目僅僅是將考點從陳述句式轉(zhuǎn)為疑問句式,被試可能無需理解,僅憑字形匹配就能回答題目。另外一方面,語言測試的本質(zhì)是根據(jù)被試對有限題目的答題情況推測其語言能力;閱讀理解測試主要考察被試從語篇中獲取信息的能力,選擇語篇中哪些部分作為考點應(yīng)從該部分是否具有文章信息的代表性出發(fā)。合理的考點應(yīng)能夠體現(xiàn)文章的核心信息,全面但不重復(fù)地涉及各個語義群。
【發(fā)明內(nèi)容】
[0010]針對現(xiàn)有技術(shù)所存在的上述技術(shù)問題,本發(fā)明提供了一種關(guān)于英語閱讀理解測試疑問式簡答題的自動化命題方法,能夠?qū)斎氲奈恼逻x出符合核心性、全面性和相互獨立性的考點,通過疑問句轉(zhuǎn)換和同義改寫,生成事實型簡答題。
[0011]一種關(guān)于英語閱讀理解測試疑問式簡答題的自動化命題方法,包括如下步驟:
[0012](I)自然語言處理;
[0013]1.1利用自動句法標(biāo)注器對文章中的句子進(jìn)行句法分析,得到句子的短語結(jié)構(gòu)和詞法信息;所述的詞法信息包括句子中各名詞的數(shù)以及各動詞的時態(tài)和體態(tài);
[0014]1.2利用自動語義角色標(biāo)注器提取所述句子中述語動詞指派給所在句中各句子成分的語義角色;所述的句子成分為單詞、短語或從句;
[0015]1.3利用自動指代消解器提取所述句子中代詞所指的句子成分;
[0016]1.4利用自動詞匯范疇標(biāo)注器提取所述句子中實詞和固定短語的詞匯范疇;
[0017]1.5利用語料庫結(jié)合HAL法(Hyperspace Analogue to Language,多維空間類比分析法)與LSA法(Latent Semantic Analysis,潛在語義分析法),計算得到詞典范圍內(nèi)所有單詞的語義向量;
[0018](2)考點選??;
[0019]2.1計算文章中句子的詞頻密度;
[0020]2.2計算文章中每個段落應(yīng)選的考點數(shù)目;
[0021]2.3取所述句子中所有單詞的語義向量的幾何中心作為句子的語義向量,進(jìn)而計算文章中每個句子與其他句子的句義近似度;
[0022]2.4按詞頻密度從高到低的順序?qū)ξ恼轮芯渥舆M(jìn)行排序,依次判斷每個句子是否被選為考點;
[0023](3)問句生成;
[0024]3.1對于被選為考點的句子,根據(jù)句子的詞法信息和各句子成分的語義角色建立句子基于詞匯功能語法理論的功能結(jié)構(gòu);
[0025]3.2使功能結(jié)構(gòu)中的獨立功能體均作為提問對象;所述的獨立功能體是指功能結(jié)構(gòu)中以子功能結(jié)構(gòu)作為明細(xì)的屬性,其包括主語、賓語、間接賓語以及附加語;
[0026]3.3對于任一提問對象,確定該提問對象的中心語,進(jìn)而根據(jù)中心語的詞匯范疇以及提問對象的語義角色確定提問對象的疑問詞;
[0027]3.4在被選為考點的句子中使該疑問詞代替提問對象,進(jìn)而根據(jù)所述的短語結(jié)構(gòu)和功能結(jié)構(gòu)對該句子中的句子成分做主謂倒裝和時數(shù)一致性調(diào)整,生成以該疑問詞引導(dǎo)的特殊疑問句;
[0028]3.5根據(jù)步驟3.3~3.4遍歷每一個提問對象,生成多個特殊疑問句;
[0029](4)同義改寫;
[0030]4.1對文章中的實詞或固定短語進(jìn)行語義消歧,以確定實詞或固定短語在特殊疑問句中的語義;
[0031]4.2對于特殊疑問句中的任一實詞或固定短語,判斷該實詞或固定短語的語義是否為詞典中該實詞或固定短語的高頻義項,若是則進(jìn)入步驟4.3,若否,則不對該實詞或固定短語做同義改寫;
[0032]4.3根據(jù)語義利用詞典獲取該實詞或固定短語的同義詞集合,依次對集合中的同義詞進(jìn)行判斷:對于集合中的任一同義詞,判斷該實詞或固定短語的語義是否也是詞典中該同義詞的高頻義項,若是則進(jìn)入步驟4.4,若否,則判斷集合中的下一個同義詞;
[0033]4.4判斷該同義詞是否超出閱讀理解測試所指定的詞匯范圍,若否,則將該同義詞替換該實詞或固定短語,若是,則判斷集合中的下一個同義詞;
[0034]4.5根據(jù)步驟4.2~4.4遍歷特殊疑問句中的所有實詞或固定短語;
[0035]4.6對于特殊疑問句中的任一代詞,判斷該代詞所指的句子成分是否也在該特殊疑問句中,若是,則不對該代詞做同義改寫,若否,則進(jìn)一步判斷該特殊疑問句中是否存在另一個代詞所指的句子成分與該代詞的所指相同且該另一個代詞在特殊疑問句中處于該代詞前面的情況,若是,則不對該代詞做同義改寫,若否,則用該代詞所指的句子成分替換該代詞。
[0036]所述的步驟1.5中結(jié)合HAL法與LSA法得到詞典范圍內(nèi)所有單詞的語義向量的具體過程為:首先,從語料庫中獲取單詞共現(xiàn)關(guān)系矩陣,該矩陣中任一元素的取值為該元素所在行和列分別對應(yīng)的兩個單詞在語料庫中共同出現(xiàn)的次數(shù);然后,對該共現(xiàn)關(guān)系矩陣進(jìn)行奇異值分解,得到詞典范圍內(nèi)所有單詞的語義向量。
[0037]所述的步驟2.1中根據(jù)以下公式計算句子的詞頻密度:
[0038]
【權(quán)利要求】
1.一種關(guān)于英語閱讀理解測試疑問式簡答題的自動化命題方法,包括如下步驟: (1)自然語言處理; .1.1利用自動句法標(biāo)注器對文章中的句子進(jìn)行句法分析,得到句子的短語結(jié)構(gòu)和詞法信息;所述的詞法信息包括句子中各名詞的數(shù)以及各動詞的時態(tài)和體態(tài); .1.2利用自動語義角色標(biāo)注器提取所述句子中述語動詞指派給所在句中各句子成分的語義角色;所述的句子成分為單詞、短語或從句; .1.3利用自動指代消解器提取所述句子中代詞所指的句子成分; . 1.4利用自動詞匯范疇標(biāo)注器提取所述句子中實詞和固定短語的詞匯范疇; .1.5利用語料庫結(jié)合HAL法與LSA法,計算得到詞典范圍內(nèi)所有單詞的語義向量; (2)考點選??; .2.1計算文章中句子的詞頻密度; .2.2計算文章中每個段落應(yīng)選的考點數(shù)目; .2.3取所述句子中所有單詞的語義向量的幾何中心作為句子的語義向量,進(jìn)而計算文章中每個句子與其他句子的句義近似度; . 2.4按詞頻密度從高 到低的順序?qū)ξ恼轮芯渥舆M(jìn)行排序,依次判斷每個句子是否被選為考點; (3)問句生成; .3.1對于被選為考點的句子,根據(jù)句子的詞法信息和各句子成分的語義角色建立句子基于詞匯功能語法理論的功能結(jié)構(gòu); .3.2使功能結(jié)構(gòu)中的獨立 功能體均作為提問對象;所述的獨立功能體是指功能結(jié)構(gòu)中以子功能結(jié)構(gòu)作為明細(xì)的屬性,其包括主語、賓語、間接賓語以及附加語; .3.3對于任一提問對象,確定該提問對象的中心語,進(jìn)而根據(jù)中心語的詞匯范疇以及提問對象的語義角色確定提問對象的疑問詞; .3.4在被選為考點的句子中使該疑問詞代替提問對象,進(jìn)而根據(jù)所述的短語結(jié)構(gòu)和功能結(jié)構(gòu)對該句子中的句子成分做主謂倒裝和時數(shù)一致性調(diào)整,生成以該疑問詞引導(dǎo)的特殊疑問句; .3.5根據(jù)步驟3.3~3.4遍歷每一個提問對象,生成多個特殊疑問句; (4)同義改寫; .4.1對文章中的實詞或固定短語進(jìn)行語義消歧,以確定實詞或固定短語在特殊疑問句中的語義; . 4.2對于特殊疑問句中的任一實詞或固定短語,判斷該實詞或固定短語的語義是否為詞典中該實詞或固定短語的高頻義項,若是則進(jìn)入步驟4.3,若否,則不對該實詞或固定短語做同義改寫;.4.3根據(jù)語義利用詞典獲取該實詞或固定短語的同義詞集合,依次對集合中的同義詞進(jìn)行判斷:對于集合中的任一同義詞,判斷該實詞或固定短語的語義是否也是詞典中該同義詞的高頻義項,若是則進(jìn)入步驟4.4,若否,則判斷集合中的下一個同義詞; . 4.4判斷該同義詞是否超出閱讀理解測試所指定的詞匯范圍,若否,則將該同義詞替換該實詞或固定短語,若是,則判斷集合中的下一個同義詞; .4.5根據(jù)步驟4.2~4.4遍歷特殊疑問句中的所有實詞或固定短語;.4.6對于特殊疑問句中的任一代詞,判斷該代詞所指的句子成分是否也在該特殊疑問句中,若是,則不對該代詞做同義改寫,若否,則進(jìn)一步判斷該特殊疑問句中是否存在另一個代詞所指的句子成分與該代詞的所指相同且該另一個代詞在特殊疑問句中處于該代詞前面的情況,若是,則不對該代詞做同義改寫,若否,則用該代詞所指的句子成分替換該代詞。
2.根據(jù)權(quán)利要求1所述的自動化命題方法,其特征在于:所述的步驟1.5中結(jié)合HAL法與LSA法得到詞典范圍內(nèi)所有單詞的語義向量的具體過程為:首先,從語料庫中獲取單詞共現(xiàn)關(guān)系矩陣,該矩陣中任一元素的取值為該元素所在行和列分別對應(yīng)的兩個單詞在語料庫中共同出現(xiàn)的次數(shù);然后,對該共現(xiàn)關(guān)系矩陣進(jìn)行奇異值分解,得到詞典范圍內(nèi)所有單詞的語義向量。
3.根據(jù)權(quán)利要求1所述的自動化命題方法,其特征在于:所述的步驟2.1中根據(jù)以下公式計算句子的詞頻密度:
4.根據(jù)權(quán)利要求1所述的自動化命題方法,其特征在于:所述的步驟2.2中根據(jù)以下公式計算文章中每個段落應(yīng)選的考點數(shù)目:
5.根據(jù)權(quán)利要求1所述的自動化命題方法,其特征在于:所述的步驟2.3中根據(jù)以下公式計算文章中每個句子與其他句子的句義近似度:
6.根據(jù)權(quán)利要求1所述的自動化命題方法,其特征在于:所述的步驟2.4中判斷每個句子是否被選為考點的評判標(biāo)準(zhǔn)如下:首先,對于待判斷的句子,若其所在段落已選的考點數(shù)目已達(dá)到應(yīng)選的考點數(shù)目,則不將其選為考點;若其所在段落已選的考點數(shù)目未達(dá)到應(yīng)選的考點數(shù)目且其與文章中所有已被選為考點的句子的句義近似度均低于預(yù)設(shè)的近似度閾值,則將其選為考點并存儲記錄,否則不將其選為考點。
7.根據(jù)權(quán)利要求1所述的自動化命題方法,其特征在于:所述的步驟3.1中根據(jù)以下規(guī)則建立句子基于詞匯功能語法理論的功能結(jié)構(gòu): 使句子中述語動詞的原形作為功能結(jié)構(gòu)或直聯(lián)子功能結(jié)構(gòu)中謂詞的明細(xì);所述的直聯(lián)子功能結(jié)構(gòu)是指包含該述語動詞的最小句子成分在所述功能結(jié)構(gòu)中所對應(yīng)的子功能結(jié)構(gòu); 使句子中述語動詞的時態(tài)和體態(tài)分別作為功能結(jié)構(gòu)或直聯(lián)子功能結(jié)構(gòu)中時態(tài)和體態(tài)的明細(xì);如果該述語動詞的時態(tài)或體態(tài)不完整,相應(yīng)的直聯(lián)子功能結(jié)構(gòu)中時態(tài)或體態(tài)的明細(xì)繼承上一級子功能結(jié)構(gòu)中時態(tài)或體態(tài)的明細(xì); 根據(jù)Propbank的語義角色標(biāo)注體系,使句子中述語動詞指派的序號最低的核心語義角色所對應(yīng)的句子成分作為以該述語動詞作謂詞的功能結(jié)構(gòu)或直聯(lián)子功能結(jié)構(gòu)中主語的謂詞的明細(xì);進(jìn)而確定該句子成分的中心語,若中心語為名詞,則將中心語的數(shù)作為所述主語的數(shù)的明細(xì),若中心語為非名詞,則令所述主語的數(shù)的明細(xì)為單數(shù); 若句子的述語動詞指派了至少兩個核心語義角色,則使其中序號次低的核心語義角色對應(yīng)的句子成分作為以該述語動詞作謂詞的功能結(jié)構(gòu)或直聯(lián)子功能結(jié)構(gòu)中賓語的謂詞的明細(xì); 若句子的述語動詞指派了至少三個核心語義角色,則使其中序號第三低的核心語義角色對應(yīng)的句子成分作為該述語動詞作謂詞的功能結(jié)構(gòu)或直聯(lián)子功能結(jié)構(gòu)中的間接賓語的謂詞的明細(xì); 若句子的述語動詞還指派了若干附屬語義角色,則將該若干附屬語義角色對應(yīng)的句子成分作為以該述語動詞作謂詞的功能結(jié)構(gòu)或直聯(lián)子功能結(jié)構(gòu)中各對應(yīng)附加語的明細(xì)。
8.根據(jù)權(quán)利要求1所述的自動化命題方法,其特征在于:所述的步驟3.3中確定提問對象的疑問詞的標(biāo)準(zhǔn)如下: 若提問對象的語義角色為核心語義角色,則進(jìn)而判斷提問對象的中心語的詞匯范疇:若詞匯范疇為\.person,則令提問對象的疑問詞為who ;若詞匯范疇為其他,則令提問對象的疑問詞為what ; 若提問對象的語義角色為附屬語義角色中的時間,則進(jìn)而判斷提問對象的中心語的詞匯范疇:若詞匯范疇為\.duration,貝U令提問對象的疑問詞為how long ;若詞匯范疇為其他,則令提問對象的疑問詞為when ; 若提問對象的語義角色為附屬語義角色中的場所,則進(jìn)而判斷提問對象的中心語的詞匯范疇:若詞匯范疇為 \.location、\.address、\.factory、\.geography 或\.0rganization,則令提問對象的疑問詞為where ;若詞匯范疇為其他,貝U令提問對象的疑問詞為how ; 若提問對象的語義角色為附屬語義角色中的原因或目的,則令提問對象的疑問詞為why ; 若提問對象的語義角色為附屬語義角色中的方式,則令提問對象的疑問詞為how。
【文檔編號】G06N5/00GK103823794SQ201410064433
【公開日】2014年5月28日 申請日期:2014年2月25日 優(yōu)先權(quán)日:2014年2月25日
【發(fā)明者】黃妍, 何蓮珍 申請人:浙江大學(xué)