一種評估文本難度的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文本難度分析技術(shù)領(lǐng)域,具體地,涉及一種評估文本難度的方法。
【背景技術(shù)】
[0002] 隨著在線教育的興起,通過諸如平板電腦、手機(jī)等電子化平臺(tái)進(jìn)行文字閱讀的應(yīng) 用逐漸普及,其中的分級(jí)閱讀應(yīng)用也逐漸市場化。所述分級(jí)閱讀應(yīng)用是指在閱讀之前,先 通過一種評估算法對待閱讀文本進(jìn)行難度評估,然后根據(jù)難度評估值進(jìn)行分級(jí)處理,將待 閱讀文本推薦給閱讀能力與其文本難度評估值匹配的閱讀人群,例如根據(jù)閱讀文本的難度 評估值向不同年級(jí)的學(xué)生推薦適合的閱讀書籍,從而有助于學(xué)生閱讀能力或考試成績的提 尚。
[0003] 目前所采用的文本難度評估算法主要存在如下問題:(1)現(xiàn)有評估算法結(jié)構(gòu)復(fù) 雜,包含了語法分析和語義分析,甚至還有句子之間的邏輯分析,難以通過計(jì)算機(jī)技術(shù)實(shí) 現(xiàn);(2)現(xiàn)有評估算法的應(yīng)用對象多為外文文本,由于中文與外文的文化差異性,其對中文 文本的評估結(jié)果具有一定的誤差。
[0004] 針對目前文本難度評估算法的問題,有必要設(shè)計(jì)一種新的文本難度評估方法,可 結(jié)合統(tǒng)計(jì)學(xué)原理和中文實(shí)際難度特點(diǎn)對閱讀文本進(jìn)行難度評估,從而可簡化評估算法結(jié) 構(gòu),利于計(jì)算機(jī)實(shí)現(xiàn),快速得到難度評估結(jié)果,同時(shí)還可確保評估結(jié)果的準(zhǔn)確度,進(jìn)而提升 用戶體驗(yàn)和實(shí)用性。
【發(fā)明內(nèi)容】
[0005] 針對前述文本難度評估算法的問題,本發(fā)明提供了一種評估文本難度的方法,可 結(jié)合統(tǒng)計(jì)學(xué)原理和中文實(shí)際難度特點(diǎn)對閱讀文本進(jìn)行難度評估,從而可簡化評估算法結(jié) 構(gòu),利于計(jì)算機(jī)實(shí)現(xiàn),快速得到難度評估結(jié)果,還可確保評估結(jié)果的準(zhǔn)確度,進(jìn)而提升用戶 體驗(yàn)和實(shí)用性。
[0006] 本發(fā)明采用的技術(shù)方案,提供了一種評估文本難度的方法,包括如下步驟:SlOL 讀取待測評內(nèi)容;S102.通過數(shù)學(xué)統(tǒng)計(jì)的方式獲取所述待測評內(nèi)容的文字難度系數(shù)、詞語 難度系數(shù)、句子難度系數(shù)和段落難度系數(shù)中的任意一種或它們的任意組合;S103.將獲取 的、唯一維度的所述難度系數(shù)作為所述待測評內(nèi)容的文本難度評估值,或者將獲取的、多維 度的所述難度系數(shù)的算術(shù)平均結(jié)果作為所述待測評內(nèi)容的文本難度評估值。根據(jù)中文的實(shí) 際難度特點(diǎn),待測評內(nèi)容的文本難度可以但不限于從文字、詞語、句子和段落等維度中任意 一種或它們的任意組合去評估,同時(shí)在所述評估方法中,通過數(shù)學(xué)統(tǒng)計(jì)方式獲取各個(gè)維度 的所述難度系數(shù)以及對多個(gè)維度的所述難度系數(shù)進(jìn)行綜合考量,可簡化算法結(jié)構(gòu),利于計(jì) 算機(jī)實(shí)現(xiàn),從而使所述評估文本難度的方法具有準(zhǔn)確度高、易于實(shí)現(xiàn)和計(jì)算量小的特點(diǎn),能 夠在適于評估中文文本的基礎(chǔ)上,快速得到難度評估結(jié)果,進(jìn)而提升用戶體驗(yàn)和實(shí)用性。
[0007] 具體的,在所述通過數(shù)學(xué)統(tǒng)計(jì)的方式獲取所述待測評內(nèi)容的文字難度系數(shù)的步驟 中還包括如下步驟:S201.獲取所述待測評內(nèi)容中出現(xiàn)的各個(gè)文字;S202.統(tǒng)計(jì)各個(gè)文字在 所述待測評內(nèi)容中的出現(xiàn)頻率;S203.查找各個(gè)文字在文字難度等級(jí)表中對應(yīng)的文字難度 等級(jí);S204.按照如下公式計(jì)算所述待測評內(nèi)容的文字難度系數(shù)ZD :
式中,n為所述待測評內(nèi)容中不同文字的個(gè)數(shù),ZX1為第i個(gè)文字在所述文字難度等級(jí) 表中對應(yīng)的文字難度等級(jí),ZR1為第i個(gè)文字在所述待測評內(nèi)容中的出現(xiàn)頻率。所述文字難 度等級(jí)表包括各個(gè)文字和基于中文實(shí)際難度特點(diǎn)得到的、對應(yīng)的文字難度等級(jí),因此根據(jù) 步驟S201至S204所描述的數(shù)學(xué)統(tǒng)計(jì)方式,可得到針對中文文本具有高準(zhǔn)確度的、且在文字 維度上的文字難度系數(shù)ZD。
[0008] 進(jìn)一步具體的,所述文字難度等級(jí)表的建立過程包括如下步驟:S601.選取M種版 本的N個(gè)學(xué)習(xí)階段的教材;S602.按照如下方式確定各個(gè)文字在第X種版本教材中的文字 難度等級(jí)ZX xJ^于在第Y個(gè)學(xué)習(xí)階段的教材中首次出現(xiàn)的文字,按照如下公式確定對應(yīng)的 文字難度等級(jí)ZXx: ZXx= (Y-I)* (ZX Max-ZXMin)/N+ZXMin 式中,ZXMax為最高文字難度等級(jí),ZXMin為最低文字難度等級(jí);對于未在所有學(xué)習(xí)階段的 教材中出現(xiàn)的文字,按照如下公式確定對應(yīng)的文字難度等級(jí)ZXx: ZXx = ZX Max 式中,ZXMax為最高文字難度等級(jí),ZXMin為最低文字難度等級(jí);S603.針對每個(gè)文字,對 多版本的所述文字難度等級(jí)進(jìn)行算術(shù)平均計(jì)算,得到各個(gè)文字的平均文字難度等級(jí);S604. 將各個(gè)文字及對應(yīng)的平均文字難度等級(jí)記錄在所述文字難度等級(jí)表中。前述建立所述文字 難度等級(jí)表的步驟提供了一種量化文字難度的標(biāo)準(zhǔn)化機(jī)制,可進(jìn)一步利于計(jì)算機(jī)實(shí)現(xiàn),同 時(shí)由于各個(gè)學(xué)習(xí)階段的教材是根據(jù)中文實(shí)際難度特點(diǎn)和學(xué)生的閱讀能力而特別編輯的,因 此依托目前使用的各個(gè)版本、各個(gè)學(xué)習(xí)階段的教材,確定的文字難度等級(jí)表具有準(zhǔn)確度高 的特點(diǎn),利于后續(xù)得到高準(zhǔn)確度的文字難度系數(shù)。
[0009] 具體的,在所述通過數(shù)學(xué)統(tǒng)計(jì)的方式獲取所述待測評內(nèi)容的詞語難度系數(shù)的步驟 中還包括如下步驟:S301.獲取所述待測評內(nèi)容中出現(xiàn)的各個(gè)詞語;S302.統(tǒng)計(jì)各個(gè)詞語在 所述待測評內(nèi)容中的出現(xiàn)頻率;S303.查找各個(gè)詞語在詞語難度等級(jí)表中對應(yīng)的詞語難度 等級(jí);S304.按照如下公式計(jì)算所述待測評內(nèi)容的詞語難度系數(shù)CD :
式中,m為所述待測評內(nèi)容中不同詞語的個(gè)數(shù),CX1為第i個(gè)詞語在所述詞語難度等級(jí) 表中對應(yīng)的詞語難度等級(jí),CR1為第i個(gè)詞語在所述待測評內(nèi)容中的出現(xiàn)頻率。所述詞語難 度等級(jí)表包括各個(gè)詞語和基于中文實(shí)際難度特點(diǎn)得到的、對應(yīng)的詞語難度等級(jí),因此根據(jù) 步驟S301至S304所描述的數(shù)學(xué)統(tǒng)計(jì)方式,可得到針對中文文本具有高準(zhǔn)確度的、且在詞語 維度上的詞語難度系數(shù)⑶。
[0010] 進(jìn)一步具體的,所述詞語難度等級(jí)表的建立過程包括如下步驟:S701.從互聯(lián)網(wǎng) 中隨機(jī)抓取詞匯量不少于第二數(shù)值的第一文字內(nèi)容,所述第二數(shù)值不小于1億;S702.獲取 在所述第一文字內(nèi)容中出現(xiàn)的各個(gè)詞語;S703.統(tǒng)計(jì)各個(gè)詞語在所述第一文字內(nèi)容中的出 現(xiàn)頻率;S704.按照如下方式確定各個(gè)詞語的詞語難度等級(jí):
式中,CX1為第i個(gè)詞語的詞語難度等級(jí),CX Max為最高詞語難度等級(jí),CX Min為最低詞語 難度等級(jí),R1為第i個(gè)詞語在所述第一文字內(nèi)容中的出現(xiàn)頻率;S705.將各個(gè)詞語及對應(yīng)的 詞語難度等級(jí)記錄在所述詞語難度等級(jí)表中。前述建立所述詞語難度等級(jí)表的步驟提供了 一種量化詞語難度的標(biāo)準(zhǔn)化機(jī)制,可進(jìn)一步利于計(jì)算機(jī)實(shí)現(xiàn),同時(shí)由于針對詞語的中文實(shí) 際難度特點(diǎn)是在日常使用過程中,詞語出現(xiàn)的頻率越高,相應(yīng)的詞語難度越低,因此根據(jù)步 驟S701至S705所描述的方法,確定的詞語難度等級(jí)表具有準(zhǔn)確度高的特點(diǎn),利于后續(xù)得到 高準(zhǔn)確度的詞語難度系數(shù)。
[0011] 具體的,在所述通過數(shù)學(xué)統(tǒng)計(jì)的方式獲取所述待測評內(nèi)容的句子難度系數(shù)的步驟 中還包括如下步驟:S401.獲取所述待測評內(nèi)容中出現(xiàn)的各個(gè)句子;S402.以詞匯量為度量 標(biāo)尺確定各個(gè)句子的句子長度;S403.根據(jù)句子長度查找各個(gè)句子在句子難度等級(jí)表中對 應(yīng)的句子難度等級(jí);S404.按照如下公式計(jì)算所述待測評內(nèi)容的句子難度系數(shù)SD :
式中,k為所述待測評內(nèi)容中句子的總數(shù),SX1為第i個(gè)句子根據(jù)句子長度在所述句子 難度等級(jí)表中對應(yīng)的句子難度等級(jí);或者,當(dāng)所述句子為分句時(shí),按照如下公式計(jì)算所述待 測評內(nèi)容的句子難度系數(shù)SD :
式中,q為所述待測評內(nèi)容中復(fù)句的總數(shù),P為第j個(gè)復(fù)句中分句的總數(shù),SXl j為第j個(gè) 復(fù)句中第i個(gè)分句根據(jù)句子長度在所述句子難度等級(jí)表中對應(yīng)的句子難度等級(jí)。所述句子 難度等級(jí)表包括具有各種句子長度的句子和基于中文實(shí)際難度特點(diǎn)得到的、對應(yīng)的句子難 度等級(jí),因此根據(jù)步驟S401至S404所描述的數(shù)學(xué)統(tǒng)計(jì)方式,可得到針對中文文本具有高準(zhǔn) 確度的、且在句子維度上的句子難度系數(shù)SD。
[0012] 進(jìn)一步具體的,所述句子難度等級(jí)表的建立過程包括如下步驟:S801.從互聯(lián)網(wǎng) 中隨機(jī)抓取詞匯量不少于第三數(shù)值的第二文字內(nèi)容,所述第二數(shù)值不小于1億;S802.獲取 在所述第二文字內(nèi)容中出現(xiàn)的各個(gè)句子;S803