一種應(yīng)用于金融Web領(lǐng)域的文本情感傾向分析方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種利用金融情感詞典和中文語法特征對Web金融文本進行情感傾 向分析的,屬于自然語言處理和機器學(xué)習(xí)技術(shù)領(lǐng)域。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)和信息技術(shù)的發(fā)展,Web信息量得到了前所未有的增長,越來越多的機 構(gòu)和個人通過互聯(lián)網(wǎng)途徑以各種方式表達對各種事物觀點、態(tài)度和立場,如豆瓣影評、新聞 評論、社交網(wǎng)站等。海量的Web觀點信息對于電子商務(wù)、市場預(yù)測等各個方面有重要的意義 以及巨大的商業(yè)價值,而金融行業(yè)Web信息量是互聯(lián)網(wǎng)信息增長最快,受影響最大的行業(yè), 對Web金融文本信息進行情感傾向分析以進行更加深入的研究已經(jīng)成為國內(nèi)外熱門研究 課題。
[0003] 文本情感傾向性分析屬于文本情感分析[1]的一部分,如今已是自然語言處理和機 器學(xué)習(xí)領(lǐng)域的研究熱點。通過情感傾向性分析,可以掌握文本的褒貶性傾向。在金融領(lǐng)域, 新聞輿情被認為是反映國家宏觀政策的執(zhí)行情況,體現(xiàn)市場和行業(yè)景氣程度和投資者的交 易熱情的重要指標。而要有效利用Web金融信息來進行各種分析,就必須將文本信息數(shù)字 化。文本傾向性分析,計算文本的情感傾向值是分析文本褒貶性和將文本信息數(shù)字化的有 效手段之一。
[0004] 通過計算文本的情感傾向值來分析文本的情感傾向,是文本情感傾向性分析的主 要方法。其中具有代表性的工作是,Turney等[2]運用點互信息和潛在語義分析的方法計算 目標詞匯和種子詞的關(guān)聯(lián)度,進而分析目標詞匯的傾向性。香港城市大學(xué)的Yuen等[3]在 Turney的工作基礎(chǔ)上,對漢語極性詞的自動獲取進行了研究。復(fù)旦大學(xué)的朱嫣嵐等[4]利用 Hownet提供的語義相似度和語義相關(guān)場,計算目標詞匯與已標注褒貶性的種子詞間的相似 度,提出了詞語傾向性的判斷方法。從已有的研究成果可以發(fā)現(xiàn),文本傾向性分析已引起了 研究者的普遍關(guān)注,但在金融領(lǐng)域應(yīng)用尚未展開,金融信息文本的傾向性分析對于金融市 場的研究有舉足輕重的影響,但卻還沒有被眾多學(xué)者所涉足。
[0005] 文本情感分析技術(shù)在金融領(lǐng)域應(yīng)用較少,究其原因主要包括以下幾點:(1)國內(nèi) 文本情感傾向分析研究起步較晚。(2)中文漢語本身的博大精深。(3)各學(xué)科交叉導(dǎo)致 研究復(fù)雜,研究者需要具備自然語言處理技術(shù)、計算機技術(shù)、金融專業(yè)知識等多方面綜合能 力。綜合上述因素,本文研究了Web金融信息的情感傾向的計算方法以及其在金融市場預(yù) 測中的應(yīng)用。
[0006] 參考文獻:
[0007] [ 1 ]ZhaoYY,QinB,LiuT.Sentimentanalysis[J].Journalof Software, 2010, 21 (8) : 1834-1848.
[0008] [2]Turney P D. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews[J]. Proc Annual Meeting of the Association for Computational Linguistics, 2002:417-424.
[0009] [3]YuenR,ChanT,LaiTetal.Morpheme-basedDerivationofBipolar SemanticOrientationofChineseWords.In:Proceedingsofthe20thInternational ConferenceonComputationalLinguistics(COLING^ 04).Geneva,Switzerla nd,2004. 1008-1014.
[0010] [4]朱嫣M,閔錦,周雅倩,等?基于HowNet的詞匯語義傾向計算[J].中文信 息學(xué)報,2006,(1) : 14-20.
【發(fā)明內(nèi)容】
[0011] 發(fā)明目的:為了提高Web金融文本情感傾向分類的準確率,本發(fā)明提供一種應(yīng)用 于金融Web領(lǐng)域的文本情感傾向分析方法。采用人工標注和現(xiàn)有詞典擴展的方法構(gòu)建金融 情感詞典,即包括極性詞典、主觀詞典、修飾詞典和連詞詞典,通過分析金融情感詞匯的不 同使用以及中文語法特征,設(shè)計了無關(guān)信息清理算法和Web金融文本情感傾向分析方法, 無關(guān)信息清理算法剔除主題無關(guān)文本信息,保證金融文本情感傾向分類數(shù)據(jù)的有效性。
[0012] 技術(shù)方案:一種應(yīng)用于金融Web領(lǐng)域的文本情感傾向分析方法,包括以下幾個步 驟:
[0013] 步驟A、篩選金融數(shù)據(jù)來源并設(shè)計多線程網(wǎng)絡(luò)爬蟲獲取Web金融數(shù)據(jù);
[0014] 步驟B、對獲取的Web金融文本數(shù)據(jù)進行文本預(yù)處理;
[0015] 步驟C、根據(jù)情感分類特征,結(jié)合人工標注和現(xiàn)有詞典擴展的方法構(gòu)建金融情感詞 典,并采用多人標注取眾數(shù)的方法確定情感詞匯的情感傾向和強度;
[0016] 步驟D、提出無關(guān)信息清理算法,依據(jù)主題相關(guān)和主題無關(guān)關(guān)鍵詞對Web金融新聞 的無關(guān)信息進行識別清理;
[0017] 步驟E、根據(jù)金融情感詞典的不同使用以及中文語法特征,提出Web金融文本情感 傾向分類算法,對Web金融文本信息進行情感傾向分類,即將Web金融文本情感傾向分為正 面情感、負面情感和中立情感。
[0018] 作為本發(fā)明的一個優(yōu)選方案,設(shè)計多線程網(wǎng)絡(luò)爬蟲程序獲取Web金融文本數(shù)據(jù), 步驟A包括以下步驟:
[0019] 步驟A1、篩選Web金融數(shù)據(jù)網(wǎng)站來源,分別獲取所研究的金融主題新聞版塊的URL 鏈接并初始化種子URL列表;
[0020] 步驟A2、循環(huán)從種子URL列表獲取URL,下載種子URL新聞主頁面源代碼,若主頁 面有金融新聞更新,則解析該主頁面源代碼,抽取符合要求的新聞URL并添加到下載隊列, 隊列管理調(diào)度根據(jù)線程的空閑情況給下載隊列URL分配線程,下載新聞頁面源代碼;
[0021] 步驟A3、利用頁面抽取技術(shù)解析新聞頁面源代碼,抽取需要的字段,包括新聞標 題、新聞?wù)?、發(fā)布時間、新聞來源等。Web金融數(shù)據(jù)存儲時,若該新聞URL已存在數(shù)據(jù)庫,則 無需存儲該條新聞,否則存入數(shù)據(jù)庫。
[0022] 作為本發(fā)明的一個優(yōu)選方案,分析Web金融文本的特點,構(gòu)建金融情感詞典,步驟 B包括以下步驟:
[0023] 步驟B1、利用中文標點符號將所獲取的Web金融文本信息,分解為語義停頓的短 字符串,去亂碼符號和web轉(zhuǎn)義符號,利用"。!……;"將文檔分割成短字符串,刪除"?" 所在的句子,數(shù)學(xué)符號".% /等"保持不變。
[0024] 步驟B2、將去除雜亂符號的新聞構(gòu)建成包含title和content的json字符串以方 便后續(xù)分別對title和content分別進行處理,中文文檔經(jīng)標點處理后被分解成語義獨立 的句子,句子被分解成語義停頓的短字符串,然后利用最大正向匹配法分詞技術(shù)以及金融 情感詞典進行中文分詞預(yù)處理,情感詞典構(gòu)造如步驟C。
[0025] 作為本發(fā)明的一個優(yōu)選方案,分析Web金融文本的特點,構(gòu)建金融情感詞典,步驟 C包括以下步驟:
[0026] 步驟C1、利用人工標注方式收集金融情感詞匯,主要包括兩種方式:1)利用現(xiàn)有 的證券領(lǐng)域操作詞匯表,人工提取其中具有情感傾向的詞語。2)利用網(wǎng)絡(luò)爬蟲從金融網(wǎng)站 抓取大量金融新聞文本信息,經(jīng)多人標注抽取其中情感詞匯。
[0027] 步驟C2、利用HowNet、哈工大《同義詞詞林》公共情感詞典進行補充和擴展,將 HowNet情感詞典的中文負