亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

用于針對(duì)自然語(yǔ)言處理任務(wù)的內(nèi)容可用性的方法和系統(tǒng)的制作方法

文檔序號(hào):8395862閱讀:529來(lái)源:國(guó)知局
用于針對(duì)自然語(yǔ)言處理任務(wù)的內(nèi)容可用性的方法和系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及用于針對(duì)自然語(yǔ)言處理任務(wù)的內(nèi)容可用性的方法和系統(tǒng)。
【背景技術(shù)】
[0002]對(duì)于要求針對(duì)自然語(yǔ)言處理(NLP)任務(wù)的非結(jié)構(gòu)化文本輸入的計(jì)算任務(wù),經(jīng)常難于將文檔從大量格式轉(zhuǎn)換成“普通”句子。例如,對(duì)于依賴于大量非結(jié)構(gòu)化句子來(lái)解析以便在攝取過(guò)程期間形成語(yǔ)料庫(kù)的問(wèn)題/回答(QA)系統(tǒng),包括圖表(diagram)的文檔提供了極大困難。即使圖表可以被轉(zhuǎn)換成更多文本格式(例如,HTML等),圖表也可以證明是使系統(tǒng)非常難以正確解譯語(yǔ)義。一個(gè)常用方式是直接忽略圖表和圖像以及按照除了句子以外的方式被結(jié)構(gòu)化的文本。這趨向于易于實(shí)施,但是一些可能非常重要的內(nèi)容被丟棄。另一方式是針對(duì)許多類型的內(nèi)容中的每個(gè)類型(比如每個(gè)類型的圖表)編寫(xiě)新的轉(zhuǎn)換器。盡管有效,但這由于內(nèi)容的類型和布局增多而可能昂貴并且耗費(fèi)時(shí)間。

【發(fā)明內(nèi)容】

[0003]提供了一種用于使各種類型的內(nèi)容可用于自然語(yǔ)言處理(NLP)任務(wù)的方式。在該方式中,文檔分節(jié)的屏幕視圖被提供作為對(duì)屏幕讀取器應(yīng)用的輸入。屏幕讀取器應(yīng)用將在該屏幕上顯示的信息轉(zhuǎn)換為自然語(yǔ)言格式。然后對(duì)該自然語(yǔ)言格式執(zhí)行NLP操作。在一個(gè)實(shí)施例中,NLP操作由問(wèn)題和回答(QA)系統(tǒng)執(zhí)行。在另一實(shí)施例中,在文檔分節(jié)被輸入到屏幕讀取器應(yīng)用之前,包括該文檔分節(jié)的整個(gè)文檔被接收并且該文檔分節(jié)被標(biāo)識(shí)為與用來(lái)轉(zhuǎn)換文檔內(nèi)容的一個(gè)或者多個(gè)本機(jī)轉(zhuǎn)換器不兼容的分節(jié)。
[0004]在一個(gè)實(shí)施例中,包括多個(gè)文檔分節(jié)的輸入文檔被接收。與用來(lái)轉(zhuǎn)換文檔內(nèi)容的本機(jī)轉(zhuǎn)換器兼容的文檔分節(jié)集合被標(biāo)識(shí),并且這一文檔分節(jié)集合使用本地轉(zhuǎn)換器被轉(zhuǎn)換。與本機(jī)轉(zhuǎn)換器不兼容的另一文檔分節(jié)集合被標(biāo)識(shí),并且這一集合通過(guò)向屏幕讀取器應(yīng)用輸入與這一文檔分節(jié)集合對(duì)應(yīng)的屏幕視圖被轉(zhuǎn)換為NLP格式。在又一實(shí)施例中,不兼容文檔分節(jié)的標(biāo)識(shí)包括檢測(cè)與不兼容文檔分節(jié)對(duì)應(yīng)的內(nèi)容類型,其中該內(nèi)容類型是圖表、表格、圖片或者非文本文檔類型。在再一實(shí)施例中,過(guò)程接收可聽(tīng)語(yǔ)音作為來(lái)自屏幕讀取器應(yīng)用的輸入??陕?tīng)語(yǔ)音輸入然后被輸入到將可聽(tīng)語(yǔ)音轉(zhuǎn)換為文本NLP格式的語(yǔ)音識(shí)別應(yīng)用。在再一實(shí)施例中,過(guò)程將使用本機(jī)文檔轉(zhuǎn)換器轉(zhuǎn)換的文檔部分和使用屏幕讀取器應(yīng)用轉(zhuǎn)換的文檔分節(jié)合并,其中作為結(jié)果的合并的文檔按照與原始輸入文檔相同的順序。
[0005]前述是概要并且因此必然地包含對(duì)細(xì)節(jié)的簡(jiǎn)化、概括和省略;因此,本領(lǐng)域技術(shù)人員將領(lǐng)會(huì)到該概要僅為例示性并且并未旨在于是以任何方式的限制。如僅僅由權(quán)利要求限定的本發(fā)明的其他方面、創(chuàng)造性特征和優(yōu)點(diǎn)將在以下闡明的非限制性詳細(xì)描述中變得顯而易見(jiàn)。
【附圖說(shuō)明】
[0006]通過(guò)參照附圖,本發(fā)明可以被更好地理解并且其大量目標(biāo)、特征和優(yōu)點(diǎn)將被使得對(duì)本領(lǐng)域技術(shù)人員顯而易見(jiàn),在附圖中:
[0007]圖1描繪了包括利用知識(shí)庫(kù)的知識(shí)管理器的網(wǎng)絡(luò)環(huán)境;
[0008]圖2是信息處置系統(tǒng)(informat1n handling system)的比如在圖1中示出的處理器和組件的框圖;
[0009]圖3是描繪了在使各種類型的內(nèi)容可用于自然語(yǔ)言處理(NLP)任務(wù)時(shí)使用的各種組件的組件示圖;
[0010]圖4是對(duì)示出了用來(lái)使各種類型的內(nèi)容可用于自然語(yǔ)言處理(NLP)任務(wù)的邏輯的流程圖的描繪;
[0011]圖5是對(duì)示出了用來(lái)處理內(nèi)容的邏輯的流程圖的描繪;以及
[0012]圖6是對(duì)示出了執(zhí)行利用屏幕讀取器將文檔的分節(jié)轉(zhuǎn)換為適合于自然語(yǔ)言處理(NLP)任務(wù)的轉(zhuǎn)換的形式的過(guò)程的邏輯的流程圖的描繪。
【具體實(shí)施方式】
[0013]所屬技術(shù)領(lǐng)域的技術(shù)人員知道,本發(fā)明的各個(gè)方面可以實(shí)現(xiàn)為系統(tǒng)、方法或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明的各個(gè)方面可以具體實(shí)現(xiàn)為以下形式,即:完全的硬件實(shí)施方式、完全的軟件實(shí)施方式(包括固件、駐留軟件、微代碼等),或硬件和軟件方面結(jié)合的實(shí)施方式,這里可以統(tǒng)稱為“電路”、“模塊”或“系統(tǒng)”。此外,在一些實(shí)施例中,本發(fā)明的各個(gè)方面還可以實(shí)現(xiàn)為在一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)中的計(jì)算機(jī)程序產(chǎn)品的形式,該計(jì)算機(jī)可讀介質(zhì)中包含計(jì)算機(jī)可讀的程序代碼。
[0014]可以采用一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)的任意組合。計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀信號(hào)介質(zhì)或者計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可以是一一但不限于一一電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個(gè)或多個(gè)導(dǎo)線的電連接、便攜式計(jì)算機(jī)盤(pán)、硬盤(pán)、隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、可擦式可編程只讀存儲(chǔ)器(EPR0M或閃存)、光纖、便攜式緊湊盤(pán)只讀存儲(chǔ)器(CD-ROM)、光存儲(chǔ)器件、磁存儲(chǔ)器件、或者上述的任意合適的組合。在本文件中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是任何包含或存儲(chǔ)程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。
[0015]計(jì)算機(jī)可讀的信號(hào)介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號(hào),其中承載了計(jì)算機(jī)可讀的程序代碼。這種傳播的數(shù)據(jù)信號(hào)可以采用多種形式,包括一一但不限于一一電磁信號(hào)、光信號(hào)或上述的任意合適的組合。計(jì)算機(jī)可讀的信號(hào)介質(zhì)還可以是計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)以外的任何計(jì)算機(jī)可讀介質(zhì),該計(jì)算機(jī)可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。
[0016]計(jì)算機(jī)可讀介質(zhì)上包含的程序代碼可以用任何適當(dāng)?shù)慕橘|(zhì)傳輸,包括一一但不限于一一無(wú)線、有線、光纜、RF等等,或者上述的任意合適的組合。
[0017]可以以一種或多種程序設(shè)計(jì)語(yǔ)言的任意組合來(lái)編寫(xiě)用于執(zhí)行本發(fā)明操作的計(jì)算機(jī)程序代碼,所述程序設(shè)計(jì)語(yǔ)言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語(yǔ)言一諸如Java、Smalltalk、C++等,還包括常規(guī)的過(guò)程式程序設(shè)計(jì)語(yǔ)言一諸如“C”語(yǔ)言或類似的程序設(shè)計(jì)語(yǔ)言。程序代碼可以完全地在用戶計(jì)算機(jī)上執(zhí)行、部分地在用戶計(jì)算機(jī)上執(zhí)行、作為一個(gè)獨(dú)立的軟件包執(zhí)行、部分在用戶計(jì)算機(jī)上部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算機(jī),服務(wù)器或服務(wù)器集群上執(zhí)行。在涉及遠(yuǎn)程計(jì)算機(jī)的情形中,遠(yuǎn)程計(jì)算機(jī)可以通過(guò)任意種類的網(wǎng)絡(luò)一一包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN)—連接到用戶計(jì)算機(jī),或者,可以連接到外部計(jì)算機(jī)(例如利用因特網(wǎng)服務(wù)提供商來(lái)通過(guò)因特網(wǎng)連接)。
[0018]下面將參照根據(jù)本發(fā)明實(shí)施例的方法、裝置(系統(tǒng))和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或框圖描述本發(fā)明。應(yīng)當(dāng)理解,流程圖和/或框圖的每個(gè)方框以及流程圖和/或框圖中各方框的組合,都可以由計(jì)算機(jī)程序指令實(shí)現(xiàn)。這些計(jì)算機(jī)程序指令可以提供給通用計(jì)算機(jī)、專用計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置的處理器,從而生產(chǎn)出一種機(jī)器,使得這些計(jì)算機(jī)程序指令在通過(guò)計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置的處理器執(zhí)行時(shí),產(chǎn)生了實(shí)現(xiàn)流程圖和/或框圖中的一個(gè)或多個(gè)方框中規(guī)定的功能/動(dòng)作的裝置。
[0019]也可以把這些計(jì)算機(jī)程序指令存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中,這些指令使得計(jì)算機(jī)、其它可編程數(shù)據(jù)處理裝置、或其他設(shè)備以特定方式工作,從而,存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中的指令就產(chǎn)生出包括實(shí)現(xiàn)流程圖和/或框圖中的一個(gè)或多個(gè)方框中規(guī)定的功能/動(dòng)作的指令的制造品(article of manufacture)。
[0020]也可以把這些計(jì)算機(jī)程序指令加載到計(jì)算機(jī)、其他可編程數(shù)據(jù)處理裝置或者其他設(shè)備上以使得在該計(jì)算機(jī)、其他可編程裝置或者其他設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)可實(shí)施過(guò)程,從而使得在計(jì)算機(jī)或者其他可編程裝置上執(zhí)行的指令提供用于實(shí)施流程圖和/或框圖中的一個(gè)或多個(gè)方框中規(guī)定的功能/動(dòng)作的過(guò)程。
[0021]圖1描繪了計(jì)算機(jī)網(wǎng)絡(luò)102中的問(wèn)題/回答創(chuàng)建(QA)系統(tǒng)100的一個(gè)例示性實(shí)施例的示意圖。知識(shí)管理器100可以包括連接到計(jì)算機(jī)網(wǎng)絡(luò)102的計(jì)算設(shè)備104(包括一個(gè)或者多個(gè)處理器和一個(gè)或者多個(gè)存儲(chǔ)器,并且潛在地包括在本領(lǐng)域中眾所周知的任何其他計(jì)算設(shè)備元件,包括總線、存儲(chǔ)設(shè)備、通信接口等)。網(wǎng)絡(luò)102可以包括經(jīng)由一個(gè)或者多個(gè)有線和/或無(wú)線數(shù)據(jù)通信鏈路相互通信或者與其他設(shè)
當(dāng)前第1頁(yè)1 2 3 4 5 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1