亚洲狠狠干,亚洲国产福利精品一区二区,国产八区,激情文学亚洲色图

一種基于翻譯文件的大數(shù)據(jù)實(shí)時(shí)存儲(chǔ)方法

文檔序號(hào):9489461閱讀:440來(lái)源:國(guó)知局
一種基于翻譯文件的大數(shù)據(jù)實(shí)時(shí)存儲(chǔ)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及存儲(chǔ)方法領(lǐng)域,具體地,涉及一種基于翻譯文件的大數(shù)據(jù)實(shí)時(shí)存儲(chǔ)方法。
【背景技術(shù)】
[0002]隨著科技技術(shù)的不斷進(jìn)步,國(guó)際交流越來(lái)越頻繁,世界經(jīng)濟(jì)的越來(lái)越開(kāi)放,全球化越來(lái)越深入,各種語(yǔ)言文件材料之間的翻譯也越來(lái)越多,尤其是英、漢之間。翻譯文件涉及到生活的方方面面:貿(mào)易、法律、電子、通訊、計(jì)算機(jī)、機(jī)械、化工、石油、醫(yī)藥、食品等各個(gè)領(lǐng)域。
[0003]翻譯屬于服務(wù)業(yè),服務(wù)業(yè)要始終以客戶為導(dǎo)向。在翻譯量越來(lái)越大、文件字?jǐn)?shù)越來(lái)越多的今天,怎樣提高翻譯速度,滿足客戶的需求十分重要。CAT技術(shù)的流行使得翻譯速度大大提高。為了進(jìn)一步的提高翻譯速度,將已翻譯完成的數(shù)據(jù)分段分句制作成對(duì)齊語(yǔ)料,以便于翻譯過(guò)程中對(duì)已有重復(fù)的翻譯語(yǔ)句的直接調(diào)用。在翻譯過(guò)程中,對(duì)齊語(yǔ)料愈來(lái)愈多,怎樣實(shí)現(xiàn)對(duì)對(duì)齊語(yǔ)料的存儲(chǔ),便于后續(xù)調(diào)用,顯得十分重要?,F(xiàn)有的翻譯文件存儲(chǔ)方式,其直接將數(shù)據(jù)存儲(chǔ)在存儲(chǔ)器內(nèi),在調(diào)用時(shí),直接對(duì)存儲(chǔ)器內(nèi)的數(shù)據(jù)進(jìn)行搜索調(diào)用。但是,直接將數(shù)據(jù)存儲(chǔ)在存儲(chǔ)器內(nèi),存儲(chǔ)速度低;依次對(duì)硬盤數(shù)據(jù)進(jìn)行搜索直至搜索到相同的內(nèi)容再調(diào)用,其效率非常低。

【發(fā)明內(nèi)容】

[0004]本發(fā)明為了解決上述技術(shù)問(wèn)題提供一種基于翻譯文件的大數(shù)據(jù)實(shí)時(shí)存儲(chǔ)方法,其不僅存儲(chǔ)速度快,且調(diào)用效率高。
[0005]本發(fā)明解決上述問(wèn)題所采用的技術(shù)方案是:
一種基于翻譯文件的大數(shù)據(jù)實(shí)時(shí)存儲(chǔ)方法,包括:
A、獲取對(duì)齊語(yǔ)料數(shù)據(jù);
B、為對(duì)齊語(yǔ)料數(shù)據(jù)建立數(shù)據(jù)庫(kù)索引;
C、根據(jù)數(shù)據(jù)庫(kù)索引對(duì)對(duì)齊語(yǔ)料數(shù)據(jù)進(jìn)行分布式存儲(chǔ)。
[0006]在不斷的翻譯過(guò)程中,翻譯累計(jì)字?jǐn)?shù)越來(lái)越多,將翻譯文本轉(zhuǎn)換為對(duì)齊語(yǔ)料進(jìn)行存儲(chǔ),以便于后續(xù)調(diào)用。本發(fā)明將進(jìn)入到系統(tǒng)的對(duì)齊語(yǔ)料數(shù)據(jù)利用索引進(jìn)行分布式存儲(chǔ),其不僅存儲(chǔ)速度快,且在對(duì)對(duì)齊語(yǔ)料數(shù)據(jù)進(jìn)行調(diào)用時(shí),協(xié)同提供服務(wù),提高數(shù)據(jù)調(diào)用速度,解決了大數(shù)據(jù)高并發(fā)下的數(shù)據(jù)存儲(chǔ)。
[0007]作為優(yōu)選,在步驟C中,數(shù)據(jù)在存儲(chǔ)時(shí),運(yùn)用多線程并發(fā)處理機(jī)制將該對(duì)齊語(yǔ)料數(shù)據(jù)同時(shí)存儲(chǔ)在不同的存儲(chǔ)設(shè)備。在對(duì)對(duì)齊語(yǔ)料數(shù)據(jù)進(jìn)行存儲(chǔ)時(shí),采用多線程并發(fā)處理方式,使對(duì)齊語(yǔ)料數(shù)據(jù)幾乎同時(shí)存儲(chǔ)在多臺(tái)存儲(chǔ)設(shè)備上,直接提高存儲(chǔ)速度。
[0008]進(jìn)一步的,所述的數(shù)據(jù)庫(kù)索引的數(shù)據(jù)結(jié)構(gòu)采用mongodb。mongodb是一個(gè)基于分布式文件存儲(chǔ)的數(shù)據(jù)庫(kù),為WEB應(yīng)用提供可擴(kuò)展的高性能數(shù)據(jù)存儲(chǔ)解決方案。
[0009]進(jìn)一步的,步驟B具體為:選擇開(kāi)源分布式數(shù)據(jù)庫(kù)作為存儲(chǔ)層,數(shù)據(jù)庫(kù)索引的模式為:首先由用戶層提交數(shù)據(jù)到Service服務(wù)層,服務(wù)層拿到數(shù)據(jù)后調(diào)用寫數(shù)據(jù)到存儲(chǔ)介質(zhì),存儲(chǔ)同時(shí)分析存儲(chǔ)數(shù)據(jù),將分析后的數(shù)據(jù)實(shí)時(shí)更新到數(shù)據(jù)緩存索引,這樣即使有新的數(shù)據(jù)源,也能夠及時(shí)檢索到最新數(shù)據(jù),便于及時(shí)調(diào)用,采用分布式的方案大大提交了數(shù)據(jù)檢索效會(huì)泛。
[0010]作為優(yōu)選,為了進(jìn)一步的增強(qiáng)對(duì)數(shù)據(jù)調(diào)用的速度,在步驟B中,對(duì)數(shù)據(jù)庫(kù)索引中的索引進(jìn)行分類,并建立若干索引起始點(diǎn),利用索引起始點(diǎn)對(duì)各類索引進(jìn)行分類存儲(chǔ)。對(duì)數(shù)據(jù)庫(kù)索引進(jìn)行分類,在對(duì)數(shù)據(jù)進(jìn)行調(diào)用時(shí),直接查找分類相對(duì)應(yīng)的區(qū)域,可進(jìn)一步的縮短查找時(shí)間,提高數(shù)據(jù)調(diào)用速度。
[0011]綜上,本發(fā)明的有益效果是:
本發(fā)明將進(jìn)入到系統(tǒng)的對(duì)齊語(yǔ)料數(shù)據(jù)利用索引進(jìn)行分布式存儲(chǔ),其不僅存儲(chǔ)速度快,且在對(duì)對(duì)齊語(yǔ)料數(shù)據(jù)進(jìn)行調(diào)用時(shí),協(xié)同提供服務(wù),提高數(shù)據(jù)調(diào)用速度,解決了大數(shù)據(jù)高并發(fā)下的數(shù)據(jù)存儲(chǔ)。
【具體實(shí)施方式】
[0012]下面結(jié)合實(shí)施例,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
實(shí)施例
[0013]—種基于翻譯文件的大數(shù)據(jù)實(shí)時(shí)存儲(chǔ)方法,包括:
A、獲取對(duì)齊語(yǔ)料數(shù)據(jù);
B、為對(duì)齊語(yǔ)料數(shù)據(jù)建立數(shù)據(jù)庫(kù)索引;
C、根據(jù)數(shù)據(jù)庫(kù)索引對(duì)對(duì)齊語(yǔ)料數(shù)據(jù)進(jìn)行分布式存儲(chǔ)。
[0014]譬如:系統(tǒng)收到一組對(duì)齊語(yǔ)料數(shù)據(jù),此數(shù)據(jù)通過(guò)前端頁(yè)面將數(shù)據(jù)提交到后端的索引服務(wù)器,索引服務(wù)器收到該數(shù)據(jù)后,調(diào)用多個(gè)的寫入數(shù)據(jù)接口,啟用多線程處理方式,將數(shù)據(jù)寫入不同的存儲(chǔ)機(jī)。采用該方式,可保證數(shù)據(jù)完整性,數(shù)據(jù)順序?qū)懭胄阅芷骄蛇_(dá)7w/s,數(shù)據(jù)隨機(jī)讀取性能平均可達(dá)1.6w/s,并發(fā)讀寫1:10讀時(shí)可達(dá)5K/s,寫時(shí)可達(dá)5W/s。
實(shí)施例
[0015]在上述一種基于翻譯文件的大數(shù)據(jù)實(shí)時(shí)存儲(chǔ)方法的基礎(chǔ)上,本實(shí)施例做了優(yōu)化,即在步驟C中,數(shù)據(jù)在存儲(chǔ)時(shí),運(yùn)用多線程并發(fā)處理機(jī)制將該對(duì)齊語(yǔ)料數(shù)據(jù)同時(shí)存儲(chǔ)在不同的存儲(chǔ)設(shè)備。
[0016]所述的數(shù)據(jù)庫(kù)索引的數(shù)據(jù)結(jié)構(gòu)采用mongodb。采用mongodb的結(jié)構(gòu),相比與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù),mongodb的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)沒(méi)有復(fù)雜的關(guān)系。比如可以在MongoDB記錄中設(shè)置任何屬性的索引(如:FirstName=〃Sameer〃, Address=〃8 Gandhi Road〃)來(lái)實(shí)現(xiàn)更快的排序。如果需要更多的存儲(chǔ)空間和更強(qiáng)的處理能力,即負(fù)載的增加,它可以分布在計(jì)算機(jī)網(wǎng)絡(luò)中的其他節(jié)點(diǎn)上,即所謂的分片,其能夠適應(yīng)大數(shù)據(jù)下更加靈活的數(shù)據(jù)管理方式。
[0017]步驟B具體為:選擇開(kāi)源分布式數(shù)據(jù)庫(kù)作為存儲(chǔ)層,數(shù)據(jù)庫(kù)索引的模式為:首先由用戶層提交數(shù)據(jù)到Service服務(wù)層,服務(wù)層拿到數(shù)據(jù)后調(diào)用寫數(shù)據(jù)到存儲(chǔ)介質(zhì),存儲(chǔ)同時(shí)分析存儲(chǔ)數(shù)據(jù),將分析后的數(shù)據(jù)實(shí)時(shí)更新到數(shù)據(jù)緩存索引,這樣即使有新的數(shù)據(jù)源,也能夠及時(shí)檢索到最新數(shù)據(jù),便于及時(shí)調(diào)用,采用分布式的方案大大提交了數(shù)據(jù)檢索效能。
[0018]在步驟B中,對(duì)數(shù)據(jù)庫(kù)索引中的索引進(jìn)行分類,并建立若干索引起始點(diǎn),利用索引起始點(diǎn)對(duì)各類索引進(jìn)行分類存儲(chǔ)。將索引進(jìn)行分類,譬如,建筑類、生活類、物理類、化學(xué)類、計(jì)算機(jī)類、旅游類等,在對(duì)對(duì)齊語(yǔ)料數(shù)據(jù)進(jìn)行調(diào)用時(shí),直接按分類對(duì)索引進(jìn)行查找,縮短查找時(shí)間。
[0019]如上所述,可較好的實(shí)現(xiàn)本發(fā)明。
【主權(quán)項(xiàng)】
1.一種基于翻譯文件的大數(shù)據(jù)實(shí)時(shí)存儲(chǔ)方法,其特征在于,包括: A、獲取對(duì)齊語(yǔ)料數(shù)據(jù); B、為對(duì)齊語(yǔ)料數(shù)據(jù)建立數(shù)據(jù)庫(kù)索引; C、根據(jù)數(shù)據(jù)庫(kù)索引對(duì)對(duì)齊語(yǔ)料數(shù)據(jù)進(jìn)行分布式存儲(chǔ)。2.根據(jù)權(quán)利要求1所述的一種基于翻譯文件的大數(shù)據(jù)實(shí)時(shí)存儲(chǔ)方法,其特征在于:在步驟C中,對(duì)齊語(yǔ)料數(shù)據(jù)在存儲(chǔ)時(shí),運(yùn)用多線程并發(fā)處理機(jī)制將該對(duì)齊語(yǔ)料數(shù)據(jù)同時(shí)存儲(chǔ)在不同的存儲(chǔ)設(shè)備。3.根據(jù)權(quán)利要求2所述的一種基于翻譯文件的大數(shù)據(jù)實(shí)時(shí)存儲(chǔ)方法,其特征在于:所述的數(shù)據(jù)庫(kù)索引的數(shù)據(jù)結(jié)構(gòu)采用mongodb。4.根據(jù)權(quán)利要求1所述的一種基于翻譯文件的大數(shù)據(jù)實(shí)時(shí)存儲(chǔ)方法,其特征在于:步驟B具體為:選擇開(kāi)源分布式數(shù)據(jù)庫(kù)作為存儲(chǔ)層,數(shù)據(jù)庫(kù)索引的模式為:首先由用戶層提交數(shù)據(jù)到Service服務(wù)層,服務(wù)層拿到數(shù)據(jù)后調(diào)用寫數(shù)據(jù)到存儲(chǔ)介質(zhì),存儲(chǔ)同時(shí)分析存儲(chǔ)數(shù)據(jù),將分析后的數(shù)據(jù)實(shí)時(shí)更新到數(shù)據(jù)緩存索引。5.根據(jù)權(quán)利要求1所述的一種基于翻譯文件的大數(shù)據(jù)實(shí)時(shí)存儲(chǔ)方法,其特征在于:在步驟B中,對(duì)數(shù)據(jù)庫(kù)索引中的索引進(jìn)行分類,并建立若干索弓I起始點(diǎn),利用索引起始點(diǎn)對(duì)各類索引進(jìn)行分類存儲(chǔ)。
【專利摘要】本發(fā)明公開(kāi)了一種基于翻譯文件的大數(shù)據(jù)實(shí)時(shí)存儲(chǔ)方法,包括:獲取對(duì)齊語(yǔ)料數(shù)據(jù);為對(duì)齊語(yǔ)料數(shù)據(jù)建立數(shù)據(jù)庫(kù)索引;根據(jù)數(shù)據(jù)庫(kù)索引對(duì)對(duì)齊語(yǔ)料數(shù)據(jù)進(jìn)行分布式存儲(chǔ)。其不僅存儲(chǔ)速度快,且調(diào)用效率高。
【IPC分類】G06F17/30
【公開(kāi)號(hào)】CN105243099
【申請(qǐng)?zhí)枴緾N201510592464
【發(fā)明人】王榆升, 張馬成, 王興強(qiáng)
【申請(qǐng)人】成都優(yōu)譯信息技術(shù)有限公司
【公開(kāi)日】2016年1月13日
【申請(qǐng)日】2015年9月17日
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1