一種處理信息物料文件的方法和裝置制造方法
【專利摘要】本發(fā)明公開了一種處理信息物料文件的方法和裝置,所述方法包括以下步驟:接收信息物料文件;分析所述信息物料文件的編碼和結(jié)構(gòu);根據(jù)所述編碼和結(jié)構(gòu),按照預先定義的文件大小閾值,將所述信息物料文件拆分為不同歸類的多個子信息物料文件;以及將所述多個子信息物料文件按照其歸類分別處理到不同的數(shù)據(jù)庫表中。
【專利說明】一種處理信息物料文件的方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息處理【技術(shù)領(lǐng)域】,尤其涉及一種處理信息物料文件的方法和裝置。
【背景技術(shù)】
[0002]在搜索引擎系統(tǒng)中,需要將所需數(shù)據(jù)按照固定的結(jié)構(gòu)存儲在文件中,然后從準備好的文件中讀取數(shù)據(jù),并且按照歸類來分別調(diào)用不同的業(yè)務存儲于相應的數(shù)據(jù)表中。在現(xiàn)有技術(shù)中,一般是從準備好的固定格式的文件中逐行讀取內(nèi)容,進行分析,然后將結(jié)果分別存儲于相應的數(shù)據(jù)表中。
[0003]然而,由于搜索物料(例如搜索廣告)的投放需求非常大,搜索物料添加通過逐個新建,或者通過將數(shù)據(jù)存儲于文件中后逐行處理效率低下。例如,假設(shè)上傳文件總量為n,上傳文件的個數(shù)為g,拆分文件時間為s,處理時間為h,合并輸出時間為m,處理進程的個數(shù)為P,則上傳完用戶信息物料所花費的時間為:n*g* (h+m+s) *p,所花費時間過長,效率低下。
【發(fā)明內(nèi)容】
[0004]鑒于上述問題,提出了本發(fā)明,以便提供一種克服上述問題或者至少部分地解決上述問題的處理信息物料文件的方法和裝置。
[0005]依據(jù)本發(fā)明的第一方面,提供了一種處理信息物料文件的方法,包括步驟:接收信息物料文件;分析所述信息物料文件的編碼和結(jié)構(gòu);根據(jù)所述編碼和結(jié)構(gòu),按照預先定義的文件大小閾值,將所述信息物料文件拆分為不同歸類的多個子信息物料文件;以及將所述多個子信息物料文件按照其歸類分別處理到不同的數(shù)據(jù)庫表中。
[0006]可選地,在根據(jù)本發(fā)明的實施例的處理信息物料文件的方法中,在所述將所述多個子信息物料文件按照其歸類分別處理到不同的數(shù)據(jù)庫表中的步驟之后,還包括步驟:搜集在所述方法各步驟操作中出現(xiàn)的錯誤;將所述錯誤合并為錯誤報告;以及將所述錯誤報告分發(fā)到前端服務器,以反饋給用戶。
[0007]可選地,在根據(jù)本發(fā)明的實施例的處理信息物料文件的方法中,在一個或多個前端服務器中接收信息物料文件;并且在一個或多個后端服務器中,分析所述信息物料文件的編碼和結(jié)構(gòu),根據(jù)所述編碼和結(jié)構(gòu)、按照預先定義的文件大小閾值、將所述信息物料文件拆分為不同歸類的多個子信息物料文件,并將所述多個子信息物料文件按照其歸類分別處理到不同的數(shù)據(jù)庫表中。
[0008]可選地,在根據(jù)本發(fā)明的實施例的處理信息物料文件的方法中,所述信息物料文件包括搜索廣告物料文件和/或展示廣告物料文件,所述搜索廣告物料文件包括以下各項中的至少一項:搜索廣告的文本信息、鏈接地址、圖片、多媒體內(nèi)容,所述展示廣告物料文件包括以下各項中的至少一項:展示廣告的文本信息、鏈接地址、圖片、多媒體內(nèi)容。
[0009]可選地,在根據(jù)本發(fā)明的實施例的處理信息物料文件的方法中,所述歸類包括以下至少之一:所述信息的關(guān)鍵詞、否定關(guān)鍵詞、創(chuàng)意。
[0010]可選地,在根據(jù)本發(fā)明的實施例的處理信息物料文件的方法中,還包括步驟:在所述接收信息物料文件的步驟之后,將所述信息物料文件拉取到所述后端服務器的網(wǎng)絡文件系統(tǒng)中;以及在所述將所述信息物料文件拆分為不同歸類的多個子信息物料文件的步驟之后,將所述多個子信息物料文件拉取到所述后端服務器的網(wǎng)絡文件系統(tǒng)中。
[0011]依據(jù)本發(fā)明的第二方面,提供了一種處理信息物料文件的裝置,包括:接收模塊,用于接收信息物料文件;分析模塊,用于分析所述信息物料文件的編碼和結(jié)構(gòu);拆分模塊,用于根據(jù)所述編碼和結(jié)構(gòu),按照預先定義的文件大小閾值,將所述信息物料文件拆分為不同歸類的多個子信息物料文件;以及處理模塊,用于將所述多個子信息物料文件按照其歸類分別處理到不同的數(shù)據(jù)庫表中。
[0012]可選地,在根據(jù)本發(fā)明的實施例的處理信息物料文件的裝置中,還包括錯誤合并模塊,用于:搜集在所述各模塊操作中出現(xiàn)的錯誤;將所述錯誤合并為錯誤報告;以及將所述錯誤報告分發(fā)到前端服務器,以反饋給用戶。
[0013]可選地,在根據(jù)本發(fā)明的實施例的處理信息物料文件的裝置中,所述接收模塊在一個或多個前端服務器中接收信息物料文件;并且所述分析模塊在一個或多個后端服務器中分析所述信息物料文件的編碼和結(jié)構(gòu),所述拆分模塊在一個或多個后端服務器中根據(jù)所述編碼和結(jié)構(gòu)、按照預先定義的文件大小閾值、將所述信息物料文件拆分為不同歸類的多個子信息物料文件,所述處理模塊在一個或多個后端服務器中將所述多個子信息物料文件按照其歸類分別處理到不同的數(shù)據(jù)庫表中。
[0014]可選地,在根據(jù)本發(fā)明的實施例的處理信息物料文件的裝置中,所述信息物料文件包括搜索廣告物料文件和/或展示廣告物料文件,所述搜索廣告物料文件包括以下各項中的至少一項:搜索廣告的文本信息、鏈接地址、圖片、多媒體內(nèi)容,所述展示廣告物料文件包括以下各項中的至少一項:展示廣告的文本信息、鏈接地址、圖片、多媒體內(nèi)容。
[0015]可選地,在根據(jù)本發(fā)明的實施例的處理信息物料文件的裝置中,所述歸類包括以下至少之一:所述信息的關(guān)鍵詞、否定關(guān)鍵詞、創(chuàng)意。
[0016]可選地,在根據(jù)本發(fā)明的實施例的處理信息物料文件的裝置中,還包括拉取模塊,用于:在所述接收模塊接收信息物料文件之后,將所述信息物料文件拉取到所述后端服務器的網(wǎng)絡文件系統(tǒng)中;并且在所述拆分模塊將所述信息物料文件拆分為不同歸類的多個子信息物料文件之后,將所述多個子信息物料文件拉取到所述后端服務器的網(wǎng)絡文件系統(tǒng)中。
[0017]本發(fā)明提供了上述處理信息物料文件的方法和裝置。根據(jù)本發(fā)明的實施例,可以接收信息物料文件,分析所述信息物料文件的編碼和結(jié)構(gòu),根據(jù)所述編碼和結(jié)構(gòu),按照預先定義的文件大小閾值,將所述信息物料文件拆分為不同歸類的多個子信息物料文件,并且將所述多個子信息物料文件按照其歸類分別處理到不同的數(shù)據(jù)庫表中。由此,改進了現(xiàn)有技術(shù)中通過頁面增加信息物料或者文件逐行讀取處理的方式,通過信息物料批量上傳提高了用戶增加信息物料的速度,并且提升了廣告服務提供商操作的效率,提高了傳輸吞吐量,并且均衡了負載。根據(jù)本發(fā)明的信息物料批量上傳方案通過分析、拆分、處理等操作大大壓縮了處理時間,仍舉【背景技術(shù)】部分的例子,假設(shè)上傳文件總量為n,上傳文件的個數(shù)為g,拆分文件時間為s,處理時間為h,合并輸出時間為m,處理進程的個數(shù)為p,則上傳完用戶信息物料所花費的時間為s+g/p*h+m,相對于現(xiàn)有技術(shù)方案極大地提高了工作效率。
[0018]上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的【具體實施方式】。
【專利附圖】
【附圖說明】
[0019]通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0020]圖1是根據(jù)本發(fā)明的實施例的處理信息物料文件的方法的流程圖;
[0021]圖2是根據(jù)本發(fā)明的實施例的處理信息物料文件的裝置的結(jié)構(gòu)示意圖;以及
[0022]圖3是根據(jù)本發(fā)明的一個實施例的用戶提交的信息物料文件的示例。
【具體實施方式】
[0023]下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現(xiàn)本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領(lǐng)域的技術(shù)人員。
[0024]根據(jù)本發(fā)明的第一方面,提供了一種處理信息物料文件的方法。圖1示出了根據(jù)本發(fā)明的實施例的處理信息物料文件的方法100的流程圖。
[0025]如圖1所示,所述方法100始于步驟SI 10,在步驟SllO中,接收信息物料文件。
[0026]根據(jù)本發(fā)明的實施例,所述信息物料文件例如可以包括搜索廣告物料文件和/或展示廣告物料文件。其中,所述搜索廣告物料文件可以包括以下各項中的至少一項:搜索廣告的文本信息、鏈接地址、圖片、多媒體內(nèi)容;而所述展示廣告物料文件可以包括以下各項中的至少一項:展示廣告的文本信息、鏈接地址、圖片、多媒體內(nèi)容(即,欲在展示廣告中展示的廣告)。
[0027]對于搜索廣告物料文件,其可以是由欲在搜索引擎中根據(jù)消費者的搜索詞來向消費者投放搜索廣告的用戶上傳的搜索廣告的搜索廣告物料文件,即,在步驟SllO中,接收用戶上傳的其欲在搜索引擎中投放的搜索廣告的搜索廣告物料文件。在一種實施例中,在步驟SllO中,可以在一個或多個前端服務器中接收搜索廣告物料文件,即,用戶將搜索廣告物料文件上傳到所述一個或多個前端服務器。在一種替代實施例中,搜索廣告物料文件還可以是由廣告服務提供商在其服務器中維護的,例如由用戶先前上傳或者通過其它方式發(fā)送到廣告服務提供商服務器的搜索廣告物料文件、或者來自其它來源的搜索廣告物料文件。
[0028]根據(jù)本發(fā)明的實施例,所述搜索廣告可以至少包括以下幾種類型:(1)搜索文本廣告,即,文字鏈接廣告,其包括文本信息和鏈接;(2)商品廣告,即,與商品相關(guān)的廣告;
(3)搜索結(jié)果頁中展示的搜索廣告下一級的相關(guān)關(guān)鍵字鏈接廣告,例如,其可以在搜索廣告下方展示,可以包括一條或多條關(guān)鍵字鏈接廣告,所展示的關(guān)鍵字鏈接廣告與搜索廣告本身相關(guān);(4)搜索結(jié)果頁中以圖片形式展示的、與搜索詞相關(guān)的鏈接廣告,例如,其可以在搜索廣告右側(cè)以圖片形式進行展示,可以包括一幅或多幅圖片鏈接廣告;(5)展示文本廣告,即根據(jù)由消費者的瀏覽和搜索歷史分析得到的消費者的消費興趣、而投放在不同頻道中的文本類型的展示廣告。
[0029]而對于展示廣告物料文件,其可以是由欲根據(jù)消費者的瀏覽歷史向消費者投放展示廣告的用戶上傳的展示廣告的展示廣告物料文件,即,在步驟SllO中,接收用戶上傳的其欲投放的展示廣告的展示廣告物料文件。在一種實施例中,在步驟SllO中,可以在一個或多個前端服務器中接收展示廣告物料文件,即,用戶將展示廣告物料文件上傳到所述一個或多個前端服務器。所述前端服務器例如是廣告服務提供商設(shè)置于前端、用于與用戶通信的一個或多個服務器。在一種替代實施例中,展示廣告物料文件還可以是由廣告服務提供商在其服務器中維護的,例如由用戶先前上傳或者通過其它方式發(fā)送到廣告服務提供商服務器的展示廣告物料文件、或者來自其它來源的展示廣告物料文件。
[0030]在步驟SllO之后,可選地,可以執(zhí)行以下可選步驟:將所述信息物料文件拉取到后端服務器的網(wǎng)絡文件系統(tǒng)中。所述后端服務器例如是廣告服務提供商設(shè)置于后端、用于進行數(shù)據(jù)存儲和處理的一個或多個服務器。
[0031]接下來,可以執(zhí)行步驟S120,其中,分析所述信息物料文件的編碼和結(jié)構(gòu)。根據(jù)本發(fā)明的實施例,所述信息物料文件的編碼可以是文件中的文字編碼,例如可以包括UTF-8和GBK等等;而所述信息物料文件的結(jié)構(gòu)可以是文件的物理結(jié)構(gòu),例如可以包括順序結(jié)構(gòu)、鏈接結(jié)構(gòu)、索引結(jié)構(gòu)等等。
[0032]在步驟S120之后,執(zhí)行步驟S130,其中,根據(jù)所述編碼和結(jié)構(gòu),按照預先定義的文件大小閾值,將所述信息物料文件拆分為不同歸類的多個子信息物料文件。按照文件大小閾值拆分所述信息物料文件的目的是提高文件處理的速度,該閾值可以根據(jù)處理能力和數(shù)據(jù)量的實際情況進行選擇。例如,拆分后的各子信息物料文件可以大小相同,且均小于或等于所述文件大小閾值,其中,每個子信息物料文件均屬于不同的歸類。
[0033]根據(jù)本發(fā)明的實施例,所述歸類可以包括以下至少之一:所述信息的關(guān)鍵詞、否定關(guān)鍵詞、創(chuàng)意。以所述信息是搜索廣告為例,所述歸類可以包括以下至少之一:搜索廣告的關(guān)鍵詞,用戶期望消費者利用搜索引擎搜索該關(guān)鍵詞時,在搜索結(jié)果中展現(xiàn)其搜索廣告;搜索廣告的否定關(guān)鍵詞,用戶期望消費者利用搜索引擎搜索該否定關(guān)鍵詞時,在搜索結(jié)果中不要展現(xiàn)其搜索廣告;搜索廣告的創(chuàng)意,即用戶期望消費者在其搜索廣告中直接看到的內(nèi)容,對于上述(I)、(2)、(3)、(4)、(5)不同類型的搜索廣告,可以有不同形式的創(chuàng)意,例如文字創(chuàng)意、圖片創(chuàng)意等等。
[0034]根據(jù)本發(fā)明的實施例,在步驟S130中,可以根據(jù)所述信息物料文件的編碼和結(jié)構(gòu),來確定信息物料文件的歸類,并按照預先定義的文件大小閾值,來將信息物料文件拆分為不同歸類的多個子信息物料文件。
[0035]可選地,所述方法100在步驟S130之后可以包括以下可選步驟:將所述多個子信息物料文件拉取到所述后端服務器的網(wǎng)絡文件系統(tǒng)中。
[0036]在步驟S130之后,可以執(zhí)行步驟S140,其中,將所述多個子信息物料文件按照其歸類分別處理到不同的數(shù)據(jù)庫表中。根據(jù)本發(fā)明的實施例,所述不同的數(shù)據(jù)庫表對應于不同的歸類,例如,對應于不同的關(guān)鍵詞、不同的否定關(guān)鍵詞、不同的創(chuàng)意,可以有多個不同的數(shù)據(jù)庫表,在步驟S140中,將所述不同歸類的多個子信息物料文件分別處理到對應的數(shù)據(jù)庫表中。
[0037]在一種實施例中,可以在一個或多個后端服務器中分析所述信息物料文件的編碼和結(jié)構(gòu),在一個或多個后端服務器中根據(jù)所述編碼和結(jié)構(gòu)、按照預先定義的文件大小閾值、將所述信息物料文件拆分為不同歸類的多個子信息物料文件,并在一個或多個后端服務器中將所述多個子信息物料文件按照其歸類分別處理到不同的數(shù)據(jù)庫表中。在使用多個后端服務器進行分析、拆分、處理的情況下,可以實現(xiàn)多機并行處理,可以進一步提高工作效率。
[0038]圖3示出了根據(jù)本發(fā)明的一個實施例的用戶提交的信息物料文件的示例。如圖3所示,不同ID的用戶所提交的信息物料文件可以包括關(guān)鍵詞、關(guān)鍵詞匹配模式、否定關(guān)鍵詞、創(chuàng)意標題、創(chuàng)意描述、創(chuàng)意狀態(tài)、鏈接地址等項目。本領(lǐng)域技術(shù)人員可以理解,圖3所示的信息物料文件僅為一種示例,本發(fā)明的范圍不限于此,根據(jù)本發(fā)明的實施例的信息物料文件可以包括更多或更少的項目。如上所述,圖3中所示的關(guān)鍵詞、否定關(guān)鍵詞、創(chuàng)意都屬于歸類。在步驟S130中,可以根據(jù)信息物料文件的編碼和結(jié)構(gòu),來確定信息物料文件的歸類,例如圖3中所示的關(guān)鍵詞(筆記本電池、無線鍵盤、網(wǎng)絡商城加盟、手機保護套、羽毛球拍)、否定關(guān)鍵詞(手機電池)、創(chuàng)意(以創(chuàng)意標題為例,“低價正品3折起”、“限時促銷”、“想免費開店!我要開店! 「僅針對企業(yè)用戶」”、“手機保護套,低價正品3折起”、“低價正品限時促銷”),并且按照預先定義的文件大小閾值,來將該信息物料文件拆分為不同歸類的多個子信息物料文件。舉例來說,可以將關(guān)鍵詞相同或相近的歸入同一個子信息物料文件,也可以將創(chuàng)意相同或相近的歸入同一個子信息物料文件。
[0039]在步驟S140之后,所述方法100還可以包括以下可選步驟:搜集在所述方法各步驟操作中出現(xiàn)的錯誤,將所述錯誤合并為錯誤報告,并且將所述錯誤報告分發(fā)到前端服務器,以反饋給用戶。用戶在接收到錯誤報告后,可以根據(jù)錯誤報告中記載的錯誤,修正其信息物料文件,并重新進行上傳。
[0040]根據(jù)本發(fā)明的第二方面,與上述方法100相對應,本發(fā)明還提供了一種處理信息物料文件的裝置200。圖2是根據(jù)本發(fā)明的實施例的處理信息物料文件的裝置200以及用戶終端300的結(jié)構(gòu)示意圖。
[0041]如圖2所示,所述裝置200主要包括接收模塊210、分析模塊220、拆分模塊230、處理模塊240。根據(jù)本發(fā)明的實施例,所述接收模塊210用于接收信息物料文件,所述分析模塊220用于分析所述信息物料文件的編碼和結(jié)構(gòu),所述拆分模塊230用于根據(jù)所述編碼和結(jié)構(gòu),按照預先定義的文件大小閾值,將所述信息物料文件拆分為不同歸類的多個子信息物料文件,所述處理模塊240用于將所述多個子信息物料文件按照其歸類分別處理到不同的數(shù)據(jù)庫表中。
[0042]首先,接收模塊210接收信息物料文件。根據(jù)本發(fā)明的實施例,所述信息物料文件例如可以包括搜索廣告物料文件和/或展示廣告物料文件。其中,所述搜索廣告物料文件可以包括以下各項中的至少一項:搜索廣告的文本信息、鏈接地址、圖片、多媒體內(nèi)容;而所述展示廣告物料文件可以包括以下各項中的至少一項:展示廣告的文本信息、鏈接地址、圖片、多媒體內(nèi)容(即,欲在展示廣告中展示的廣告)。
[0043]對于搜索廣告物料文件,其可以是由欲在搜索引擎中根據(jù)消費者的搜索詞來向消費者投放搜索廣告的用戶上傳的搜索廣告的搜索廣告物料文件,即,接收模塊210接收用戶上傳(例如,通過如圖2所示的用戶終端300)的其欲在搜索引擎中投放的搜索廣告的搜索廣告物料文件。在一種實施例中,接收模塊210可以在一個或多個前端服務器中接收搜索廣告物料文件,即,用戶(例如,通過如圖2所示的用戶終端300)將搜索廣告物料文件上傳到所述一個或多個前端服務器。在一種替代實施例中,搜索廣告物料文件還可以是由廣告服務提供商在其服務器中維護的(圖2中未示出),例如由用戶先前上傳或者通過其它方式發(fā)送到廣告服務提供商服務器的搜索廣告物料文件、或者來自其它來源的搜索廣告物料文件。
[0044]根據(jù)本發(fā)明的實施例,所述搜索廣告可以至少包括以下幾種類型:(1)搜索文本廣告,即,文字鏈接廣告,其包括文本信息和鏈接;(2)商品廣告,即,與商品相關(guān)的廣告;
(3)搜索結(jié)果頁中展示的搜索廣告下一級的相關(guān)關(guān)鍵字鏈接廣告,例如,其可以在搜索廣告下方展示,可以包括一條或多條關(guān)鍵字鏈接廣告,所展示的關(guān)鍵字鏈接廣告與搜索廣告本身相關(guān);(4)搜索結(jié)果頁中以圖片形式展示的、與搜索詞相關(guān)的鏈接廣告,例如,其可以在搜索廣告右側(cè)以圖片形式進行展示,可以包括一幅或多幅圖片鏈接廣告;(5)展示文本廣告,即根據(jù)由消費者的瀏覽和搜索歷史分析得到的消費者的消費興趣、而投放在不同頻道中的文本類型的展示廣告。
[0045]而對于展示廣告物料文件,其可以是由欲根據(jù)消費者的瀏覽歷史向消費者投放展示廣告的用戶上傳的展示廣告的展示廣告物料文件,即,接收模塊210接收用戶上傳(例如,通過如圖2所示的用戶終端300)的其欲投放的展示廣告的展示廣告物料文件。在一種實施例中,接收模塊210可以在一個或多個前端服務器中接收展示廣告物料文件,即,用戶(例如,通過如圖2所示的用戶終端300)將展示廣告物料文件上傳到所述一個或多個前端服務器。所述前端服務器例如是廣告服務提供商設(shè)置于前端、用于與用戶通信的一個或多個服務器。在一種替代實施例中,展示廣告物料文件還可以是由廣告服務提供商在其服務器中維護的(圖2中未示出),例如由用戶先前上傳或者通過其它方式發(fā)送到廣告服務提供商服務器的展示廣告物料文件、或者來自其它來源的展示廣告物料文件。
[0046]可選地,所述裝置200還可以包括可選的拉取模塊,其用于在所述接收模塊接收信息物料文件之后,將所述信息物料文件拉取到后端服務器的網(wǎng)絡文件系統(tǒng)中。所述后端服務器例如是廣告服務提供商設(shè)置于后端、用于進行數(shù)據(jù)存儲和處理的一個或多個服務器。
[0047]接下來,分析模塊220分析所述信息物料文件的編碼和結(jié)構(gòu)。根據(jù)本發(fā)明的實施例,所述信息物料文件的編碼可以是文件中的文字編碼,例如可以包括UTF-8和GBK等等;而所述信息物料文件的結(jié)構(gòu)可以是文件的物理結(jié)構(gòu),例如可以包括順序結(jié)構(gòu)、鏈接結(jié)構(gòu)、索引結(jié)構(gòu)等等。
[0048]隨后,拆分模塊230根據(jù)所述編碼和結(jié)構(gòu),按照預先定義的文件大小閾值,將所述信息物料文件拆分為不同歸類的多個子信息物料文件。拆分模塊230按照文件大小閾值拆分所述信息物料文件的目的是提高文件處理的速度,該閾值可以根據(jù)處理能力和數(shù)據(jù)量的實際情況進行選擇。例如,拆分后的各子信息物料文件可以大小相同,且均小于或等于所述文件大小閾值,其中,每個子信息物料文件均屬于不同的歸類。
[0049]根據(jù)本發(fā)明的實施例,所述歸類可以包括以下至少之一:所述信息的關(guān)鍵詞、否定關(guān)鍵詞、創(chuàng)意。以所述信息是搜索廣告為例,所述歸類可以包括以下至少之一:搜索廣告的關(guān)鍵詞,用戶期望消費者利用搜索引擎搜索該關(guān)鍵詞時,在搜索結(jié)果中展現(xiàn)其搜索廣告;搜索廣告的否定關(guān)鍵詞,用戶期望消費者利用搜索引擎搜索該否定關(guān)鍵詞時,在搜索結(jié)果中不要展現(xiàn)其搜索廣告;搜索廣告的創(chuàng)意,即用戶期望消費者在其搜索廣告中直接看到的內(nèi)容,對于上述(1)、(2)、(3)、(4)、(5)不同類型的搜索廣告,可以有不同形式的創(chuàng)意,例如文字創(chuàng)意、圖片創(chuàng)意等等。
[0050]根據(jù)本發(fā)明的實施例,拆分模塊230可以根據(jù)所述信息物料文件的編碼和結(jié)構(gòu),來確定信息物料文件的歸類,并按照預先定義的文件大小閾值,來將信息物料文件拆分為不同歸類的多個子信息物料文件。
[0051]可選地,可選的拉取模塊可以在所述拆分模塊230將所述信息物料文件拆分為不同歸類的多個子信息物料文件之后,將所述多個子信息物料文件拉取到所述后端服務器的網(wǎng)絡文件系統(tǒng)中。
[0052]之后,處理模塊240可以將所述多個子信息物料文件按照其歸類分別處理到不同的數(shù)據(jù)庫表中。根據(jù)本發(fā)明的實施例,所述不同的數(shù)據(jù)庫表對應于不同的歸類,例如,對應于不同的關(guān)鍵詞、不同的否定關(guān)鍵詞、不同的創(chuàng)意,可以有多個不同的數(shù)據(jù)庫表,處理模塊240可以將所述不同歸類的多個子信息物料文件分別處理到對應的數(shù)據(jù)庫表中。
[0053]在一種實施例中,分析模塊220可以在一個或多個后端服務器中分析所述信息物料文件的編碼和結(jié)構(gòu),隨后拆分模塊230可以在一個或多個后端服務器中根據(jù)所述編碼和結(jié)構(gòu)、按照預先定義的文件大小閾值、將所述信息物料文件拆分為不同歸類的多個子信息物料文件,最后處理模塊240可以在一個或多個后端服務器中將所述多個子信息物料文件按照其歸類分別處理到不同的數(shù)據(jù)庫表中。在使用多個后端服務器進行分析、拆分、處理的情況下,可以實現(xiàn)多機并行處理,可以進一步提高工作效率。
[0054]圖3示出了根據(jù)本發(fā)明的一個實施例的用戶提交的信息物料文件的示例。如圖3所示,不同ID的用戶所提交的信息物料文件可以包括關(guān)鍵詞、關(guān)鍵詞匹配模式、否定關(guān)鍵詞、創(chuàng)意標題、創(chuàng)意描述、創(chuàng)意狀態(tài)、鏈接地址等項目。本領(lǐng)域技術(shù)人員可以理解,圖3所示的信息物料文件僅為一種示例,本發(fā)明的范圍不限于此,根據(jù)本發(fā)明的實施例的信息物料文件可以包括更多或更少的項目。如上所述,圖3中所示的關(guān)鍵詞、否定關(guān)鍵詞、創(chuàng)意都屬于歸類。拆分模塊230可以根據(jù)信息物料文件的編碼和結(jié)構(gòu),來確定信息物料文件的歸類,例如圖3中所示的關(guān)鍵詞(筆記本電池、無線鍵盤、網(wǎng)絡商城加盟、手機保護套、羽毛球拍)、否定關(guān)鍵詞(手機電池)、創(chuàng)意(以創(chuàng)意標題為例,“低價正品3折起”、“限時促銷”、“想免費開店!我要開店! 「僅針對企業(yè)用戶」”、“手機保護套,低價正品3折起”、“低價正品限時促銷”),并且按照預先定義的文件大小閾值,來將該信息物料文件拆分為不同歸類的多個子信息物料文件。舉例來說,可以將關(guān)鍵詞相同或相近的歸入同一個子信息物料文件,也可以將創(chuàng)意相同或相近的歸入同一個子信息物料文件。
[0055]如圖2所示,所述裝置200還可以包括可選的錯誤合并模塊250,其用于搜集在各模塊操作中出現(xiàn)的錯誤,將所述錯誤合并為錯誤報告,并且將所述錯誤報告分發(fā)到前端服務器,以反饋給用戶(例如,如圖2所示的用戶終端300)。用戶在接收(例如,通過用戶終端300)到錯誤報告后,可以根據(jù)錯誤報告中記載的錯誤,修正其信息物料文件,并重新進行上傳。
[0056]本發(fā)明提供了上述處理信息物料文件的方法和裝置。根據(jù)本發(fā)明的實施例,可以接收信息物料文件,分析所述信息物料文件的編碼和結(jié)構(gòu),根據(jù)所述編碼和結(jié)構(gòu),按照預先定義的文件大小閾值,將所述信息物料文件拆分為不同歸類的多個子信息物料文件,并且將所述多個子信息物料文件按照其歸類分別處理到不同的數(shù)據(jù)庫表中。由此,改進了現(xiàn)有技術(shù)中通過頁面增加信息物料或者文件逐行讀取處理的方式,通過信息物料批量上傳提高了用戶增加信息物料的速度,并且提升了廣告服務提供商操作的效率,提高了傳輸吞吐量,并且均衡了負載。根據(jù)本發(fā)明的信息物料批量上傳方案通過分析、拆分、處理等操作大大壓縮了處理時間,仍舉【背景技術(shù)】部分的例子,假設(shè)上傳文件總量為n,上傳文件的個數(shù)為g,拆分文件時間為s,處理時間為h,合并輸出時間為m,處理進程的個數(shù)為p,則上傳完用戶信息物料所花費的時間為s+g/p*h+m,相對于現(xiàn)有技術(shù)方案極大地提高了工作效率。
[0057]在此提供的方法和裝置不與任何特定計算機、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造這類裝置所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應當明白,可以利用各種編程語言實現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實施方式。
[0058]在此處所提供的說明書中,說明了大量具體細節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細節(jié)的情況下實踐。在一些實例中,并未詳細示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。
[0059]類似地,應當理解,為了精簡本公開并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應將該公開的方法解釋成反映如下意圖:即所要求保護的本發(fā)明要求比在每個權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實施例的所有特征。因此,遵循【具體實施方式】的權(quán)利要求書由此明確地并入該【具體實施方式】,其中每個權(quán)利要求本身都作為本發(fā)明的單獨實施例。
[0060]本領(lǐng)域那些技術(shù)人員可以理解,可以對實施例中的裝置中的模塊進行自適應性地改變并且把它們設(shè)置在與該實施例不同的一個或多個裝置中??梢园褜嵤├械娜舾赡K組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者模塊中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的替代特征來代替。
[0061]此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實施例。例如,在權(quán)利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。
[0062]本發(fā)明的各個裝置實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領(lǐng)域的技術(shù)人員應當理解,可以在實踐中使用微處理器或者數(shù)字信號處理器(DSP)來實現(xiàn)根據(jù)本發(fā)明實施例的裝置中的一些或者全部模塊的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的裝置程序(例如,計算機程序和計算機程序產(chǎn)品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機可讀介質(zhì)上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
[0063]應該注意的是上述實施例對本發(fā)明進行說明而不是對本發(fā)明進行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計出替換實施例。在權(quán)利要求中,不應將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序??蓪⑦@些單詞解釋為名稱。
【權(quán)利要求】
1.一種處理信息物料文件的方法,包括步驟: 接收信息物料文件; 分析所述信息物料文件的編碼和結(jié)構(gòu); 根據(jù)所述編碼和結(jié)構(gòu),按照預先定義的文件大小閾值,將所述信息物料文件拆分為不同歸類的多個子信息物料文件;以及 將所述多個子信息物料文件按照其歸類分別處理到不同的數(shù)據(jù)庫表中。
2.如權(quán)利要求1所述的方法,在所述將所述多個子信息物料文件按照其歸類分別處理到不同的數(shù)據(jù)庫表中的步驟之后,還包括步驟: 搜集在所述方法各步驟操作中出現(xiàn)的錯誤; 將所述錯誤合并為錯誤報告;以及 將所述錯誤報告分發(fā)到前端服務器,以反饋給用戶。
3.如權(quán)利要求1所述的方法,其中, 在一個或多個前端服務器中接收信息物料文件;并且 在一個或多個后端服務器中,分析所述信息物料文件的編碼和結(jié)構(gòu),根據(jù)所述編碼和結(jié)構(gòu)、按照預先定義的文件大小閾值、將所述信息物料文件拆分為不同歸類的多個子信息物料文件,并將所述多個子信息物料文件按照其歸類分別處理到不同的數(shù)據(jù)庫表中。
4.如權(quán)利要求1至3中的任一項所述的方法,其中所述信息物料文件包括搜索廣告物料文件和/或展示廣告物料文件,所述搜索廣告物料文件包括以下各項中的至少一項:搜索廣告的文本信息、鏈接地址、圖片、多媒體內(nèi)容,所述展示廣告物料文件包括以下各項中的至少一項:展示廣告的文本信息、鏈接地址、圖片、多媒體內(nèi)容。
5.如權(quán)利要求1至3中的任一項所述的方法,其中所述歸類包括以下至少之一:所述信息的關(guān)鍵詞、否定關(guān)鍵詞、創(chuàng)意。
6.如權(quán)利要求1至3中的任一項所述的方法,還包括步驟: 在所述接收信息物料文件的步驟之后,將所述信息物料文件拉取到所述后端服務器的網(wǎng)絡文件系統(tǒng)中;以及 在所述將所述信息物料文件拆分為不同歸類的多個子信息物料文件的步驟之后,將所述多個子信息物料文件拉取到所述后端服務器的網(wǎng)絡文件系統(tǒng)中。
7.—種處理信息物料文件的裝置,包括: 接收模塊,用于接收信息物料文件; 分析模塊,用于分析所述信息物料文件的編碼和結(jié)構(gòu); 拆分模塊,用于根據(jù)所述編碼和結(jié)構(gòu),按照預先定義的文件大小閾值,將所述信息物料文件拆分為不同歸類的多個子信息物料文件;以及 處理模塊,用于將所述多個子信息物料文件按照其歸類分別處理到不同的數(shù)據(jù)庫表中。
8.如權(quán)利要求7所述的裝置,還包括錯誤合并模塊,用于: 搜集在所述各模塊操作中出現(xiàn)的錯誤; 將所述錯誤合并為錯誤報告;以及 將所述錯誤報告分發(fā)到前端服務器,以反饋給用戶。
9.如權(quán)利要求7所述的裝置,其中, 所述接收模塊在一個或多個前端服務器中接收信息物料文件;并且 所述分析模塊在一個或多個后端服務器中分析所述信息物料文件的編碼和結(jié)構(gòu),所述拆分模塊在一個或多個后端服務器中根據(jù)所述編碼和結(jié)構(gòu)、按照預先定義的文件大小閾值、將所述信息物料文件拆分為不同歸類的多個子信息物料文件,所述處理模塊在一個或多個后端服務器中將所述多個子信息物料文件按照其歸類分別處理到不同的數(shù)據(jù)庫表中。
10.如權(quán)利要求7至9中的任一項所述的裝置,其中所述信息物料文件包括搜索廣告物料文件和/或展示廣告物料文件,所述搜索廣告物料文件包括以下各項中的至少一項:搜索廣告的文本信息、鏈接地址、圖片、多媒體內(nèi)容,所述展示廣告物料文件包括以下各項中的至少一項:展示廣告的文本信息、鏈接地址、圖片、多媒體內(nèi)容。
11.如權(quán)利要求7至9中的任一項所述的裝置,其中所述歸類包括以下至少之一:所述信息的關(guān)鍵詞、否定關(guān)鍵詞、創(chuàng)意。
12.如權(quán)利要求7至9中的任一項所述的裝置,還包括拉取模塊,用于: 在所述接收模塊接收信息物料文件之后,將所述信息物料文件拉取到所述后端服務器的網(wǎng)絡文件系統(tǒng)中;并且 在所述拆分模塊將所述信息物料文件拆分為不同歸類的多個子信息物料文件之后,將所述多個子信息物料文件拉取到所述后端服務器的網(wǎng)絡文件系統(tǒng)中。
【文檔編號】G06F17/30GK104239586SQ201410550772
【公開日】2014年12月24日 申請日期:2014年10月16日 優(yōu)先權(quán)日:2014年10月16日
【發(fā)明者】桂成林 申請人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司