本發(fā)明涉及信息技術(shù)領(lǐng)域,具體涉及一種影視大數(shù)據(jù)的采集方法及采集系統(tǒng)。
背景技術(shù):
隨著云計(jì)算和大數(shù)據(jù)的發(fā)展,越老越多的用戶選擇在多種終端上觀看影視作品,所以越來(lái)越多的影視公司需要通過(guò)影視大數(shù)據(jù)信息來(lái)分析用戶的各種情況以開發(fā)生產(chǎn)新的影視內(nèi)容來(lái)滿足市場(chǎng)的需求。
現(xiàn)有的影視大數(shù)據(jù)采集一般采用的是網(wǎng)絡(luò)爬蟲技術(shù)和圖像識(shí)別技術(shù)。網(wǎng)絡(luò)爬蟲技術(shù)是一種按照一定的規(guī)則,在互聯(lián)網(wǎng)上自動(dòng)智能獲取網(wǎng)頁(yè)信息的程序,利用網(wǎng)絡(luò)爬蟲技術(shù)可以對(duì)影視相關(guān)網(wǎng)站上的信息進(jìn)行采集;圖像識(shí)別技術(shù)是指利用計(jì)算機(jī)對(duì)電視圖像進(jìn)行分析、處理和理解,以識(shí)別圖像中所需要的信息。
現(xiàn)有的網(wǎng)絡(luò)爬蟲技術(shù),由于各大網(wǎng)站對(duì)于爬蟲程序的限定,導(dǎo)致爬蟲無(wú)法對(duì)于海量的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行快速高效的抓?。欢F(xiàn)有的圖像識(shí)別技術(shù),只能在圖片質(zhì)量比較出色且沒(méi)有扭曲的情況下才能工作得很好,而很多圖片由于光線、所處的位置等諸多原因,無(wú)法獲得質(zhì)量合格的圖像,導(dǎo)致無(wú)法進(jìn)行圖像識(shí)別。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種影視大數(shù)據(jù)采集方法及系統(tǒng),該采集系統(tǒng)能夠同時(shí)在互聯(lián)網(wǎng)端和電視端進(jìn)行影視大數(shù)據(jù)采集,并且針對(duì)互聯(lián)網(wǎng)端和電視端現(xiàn)狀,都能很好的進(jìn)行數(shù)據(jù)采集,數(shù)據(jù)采集精準(zhǔn)、速度快。
為實(shí)現(xiàn)上述目的本發(fā)明提供了一種影視大數(shù)據(jù)采集方法,通過(guò)在電視終端設(shè)置電視數(shù)據(jù)采集模塊,在互聯(lián)網(wǎng)終端上設(shè)置互聯(lián)網(wǎng)數(shù)據(jù)采集模塊,將電視終端和互聯(lián)網(wǎng)終端的影視數(shù)據(jù)采集至數(shù)據(jù)采集服務(wù)器。
所述電視數(shù)據(jù)采集模塊采集的數(shù)據(jù)為電視截屏、臺(tái)標(biāo)信息等電視影視數(shù)據(jù)。
所述互聯(lián)網(wǎng)數(shù)據(jù)采集模塊采集的數(shù)據(jù)為用戶觀看行為、視頻信息、影視相關(guān)的新聞和娛樂(lè)等互聯(lián)網(wǎng)影視數(shù)據(jù)。
所述的電視數(shù)據(jù)采集模塊采集數(shù)據(jù)的方法為:電視數(shù)據(jù)采集模塊調(diào)用電視終端提供的程序接口,在用戶開機(jī)并處于直播觀看狀態(tài)時(shí)對(duì)用戶的電視屏幕進(jìn)行截屏,分析截屏得到的圖像的顏色和坐標(biāo)值,對(duì)顏色和坐標(biāo)值進(jìn)行檢索;通過(guò)檢索的結(jié)果判斷電視臺(tái)臺(tái)標(biāo)所在位置,并對(duì)截屏得到的圖像的此位置進(jìn)行截取并保存成臺(tái)標(biāo)圖片;將臺(tái)標(biāo)圖片通過(guò)網(wǎng)絡(luò)傳輸至大數(shù)據(jù)平臺(tái)。
所述的互聯(lián)網(wǎng)數(shù)據(jù)采集模塊采集數(shù)據(jù)的方法為:通過(guò)設(shè)置采用ssh協(xié)議進(jìn)行通信的master節(jié)點(diǎn)與slave節(jié)點(diǎn),master節(jié)點(diǎn)控制slave節(jié)點(diǎn)進(jìn)行數(shù)據(jù)采集,master節(jié)點(diǎn)與數(shù)據(jù)采集服務(wù)器通信。
所述的master節(jié)點(diǎn)控制slave節(jié)點(diǎn)進(jìn)行數(shù)據(jù)采集的方法為:master節(jié)點(diǎn)首先和所有slave節(jié)點(diǎn)進(jìn)行連接并獲取各slave節(jié)點(diǎn)中的爬蟲進(jìn)程數(shù),然后選取一個(gè)當(dāng)前進(jìn)程數(shù)小于閾值并且在所有slave節(jié)點(diǎn)中進(jìn)程數(shù)最少的slave節(jié)點(diǎn)分配數(shù)據(jù)采集任務(wù)。
所述的slave節(jié)點(diǎn)在進(jìn)行數(shù)據(jù)采集任務(wù)時(shí),在多個(gè)IP和多個(gè)UA信息間進(jìn)行隨機(jī)切換。IP和UA的數(shù)量取決于所需要采集網(wǎng)站的限制。
所述的slave節(jié)點(diǎn)在進(jìn)行數(shù)據(jù)采集任務(wù)時(shí),會(huì)啟動(dòng)一個(gè)spider進(jìn)程對(duì)分配的網(wǎng)頁(yè)進(jìn)行訪問(wèn),此進(jìn)程采用http或https的網(wǎng)絡(luò)協(xié)議獲取網(wǎng)頁(yè)內(nèi)容,并依據(jù)網(wǎng)頁(yè)中所需元素的xpath位置進(jìn)行數(shù)據(jù)采集。
一種影視大數(shù)據(jù)采集系統(tǒng),包括數(shù)據(jù)采集服務(wù)器、互聯(lián)網(wǎng)數(shù)據(jù)采集模塊、電視數(shù)據(jù)采集模塊;數(shù)據(jù)采集服務(wù)器通過(guò)互聯(lián)網(wǎng)與互聯(lián)網(wǎng)數(shù)據(jù)采集模塊通信,數(shù)據(jù)采集服務(wù)器通過(guò)電視網(wǎng)與電視數(shù)據(jù)采集模塊通信。
本發(fā)明與現(xiàn)有技術(shù)相比,具有以下優(yōu)點(diǎn)及有益的效果:電視數(shù)據(jù)采集模塊針對(duì)不同的型號(hào)性能的電視終端均能高效的獲得電視影視數(shù)據(jù),并且數(shù)據(jù)采集方式簡(jiǎn)單,快速精準(zhǔn);互聯(lián)網(wǎng)數(shù)據(jù)采集模塊能夠突破現(xiàn)有網(wǎng)站的限制,針對(duì)海量的網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行快速高效的抓取。
附圖說(shuō)明
圖1是本發(fā)明實(shí)施例1的效果圖;
圖2是本發(fā)明實(shí)施例2的效果圖。
具體實(shí)施方式
以下是本發(fā)明的具體實(shí)施例,對(duì)本發(fā)明的技術(shù)方案做進(jìn)一步的描述,但是本發(fā)明的保護(hù)范圍并不限于這些實(shí)施例。凡是不背離本發(fā)明構(gòu)思的改變或等同替代均包括在本發(fā)明的保護(hù)范圍之內(nèi)。
實(shí)施例1
一種影視大數(shù)據(jù)采集方法,通過(guò)在電視終端設(shè)置電視數(shù)據(jù)采集模塊,在互聯(lián)網(wǎng)終端上設(shè)置互聯(lián)網(wǎng)數(shù)據(jù)采集模塊,將電視終端和互聯(lián)網(wǎng)終端的影視數(shù)據(jù)采集至數(shù)據(jù)采集服務(wù)器。
電視數(shù)據(jù)采集模塊采集的數(shù)據(jù)為電視截屏、臺(tái)標(biāo)信息等電視影視數(shù)據(jù)。
互聯(lián)網(wǎng)數(shù)據(jù)采集模塊采集的數(shù)據(jù)為用戶觀看行為、視頻信息、影視相關(guān)的新聞和娛樂(lè)等互聯(lián)網(wǎng)影視數(shù)據(jù)。
電視數(shù)據(jù)采集模塊采集數(shù)據(jù)的方法為:電視數(shù)據(jù)采集模塊調(diào)用電視終端提供的程序接口,在用戶開機(jī)并處于直播觀看狀態(tài)時(shí)對(duì)用戶的電視屏幕進(jìn)行截屏,分析截屏得到的圖像的顏色和坐標(biāo)值,對(duì)顏色和坐標(biāo)值進(jìn)行檢索;通過(guò)檢索的結(jié)果判斷電視臺(tái)臺(tái)標(biāo)所在位置,并對(duì)截屏得到的圖像的此位置進(jìn)行截取并保存成臺(tái)標(biāo)圖片;將臺(tái)標(biāo)圖片通過(guò)網(wǎng)絡(luò)傳輸至大數(shù)據(jù)平臺(tái)。
互聯(lián)網(wǎng)數(shù)據(jù)采集模塊采集數(shù)據(jù)的方法為:通過(guò)設(shè)置采用ssh協(xié)議進(jìn)行通信的master節(jié)點(diǎn)與slave節(jié)點(diǎn),master節(jié)點(diǎn)控制slave節(jié)點(diǎn)進(jìn)行數(shù)據(jù)采集,master節(jié)點(diǎn)與數(shù)據(jù)采集服務(wù)器通信。
master節(jié)點(diǎn)控制slave節(jié)點(diǎn)進(jìn)行數(shù)據(jù)采集的方法為:master節(jié)點(diǎn)首先和所有slave節(jié)點(diǎn)進(jìn)行連接并獲取各slave節(jié)點(diǎn)中的爬蟲進(jìn)程數(shù),然后選取一個(gè)當(dāng)前進(jìn)程數(shù)小于閾值并且在所有slave節(jié)點(diǎn)中進(jìn)程數(shù)最少的slave節(jié)點(diǎn)分配數(shù)據(jù)采集任務(wù)。
slave節(jié)點(diǎn)在進(jìn)行數(shù)據(jù)采集任務(wù)時(shí),在多個(gè)IP和多個(gè)UA信息間進(jìn)行隨機(jī)切換。IP和UA的數(shù)量取決于所需要采集網(wǎng)站的限制。
slave節(jié)點(diǎn)在進(jìn)行數(shù)據(jù)采集任務(wù)時(shí),會(huì)啟動(dòng)一個(gè)spider進(jìn)程對(duì)分配的網(wǎng)頁(yè)進(jìn)行訪問(wèn),此進(jìn)程采用http或https的網(wǎng)絡(luò)協(xié)議獲取網(wǎng)頁(yè)內(nèi)容,并依據(jù)網(wǎng)頁(yè)中所需元素的xpath位置進(jìn)行數(shù)據(jù)采集。
一種影視大數(shù)據(jù)采集系統(tǒng),包括數(shù)據(jù)采集服務(wù)器、互聯(lián)網(wǎng)數(shù)據(jù)采集模塊、電視數(shù)據(jù)采集模塊;數(shù)據(jù)采集服務(wù)器通過(guò)互聯(lián)網(wǎng)與互聯(lián)網(wǎng)數(shù)據(jù)采集模塊通信,數(shù)據(jù)采集服務(wù)器通過(guò)電視網(wǎng)與電視數(shù)據(jù)采集模塊通信。
實(shí)施例2
一種影視大數(shù)據(jù)采集系統(tǒng),包括數(shù)據(jù)采集服務(wù)器和電視數(shù)據(jù)采集模塊;數(shù)據(jù)采集服務(wù)器通過(guò)電視網(wǎng)與電視數(shù)據(jù)采集模塊通信,如圖1所示。
一種影視大數(shù)據(jù)采集方法,首先將電視數(shù)據(jù)采集模塊安裝到智能電視終端,將電視數(shù)據(jù)采集模塊電視網(wǎng)連接到數(shù)據(jù)采集服務(wù)器,電視數(shù)據(jù)采集模塊調(diào)用電視終端所提供的程序接口,在用戶開機(jī)并處于直播觀看狀態(tài)時(shí)對(duì)用戶的電視屏幕進(jìn)行左上角截屏,并對(duì)截屏后的圖像進(jìn)行解析,解析時(shí)會(huì)分析圖像的各個(gè)特征值,對(duì)這些特征值進(jìn)行檢索,通過(guò)檢索的結(jié)果判斷電視臺(tái)臺(tái)標(biāo)所在位置,并對(duì)此位置進(jìn)行截取并保存成圖片形式,將這些圖片通過(guò)網(wǎng)絡(luò)傳輸至臺(tái)標(biāo)識(shí)別服務(wù)器,臺(tái)標(biāo)識(shí)別服務(wù)器上保存了一個(gè)臺(tái)標(biāo)樣本庫(kù),這個(gè)樣本庫(kù)中涵蓋了所有電視臺(tái)的臺(tái)標(biāo)樣本,將獲取的臺(tái)標(biāo)圖片和這個(gè)樣本庫(kù)進(jìn)行高效地匹配,獲取到用戶所觀看的電視臺(tái)信息及用戶所觀看的節(jié)目信息、電視臺(tái)信息、終端信息等;實(shí)施例3
一種影視大數(shù)據(jù)采集系統(tǒng),包括數(shù)據(jù)采集服務(wù)器和互聯(lián)網(wǎng)數(shù)據(jù)采集模塊;數(shù)據(jù)采集服務(wù)器通過(guò)互聯(lián)網(wǎng)與互聯(lián)網(wǎng)數(shù)據(jù)采集模塊通信,如圖2所示。
一種影視大數(shù)據(jù)采集方法,通過(guò)設(shè)置采用ssh協(xié)議進(jìn)行通信的master節(jié)點(diǎn)與slave節(jié)點(diǎn),master節(jié)點(diǎn)控制slave節(jié)點(diǎn)進(jìn)行數(shù)據(jù)采集,master節(jié)點(diǎn)與數(shù)據(jù)采集服務(wù)器通信。部署影視大數(shù)據(jù)采集系統(tǒng)時(shí),啟用IP代理并加入隨機(jī)UA,爬蟲服務(wù)器5臺(tái),其中一臺(tái)為master節(jié)點(diǎn),4臺(tái)為slave節(jié)點(diǎn),爬蟲服務(wù)器上保存了上述網(wǎng)站的URL,在抓取任務(wù)開始時(shí),會(huì)將這些抓取的URL和抓取任務(wù)下發(fā)至4臺(tái)slave節(jié)點(diǎn),下發(fā)時(shí)會(huì)針對(duì)每臺(tái)slave的負(fù)載情況進(jìn)行動(dòng)態(tài)調(diào)整,例如其中一臺(tái)slave的負(fù)載較高,抓取任務(wù)較重,此時(shí)master會(huì)把即將下發(fā)至這臺(tái)slave的任務(wù)轉(zhuǎn)移一部分至其他負(fù)載較低的slave上。Slave節(jié)點(diǎn)在抓取時(shí)會(huì)隨機(jī)切換自己的IP地址和UA信息,以防止抓取任務(wù)被某些網(wǎng)站禁止。主要抓取主流視頻網(wǎng)站中用戶的觀看行為和視頻信息,如用戶觀看了哪些影片、這些影片在網(wǎng)絡(luò)上的點(diǎn)播量、影片的基本信息(如主演、導(dǎo)演、編劇等)、用戶的基本信息(如性別、年齡等);二是影視相關(guān)的新聞和娛樂(lè)數(shù)據(jù),如某一部影片從上映以來(lái)的在網(wǎng)絡(luò)中點(diǎn)擊率最高的前10條新聞以及用戶在觀看這部影片之后的相關(guān)評(píng)論等。