專利名稱:一種專利熱點(diǎn)發(fā)現(xiàn)與趨勢(shì)分析方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種專利熱點(diǎn)發(fā)現(xiàn)與趨勢(shì)分析方法,尤其是涉及一種從專利集合中發(fā)現(xiàn)熱點(diǎn)技術(shù)并對(duì)熱點(diǎn)技術(shù)進(jìn)行趨勢(shì)分析的方法。
背景技術(shù):
專利文獻(xiàn)涉及所有技術(shù)領(lǐng)域最新、最活躍的創(chuàng)新技術(shù)信息。專利文獻(xiàn)的報(bào)導(dǎo)比其他文獻(xiàn)早I一3年,而且一項(xiàng)新技術(shù)的誕生到推廣應(yīng)用有個(gè)過(guò)程,存在一個(gè)“時(shí)間差”,少則幾個(gè)月,多則幾十年。因此從專利文獻(xiàn)中可以了解科技發(fā)展的最新動(dòng)態(tài)。研究顯示:利用專利文獻(xiàn)指導(dǎo)技術(shù)創(chuàng)新,可以有效節(jié)約40%的研究經(jīng)費(fèi)和60%的研究時(shí)間。歐洲專利局的一項(xiàng)研究結(jié)果表明,在十幾個(gè)歐洲專利條約成員國(guó)中,在應(yīng)用技術(shù)的研究開(kāi)發(fā)中,由于利用了專利文獻(xiàn)指導(dǎo)技術(shù)創(chuàng)新,每年可節(jié)約300億馬克的研究開(kāi)發(fā)經(jīng)費(fèi)。迄今,全球已有超過(guò)8500萬(wàn)件專利,且全世界現(xiàn)每年新增100多萬(wàn)件專利文獻(xiàn)。面對(duì)如此海量珍貴的專利數(shù)據(jù),如何從中挖掘出有效的信息情報(bào)是目前工業(yè)界關(guān)注的熱點(diǎn)。對(duì)于專利審查員來(lái)說(shuō),他可能需要了解:競(jìng)爭(zhēng)對(duì)手的研究重點(diǎn)和技術(shù)優(yōu)勢(shì)是什么;哪些技術(shù)現(xiàn)在被廣泛研究;如果要做某個(gè)主題的研究,需要重點(diǎn)掌握哪些技術(shù),應(yīng)當(dāng)遵循怎樣的技術(shù)路線;某項(xiàng)技術(shù)的研究?jī)r(jià)值是高還是低。目前對(duì)市場(chǎng)的需求分析和技術(shù)預(yù)測(cè)主要依靠專家智慧,如采用專家調(diào)查法、德?tīng)柗品ǖ取2捎眠@樣的方法能集合行業(yè)/領(lǐng)域?qū)<业闹腔?,具有較強(qiáng)的實(shí)用性、科學(xué)性,但同時(shí)它也不可避免地存在一些缺陷:( I)定性分析為主,定量分析較少;(2)缺少對(duì)于技術(shù)本身發(fā)展和創(chuàng)新的考慮;(3)該過(guò)程耗時(shí)、耗力、成本高昂。目前被廣泛使用的專利數(shù)據(jù)服務(wù)平臺(tái),如Soopat、51Patent、CNIPR等,它們所提供的服務(wù)限于基于專利外部特征項(xiàng)的一些分類、檢索、統(tǒng)計(jì)等功能,而對(duì)于專利的熱點(diǎn)發(fā)現(xiàn)研究,目前還處于起步階段。
發(fā)明內(nèi)容
本發(fā)明基于以上的技術(shù)背景,提出了一種專利熱點(diǎn)發(fā)現(xiàn)和趨勢(shì)分析方法,能夠從一堆專利文檔集合中挖掘出研究主題和各個(gè)主題下所重點(diǎn)關(guān)注的技術(shù),并能對(duì)每項(xiàng)技術(shù)的發(fā)展趨勢(shì)做出有效的預(yù)測(cè)。本發(fā)明的技術(shù)方案包含如下步驟:一種專利熱點(diǎn)發(fā)現(xiàn)與趨勢(shì)分析方法,其特征在于,包括以下步驟:步驟1:專利文檔采集,構(gòu)建專利文檔集合;步驟2:將所述的專利文檔向量化;步驟3:根據(jù)所述專利文檔的空間向量表示,計(jì)算所述的專利文檔中兩兩專利文檔之間的相似度;步驟4:根據(jù)所述的專利文檔之間的相似度對(duì)所述的專利文檔集合進(jìn)行聚類分析,形成專利文檔簇;步驟5:對(duì)所述的每個(gè)專利文檔簇進(jìn)行主題命名;步驟6:通過(guò)熱點(diǎn)計(jì)算方法對(duì)所述的每個(gè)主題進(jìn)行技術(shù)研究熱點(diǎn)分析;步驟7:對(duì)所述的每個(gè)技術(shù)研究熱點(diǎn)進(jìn)行趨勢(shì)分析,分析所述的技術(shù)所處的生命周期階段,并對(duì)所述的技術(shù)的發(fā)展趨勢(shì)做出預(yù)測(cè)。作為優(yōu)選,所述的步驟2中將所述的專利文檔向量化,具體實(shí)現(xiàn)方法為:定義所述的專利文檔的集合為D= (C^d2,…,dn},對(duì)于所述的專利文檔集合D= Wpd2,…,dn}中的任意一條專利屯,利用一組關(guān)鍵詞的空間向量來(lái)表示。其過(guò)程為,首先采用現(xiàn)有的分詞系統(tǒng)對(duì)所述的所有專利文檔進(jìn)行中文分詞,得到詞項(xiàng);然后根據(jù)自定義或公用的停用詞詞庫(kù)去除所述的專利文檔中的停用詞詞項(xiàng),其中停用詞詞項(xiàng)為沒(méi)有實(shí)際含義的功能詞詞項(xiàng);接著對(duì)于移除停用詞詞項(xiàng)后的詞項(xiàng),計(jì)算每個(gè)詞項(xiàng)在所述的專利文檔中的權(quán)重,其計(jì)算公式為:
權(quán)利要求
1.一種專利熱點(diǎn)發(fā)現(xiàn)與趨勢(shì)分析方法,其特征在于,包括以下步驟: 步驟1:專利文檔采集,構(gòu)建專利文檔集合; 步驟2:將所述的專利文檔向量化; 步驟3:根據(jù)所述專利文檔的空間向量表示,計(jì)算所述的專利文檔中兩兩專利文檔之間的相似度; 步驟4:根據(jù)所述的專利文檔之間的相似度對(duì)所述的專利文檔集合進(jìn)行聚類分析,形成專利文檔簇; 步驟5:對(duì)所述的每個(gè)專利文檔簇進(jìn)行主題命名; 步驟6:通過(guò)熱點(diǎn)計(jì)算方法對(duì)所述的每個(gè)主題進(jìn)行技術(shù)研究熱點(diǎn)分析; 步驟7:對(duì)所述的每個(gè)技術(shù)研究熱點(diǎn)進(jìn)行趨勢(shì)分析,分析所述的技術(shù)所處的生命周期階段,并對(duì)所述的技術(shù)的發(fā)展趨勢(shì)做出預(yù)測(cè)。
2.根據(jù)權(quán)利要求1所述的專利熱點(diǎn)發(fā)現(xiàn)與趨勢(shì)分析方法,其特征在于:所述的步驟2中將所述的專利文檔向量化,具體實(shí)現(xiàn)方法為: 定義所述的專利文檔的集合為D= W1, d2,…,dn},對(duì)于所述的專利文檔集合D= W1, d2,…,dn}中的任意一條專利φ,利用一組關(guān)鍵詞的空間向量來(lái)表示。其過(guò)程為,首先采用現(xiàn)有的分詞系統(tǒng)對(duì)所述的所有專利文檔進(jìn)行中文分詞,得到詞項(xiàng);然后根據(jù)自定義或公用的停用詞詞庫(kù)去除所述的專利文檔 中的停用詞詞項(xiàng),其中停用詞詞項(xiàng)為沒(méi)有實(shí)際含義的功能詞詞項(xiàng);接著對(duì)于移除停用詞詞項(xiàng)后的詞項(xiàng),計(jì)算每個(gè)詞項(xiàng)在所述的專利文檔中的權(quán)重,其計(jì)算公式為:
3.根據(jù)權(quán)利要求1所述的專利熱點(diǎn)發(fā)現(xiàn)與趨勢(shì)分析方法,其特征在于:所述的步驟3中計(jì)算所述的專利文檔中兩兩專利文檔之間的相似度,包括以下步驟: 步驟3.1:對(duì)所述的任意兩條專利文檔屯和4,使用其對(duì)應(yīng)的向量之間的夾角余弦來(lái)度量?jī)烧叩南嗨贫?,其公式?
4.根據(jù)權(quán)利要求1所述的專利熱點(diǎn)發(fā)現(xiàn)與趨勢(shì)分析方法,其特征在于:所述的步驟4中根據(jù)所述的專利文檔之間的相似度對(duì)所述的專利文檔集合進(jìn)行聚類分析,形成專利文檔簇,具體實(shí)現(xiàn)方法為: 根據(jù)所述的專利文檔之間的相似度,使用K-means聚類算法進(jìn)行所述的專利文檔聚類。聚類后,得到的是一個(gè)一個(gè)的簇,每個(gè)簇由若干相似度較大的專利文檔組成,同時(shí)每個(gè)簇由所述的專利文檔所包含的一組關(guān)鍵詞短語(yǔ)來(lái)表示,定義簇C= IT1, T2,…,TJ,其中Ti為簇C中包含的第i個(gè)短語(yǔ),且I < i < m。
5.根據(jù)權(quán)利要求1所述的專利熱點(diǎn)發(fā)現(xiàn)與趨勢(shì)分析方法,其特征在于:步驟5中所述的對(duì)所述的每個(gè)專利文檔簇進(jìn)行主題命名,包括以下步驟: 步驟5.1:尋找候選短語(yǔ)集合,具體實(shí)現(xiàn)方法如下: 對(duì)于簇Ci中所包含的短語(yǔ)集合M= IT1, T2,…,TJ,如果frq (Tj, Ci) /does (Ci) > ξ,那么將短語(yǔ)L作為候選短語(yǔ); 其中I彡j彡n,frq (Tj, Ci)為短語(yǔ)Tj在簇Ci中出現(xiàn)的頻率,docs (Ci)為簇Ci中包含的專利文檔總數(shù),ξ為定義的閥值; 步驟5.2:同類短語(yǔ)合并,具體實(shí)現(xiàn)方法如下:如果 Ti η T2 η...n Tn=Ts,那么(T1, τ2,..., τη) — Ts ; 即如果短語(yǔ)T1, T2,…,Tn中都出現(xiàn)了 Ts這個(gè)子短語(yǔ),則將T1, T2,…,Tn這η個(gè)短語(yǔ)合并為一個(gè)短語(yǔ)Ts; 步驟5.3:尋找最小覆蓋集,具體實(shí)現(xiàn)方法如下:
6.根據(jù)權(quán)利要求1所述的專利熱點(diǎn)發(fā)現(xiàn)與趨勢(shì)分析方法,其特征在于:步驟6中通過(guò)熱點(diǎn)計(jì)算方法對(duì)所述的每個(gè)主題進(jìn)行技術(shù)研究熱點(diǎn)分析,具體實(shí)現(xiàn)方法為:通過(guò)對(duì)專利技術(shù)熱點(diǎn)的特征分析和量化,對(duì)所述的專利技術(shù)熱點(diǎn)進(jìn)行判斷,其熱度衡量公式為:
7.根據(jù)權(quán)利要求1所述的專利熱點(diǎn)發(fā)現(xiàn)與趨勢(shì)分析方法,其特征在于:步驟7中對(duì)所述的每個(gè)技術(shù)研究熱點(diǎn)進(jìn)行趨勢(shì)分析,分析所述的技術(shù)所處的生命周期階段,并對(duì)所述的技術(shù)的發(fā)展趨勢(shì)做出預(yù)測(cè),包括以下步驟: 步驟7.1:根據(jù)所述的每個(gè)技術(shù)研究熱點(diǎn)中的某個(gè)熱點(diǎn)技術(shù)短語(yǔ)所出現(xiàn)的情況,得到該項(xiàng)技術(shù)申請(qǐng)?jiān)诓煌攴莸纳暾?qǐng)數(shù)量; Ti — (y” Ii1), (y2, n2), (y3, n3),......, (yk, nk) 其中,Cyi, Iii)表示在第年申請(qǐng)的專利數(shù)量為Iii條; 步驟7.2:根據(jù)歷史數(shù)據(jù)進(jìn)行Logistic曲線擬合,找到一條滿項(xiàng)該項(xiàng)技術(shù)申請(qǐng)分布情況的Logistic曲線; Logistic 曲線為:
全文摘要
本發(fā)明公開(kāi)了一種專利熱點(diǎn)發(fā)現(xiàn)與趨勢(shì)分析方法。在專利熱點(diǎn)發(fā)現(xiàn)過(guò)程中,首先,進(jìn)行分詞,并計(jì)算專利文檔之間的相似度,根據(jù)相似度進(jìn)行聚類。然后,對(duì)每個(gè)簇中的短語(yǔ)進(jìn)行合并,使結(jié)果更加簡(jiǎn)潔、直觀。接著,通過(guò)熱點(diǎn)計(jì)算方法發(fā)現(xiàn)熱點(diǎn)技術(shù),并分析每項(xiàng)熱點(diǎn)技術(shù)的熱點(diǎn)程度。最后,根據(jù)歷史數(shù)據(jù)進(jìn)行曲線擬合,借助Logistic回歸曲線判斷某項(xiàng)技術(shù)當(dāng)前所處的技術(shù)生命周期,從而分析該技術(shù)的發(fā)展?fàn)顩r及潛在的研究?jī)r(jià)值。同時(shí),對(duì)熱點(diǎn)技術(shù)進(jìn)行有效的趨勢(shì)分析,給出這項(xiàng)技術(shù)未來(lái)的發(fā)展趨勢(shì)。本方法能從大量珍貴的專利數(shù)據(jù)中挖掘出有效的信息情報(bào),具有廣泛的實(shí)用性和較高的市場(chǎng)價(jià)值。
文檔編號(hào)G06F17/30GK103164540SQ201310129380
公開(kāi)日2013年6月19日 申請(qǐng)日期2013年4月15日 優(yōu)先權(quán)日2013年4月15日
發(fā)明者彭智勇, 陳旭, 萬(wàn)鵬 申請(qǐng)人:武漢大學(xué)