一種信息處理方法及電子設(shè)備的制造方法
【專利摘要】本發(fā)明提供一種信息處理方法及電子設(shè)備,所述方法應(yīng)用于一電子設(shè)備中,所述電子設(shè)備包括圖像采集單元和聲音采集單元,所述方法包括:當(dāng)利用所述聲音采集單元采集聲音信息時,利用所述圖像采集單元采集圖像信息,所述圖像信息至少包括發(fā)出所述聲音信息的說話者的第一圖像信息;利用所述聲音信息和所述圖像信息,獲得所述說話者的身份信息;對所述聲音信息進(jìn)行識別,獲得所述聲音信息對應(yīng)的文字信息;基于預(yù)定的會議腳本模板、所述說話者的身份信息及所述文字信息,生成會議腳本記錄。
【專利說明】
_種信息處理方法及電子設(shè)備
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及信息處理技術(shù)領(lǐng)域,尤其涉及一種信息處理方法及電子設(shè)備。
【背景技術(shù)】
[0002]隨著信息時代的到來,多人會議成為人們?nèi)粘9ぷ骱蜕钪胁豢苫蛉钡囊画h(huán),而多人會議的腳本記錄作為會議的回顧備份也成為會議中必不可少的一部分。
[0003]現(xiàn)有技術(shù)中,對會議的腳本記錄通常采用人工方式進(jìn)行。記錄員主要記錄的內(nèi)容是:說話者信息、說話者所說的內(nèi)容。例如:多人會議中,與會者A首先說話,說話的內(nèi)容為:大家好!接著與會者B說話,說話的內(nèi)容是:歡迎大家。
[0004]但本申請發(fā)明人在實現(xiàn)本申請實施例中發(fā)明技術(shù)方案的過程中,發(fā)現(xiàn)上述技術(shù)至少存在如下技術(shù)問題:
[0005]現(xiàn)有技術(shù)中,需要人工進(jìn)行會議的腳本記錄,專人記錄花費勞力,且人工記錄容易引入差錯,記錄后還需人工手動將記錄的內(nèi)容填充至需要的模板中?,F(xiàn)有技術(shù)中還不存在電子設(shè)備在會議進(jìn)行過程中自動生成腳本記錄的方案。
[0006]因此,現(xiàn)有技術(shù)中存在的技術(shù)問題是:電子設(shè)備在會議進(jìn)行的過程中不能自動生成會議的腳本記錄。
【發(fā)明內(nèi)容】
[0007]本發(fā)明實施例提供一種信息處理方法及電子設(shè)備,用于解決現(xiàn)有技術(shù)中存在的電子設(shè)備在會議進(jìn)行的過程中不能自動生成會議的腳本記錄的技術(shù)問題,提供了一種電子設(shè)備在會議進(jìn)行的過程中自動生成會議的腳本記錄的方法,節(jié)約了勞力成本,提高了會議的腳本記錄的準(zhǔn)確性,簡化了用戶操作。
[0008]—方面,本發(fā)明實施例提供了一種信息處理方法,應(yīng)用于電子設(shè)備中,所述電子設(shè)備包括圖像采集單元和聲音采集單元,所述方法包括:
[0009]當(dāng)利用所述聲音采集單元采集聲音信息時,利用所述圖像采集單元采集圖像信息,所述圖像信息至少包括發(fā)出所述聲音信息的說話者的第一圖像信息;
[0010]利用所述聲音信息和所述圖像信息,獲得所述說話者的身份信息;
[0011]對所述聲音信息進(jìn)行識別,獲得所述聲音信息對應(yīng)的文字信息;
[0012]基于預(yù)定的會議腳本模板、所述說話者的身份信息及所述文字信息,生成會議腳本記錄。
[0013]可選的,在所述利用所述聲音信息和所述圖像信息,獲得所述說話者的身份信息之前,所述方法還包括:
[0014]利用所述圖像采集單元采集與會者的樣本圖像信息,并利用所述聲音采集單元采集與會者的樣本聲音信息,所述與會者包括所述說話者;
[0015]利用所述樣本圖像信息和所述樣本聲音信息,建立說話者識別模型。
[0016]可選的,所述利用所述聲音信息和所述圖像信息,獲得所述說話者的身份信息,具體為:
[0017]利用所述聲音信息識別所述說話者的身份信息,獲得初步識別結(jié)果;
[0018]利用所述樣本圖像信息對所述初步識別結(jié)果進(jìn)行檢驗,獲得所述說話者的身份信息。
[0019]可選的,所述利用所述樣本圖像信息對所述初步識別結(jié)果進(jìn)行檢驗,獲得所述說話者的身份信息,包括:
[0020]將所述樣本圖像信息依次與所述聲音信息綁定,獲得多個圖像聲音信息對;
[0021]依次將多個圖像聲音對輸入所述說話者識別模型,獲得多個身份信息;
[0022]將多個身份信息中出現(xiàn)次數(shù)最多的身份信息作為所述說話者的身份信息。
[0023]可選的,所述利用所述聲音信息和所述圖像信息,獲得所述說話者的身份信息,具體為:
[0024]利用所述圖像信息識別所述說話者的身份信息,獲得初步識別結(jié)果;
[0025]利用所述聲音信息對所述初步識別結(jié)果進(jìn)行檢驗,獲得所述說話者的身份信息。
[0026]可選的,所述利用所述圖像信息對所述初步識別結(jié)果進(jìn)行檢驗,獲得所述說話者的身份信息,包括:
[0027]從所述樣本聲音信息中提取所述初步識別結(jié)果表征的第一說話者的第一樣本聲首?目息;
[0028]判斷所述聲音信息是否與所述第一樣本聲音信息相同,獲得判斷結(jié)果;
[0029]若所述判斷結(jié)果為是,則所述說話者的身份信息為所述第一說話者。
[0030]可選的,在所述獲得所述說話者的身份信息之后,所述方法還包括:
[0031]根據(jù)所述圖像信息,確定所述說話者的位置信息;
[0032]所述基于預(yù)定的會議腳本模板、所述說話者的身份信息及所述文字信息,生成會議腳本記錄,具體為:
[0033]基于預(yù)定的會議腳本模板、所述說話者的身份信息、所述說話者的位置信息及所述文字信息,生成所述會議腳本記錄。
[0034]另一方面,本發(fā)明實施例提供了一種電子設(shè)備,包括:
[0035]聲音采集單元,用于采集聲音信息;
[0036]圖像采集單元,用于采集圖像信息,所述圖像信息至少包括發(fā)出所述聲音信息的說話者的第一圖像信息;
[0037]第一獲得單元,用于利用所述聲音信息和所述圖像信息,獲得所述說話者的身份信息;
[0038]第二獲得單元,用于對所述聲音信息進(jìn)行識別,獲得所述聲音信息對應(yīng)的文字信息;
[0039]生成單元,用于基于預(yù)定的會議腳本模板、所述說話者的身份信息及所述文字信息,生成會議腳本記錄。
[0040]可選的,所述圖像采集單元還用于:在所述利用所述聲音信息和所述圖像信息,獲得所述說話者的身份信息之前,采集與會者的樣本圖像信息;
[0041]所述聲音采集單元還用于:在所述利用所述聲音信息和所述圖像信息,獲得所述說話者的身份信息之前,采集與會者的樣本聲音信息,所述與會者包括所述說話者;
[0042]所述電子設(shè)備還包括:
[0043]建立單元,用于利用所述樣本圖像信息和所述樣本聲音信息,建立說話者識別模型。
[0044]可選的,所述第一獲得單元具體包括:
[0045]第一獲得模塊,用于利用所述聲音信息識別所述說話者的身份信息,獲得初步識別結(jié)果;
[0046]第二獲得模塊,用于利用所述樣本圖像信息對所述初步識別結(jié)果進(jìn)行檢驗,獲得所述說話者的身份信息。
[0047]可選的,所述第二獲得模塊包括:
[0048]第一獲得子模塊,用于將所述樣本圖像信息依次與所述聲音信息綁定,獲得多個圖像聲音信息對;
[0049]第二獲得子模塊,用于依次將多個圖像聲音對輸入所述說話者識別模型,獲得多個身份信息;
[0050]確定子模塊,用于將多個身份信息中出現(xiàn)次數(shù)最多的身份信息作為所述說話者的身份信息。
[0051]可選的,所述第一獲得單元具體包括:
[0052]第三獲得模塊,用于利用所述圖像信息識別所述說話者的身份信息,獲得初步識別結(jié)果;
[0053]第四獲得模塊,用于利用所述聲音信息對所述初步識別結(jié)果進(jìn)行檢驗,獲得所述說話者的身份信息。
[0054]可選的,所述第四獲得模塊包括:
[0055]提取子模塊,用于從所述樣本聲音信息中提取所述初步識別結(jié)果表征的第一說話者的第一樣本聲音信息;
[0056]判斷子模塊,用于判斷所述聲音信息是否與所述第一樣本聲音信息相同,獲得判斷結(jié)果;
[0057]確定子模塊,用于若所述判斷結(jié)果為是,則所述說話者的身份信息為所述第一說話者。
[0058]可選的,所述電子設(shè)備還包括:
[0059]確定單元,用于在所述獲得所述說話者的身份信息之后,根據(jù)所述圖像信息,確定所述說話者的位置信息;
[0060]所述生成單元具體用于:
[0061]基于預(yù)定的會議腳本模板、所述說話者的身份信息、所述說話者的位置信息及所述文字信息,生成所述會議腳本記錄。
[0062]本發(fā)明實施例中提供的一個或多個技術(shù)方案,至少具有如下技術(shù)效果或優(yōu)點:
[0063]1、本發(fā)明實施例中,當(dāng)利用電子設(shè)備的聲音采集單元采集聲音信息時,利用電子設(shè)備的圖像采集單元采集圖像信息,所述圖像信息至少包括發(fā)出所述聲音信息的說話者的第一圖像信息;然后利用所述聲音信息和所述圖像信息,獲得所述說話者的身份信息;接著對所述聲音信息進(jìn)行識別,獲得所述聲音信息對應(yīng)的文字信息;最后基于預(yù)定的會議腳本模板、所述說話者的身份信息及所述文字信息,生成會議腳本記錄。在會議進(jìn)行的過程中電子設(shè)備自動生成會議腳本記錄,解決了現(xiàn)有技術(shù)中存在的電子設(shè)備在會議進(jìn)行的過程中不能自動生成會議的腳本記錄的技術(shù)問題,提供了一種電子設(shè)備在會議進(jìn)行的過程中自動生成會議的腳本記錄的方法,節(jié)約了勞力成本,提高了會議的腳本記錄的準(zhǔn)確性,簡化了用戶操作。
[0064]2、本發(fā)明實施例中,還根據(jù)所述圖像信息,確定所述說話者的位置信息;然后基于預(yù)定的會議腳本模板、所述說話者的身份信息、所述說話者的位置信息及所述文字信息,生成所述會議腳本記錄。同時記錄每個說話者何時開始說話、說話的具體內(nèi)容、何時結(jié)束說話以及與會者的座位排布等精確信息,方便還原真實的會議場景。
[0065]3、本發(fā)明實施例中,利用所述聲音信息和所述圖像信息,獲得所述說話者的身份信息,比傳統(tǒng)的人臉和語音識別準(zhǔn)確度都要高能有效的保證最終的說話者識別的精確度。
【附圖說明】
[0066]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0067]圖1為本發(fā)明實施例中一種信息處理方法的流程圖;
[0068]圖2為本發(fā)明實施例中步驟12的第一種實施方式的詳細(xì)流程圖;
[0069]圖3為本發(fā)明實施例中步驟12的第二種實施方式的詳細(xì)流程圖;
[0070]圖4為本發(fā)明實施例中一種電子設(shè)備的模塊圖。
【具體實施方式】
[0071]本發(fā)明實施例提供一種信息處理方法及電子設(shè)備,用于解決現(xiàn)有技術(shù)中存在的電子設(shè)備在會議進(jìn)行的過程中不能自動生成會議的腳本記錄的技術(shù)問題,提供了一種電子設(shè)備在會議進(jìn)行的過程中自動生成會議的腳本記錄的方法,節(jié)約了勞力成本,提高了會議的腳本記錄的準(zhǔn)確性,簡化了用戶操作。
[0072]本發(fā)明實施例中,當(dāng)利用電子設(shè)備的聲音采集單元采集聲音信息時,利用電子設(shè)備的圖像采集單元采集圖像信息,所述圖像信息至少包括發(fā)出所述聲音信息的說話者的第一圖像信息;然后利用所述聲音信息和所述圖像信息,獲得所述說話者的身份信息;接著對所述聲音信息進(jìn)行識別,獲得所述聲音信息對應(yīng)的文字信息;最后基于預(yù)定的會議腳本模板、所述說話者的身份信息及所述文字信息,生成會議腳本記錄。在會議進(jìn)行的過程中電子設(shè)備自動生成會議腳本記錄,解決了現(xiàn)有技術(shù)中存在的電子設(shè)備在會議進(jìn)行的過程中不能自動生成會議的腳本記錄的技術(shù)問題,提供了一種電子設(shè)備在會議進(jìn)行的過程中自動生成會議的腳本記錄的方法,節(jié)約了勞力成本,提高了會議的腳本記錄的準(zhǔn)確性,簡化了用戶操作。
[0073]為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。
[0074]本文中術(shù)語“和/或”,僅僅是一種描述關(guān)聯(lián)對象的關(guān)聯(lián)關(guān)系,表示可以存在三種關(guān)系,例如,A和/或B,可以表示:單獨存在A,同時存在A和B,單獨存在B這三種情況。另夕卜,本文中字符“/”,一般表示前后關(guān)聯(lián)對象是一種“或”的關(guān)系。
[0075]下面結(jié)合附圖對本發(fā)明的實施方式進(jìn)行詳細(xì)說明。
[0076]本發(fā)明實施例提供了一種信息處理方法,應(yīng)用于電子設(shè)備中,所述電子設(shè)備包括圖像采集單元和聲音采集單元。所述電子設(shè)備可以是:筆記本電腦、平板電腦、智能手機等,所述圖像采集單元可以是:所述電子設(shè)備上的攝像頭、照相機、攝像機等具有圖像采集功能的裝置,所述聲音采集單元可以是:所述電子設(shè)備上的麥克風(fēng)、錄音機、攝像機、拾音器等具有聲音采集功能的裝置,在此僅是對電子設(shè)備、圖像采集單元及聲音采集單元舉例說明,本發(fā)明并不做任何限定。
[0077]請參考圖,圖1為本發(fā)明實施例提供的信息處理方法的流程圖。所述方法包括:
[0078]步驟11:當(dāng)利用所述聲音采集單元采集聲音信息時,利用所述圖像采集單元采集圖像信息,所述圖像信息至少包括發(fā)出所述聲音信息的說話者的第一圖像信息;
[0079]步驟12:利用所述聲音信息和所述圖像信息,獲得所述說話者的身份信息;
[0080]步驟13:對所述聲音信息進(jìn)行識別,獲得所述聲音信息對應(yīng)的文字信息;
[0081]步驟14:基于預(yù)定的會議腳本模板、所述說話者的身份信息及所述文字信息,生成會議腳本記錄。
[0082]在多人會議進(jìn)行的過程中,電子設(shè)備的聲音采集單元和圖像采集單元可以始終處于工作狀態(tài)。當(dāng)與會者中有人說話時,利用聲音采集單元采集說話者發(fā)出的聲音信息,同時,利用圖像采集單元采集與會者的圖像信息,由于說話者是與會者中的一員,所以利用圖像采集單元采集到的圖像信息中包括發(fā)出聲音信息的說話者的圖像信息。
[0083]以電子設(shè)備是筆記本電腦為例,在與會者為甲、乙和丙的三人會議進(jìn)行的過程中,筆記本電腦的錄音機功能和拍照功能均處于工作狀態(tài)。當(dāng)甲、乙和丙三人中有人說話時,假設(shè)甲說話,則錄音機采集甲發(fā)出的聲音信息,同時,利用相機采集甲、乙和丙的圖像。
[0084]為了減小電子設(shè)備的功耗,在多人會議進(jìn)行的過程中,電子設(shè)備的聲音采集單元可以始終處于工作狀態(tài),而圖像采集單元默認(rèn)處于睡眠狀態(tài)或待機狀態(tài),當(dāng)聲音采集單元檢測到與會者中有說話者發(fā)出聲音信息時,一方面聲音采集單元采集說話者發(fā)出的聲音信息,另一方面通知電子設(shè)備的中央處理器,中央處理器控制圖像采集單元由睡眠狀態(tài)或待機狀態(tài)切換為工作狀態(tài),然后利用圖像采集單元采集與會者的圖像信息,由于說話者是與會者中的一員,所以利用圖像采集單元采集到的圖像信息中包括發(fā)出聲音信息的說話者的圖像信息。
[0085]繼續(xù)以電子設(shè)備是筆記本電腦為例,在與會者為甲、乙和丙的三人會議進(jìn)行的過程中,筆記本電腦的錄音機功能處于工作狀態(tài),而拍照功能處于睡眠狀態(tài)或待機狀態(tài),當(dāng)錄音機檢測到甲、乙和丙三人中有人說話時,假設(shè)甲說話,則錄音機一方面采集甲發(fā)出的聲音信息,另一方面通知筆記本電腦的中央處理器,中央處理器控制相機由睡眠狀態(tài)或待機狀態(tài)切換為工作狀態(tài),然后利用相機采集甲、乙和丙的圖像。
[0086]在獲得圖像信息以及說話者的聲音信息,其中,圖像信息至少包括說話者的第一圖像信息之后,執(zhí)行步驟12,獲得說話者的身份信息,也就是確定說話者是與會者中的哪一個。由于本發(fā)明實施例中,確定說話者的身份信息需要借助于與會者的聲音信息和與會者的圖像信息,所以在執(zhí)行步驟12之前,還要執(zhí)行以下步驟:
[0087]利用所述圖像采集單元采集與會者的樣本圖像信息,并利用所述聲音采集單元采集與會者的樣本聲音信息,所述與會者包括所述說話者;
[0088]利用所述樣本圖像信息和所述樣本聲音信息,建立說話者識別模型。
[0089]具體來講,利用圖像采集單元采集每一個與會者的圖像信息作為樣本圖像信息,利用聲音采集單元采集每一個與會者的聲音信息作為樣本聲音信息。
[0090]繼續(xù)以電子設(shè)備是筆記本電腦為例,在與會者為甲、乙和丙的三人會議開始之前,甲、乙和丙三人會陸續(xù)申請加入到會議中,在每個人申請加入會議的過程中,可以采集
【申請人】的圖像信息和聲音信息,將采集到的甲、乙和丙三人的圖像信息和聲音信息收集起來,獲得樣本圖像信息和樣本聲音信息。
[0091]在采集樣本圖像信息和樣本聲音信息的過程中,每采集一個樣本圖像信息或樣本聲音信息,就標(biāo)注該樣本圖像信息或該樣本聲音信息屬于哪一個與會者。然后將樣本圖像信息和樣本聲音信息作為輸入,輸入至說話者模型,通過對模型中的參數(shù)進(jìn)行調(diào)節(jié),使得模型輸出的結(jié)果為樣本圖像信息和樣本聲音信息所標(biāo)注的與會者。
[0092]繼續(xù)以電子設(shè)備是筆記本電腦為例,在與會者為甲、乙和丙的三人會議開始之前,甲、乙和丙三人會陸續(xù)申請加入到會議中,以甲申請加入會議為例,采集甲的圖像信息和聲音信息作為樣本圖像信息和樣本聲音信息,并對采集到的樣本圖像信息標(biāo)注為:甲的圖像信息,對采集到的樣本聲音信息標(biāo)注為:甲的聲音信息。按照此方法,還可以獲得2個樣本圖像信息且分別標(biāo)注為:乙的圖像信息、丙的圖像信息,同時可以獲得2個樣本聲音信息且分別標(biāo)注為:乙的聲音信息、丙的聲音信息。
[0093]假設(shè)采集到N種樣本圖像信息和N種樣本聲音信息,則共有N乘以N種組合輸入至說話者模型,N乘以N種組合中有屬于同一與會者的組合,也有屬于不同與會者的組合,通過對說話者模型中的參數(shù)進(jìn)行調(diào)節(jié),可以篩選出屬于同一與會者的組合,并且使得說話者模型的輸出結(jié)果為正確的與會者。
[0094]繼續(xù)以電子設(shè)備是筆記本電腦為例,在與會者為甲、乙和丙的三人會議開始之前,獲得3個樣本圖像信息且分別標(biāo)注為:甲的圖像信息、乙的圖像信息、丙的圖像信息,同時獲得3個樣本聲音信息且分別標(biāo)注為:甲的聲音信息、乙的聲音信息、丙的聲音信息。3個樣本圖像信息和3個樣本聲音信息總共能夠形成9種組合。
[0095]將9種組合輸入到說話者識別模型中,通過對說話者模型中的參數(shù)進(jìn)行調(diào)節(jié),可以篩選出屬于同一與會者的組合,并且使得說話者模型的輸出結(jié)果為正確的與會者。例如:輸入甲的圖像信息和乙的聲音信息至說話者識別模型,則輸出結(jié)果為空,即識別不出說話者是誰,因為說話者識別模型識別出輸入的圖像信息和聲音信息不屬于同一個與會者。又例如:輸入甲的圖像信息和甲的聲音信息至說話者識別模型,則輸出結(jié)果為甲,即說話者是甲。
[0096]在執(zhí)行完上述步驟后,可以執(zhí)行步驟12。步驟12具體有以下兩種實施方式:
[0097]請參考圖2,步驟12的第一種實施方式包括:
[0098]步驟1211:利用所述聲音信息識別所述說話者的身份信息,獲得初步識別結(jié)果;
[0099]步驟1212:利用所述樣本圖像信息對所述初步識別結(jié)果進(jìn)行檢驗,獲得所述說話者的身份信息。
[0100]其中步驟1212具體為:將所述樣本圖像信息依次與所述聲音信息綁定,獲得多個圖像聲音信息對;依次將多個圖像聲音對輸入所述說話者識別模型,獲得多個身份信息;將多個身份信息中出現(xiàn)次數(shù)最多的身份信息作為所述說話者的身份信息。
[0101]具體來講,第一種實施方式需要用到說話者識別模型。首先利用現(xiàn)有的聲音識別技術(shù),可以初步判斷說話者是與會者中的哪一個,然后利用說話者識別模型對初步判斷的結(jié)果進(jìn)行檢驗,以提高識別結(jié)果的準(zhǔn)確度。
[0102]例如:在與會者為甲、乙和丙的三人會議進(jìn)行的過程中,假設(shè)甲說話,則錄音機會采集到甲的聲音信息,利用現(xiàn)有的聲音識別技術(shù),初步判斷說話者為甲。
[0103]然后利用說話者識別模型對初步判斷的結(jié)果進(jìn)行檢驗。當(dāng)初步判斷的結(jié)果為說話者是甲,則將分別標(biāo)注為:甲的圖像信息、乙的圖像信息、丙的圖像信息的3個樣本圖像信息與甲的聲音信息綁定,得出3個組合:甲的圖像信息加甲的聲音信息、乙的圖像信息加甲的聲音信息、丙的圖像信息加甲的聲音信息。接著將3個組合依次輸入到說話者識別模型中,由說話者識別模型識別出說話者為甲。進(jìn)而確定說話者的身份信息為甲。
[0104]請參考圖3,步驟12的第二種實施方式包括:
[0105]步驟1221:利用所述圖像信息識別所述說話者的身份信息,獲得初步識別結(jié)果;
[0106]步驟1222:利用所述聲音信息對所述初步識別結(jié)果進(jìn)行檢驗,獲得所述說話者的身份信息。
[0107]其中,步驟1222具體為:從所述樣本聲音信息中提取所述初步識別結(jié)果表征的第一說話者的第一樣本聲音信息;判斷所述聲音信息是否與所述第一樣本聲音信息相同,獲得判斷結(jié)果;若所述判斷結(jié)果為是,則所述說話者的身份信息為所述第一說話者。
[0108]具體來講,第二種實施方式需要用到樣本聲音信息。首先利用現(xiàn)有的人臉識別技術(shù),可以初步判斷說話者是與會者中的哪一個,然后將初步判斷結(jié)果所表征的聲音信息與樣本聲音信息中對應(yīng)的聲音信息進(jìn)行比較,如果相同,則驗證初步判斷的結(jié)果準(zhǔn)確,進(jìn)而提高識別結(jié)果的準(zhǔn)確度。
[0109]例如:在與會者為甲、乙和丙的三人會議進(jìn)行的過程中,假設(shè)甲說話,則錄音機會采集到甲的聲音信息且相機會采集到甲的圖像,利用現(xiàn)有的人臉識別技術(shù),初步判斷說話者為甲。
[0110]然后從3個樣本聲音信息中提取出標(biāo)注為甲的聲音信息的樣本聲音信息,將提取出的樣本聲音信息與采集到的聲音信息進(jìn)行比較,即比較二者的聲紋是否一致,因為一個人的聲紋是固定不變的。如果一致,則確定說話者的身份信息為甲。
[0111]在確定說話者的身份信息后,執(zhí)行步驟13。因為聲音采集單元已經(jīng)采集到說話者所發(fā)出的聲音信息,所以利用現(xiàn)有的聲音識別技術(shù)可以識別出聲音信息對應(yīng)的文字內(nèi)容。
[0112]例如:在與會者為甲、乙和丙的三人會議進(jìn)行的過程中,假設(shè)甲說話,則錄音機會采集到甲的聲音信息,且確定說話者是甲,然后利用現(xiàn)有的聲音識別技術(shù),識別出甲所發(fā)出的聲音信息對應(yīng)的文字內(nèi)容。
[0113]最后,執(zhí)行步驟14。在預(yù)定的會議腳本模板中,填充說話者的身份信息,以及說話者所發(fā)出的聲音信息對應(yīng)的文字內(nèi)容,進(jìn)而生成會議腳本記錄。
[0114]例如:在與會者為甲、乙和丙的三人會議進(jìn)行的過程中,確定甲先說話,且甲發(fā)出的聲音信息對應(yīng)的文字內(nèi)容為:大家好,接著乙說話,且乙發(fā)出的聲音信息對應(yīng)的文字內(nèi)容為:歡迎大家。而會議腳本模板如下:
[0115]說話者為:_;說話內(nèi)容:_;
[0116]說話者為:_;說話內(nèi)容:_ο
[0117]則生成的會議腳本記錄如下:
[0118]說話者為:里;說話內(nèi)容:大家好.'
[0119]說話者為:乙.;說話內(nèi)容:歡迎大家。
[0120]在本發(fā)明另一實施例中,在執(zhí)行完步驟12,獲得說話者的身份信息之后,還可以執(zhí)行以下步驟:
[0121]根據(jù)所述圖像信息,確定所述說話者的位置信息;
[0122]則步驟14相應(yīng)為:
[0123]基于預(yù)定的會議腳本模板、所述說話者的身份信息、所述說話者的位置信息及所述文字信息,生成所述會議腳本記錄。
[0124]具體來講,由于執(zhí)行完步驟11,獲得了與會者中每一個人的圖像信息,所以可以確定與會者的相對位置,即誰與誰相鄰。
[0125]然后在執(zhí)行步驟14,生成會議腳本記錄的過程中,可以記錄說話者的位置,進(jìn)而確定發(fā)言順序等,方便真實還原會議場景。
[0126]基于同一發(fā)明構(gòu)思,本發(fā)明實施例中還提供了一種電子設(shè)備,由于該電子設(shè)備與上述信息處理方法解決問題的原理與信息處理方法相似,因此該電子設(shè)備的實施可以參見方法的實施,重復(fù)之處不再贅述。
[0127]請參考圖4,圖4為本發(fā)明實施例中一種電子設(shè)備的模塊示意圖。電子設(shè)備包括:
[0128]聲音采集單元41,用于采集聲音信息;
[0129]圖像采集單元42,用于采集圖像信息,所述圖像信息至少包括發(fā)出所述聲音信息的說話者的第一圖像信息;
[0130]第一獲得單元43,用于利用所述聲音信息和所述圖像信息,獲得所述說話者的身份信息;
[0131]第二獲得單元44,用于對所述聲音信息進(jìn)行識別,獲得所述聲音信息對應(yīng)的文字信息;
[0132]生成單元45,用于基于預(yù)定的會議腳本模板、所述說話者的身份信息及所述文字信息,生成會議腳本記錄。
[0133]可選的,所述圖像采集單元42還用于:在所述利用所述聲音信息和所述圖像信息,獲得所述說話者的身份信息之前,采集與會者的樣本圖像信息;
[0134]所述聲音采集單元41還用于:在所述利用所述聲音信息和所述圖像信息,獲得所述說話者的身份信息之前,采集與會者的樣本聲音信息,所述與會者包括所述說話者;
[0135]所述電子設(shè)備還包括:
[0136]建立單元,用于利用所述樣本圖像信息和所述樣本聲音信息,建立說話者識別模型。
[0137]可選的,所述第一獲得單元43具體包括:
[0138]第一獲得模塊,用于利用所述聲音信息識別所述說話者的身份信息,獲得初步識別結(jié)果;
[0139]第二獲得模塊,用于利用所述樣本圖像信息對所述初步識別結(jié)果進(jìn)行檢驗,獲得所述說話者的身份信息。
[0140]可選的,所述第二獲得模塊包括:
[0141]第一獲得子模塊,用于將所述樣本圖像信息依次與所述聲音信息綁定,獲得多個圖像聲音信息對;
[0142]第二獲得子模塊,用于依次將多個圖像聲音對輸入所述說話者識別模型,獲得多個身份信息;
[0143]確定子模塊,用于將多個身份信息中出現(xiàn)次數(shù)最多的身份信息作為所述說話者的身份信息。
[0144]可選的,所述第一獲得單元43具體包括:
[0145]第三獲得模塊,用于利用所述圖像信息識別所述說話者的身份信息,獲得初步識別結(jié)果;
[0146]第四獲得模塊,用于利用所述聲音信息對所述初步識別結(jié)果進(jìn)行檢驗,獲得所述說話者的身份信息。
[0147]可選的,所述第四獲得模塊包括:
[0148]提取子模塊,用于從所述樣本聲音信息中提取所述初步識別結(jié)果表征的第一說話者的第一樣本聲音信息;
[0149]判斷子模塊,用于判斷所述聲音信息是否與所述第一樣本聲音信息相同,獲得判斷結(jié)果;
[0150]確定子模塊,用于若所述判斷結(jié)果為是,則所述說話者的身份信息為所述第一說話者。
[0151]可選的,所述電子設(shè)備還包括:
[0152]確定單元,用于在所述獲得所述說話者的身份信息之后,根據(jù)所述圖像信息,確定所述說話者的位置信息;
[0153]所述生成單元45具體用于:
[0154]基于預(yù)定的會議腳本模板、所述說話者的身份信息、所述說話者的位置信息及所述文字信息,生成所述會議腳本記錄。
[0155]本發(fā)明實施例中提供的一個或多個技術(shù)方案,至少具有如下技術(shù)效果或優(yōu)點:
[0156]1、本發(fā)明實施例中,當(dāng)利用電子設(shè)備的聲音采集單元采集聲音信息時,利用電子設(shè)備的圖像采集單元采集圖像信息,所述圖像信息至少包括發(fā)出所述聲音信息的說話者的第一圖像信息;然后利用所述聲音信息和所述圖像信息,獲得所述說話者的身份信息;接著對所述聲音信息進(jìn)行識別,獲得所述聲音信息對應(yīng)的文字信息;最后基于預(yù)定的會議腳本模板、所述說話者的身份信息及所述文字信息,生成會議腳本記錄。在會議進(jìn)行的過程中電子設(shè)備自動生成會議腳本記錄,解決了現(xiàn)有技術(shù)中存在的電子設(shè)備在會議進(jìn)行的過程中不能自動生成會議的腳本記錄的技術(shù)問題,提供了一種電子設(shè)備在會議進(jìn)行的過程中自動生成會議的腳本記錄的方法,節(jié)約了勞力成本,提高了會議的腳本記錄的準(zhǔn)確性,簡化了用戶操作。
[0157]2、本發(fā)明實施例中,還根據(jù)所述圖像信息,確定所述說話者的位置信息;然后基于預(yù)定的會議腳本模板、所述說話者的身份信息、所述說話者的位置信息及所述文字信息,生成所述會議腳本記錄。同時記錄每個說話者何時開始說話、說話的具體內(nèi)容、何時結(jié)束說話以及與會者的座位排布等精確信息,方便還原真實的會議場景。
[0158]3、本發(fā)明實施例中,利用所述聲音信息和所述圖像信息,獲得所述說話者的身份信息,比傳統(tǒng)的人臉和語音識別準(zhǔn)確度都要高能有效的保證最終的說話者識別的精確度。
[0159]本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實施的計算機程序產(chǎn)品的形式。
[0160]本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
[0161]這些計算機程序指令也可存儲在能引導(dǎo)計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
[0162]這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
[0163]具體來講,本發(fā)明實施例中的一種信息處理方法應(yīng)用于電子設(shè)備中,所述電子設(shè)備包括圖像采集單元和聲音采集單元,所述方法對應(yīng)的計算機程序指令可以被存儲在光盤,硬盤,U盤等存儲介質(zhì)上,當(dāng)存儲介質(zhì)中的與一種信息處理方法對應(yīng)的計算機程序指令被電子設(shè)備讀取或被執(zhí)行時,包括如下步驟:
[0164]當(dāng)利用所述聲音采集單元采集聲音信息時,利用所述圖像采集單元采集圖像信息,所述圖像信息至少包括發(fā)出所述聲音信息的說話者的第一圖像信息;
[0165]利用所述聲音信息和所述圖像信息,獲得所述說話者的身份信息;
[0166]對所述聲音信息進(jìn)行識別,獲得所述聲音信息對應(yīng)的文字信息;
[0167]基于預(yù)定的會議腳本模板、所述說話者的身份信息及所述文字信息,生成會議腳本記錄。
[0168]可選的,所述存儲介質(zhì)中還存儲有另外一些計算機指令,這些計算機指令在與步驟:利用所述聲音信息和所述圖像信息,獲得所述說話者的身份信息,對應(yīng)的計算機指令被執(zhí)行之前被執(zhí)行,在被執(zhí)行時包括如下步驟:
[0169]利用所述圖像采集單元采集與會者的樣本圖像信息,并利用所述聲音采集單元采集與會者的樣本聲音信息,所述與會者包括所述說話者;
[0170]利用所述樣本圖像信息和所述樣本聲音信息,建立說話者識別模型。
[0171]可選的,所述存儲介質(zhì)中存儲的與步驟:利用所述聲音信息和所述圖像信息,獲得所述說話者的身份信息,對應(yīng)的計算機指令在具體被執(zhí)行過程中,具體包括如下步驟:
[0172]利用所述聲音信息識別所述說話者的身份信息,獲得初步識別結(jié)果;
[0173]利用所述樣本圖像信息對所述初步識別結(jié)果進(jìn)行檢驗,獲得所述說話者的身份信息。
[0174]可選的,所述存儲介質(zhì)中存儲的與步驟:利用所述樣本圖像信息對所述初步識別結(jié)果進(jìn)行檢驗,獲得所述說話者的身份信息,對應(yīng)的計算機指令在具體被執(zhí)行過程中,具體包括如下步驟:
[0175]將所述樣本圖像信息依次與所述聲音信息綁定,獲得多個圖像聲音信息對;
[0176]依次將多個圖像聲音對輸入所述說話者識別模型,獲得多個身份信息;
[0177]將多個身份信息中出現(xiàn)次數(shù)最多的身份信息作為所述說話者的身份信息。
[0178]可選的,所述存儲介質(zhì)中存儲的與步驟:利用所述聲音信息和所述圖像信息,獲得所述說話者的身份信息,對應(yīng)的計算機指令在具體被執(zhí)行過程中,具體包括如下步驟:
[0179]利用所述圖像信息識別所述說話者的身份信息,獲得初步識別結(jié)果;
[0180]利用所述聲音信息對所述初步識別結(jié)果進(jìn)行檢驗,獲得所述說話者的身份信息。
[0181]可選的,所述存儲介質(zhì)中存儲的與步驟:利用所述圖像信息對所述初步識別結(jié)果進(jìn)行檢驗,獲得所述說話者的身份信息,對應(yīng)的計算機指令在具體被執(zhí)行過程中,具體包括如下步驟:
[0182]從所述樣本聲音信息中提取所述初步識別結(jié)果表征的第一說話者的第一樣本聲首?目息;
[0183]判斷所述聲音信息是否與所述第一樣本聲音信息相同,獲得判斷結(jié)果;
[0184]若所述判斷結(jié)果為是,則所述說話者的身份信息為所述第一說話者。
[0185]可選的,所述存儲介質(zhì)中還存儲有另外一些計算機指令,這些計算機指令在與步驟:獲得所述說話者的身份信息,對應(yīng)的計算機指令被執(zhí)行之后被執(zhí)行,在被執(zhí)行時包括如下步驟:
[0186]根據(jù)所述圖像信息,確定所述說話者的位置信息;
[0187]所述基于預(yù)定的會議腳本模板、所述說話者的身份信息及所述文字信息,生成會議腳本記錄,具體為:
[0188]基于預(yù)定的會議腳本模板、所述說話者的身份信息、所述說話者的位置信息及所述文字信息,生成所述會議腳本記錄。
[0189]盡管已描述了本發(fā)明的實施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例做出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本發(fā)明范圍的所有變更和修改。
[0190]顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
【主權(quán)項】
1.一種信息處理方法,應(yīng)用于電子設(shè)備中,所述電子設(shè)備包括圖像采集單元和聲音采集單元,所述方法包括: 當(dāng)利用所述聲音采集單元采集聲音信息時,利用所述圖像采集單元采集圖像信息,所述圖像信息至少包括發(fā)出所述聲音信息的說話者的第一圖像信息; 利用所述聲音信息和所述圖像信息,獲得所述說話者的身份信息; 對所述聲音信息進(jìn)行識別,獲得所述聲音信息對應(yīng)的文字信息; 基于預(yù)定的會議腳本模板、所述說話者的身份信息及所述文字信息,生成會議腳本記錄。2.如權(quán)利要求1所述的方法,其特征在于,在所述利用所述聲音信息和所述圖像信息,獲得所述說話者的身份信息之前,所述方法還包括: 利用所述圖像采集單元采集與會者的樣本圖像信息,并利用所述聲音采集單元采集與會者的樣本聲音信息,所述與會者包括所述說話者; 利用所述樣本圖像信息和所述樣本聲音信息,建立說話者識別模型。3.如權(quán)利要求2所述的方法,其特征在于,所述利用所述聲音信息和所述圖像信息,獲得所述說話者的身份信息,具體為: 利用所述聲音信息識別所述說話者的身份信息,獲得初步識別結(jié)果; 利用所述樣本圖像信息對所述初步識別結(jié)果進(jìn)行檢驗,獲得所述說話者的身份信息。4.如權(quán)利要求3所述的方法,其特征在于,所述利用所述樣本圖像信息對所述初步識別結(jié)果進(jìn)行檢驗,獲得所述說話者的身份信息,包括: 將所述樣本圖像信息依次與所述聲音信息綁定,獲得多個圖像聲音信息對; 依次將多個圖像聲音對輸入所述說話者識別模型,獲得多個身份信息; 將多個身份信息中出現(xiàn)次數(shù)最多的身份信息作為所述說話者的身份信息。5.如權(quán)利要求2所述的方法,其特征在于,所述利用所述聲音信息和所述圖像信息,獲得所述說話者的身份信息,具體為: 利用所述圖像信息識別所述說話者的身份信息,獲得初步識別結(jié)果; 利用所述聲音信息對所述初步識別結(jié)果進(jìn)行檢驗,獲得所述說話者的身份信息。6.如權(quán)利要求5所述的方法,其特征在于,所述利用所述圖像信息對所述初步識別結(jié)果進(jìn)行檢驗,獲得所述說話者的身份信息,包括: 從所述樣本聲音信息中提取所述初步識別結(jié)果表征的第一說話者的第一樣本聲音信息; 判斷所述聲音信息是否與所述第一樣本聲音信息相同,獲得判斷結(jié)果; 若所述判斷結(jié)果為是,則所述說話者的身份信息為所述第一說話者。7.如權(quán)利要求1至6中任一權(quán)項所述的方法,其特征在于,在所述獲得所述說話者的身份信息之后,所述方法還包括: 根據(jù)所述圖像信息,確定所述說話者的位置信息; 所述基于預(yù)定的會議腳本模板、所述說話者的身份信息及所述文字信息,生成會議腳本記錄,具體為: 基于預(yù)定的會議腳本模板、所述說話者的身份信息、所述說話者的位置信息及所述文字信息,生成所述會議腳本記錄。8.一種電子設(shè)備,包括: 聲首米集單兀,用于米集聲首?目息; 圖像采集單元,用于采集圖像信息,所述圖像信息至少包括發(fā)出所述聲音信息的說話者的第一圖像信息; 第一獲得單元,用于利用所述聲音信息和所述圖像信息,獲得所述說話者的身份信息; 第二獲得單元,用于對所述聲音信息進(jìn)行識別,獲得所述聲音信息對應(yīng)的文字信息; 生成單元,用于基于預(yù)定的會議腳本模板、所述說話者的身份信息及所述文字信息,生成會議腳本記錄。9.如權(quán)利要求8所述的電子設(shè)備,其特征在于,所述圖像采集單元還用于:在所述利用所述聲音信息和所述圖像信息,獲得所述說話者的身份信息之前,采集與會者的樣本圖像信息; 所述聲音采集單元還用于:在所述利用所述聲音信息和所述圖像信息,獲得所述說話者的身份信息之前,采集與會者的樣本聲音信息,所述與會者包括所述說話者; 所述電子設(shè)備還包括: 建立單元,用于利用所述樣本圖像信息和所述樣本聲音信息,建立說話者識別模型。10.如權(quán)利要求9所述的電子設(shè)備,其特征在于,所述第一獲得單元具體包括: 第一獲得模塊,用于利用所述聲音信息識別所述說話者的身份信息,獲得初步識別結(jié)果; 第二獲得模塊,用于利用所述樣本圖像信息對所述初步識別結(jié)果進(jìn)行檢驗,獲得所述說話者的身份信息。11.如權(quán)利要求10所述的電子設(shè)備,其特征在于,所述第二獲得模塊包括: 第一獲得子模塊,用于將所述樣本圖像信息依次與所述聲音信息綁定,獲得多個圖像聲音信息對; 第二獲得子模塊,用于依次將多個圖像聲音對輸入所述說話者識別模型,獲得多個身份信息; 確定子模塊,用于將多個身份信息中出現(xiàn)次數(shù)最多的身份信息作為所述說話者的身份?目息O12.如權(quán)利要求9所述的電子設(shè)備,其特征在于,所述第一獲得單元具體包括: 第三獲得模塊,用于利用所述圖像信息識別所述說話者的身份信息,獲得初步識別結(jié)果; 第四獲得模塊,用于利用所述聲音信息對所述初步識別結(jié)果進(jìn)行檢驗,獲得所述說話者的身份信息。13.如權(quán)利要求12所述的電子設(shè)備,其特征在于,所述第四獲得模塊包括: 提取子模塊,用于從所述樣本聲音信息中提取所述初步識別結(jié)果表征的第一說話者的第一樣本聲音信息; 判斷子模塊,用于判斷所述聲音信息是否與所述第一樣本聲音信息相同,獲得判斷結(jié)果; 確定子模塊,用于若所述判斷結(jié)果為是,則所述說話者的身份信息為所述第一說話者。14.如權(quán)利要求8至13中任一權(quán)項所述的電子設(shè)備,其特征在于,所述電子設(shè)備還包括: 確定單元,用于在所述獲得所述說話者的身份信息之后,根據(jù)所述圖像信息,確定所述說話者的位置信息; 所述生成單元具體用于: 基于預(yù)定的會議腳本模板、所述說話者的身份信息、所述說話者的位置信息及所述文字信息,生成所述會議腳本記錄。
【文檔編號】G06F9/44GK106033339SQ201510112532
【公開日】2016年10月19日
【申請日】2015年3月13日
【發(fā)明人】胡永濤
【申請人】聯(lián)想(北京)有限公司