2025年中關(guān)村論壇平行論壇“未來互聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展論壇”3月29日舉行,清華大學(xué)人工智能研究院聽覺智能中心主任鄭方在論壇上表示,聲紋智能是重構(gòu)安全可信的下一代互聯(lián)網(wǎng)身份防線。聲紋識(shí)別會(huì)比人臉識(shí)別安全嗎?未來應(yīng)用前景如何?對(duì)此,新京報(bào)記者對(duì)鄭方進(jìn)行采訪。

 

聲紋識(shí)別有多項(xiàng)優(yōu)勢(shì),更容易體現(xiàn)真實(shí)意圖

 

新京報(bào):目前,AI換臉等技術(shù)可能對(duì)人臉識(shí)別造成影響,在身份認(rèn)證上,聲紋識(shí)別會(huì)比人臉識(shí)別更安全嗎?

 

鄭方:聲紋識(shí)別有幾個(gè)優(yōu)勢(shì)比較明顯。第一個(gè)就是防止偽造,現(xiàn)在生成式人工智能帶來的威脅就是偽造出人的音視頻,需要將偽造檢測(cè)出來,尤其是深度偽造。聲音的認(rèn)證有比較強(qiáng)的信號(hào)的內(nèi)在特性和方法的先進(jìn)性,所以能夠把偽造的聲音非常準(zhǔn)確地檢測(cè)出來,保證認(rèn)證的準(zhǔn)確性。

 

語音信號(hào)中的多種語音信息,既可派生出多種識(shí)別技術(shù),亦可綜合運(yùn)用解決復(fù)雜需求問題,比如方言口音識(shí)別、年齡識(shí)別、健康識(shí)別等。

 

另外,聲紋識(shí)別更容易體現(xiàn)出真實(shí)意圖。身份認(rèn)證會(huì)涉及遠(yuǎn)程辦理的情況,比如手機(jī)銀行、電子政務(wù)等場(chǎng)景,雖然方便,但也可能存在被認(rèn)證人被脅迫的情況。另外,也有被動(dòng)認(rèn)證的情況,比如在路過某處時(shí)人臉被掃描,在未知的情況下被認(rèn)證。相比之下,聲音中的情感容易被檢測(cè)出來,比如聲紋識(shí)別時(shí)檢測(cè)出恐懼情感時(shí),屬于異常情況,可以進(jìn)一步再驗(yàn)證本人是否主動(dòng)進(jìn)行認(rèn)證。

 

語音還有適老化、信息無障礙的特點(diǎn)。比如我現(xiàn)在要進(jìn)行一些操作,可以不用點(diǎn)手機(jī)菜單,而是直接把話說出來,其中既包含命令,也蘊(yùn)含身份信息和意圖是否自愿。這不僅對(duì)老人和殘疾人非常方便,也讓健全人在特殊場(chǎng)合的操作更加簡(jiǎn)便,比如兩手提著東西或者開車時(shí)。

 

新京報(bào):人臉有相像的情況,聲音非常相似的話是否可以準(zhǔn)確識(shí)別?

 

鄭方:我們做過一些非常好的實(shí)驗(yàn),找極端的案例,比如同卵雙胞胎。同卵雙胞胎光看人臉,有些是很難區(qū)分的,但聲紋可以100%區(qū)分,所以聲紋的區(qū)分性和唯一性是非常強(qiáng)的。

 

美國有些科學(xué)家做了很多年研究,對(duì)各種不同生物特征做了全面的比較,其中聲紋在唯一性方面甚至比人臉要強(qiáng)。母女、父子、兄弟或者姐妹的人臉有時(shí)候很相似,但聲音是能夠完全分開的。

 

未來可進(jìn)行“聲紋+人臉”多模態(tài)識(shí)別

 

新京報(bào):聲紋識(shí)別是否有弱點(diǎn),如何突破?

 

鄭方:任何一個(gè)技術(shù)都會(huì)有弱點(diǎn),聲紋識(shí)別也不例外。和人臉識(shí)別會(huì)受到光線影響一樣,聲紋識(shí)別存在噪聲的問題,但并非不能解決。比如雞尾酒會(huì)效應(yīng),是指在嘈雜環(huán)境中,人們能夠?qū)W⒂谝粋€(gè)特定聲音源并忽略其他聲音的能力。所以我們可以用麥克風(fēng)陣列的技術(shù)把噪聲去掉,前期已經(jīng)做了一些基礎(chǔ)研究和鋪墊。

 

另外,人的聲音和長相一樣,會(huì)隨著年齡增長出現(xiàn)變化。針對(duì)這個(gè)情況,我們提前20年就開始做基礎(chǔ)課題的研究,已經(jīng)收集了15年的數(shù)據(jù),找了一組志愿者,連續(xù)15年每周說相同的話,最后找到了人的聲音隨年齡變化的規(guī)律,我們稱之為聲音的時(shí)變。所以我們現(xiàn)在基本上找到了解決方案,而且效果比較好。

 

錄音重放攻擊是個(gè)巨大安全威脅,對(duì)此,我們發(fā)明了防假體攻擊鑒偽(鑒別偽造)技術(shù)。

 

新京報(bào):未來聲紋識(shí)別是否可以疊加其他特征一起識(shí)別?

 

鄭方:可以進(jìn)行多模態(tài)的識(shí)別,用聲紋跟人臉結(jié)合,這是生物特征認(rèn)證最好的兩種方式。一方面,聲紋和人臉是人類和自然界信息交互最主要的兩種方式。另外,在手機(jī)等智能終端上,麥克風(fēng)和攝像頭是標(biāo)配。

 

所以我們多年前就啟動(dòng)了聲紋和人臉結(jié)合的研究,比較超前的方面是我們的技術(shù)可以不用把聲音聽全,不用把人臉看全,即非完整信息融合。比如影像被某個(gè)物品遮住一部分,聲音突然被關(guān)門聲蓋過了一部分,也可以實(shí)現(xiàn)識(shí)別。這帶來了更大的便利,比如人臉不用對(duì)準(zhǔn)識(shí)別框,聲音也不用輸入時(shí)按鍵、結(jié)束時(shí)松手,實(shí)現(xiàn)無感認(rèn)證。這個(gè)認(rèn)證方式包含了防偽造攻擊、體現(xiàn)意圖等特點(diǎn)。

 

新京報(bào):聲紋識(shí)別的應(yīng)用前景如何?離大規(guī)模應(yīng)用還有多久?

 

鄭方:應(yīng)用會(huì)非常廣泛,目前已經(jīng)在移動(dòng)金融、公安、社保、智慧家居等領(lǐng)域有了一些應(yīng)用實(shí)踐。國家政務(wù)服務(wù)平臺(tái)上已經(jīng)開通了以聲紋識(shí)別的方式進(jìn)行網(wǎng)絡(luò)身份認(rèn)證登錄的通道。

 

《國家網(wǎng)絡(luò)身份認(rèn)證公共服務(wù)管理辦法(征求意見稿)》去年已經(jīng)向社會(huì)公開征求意見,預(yù)計(jì)很快公開。未來網(wǎng)絡(luò)身份認(rèn)證將會(huì)應(yīng)用到聲紋,推動(dòng)之后會(huì)非??焖俚馗采w應(yīng)用,我們現(xiàn)在做的都是前期準(zhǔn)備和驗(yàn)證工作。

 

新京報(bào)記者 張璐

編輯 張磊 校對(duì) 趙琳