5月31號(hào)上午,應(yīng)信息學(xué)院邀請(qǐng),上海交通大學(xué)陳諧副教授在百全樓作了一場(chǎng)題為“多語言同聲傳譯和語音驅(qū)動(dòng)的數(shù)字人”的學(xué)術(shù)講座。講座由信息學(xué)院劉浩院長主持,信息學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)、網(wǎng)絡(luò)工程和軟件工程等專業(yè)的部分師生參加此次講座。
講座中,陳教授首先通過場(chǎng)景演示方式介紹了跨媒體語言智能實(shí)驗(yàn)室的在對(duì)話式人工智能、視聽文感知及語言認(rèn)知方面的主要研究情況,然后重點(diǎn)分享了陳教授在多語言同聲傳譯和語音驅(qū)動(dòng)的數(shù)字人方面做的一些探索和嘗試。陳教授介紹了團(tuán)隊(duì)最新的流式語音識(shí)別和機(jī)器翻譯前沿研究,并直接演示了多語言同聲傳譯系統(tǒng),通過團(tuán)隊(duì)搭建的語音識(shí)別系統(tǒng)直接識(shí)別同聲傳譯原文,同時(shí)通過同傳系統(tǒng)轉(zhuǎn)換成越南語。在語音驅(qū)動(dòng)的數(shù)字人方面,提出一種兩階段模型將輸入音頻信號(hào)同步到數(shù)字人的口型上,首先通過語音魯棒特征提取形成一種音頻特征映射到面部運(yùn)動(dòng)和姿勢(shì)表示,其次通過動(dòng)態(tài)時(shí)間規(guī)整DWT等對(duì)其技術(shù)將面部運(yùn)動(dòng)和姿勢(shì)表示渲染到視頻,從而基于少量的精標(biāo)數(shù)據(jù)就可以搭建一個(gè)性能不錯(cuò)的語音驅(qū)動(dòng)的數(shù)字人原型系統(tǒng)。陳教授的報(bào)告通俗易懂、深入淺出,將復(fù)雜的模型演變成清晰有趣的應(yīng)用展現(xiàn)在師生的面前。

陳諧,上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系長聘教軌副教授,博士生導(dǎo)師,獲國家海外高層次人才(青年)項(xiàng)目資助。2009年本科畢業(yè)于廈門大學(xué)電子工程系,2012年碩士畢業(yè)于清華大學(xué)電子系,2016年博士畢業(yè)于劍橋大學(xué)信息工程系,博士畢業(yè)后先后在劍橋大學(xué)從事博士后研究,美國微軟研究院任高級(jí)研究員,資深研究員,2021年9月加入上海交通大學(xué)。主要研究方向?yàn)樯疃葘W(xué)習(xí)和智能語音信號(hào)處理,在本領(lǐng)域的國際權(quán)威會(huì)議和期刊發(fā)表論文60余篇。(圖/文:彭智朝;一審:彭智朝;二審:王愛軍;三審:劉浩)