數(shù)字標(biāo)牌網(wǎng) 服務(wù)熱線:400-6787-360 | 投稿郵箱 | 會(huì)員登錄 | 免費(fèi)注冊(cè) | 設(shè)為首頁(yè) | 加入收藏 | RSS | 客戶服務(wù) | 月刊訂閱 | |||
|
![]() |
Zoe生成的虛擬頭像能夠展現(xiàn)高興、憤怒、恐懼等六種人類表情,更重要的是她還能夠表達(dá)出對(duì)應(yīng)的語(yǔ)音語(yǔ)調(diào)。
Zoe像是一個(gè)虛擬的人造人,沒有實(shí)際的肉體,僅存活在屏幕之內(nèi),卻能使用不同的面部表情和語(yǔ)音語(yǔ)調(diào)來表達(dá)人類的所有情感。未來,她可能會(huì)淘汰目前以文本和音頻為主的信息溝通模式,或是成為我們手機(jī)之內(nèi)的“人造人助手”。
這套系統(tǒng)由東芝劍橋?qū)嶒?yàn)室(Toshiba’s Cambridge Research Lab)聯(lián)合劍橋大學(xué)工程系打造,締造者將其命名為“Zoe”。當(dāng)你看到Zoe的談吐,肯定會(huì)被這種極其科幻的產(chǎn)品模糊了現(xiàn)實(shí)感。
Zoe生成的虛擬頭像能夠展現(xiàn)高興、憤怒、恐懼等六種人類表情,更關(guān)鍵的是她還能夠表達(dá)出對(duì)應(yīng)的語(yǔ)音語(yǔ)調(diào)。作為操作者,你只需輸入文本,再選擇需要的表情,屏幕內(nèi)的人造人便會(huì)按要求,咆哮或是溫婉地說出這段文字。設(shè)計(jì)者表示,這是人類有史以來制造出的最寫實(shí)、最能復(fù)刻人類行為的虛擬形象。
Zoe的面容來自一位真實(shí)的演員佐伊·李斯特(Zoe Lister),她在《圣橡鎮(zhèn)少年傳奇》(Hollyoaks)內(nèi)扮演佐伊·卡朋特(Zoe Carpenter)的角色,選擇她的原因,大概是因?yàn)橄到y(tǒng)設(shè)計(jì)者是這位演員的超級(jí)粉絲。為了創(chuàng)造該系統(tǒng),設(shè)計(jì)者們花了數(shù)日的時(shí)間才全面采集了佐伊的表情與談吐,并通過Zoe系統(tǒng)復(fù)制了這么一個(gè)虛擬人臉。
關(guān)于Zoe的應(yīng)用前景,它很有可能開辟全新的短信模式。比如你發(fā)送一條短信“我可能要遲到了”給朋友,同時(shí)選擇沮喪的表情,對(duì)方便會(huì)收到一張人臉,垂頭喪氣地說“我要遲到了”。就目前而言,Zoe的開發(fā)團(tuán)隊(duì)還將它應(yīng)用在特殊兒童學(xué)校,輔孤獨(dú)癥以及聽力障礙的兒童學(xué)習(xí)。通過Zoe,這些兒童可以明白不同情緒與文字間的對(duì)應(yīng)關(guān)系,還能夠便捷地學(xué)習(xí)唇語(yǔ)。當(dāng)然,Zeo的應(yīng)用空間十分寬廣,電子游戲、有聲讀物等領(lǐng)域都能夠采納這種全新的用戶界面。
“這個(gè)系統(tǒng)將開辟新一代的用戶界面,人機(jī)交互將變得像人與人溝通一樣簡(jiǎn)單自然。”劍橋大學(xué)工程系教授羅伯托·西珀拉(Roberto Cipolla)表達(dá)了自己的看法,“我們花了好幾天時(shí)間才建成第一個(gè)虛擬形象,是因?yàn)槲覀円獜牧汩_始教會(huì)系統(tǒng)如何理解語(yǔ)言和表情。當(dāng)這一道工序完成后,后來者要更改虛擬形象的顏貌和聲音就要簡(jiǎn)單得多了。”
也就是說,如果你不喜歡這位女演員,Zoe系統(tǒng)內(nèi)的架構(gòu)完全支持你將這張人臉換成任何人。與設(shè)計(jì)初始的艱辛相異,后來者只要花幾秒鐘上傳自己的聲音與頭像即可。這樣一來,這套系統(tǒng)就具備了相當(dāng)高的開放性,每個(gè)人都可以拿它定制自己喜愛的虛擬形象。
別看Zoe功能如此強(qiáng)大,它卻是一個(gè)相當(dāng)輕簡(jiǎn)的系統(tǒng),只有十幾兆大小。系統(tǒng)輕簡(jiǎn)的最大好處是,它能夠被安裝在小型計(jì)算機(jī)設(shè)備上,包括手機(jī)、平板,亦或是未來有可能出現(xiàn)的各種便攜式智能設(shè)備。
Zoe的情感生成功能來自于一個(gè)類似于雷達(dá)圖的“性格生成儀表盤”,上面有高興、悲傷、溫柔、憤怒、恐懼與呆板六個(gè)屬性,你可以輕而易舉地通過拉條選取不同分量的不同屬性,搭配出自己想要的任意表情。同時(shí),話語(yǔ)的音高、語(yǔ)速、語(yǔ)調(diào)等基本屬性也都是可調(diào)的。
比方說,你拉取了一定的“開心”和“溫柔”屬性,并且適當(dāng)?shù)靥岣哒Z(yǔ)速和語(yǔ)調(diào)的深沉,這句話表現(xiàn)出來就是友好而熱情的歡迎。假設(shè)你拉取了一定的“憤怒”和“恐懼”屬性,并適當(dāng)?shù)靥岣哒Z(yǔ)速,這句話表現(xiàn)出來就有些恐慌。從理論上說,你可以為在Zoe內(nèi)復(fù)刻所有的人類情感,這種系統(tǒng)的確是前所未有的。
在制作Zoe時(shí),為了讓虛擬人像的表現(xiàn)盡可能逼真,設(shè)計(jì)團(tuán)隊(duì)收集了數(shù)千個(gè)語(yǔ)句的數(shù)據(jù),并且邀請(qǐng)佐伊·李斯特本人幫助他們的工作。設(shè)計(jì)團(tuán)隊(duì)通過計(jì)算機(jī)視覺軟件記錄佐伊說話時(shí)的表情,再將一切信息制作成數(shù)據(jù)庫(kù)。通過特定的算法,Zoe能夠知道應(yīng)該在什么時(shí)候調(diào)取哪一種圖像及聲音模塊。
為測(cè)試Zoe的表現(xiàn)是否達(dá)到了他們預(yù)設(shè)的目標(biāo),設(shè)計(jì)團(tuán)隊(duì)通過眾包平臺(tái)找來了200位志愿者。每位志愿者都被發(fā)放了一段視頻和一段音頻,20人為一組,每組收到的視頻及音頻分別對(duì)應(yīng)不同的語(yǔ)句。志愿者被要求在觀看視頻(沒有聲音)、收聽音頻(沒有視頻)、觀看帶有音頻的視頻后分別給出自己的判斷,判斷音/視頻所要表達(dá)的情感都是6中情感屬性中的哪一種。
結(jié)果顯示,只看視頻、不聽聲音的志愿者判斷正確的概率為52%;只聽聲音、不看視頻的志愿者判斷正確的概率為 68%;如果志愿者即觀看視頻又收聽音頻,正確率可以達(dá)到77%。也許你覺得這個(gè)數(shù)字并不高,但事實(shí)上,在志愿者觀看佐伊本人說話時(shí),判斷情感正確的概率只有73%!這大概是因?yàn)楹铣傻念^像在表達(dá)情況時(shí)更為模式化,也更夸張。
Zoe設(shè)計(jì)團(tuán)隊(duì)目前的主要任務(wù)有兩點(diǎn),首先是進(jìn)一步開辟Zoe的應(yīng)用空間,其次是進(jìn)一步完善Zoe的用戶自定義功能。“就目前而言,人類和計(jì)算機(jī)的交互依舊停留在鍵盤輸入、鼠標(biāo)點(diǎn)擊之上,”西珀拉教授表示,“這種模式對(duì)于很多人而言是極度不便的。如果我們?cè)谖磥砟軌蜃屓祟愅ㄟ^更為自然的方式與計(jì)算機(jī)進(jìn)行交互,就好比語(yǔ)言和動(dòng)作,計(jì)算機(jī)的普及程度肯定會(huì)大為提升。這就是我們創(chuàng)造Zoe的目的,創(chuàng)造一個(gè)更具表達(dá)能力的,能夠情感互動(dòng)的計(jì)算機(jī)形象,創(chuàng)造一種最自然的交互體驗(yàn)。”