據(jù)谷田介紹,如何將新型視頻會議系統(tǒng)擬人化,以貼近人工智能需求,是雅馬哈PJP系列倡導(dǎo)的最新網(wǎng)絡(luò)會議技術(shù)理念。這些理念將通過瞬間呈現(xiàn)技術(shù)、聲音非增幅音響設(shè)計、內(nèi)置適應(yīng)型回聲消除器等一系列技術(shù)得以體現(xiàn)。
假如甲地和乙地一起舉行遠(yuǎn)程視頻會議,甲地人員如何清楚確定乙地哪位與會者正在發(fā)言(視頻追蹤)十分重要。在處理這一問題上,思科、北電—寶利通采取的措施霸氣十足:打造一個30萬美元以上的網(wǎng)真會議室,租用超寬帶寬傳輸聲音和圖像,用超大電視墻1∶1地還原場景和參會者;而蘇州科達(dá)等國內(nèi)企業(yè)的做法相對經(jīng)濟(jì)實(shí)惠:用甲地員工手中的遙控器去控制乙地會議室攝像頭的轉(zhuǎn)動和焦距調(diào)節(jié),尋找小顯示屏幕一次裝不下的參會者或給出特寫鏡頭。總體來說,這兩種做法都使用的是“尋聲辨人”的方式,但用的是人眼搜索。
雅馬哈給這一問題增加了一條技術(shù)解決路徑,那就是使攝像頭學(xué)會尋聲辨人。谷田向記者介紹道:“不要忽略人類都是‘尋聲望去’這一聽覺的天性,在視頻會議系統(tǒng)中,視頻顯示與聲音的處理技術(shù)其實(shí)是密不可分的。以PJP-300V這款攝像頭、麥克風(fēng)、揚(yáng)聲器一體機(jī)為例,它可以實(shí)現(xiàn)說話人瞬間顯示的功能。即使使用普通液晶屏幕,會議發(fā)言人的特寫和聲音也能瞬間呈現(xiàn)!边@項(xiàng)技術(shù)的實(shí)現(xiàn),依靠的是在PJP-300V上面配列16個麥克風(fēng)陣列,可以自動判別說話人的位置;通過說話人的位置信息和3個攝像機(jī)的切換、聯(lián)動,使說話人可以瞬間在屏幕上顯示出來。這項(xiàng)技術(shù)不需要攝像頭的切換動作,保證了會議順暢進(jìn)行。同時這項(xiàng)瞬間呈現(xiàn)技術(shù),在桌面型VoIP電話中也可以應(yīng)用,使音頻會議呈現(xiàn)立體感,實(shí)現(xiàn)與語話者座位的匹配。