廣義的虛擬人涵蓋數位人類,泛指以數位化方式建構的人類。伴隨著AI浪潮湧入,強調借助3D建模與動畫、深度學習暨多模態LLM等技術創建的「AI驅動型虛擬人」逐漸盛行,朝向多樣化、細節化、自動化的方向邁進,導入在各大領域創造嶄新的市場商機。輝達(NVIDIA)執行長黃仁勳表示,數位人類將徹底改變各行各業,並大力推廣解決方案NVIDIA ACE。
虛擬人的開發可分為「規劃與構思」、「人物模型與效果建構」、「整合與渲染」三大環節,都可藉助AI提供動能。「規劃與構思」為設計虛擬人形象個性或功能服務的流程,AI輔助設計以Inworld與XBox的工具為例,可透過上傳遊戲大綱、腳本等生成視覺化的故事結構圖再調適細節,未來若與AI NPC整合,能更好的銜接角色形象與劇情。
「人物模型與效果建構」涵蓋外型、聲音、動作等層面,可採用工具內建的模組或透過文字、圖影、音訊等數據採集、訓練與創建,例如D-ID的GAI工具可選擇內建模組、上傳圖像及錄音檔、輸入文字等方式創建人像並發出聲音,強調操作簡易與高效。深入融合與調適STT、TTS、LLM/SLM、RAG等技術能更好的滿足交互需求,例如UneeQ的交互模組能讓虛擬人自主調適眨眼頻率、表情、肢體動作等動畫,理解上下文與回應用戶。
「整合與渲染」則為視規劃與構思、算力供給、運算框架規模等條件,將虛擬人整合至流程,在人機介面的載體(如PC、行動裝置、數位看板、機台、頭戴裝置、投影介質)上渲染部署(雲端或本地端)即時(雙向互動)或非即時(單向傳播)的虛擬人。當然,實務上可視需求與資源在部分環節採用其他作法,例如藉助真人動作追蹤來即時互動。
已有不少AI驅動型虛擬人案例與方案,在媒體、教育、文旅、健康、金融、零售、遊戲等領域與B(企業)C(消費者)端滲透。以媒體領域為例,如India Today Group的AI主播Sana宣稱可用一致性的語氣與風格講述多種語言,能輕鬆在各種主題與形式切換。教育領域如Heineken藉助Synthesia的方案製作虛擬人影片,已培訓全球7萬多名員工。文旅領域如Jumbo Mana與藝術史學家合作打造,曾在奧塞博物館展示虛擬梵谷。金融領域如DEEPBRAIN AI為NH Bank打造AI Banker,宣稱口型同步準確率約97%,支持18種手勢。
台灣逐步推進AI驅動型虛擬人的應用場景,包含虛擬偶像、品牌大使、客服與導覽員等,仰賴設計開發整合商及垂直領域等業者攜手邁進。
要讓AI驅動型虛擬人更快普及,需要挖掘更多超越常態作法,而非單純的新穎與吸睛效果。首先除可支持多國語言、全年無休、搭載專業知識等非虛擬人即可滿足的需求,理論上虛擬人能夠「昇華溝通的溫度」,超越單純文字、語音或搭配靜態圖像的互動模式。
其次,適當採用還可「創造投資回報」,如南韓濟州島政府引入AI主播,人物與腳本皆由AI輔助生成,每月只需花費60萬韓元(約新台幣1.4萬元)維護,比真人便宜。
第三為「突破真人限制」,如AI偶像或代言人不會老也不會累。第四為「降低真人負荷」,如幫忙甚至替代真人表演、教學、播報、照護等。第五為「多元包容服務」,如提供包含手語或跨越族群的多語言、多樣貌服務。最後可創造「填補虛擬世界」等效益,如在XR、元宇宙環境放入大量自動化虛擬人提升體驗。
AI驅動型虛擬人的導入,仍有不少議題值得重視。「不當使用」的影響不容小覷,包括產製過程中的侵權、運用虛擬人詐騙、訓練不佳造成言行失當,甚至引發倫理等問題。其次為「恐怖谷現象」,若虛擬人「擬人化」到某個高度,不夠擬人的部分可能會被放大,或許會產生恐懼、毛骨悚然等負面感受,在開發時需要審慎處理與評估,例如強化情緒與表情的協調性、降低擬人化程度等。
最後是關鍵的「品質成本權衡」,當前的技術要達到高品質效果,如降低AI幻覺風險、細緻的畫面呈現、流暢與自然的互動等,對成本乃至基礎建設要求會提升的很高,需要更全面的評估。
(本文刊登於2024/11/3 經濟日報A11版)
【未經MIC許可,不得轉載與作其他用途使用】