Sora能精準解讀提示指令,生成符合基礎物理邏輯的影像
在官方示範影像中,Sora能準確地解讀提示指令的描述,包含能生成一個或多個影像主體,如「一輛」配有黑色車頂行李架白色老式SUV,「三隻」站在樹枝上的馬來犀鳥;能演示出特定運動軌跡描述,如數架「穿梭於」樹林中的紙飛機;或是能準確呈現細緻且複雜的場景,如模擬無人機攝影視角,盤旋在海岸旁的教堂上空。
如同OpenAI在官網上宣稱其正在訓練AI模型,使其理解真實世界的物理邏輯,目標是協助人們解決現實世界互動的問題,從示範影像也能觀察到,Sora欲展現其生成結果能符合物理原理的特點,如火車窗戶玻璃上隨著移動、光影變化透出的遠景與反射的倒影,「隨風飄揚」的櫻花花瓣,在雪地中玩耍幼犬身上「覆蓋與甩動」的雪花等。
圖二、Sora展現其解讀指令與符合物理邏輯的生成影像特性
資料來源:OpenAI,MIC整理,2024年2月
Sora以通用模型邏輯開發,開放使用時程未定
儘管OpenAI在官方示範影像中表明當前生成模型仍存在一定的限制,但Sora所能展現的影像長度、精緻度,已與其他AI生成影像軟體拉開差距。OpenAI從ChatGPT、DALL·E,再到Sora一路從文字、圖片發展至影像AI模型,展現跨足大規模影像資料訓練的野心。
此外,在訓練Sora的過程中,OpenAI便結合DALL·E 3與GPT對語言的理解能力,將先前累積的技術實力運用到AI影像模型上,而此次將Sora定位為世界模擬器(World Simulators),有意圖將Sora發展成適用於各式商業用途或一般大眾等「通用」工具。值得一提的是,OpenAI在技術報告最末內容,分享Sora在模擬遊戲控制上的潛力(以Minecraft為例),引發各界對其未來擴展視訊模型至「虛實相融世界」的想像。
現階段Sora僅針對部分人士提供訪問權限,態度相當謹慎,包含將模型開放給評估軟體潛在危害與風險的紅隊成員(Red Teamers ),透過測試安全性與資訊正確性,排除色情、暴力、仇恨等敏感內容,並向部分視覺藝術家、設計師和電影製作人等「內容產業創作者」,徵求對模型使用的專業意見回饋,以精進AI模型設計。
由於OpenAI並未公開AI模型開發細節,使得不少人對於其生成結果是否經過「刻意挑選」而存在疑慮。對此,OpenAI執行長Sam Altman在發布Sora後,也在社群媒體X(前身為Twitter)上邀請用戶提出指令,並以Sora生成約10秒的影像,在人物、動物、場景的呈現皆有不錯的效果,成果並不亞於官方演示版本。
圖三、Sam Altman於社群X邀請用戶提出指令生成影像
資料來源:OpenAI,MIC整理,2024年2月
Sora核心技術結合擴散模型與Transformer
不論是圖片生成或影像生成模型,常見的技術為使用擴散模型進行訓練,而Sora則在擴散模型基礎上,進一步結合Transformer模型,形成「Diffusion Transformer」技術架構,突破Text-to-Video的品質與影像長度限制,在生成式AI技術里程碑的道路上,Sora可視為影像生成的基礎模型。
Diffusion Transformer技術架構
擴散模型主要的技術原理是在圖片中資料加入雜訊,再透過電腦視覺模型將加入雜訊的圖片逆向還原,每次加入少量雜訊,藉由反覆上千次的加噪、降噪過程,訓練出生成圖片或影像的模型。
潛在擴散模型(Latent Diffusion Model)是擴散模型的一種,在技術上多了圖片壓縮步驟,必須先將圖片資料縮小至低維度的潛在擴散模型(Latent Diffusion Model),接著執行加噪、降噪過程,最後再將壓縮的圖片恢復至原始像素空間。
Sora使用潛在擴散模型,將影像資料壓縮至低維度的潛空間(Latent Space),然後切分影像資料並轉換成時空片段(Spacetime Patch),屬於具有時間序列性質的資料,接著在技術架構上,運用電腦視覺模型U-Net(做影像切割的卷積神經網路,由於上下對稱,看起來像U字,故名稱為U-Net),換成結合電腦視覺與Transformer的視覺Transformer模型(Vision Transformer, ViT),透過ViT模型對大量的Spacetime Patches進行訓練,形成Diffusion Transformer技術架構。
資料來源:OpenAI,MIC整理,2024年2月
Diffusion Transformer技術亮點
由於Sora將影像資料轉換為Spacetime Patch,能保留影像的原始長寬比例,讓訓練出的模型在生成影像時,較不易出現影像畫面被裁切的狀態。再者,將Transformer結合擴散模型的優勢在於,透過投入大量運算資源,能夠達到規模化效益,讓生成的影像品質具高解析度、影像時間最多也能長達1分鐘。
在語言理解方面,OpenAI延續DALL·E 3關鍵技術「重新描述」(Recaptioning),指模型能將短句自動生成為長句,讓生成效果更加逼真。在使用Sora生成影像時,透過Recaptioning能將使用者的提示詞轉換為較長且詳細的指令,生成生動且具細節的影像內容。此外,Recaptioning也能實現Sora的影像編輯功能,根據使用者指令抽換影像中的物件,其原理和DALL·E 3的圖片編輯功能相同。
Sora仍難以準確模擬複雜場景中的物理原理與前後因果關係
Sora雖然具有令人驚豔的影像生成能力,然而若仔細觀看影像內容,仍可發現在細節上仍存在一些缺陷和弱點。如同OpanAI在發布內容裡所說,Sora可能難以準確模擬複雜場景的物理原理,或是無法完全理解事件前後的因果關係,甚至是空間中上下前後左右的關係,或是具有時間推移特性的事件。
以場景內物理原理舉例,在以此段提示「…穿過熙熙攘攘的東京街道…」生成的影像中,可以看到前方的攤位明顯與正在行走的主角比例差異懸殊,且在主角前方的路人走進攤位後就消失不見。可見其對於「人碰到攤位後應該會產生碰撞」未完全理解。
再者,以「…考古學家挖掘出一把普通的塑膠椅子…」此段影像為例,影像中可看出,因Sora模型並未將塑膠椅子視為物體,故從一開始的一片塑膠變成椅子後,又開始不斷改變形狀,甚至憑空漂浮。而「…一個人跑步的場景…」影像中,更是直接生成與現實相反的倒著跑步的結果。可見其對於「塑膠椅子被挖掘出來後如何與人互動」、「跑步機要向前跑」等,對於物體與事件間因果關係理解仍有待優化。
其三,在此段「…老奶奶慶祝生日…」的提示生成影像中,雖然有吹蠟燭動作,但眼神和嘴巴方向卻與蠟燭對不上,可見一個空間中多角色間的互動,對於影像生成的模型仍具有挑戰性。而「…籃球穿過籃框後爆炸..」的提示生成影像中,則是在籃球爆炸後又憑空出現一個籃球穿過籃框,顯示其對於具有時間推移概念的提示理解上也有困難。
最後則是在真實世界常識的理解上,舉凡「從狗的身上長出自拍棒」、「螃蟹腳如同章魚一樣柔軟」、「兩隻腳的小熊貓」等,都展現出模型對於世界的理解仍存有幻覺。
圖五、Sora生成的影像對複雜場景的物理原理與前後因果關係理解不全
資料來源:OpenAI,MIC整理,2024年2月