• 報告
破繭成蝶-AI文字生成影像模型超進化!OpenAI Sora模型影響評析
前言

2024年2月15日,OpenAI宣布推出影像生成AI模型Sora,不論在影像長度或內容品質均超越過往的文字生成影像模型(Text-to-Video Model),引起全球關注。本文將分析OpenAI Sora現世事件之背景、脈絡,以及對產業帶來的影響。

目錄
圖目錄
表目錄
事件背景
AI生成影像,科技大廠與新創相繼釋出模型
在ChatGPT、Google Bard (已更名為Gemini)等逐漸由文生文走向文生圖,以及AI文生圖DALL·E 3及Stable Diffusion等相繼推出後,似乎可察覺到AI文字生成影像的服務,會是接下來各廠商所要爭取的生成式AI版圖。其中,新創公司 Runway於2023年2月,即釋出以擴散模型訓練影像編輯的Gen-1 模型,能根據輸入照片或文字描述來編輯影像,如透過AI將原圖融合不同圖片,轉換成水彩、黏土動畫等風格,或以文字指令(Prompt)調整細節。而Runway也在同年6月釋出更進階的文字生成影像Gen-2模型,能生成最高2,816 x 1,536最長16秒、每秒24幀(Frame Per Second, FPS)的影像。
緊接著,Meta於2023年9月的Meta Connect發布Emu模型,推出同樣是基於擴散模型的Emu Video與Emu Edit工具,能根據文字提示產生圖片,再由圖片生成512x512長度4秒、每秒16幀的影像;新創公司Pika Labs於12月推出Pika 1.0(並預告即將推出2.0版本),能生成1,024x576最長7秒、每秒8幀的影像;而Google則於2024年1月推出Lumiere模型,能生成1,024×1,024長度5秒、每秒16幀的影像,皆能協助內容工作者創建與編輯更多影像內容。
Sora橫空出世,拉開與競爭對手的距離
OpenAI於2024年2月15日宣布推出影像生成AI模型Sora,是由Tim Brooks、Bill Peebles、Aditya Ramesh開發而成,其中,Tim Brooks作為Sora專案啟動的一員,除了主導旗艦模型的研究方向和訓練,也曾經在NVIDIA參與影像生成相關研究專案,甚至曾在Google參與Pixel手機相機用AI的研究。
OpenAI在官網釋出48段各達1分鐘、由Sora生成的影像,並宣稱沒有經過任何修改。Sora除了能以文生影,也支援輸入圖片、影像等素材,以進行圖、影編輯,甚至是針對影像沿著時間軸進行向前或向後的延展。
在解析度表現上,Sora可生成1,920×1,080像素的寬螢幕影像、1,080x1,920垂直影像(比例 9:16),以及介於兩者之間的所有影像格式,若以單一影格為單位,則可輸出最高2,048x2,048解析度的圖片。在生成影像表現上,Sora在影像「生成長度、品質、一致性、準確性」等面向皆展現卓越品質,不僅突破許多過去生成影像未能克服的忽略用戶提示、生成內容變更或不準確、影像失真或不具連貫性、需藉由拼接延長內容長度等困境,也在符合基本物理邏輯、跨越人像恐怖谷上,為影像敘事帶來重大進展。
事件說明
Sora生成影像風格多元、視角與運鏡變化豐富
Sora取自於日語的天空「そら」一詞,期許能引發更多天馬行空的創意。Sora不僅能生成多種「影像風格」,如在提示指令中輸入電影般的、3D藝術、漫畫等,也能呈現出不同的影像「拍攝手法」,如手機鏡頭拍攝、35/70毫米膠片拍攝、無人機拍攝,或是不同「影像視角」,如特寫鏡頭、低相機視角、強調景深、鏡頭圍繞等,甚至是描述色彩、氛圍的「視覺效果」,如彩色的、暖色調的、鮮豔的、華麗的等。
Sora不僅能生成長達1分鐘的影像,也能在單一影像中創建多個視覺風格一致的鏡頭。如先以遠景呈現在城市街道上行走的時尚女子,再以特寫鏡頭呈現其配戴墨鏡,塗著紅色口紅的細部特徵,或是融合多種運鏡、轉場效果,生成一段在鹽漠裡冒險的太空人電影預告片。
圖一、Sora 展現電影般運鏡、縮放等影像技巧
圖一、Sora 展現電影般運鏡、縮放等影像技巧
資料來源:OpenAI,MIC整理,2024年2月
Sora能精準解讀提示指令,生成符合基礎物理邏輯的影像
在官方示範影像中,Sora能準確地解讀提示指令的描述,包含能生成一個或多個影像主體,如「一輛」配有黑色車頂行李架白色老式SUV,「三隻」站在樹枝上的馬來犀鳥;能演示出特定運動軌跡描述,如數架「穿梭於」樹林中的紙飛機;或是能準確呈現細緻且複雜的場景,如模擬無人機攝影視角,盤旋在海岸旁的教堂上空。
如同OpenAI在官網上宣稱其正在訓練AI模型,使其理解真實世界的物理邏輯,目標是協助人們解決現實世界互動的問題,從示範影像也能觀察到,Sora欲展現其生成結果能符合物理原理的特點,如火車窗戶玻璃上隨著移動、光影變化透出的遠景與反射的倒影,「隨風飄揚」的櫻花花瓣,在雪地中玩耍幼犬身上「覆蓋與甩動」的雪花等。
圖二、Sora展現其解讀指令與符合物理邏輯的生成影像特性
圖二、Sora展現其解讀指令與符合物理邏輯的生成影像特性
資料來源:OpenAI,MIC整理,2024年2月
Sora以通用模型邏輯開發,開放使用時程未定
儘管OpenAI在官方示範影像中表明當前生成模型仍存在一定的限制,但Sora所能展現的影像長度、精緻度,已與其他AI生成影像軟體拉開差距。OpenAI從ChatGPT、DALL·E,再到Sora一路從文字、圖片發展至影像AI模型,展現跨足大規模影像資料訓練的野心。
此外,在訓練Sora的過程中,OpenAI便結合DALL·E 3與GPT對語言的理解能力,將先前累積的技術實力運用到AI影像模型上,而此次將Sora定位為世界模擬器(World Simulators),有意圖將Sora發展成適用於各式商業用途或一般大眾等「通用」工具。值得一提的是,OpenAI在技術報告最末內容,分享Sora在模擬遊戲控制上的潛力(以Minecraft為例),引發各界對其未來擴展視訊模型至「虛實相融世界」的想像。
現階段Sora僅針對部分人士提供訪問權限,態度相當謹慎,包含將模型開放給評估軟體潛在危害與風險的紅隊成員(Red Teamers ),透過測試安全性與資訊正確性,排除色情、暴力、仇恨等敏感內容,並向部分視覺藝術家、設計師和電影製作人等「內容產業創作者」,徵求對模型使用的專業意見回饋,以精進AI模型設計。
由於OpenAI並未公開AI模型開發細節,使得不少人對於其生成結果是否經過「刻意挑選」而存在疑慮。對此,OpenAI執行長Sam Altman在發布Sora後,也在社群媒體X(前身為Twitter)上邀請用戶提出指令,並以Sora生成約10秒的影像,在人物、動物、場景的呈現皆有不錯的效果,成果並不亞於官方演示版本。
圖三、Sam Altman於社群X邀請用戶提出指令生成影像
圖三、Sam Altman於社群X邀請用戶提出指令生成影像
資料來源:OpenAI,MIC整理,2024年2月
Sora核心技術結合擴散模型與Transformer
不論是圖片生成或影像生成模型,常見的技術為使用擴散模型進行訓練,而Sora則在擴散模型基礎上,進一步結合Transformer模型,形成「Diffusion Transformer」技術架構,突破Text-to-Video的品質與影像長度限制,在生成式AI技術里程碑的道路上,Sora可視為影像生成的基礎模型。
Diffusion Transformer技術架構
擴散模型主要的技術原理是在圖片中資料加入雜訊,再透過電腦視覺模型將加入雜訊的圖片逆向還原,每次加入少量雜訊,藉由反覆上千次的加噪、降噪過程,訓練出生成圖片或影像的模型。
潛在擴散模型(Latent Diffusion Model)是擴散模型的一種,在技術上多了圖片壓縮步驟,必須先將圖片資料縮小至低維度的潛在擴散模型(Latent Diffusion Model),接著執行加噪、降噪過程,最後再將壓縮的圖片恢復至原始像素空間。
Sora使用潛在擴散模型,將影像資料壓縮至低維度的潛空間(Latent Space),然後切分影像資料並轉換成時空片段(Spacetime Patch),屬於具有時間序列性質的資料,接著在技術架構上,運用電腦視覺模型U-Net(做影像切割的卷積神經網路,由於上下對稱,看起來像U字,故名稱為U-Net),換成結合電腦視覺與Transformer的視覺Transformer模型(Vision Transformer, ViT),透過ViT模型對大量的Spacetime Patches進行訓練,形成Diffusion Transformer技術架構。
圖四、Sora核心技術
圖四、Sora核心技術
資料來源:OpenAI,MIC整理,2024年2月
Diffusion Transformer技術亮點
由於Sora將影像資料轉換為Spacetime Patch,能保留影像的原始長寬比例,讓訓練出的模型在生成影像時,較不易出現影像畫面被裁切的狀態。再者,將Transformer結合擴散模型的優勢在於,透過投入大量運算資源,能夠達到規模化效益,讓生成的影像品質具高解析度、影像時間最多也能長達1分鐘。
延續DALL·E 3語言理解技術
在語言理解方面,OpenAI延續DALL·E 3關鍵技術「重新描述」(Recaptioning),指模型能將短句自動生成為長句,讓生成效果更加逼真。在使用Sora生成影像時,透過Recaptioning能將使用者的提示詞轉換為較長且詳細的指令,生成生動且具細節的影像內容。此外,Recaptioning也能實現Sora的影像編輯功能,根據使用者指令抽換影像中的物件,其原理和DALL·E 3的圖片編輯功能相同。
Sora仍難以準確模擬複雜場景中的物理原理與前後因果關係
Sora雖然具有令人驚豔的影像生成能力,然而若仔細觀看影像內容,仍可發現在細節上仍存在一些缺陷和弱點。如同OpanAI在發布內容裡所說,Sora可能難以準確模擬複雜場景的物理原理,或是無法完全理解事件前後的因果關係,甚至是空間中上下前後左右的關係,或是具有時間推移特性的事件。
以場景內物理原理舉例,在以此段提示「…穿過熙熙攘攘的東京街道…」生成的影像中,可以看到前方的攤位明顯與正在行走的主角比例差異懸殊,且在主角前方的路人走進攤位後就消失不見。可見其對於「人碰到攤位後應該會產生碰撞」未完全理解。
再者,以「…考古學家挖掘出一把普通的塑膠椅子…」此段影像為例,影像中可看出,因Sora模型並未將塑膠椅子視為物體,故從一開始的一片塑膠變成椅子後,又開始不斷改變形狀,甚至憑空漂浮。而「…一個人跑步的場景…」影像中,更是直接生成與現實相反的倒著跑步的結果。可見其對於「塑膠椅子被挖掘出來後如何與人互動」、「跑步機要向前跑」等,對於物體與事件間因果關係理解仍有待優化。
其三,在此段「…老奶奶慶祝生日…」的提示生成影像中,雖然有吹蠟燭動作,但眼神和嘴巴方向卻與蠟燭對不上,可見一個空間中多角色間的互動,對於影像生成的模型仍具有挑戰性。而「…籃球穿過籃框後爆炸..」的提示生成影像中,則是在籃球爆炸後又憑空出現一個籃球穿過籃框,顯示其對於具有時間推移概念的提示理解上也有困難。
最後則是在真實世界常識的理解上,舉凡「從狗的身上長出自拍棒」、「螃蟹腳如同章魚一樣柔軟」、「兩隻腳的小熊貓」等,都展現出模型對於世界的理解仍存有幻覺。
圖五、Sora生成的影像對複雜場景的物理原理與前後因果關係理解不全
圖五、Sora生成的影像對複雜場景的物理原理與前後因果關係理解不全
資料來源:OpenAI,MIC整理,2024年2月
MIC觀點
Sora將重構內容產製流程,改變產業結構
Sora在風格、視角與運鏡上的多元變化,在理解用戶提示上的卓越成果,以及在影像生成長度上的優異表現,不僅能協助專業內容創作者提升創作效率,更能提高生產力、降低製作成本,以及天馬行空的創意構思。
AI生成影像領域的重大突破,首當其衝的便是影像素材庫,以及動畫、遊戲、影音等內容產業的創作者。對影像素材庫而言,將面臨是否串聯AI生成工具的抉擇,以及用戶向更簡易操作工具靠攏的考驗;對專業創作者而言,AI生成影像工具不僅改變創意發想、內容製作、內容發布等創作流程,打破過去獨立的流程,以一步到位、重新建構的模式創作,也考驗內容業者適應新興創作工具的能力,甚至將提升業者的接案能力,進而影響在業內的話語權/影響力。
Sora初期在快速、大量產製與預覽內容領域最具商業潛力
AI生成影像技術與既有創作工具、製作習慣相結合,尚須經過一段磨合與適應期,當前Sora生成內容雖能符合基礎物理邏輯,但在處理複雜場景、因果關係上仍有待克服,致使在此類型使用情境上仍有其侷限性,尚須配合額外調整而無法直接運用成果。
相對來說,短影音、自媒體等追求快速、大量產製內容,以及需要真實場景、寫實內容素材的創作者,更有機會運用AI生成影像大幅降低創作門檻,增添創意發想空間,在使用者滲透上頗具潛力。此外,對於藉由影像與客戶溝通的行銷、廣告、設計產業,亦可運用Sora生成預覽影像,協助客戶提升對於成品的想像。值得關注的是,Sora持續追求符合物理邏輯,並以更自然、擬真的影像突破恐怖谷,對於現實空間人、事、物的模擬有望在可預見的未來實現,因此AI生成影像將不再只侷限於內容創作,甚至能滿足觀光、社交等虛擬互動體驗的需求與創意發想。
Sora商業模式可能依用戶分群採取不同發展策略
有鑑於單純藉由AI生成高品質影像訂閱收費,似乎不足以支持模型長期發展,以Runway為例,2023年10月Runway宣布與擁有近1.4億用戶的設計工具公司Canva合作,讓其用戶能在Magic Media應用程式中使用Gen-2全部功能,將AI影像生成模型範圍擴散至更多創作者。
在個人消費者端,OpenAI可能依循DALL·E 3整併至ChatGPT的模式,針對ChatGPT Plus用戶提供Sora Text-to-Video服務。考量Sora背後所需的運算成本,OpenAI在訂閱服務上,有可能提升價格或採取用戶分級制,依ChatGPT提供的功能服務收取不同費用,以維持營收與成本的平衡。
在企業用戶端,由於Sora的定位屬於影像生成基礎模型,適合針對一般客群提供通用型服務,推測OpenAI可能把Sora視為影像生成工具,深化與微軟之間的合作,將Sora結合至微軟的生成式AI相關服務,作為服務的其中一項功能。
影像生成模型的技術突破恐加劇深偽影像與虛假訊息擴散
近期以深度偽造(Deepfake)技術產生虛假訊息的事件已層出不窮,且往往都涉及色情影像、詐欺和政治性假消息,藉此惡意誤導大眾或獲取利益。而隨著AI生成影像技術逐漸成熟,深偽影像的製作門檻不斷降低,且影像品質也已與真實影像難以區分,Sora的技術突破也加劇了人們對於深偽影像和虛假訊息擴散的擔憂。
過去以異常或不自然的細節、或是光影不一致等方法來分辨AI影像方式,可能也將漸漸不再適用於一般大眾。故擁抱新技術的同時,可能也應開始採取相應的防範措施。除了政策上如同全球專家紛紛提出加強監管深偽技術,打斷深偽供應鏈的呼籲外;當我們隔著螢幕中的聲音和長相都無法確保是本人時,區塊鏈技術或可能成為防禦深偽技術詐騙的有效手段,藉由數位簽章對各種影像和音訊進行確認,進而降低惡意攻擊的風險。
Sora短期推升伺服器需求,未來視應用帶動終端硬體
Sora可用文字、靜態圖片或既有影像生成高畫質影像,儘管當前在法規監管方面仍未有定論,但預估在短影音創作與內容廣告等領域,都將使影像生成的需求與數量出現成長。
Sora採用Diffusion Transformer(DiT)架構,然目前模型參數量尚不明朗,因此在訓練上的硬體需求目前還不明確,然在推論端,以目前生成一分鐘、每秒30 幀影像的狀況下,一分鐘就須有1,800張的影像內容生成,相較於以往的文字、靜態圖片生成,Sora推論的處理、傳輸及儲存需求大幅增加,應有望使相關型態的伺服器出貨提升。
在終端產品部分,現階段多在雲端處理生成式AI影像的相關工作任務,對終端產品的運算力要求並不高,因此目前尚無法看出對終端、地端硬體提升的需求。總體來說,Sora崛起前期將帶動伺服器需求增長,未來則在模型進一步優化、精簡下,有機會落地於終端產品(如AI PC)或邊緣端使用。
虛實融合,未來Simulate Everything成真
Sora在影像生成時,仍有許多在物理因果關係表達上的錯誤,但回到OpenAI在官網研究中提到,對於「影像生成模型就是一種世界模擬器」(Video generation models as World simulator)的目標來看,Sora也只是階段性成果。
雖然,在這個階段性成果中,就相當足夠對短影音、行銷媒體及影視等行業產生重大影響。但若OpenAI持續往World Simulator的技術發展時,未來我們就可真正活在虛實融合的世界裡。現今運用Sora的目的是生成一段影像作為行銷廣告和媒體娛樂使用,而當World Simulator成真後,我們便可進行各種「What if…」的推估,例如,我們就可以對這個World Simulator下達指令,請自動模擬這條產線一小時產量會是多少、機構在正三角時設計後進行壓力測試、請用時速50公里進行車子的衝撞測試,甚至對世界進行模擬,例如,請模擬全球PM 2.5、臭氧層、氣溫上升的情況等。
雖然要達到這樣的目的,仍需具備大量與多元的資料作為基礎,例如:物理引擎、各種不同模擬與實際收集數據等。但這也是OpenAI及各家大廠所要持續進行的方向,以達到未來可運用World Simulator,再加上自家的資料及個別的場景,做到各種因果或是What if的場景推演,以期達成虛實融合,軟體定義的新境界。
附錄
英文名詞縮寫對照表
 
中英文名詞對照表
 
  • 以上研究報告資料係經由MIC內部整理分析所得,並對外公告之研究成果, 由於產業倍速變動、資訊的不完整,及其他不確定之因素,並不保證上述報告於未來仍維持正確與完整, 引用時請注意發佈日期,及立論之假設或當時情境,如有修正、調整之必要,MIC將於日後研究報告中說明。 敬請參考MIC網站公告之最新結果。
  • 著作權所有,非經本會書面同意,不得翻印或轉讓。
  • BACK
    登入
    正式會員第一次使用,請輸入會員編號/會員密碼/Email,系統會偵測第一次使用,註冊/認證之後,即可上線使用

    不是會員?

    邀請您申請免費試閱聯絡我們