自2022年11月ChatGPT開放以來,生成式AI在技術和應用領域都實現飛躍性的進步。這一年間,生成式AI不僅技術上有重大突破,也在社會各界引發廣泛關注與討論。
最一開始大家都被ChatGPT流暢的書寫能力、對話、總結等功能所震撼到,這也促使相關的晶圓代工、晶片設計、伺服器製造等科技產業鏈經歷大量的訂單需求。過去一年裡,幾乎每個月都能見證生成式AI從學術研究到商業應用,再到普及於大眾的轉變過程。這不僅改變人們與技術的互動方式,也為未來人類社會、經濟和工作的發展開闢新的可能性。
隨著資金、人才、數據和運算資源大量投入,各式各樣的生成式AI應用迅速發展,有人甚至戲稱,如果現在走在矽谷有塊招牌掉下來,幾乎都是在做生成式AI。
這一年來生成式AI發展可從多個方向探討。文字上最知名的是ChatGPT。免費註冊就可將其當作一位個人助理進行互動。不僅幫助使用者進行文章總結、列出重點、進行翻譯等功能,甚至將其用為英文對話和文法家教。也可註冊Google發展的Bard,或亞馬遜AWS投資的Anthropic推出的Claude 2,利用這些文字類型的生成式AI,如同有位專門助理,幫你發想、總結、翻譯,達到提升工作效率目的。
在文生圖的生成式AI上,像是著名的Midjourney、Stable Diffusion或DALL-E 3,可讓使用者直接輸入一段文字,就可依描述生成圖案內容,現在有許多早安圖、過年拜年等節日圖都可依照自己的想法生成出圖片,以此進行個別化的圖片生成。許多設計師也利用文生圖的生成式AI進行概念上的溝通,加速與業主之間的協議,提升案件成交率。在電子商務領域,當需要上架新商品時,商品和模特兒的圖像可通過生成式AI自動合成,可大幅節省成本和時間,也為商品展示提供更多的靈活性和創意空間。
影片和影像生成則類似文生圖的進化版,例如Runway Gen-2、Pika、Kaiber等公司的方案,在輸入一段文字描述後產生3至5秒的影片,甚至可進行MV所需畫面的生成。在圖片或影像生成的技術上,對各種藝術創作、廣告設計,甚至是電影和遊戲行業中都有著廣泛的應用前景。
生成式AI也愈來愈多語音上的服務。像是ElevenLabs和Voicebox等工具,已能生成極其自然且富有表現力的語音內容。這些工具能模仿特定人物的聲音,還能在語調和情感上進行調整,充滿了人性化的溫度,許多商業文章、童書閱讀等功能皆已進行運用。
在程式碼生成方面,在開放程式碼多年累積下,如GitHub Copilot、AlphaCode、Code Llama等已能根據開發者需求自動生成或優化程式碼,過去原本是程式碼寫完,要寫註解說明的動作,變成開發人員先將註解寫完,AI看到註解後,會自動將程式碼進行編寫完成,大幅提高開發效率,也降低開發門檻。
未來生成式AI會持續發展,初步朝幾個方向影響大眾。如生成式AI與各種硬體連結,近期討論熱烈的AI PC/NB或AI手機,可在不用連網,又保有隱私的情況下使用生成式AI。又或者各種生成式AI在和各種軟體資訊系統進行功能結合,以利大家在原有系統中,在不用下指令情況下,直接用點選方式進行生成式AI的各種應用。
基於生成式AI中重要核心LLM大型語言模型的發展,將會有各種專業領域或情境的LLM放置於軟硬體中,並搭配LLM有一種多模態的能力(指AI模型可「同時」處理多種訊息,如:請AI看到夏威夷海邊美景照後,同時用文字描述圖片內容,並產生烏克麗麗的音樂)。運用專業領域及多模態的LLM,將使AI同時處理和理解文本、圖像、聲音等多種數據類型,從而提供更全面且深入的分析。
總體來看,過去一年中生成式AI不僅展示技術的成熟度,也影響各領域,未來將是生成式AI技術快速發展和廣泛應用時期,也要學會如何有效掌握及管理運用全新的AI化時代。
(本文刊登於2024/3/31 經濟日報A11版)