Stable Diffusion - 席捲世界的新 AI 模型
TL;DR: Stable Diffusion 將會像魔法般席捲世界,主要是因為開源,以及它讓影像這個媒介能被以超高頻寬在人腦和電腦間互動、創作。而這波熱潮所撐起的 AI 基礎建設,又將讓各種其他 AI 應用更容易到達市場。
Stable Diffusion 是 StabilityAI 公司推出的開源「文字轉影像」 AI 模型,過去這兩週被大量討論。過去 OpenAI 的 Dall-E 跟 Google 的 Imagen,其實也都是用相同的 Diffusion Model1 架構,來產生各種風格的繪畫及照片品質的圖檔。
那麼為什麼 Stable Diffusion 是一個重要的大事件?
近用性
Stable Diffusion 在一般家用 GPU 即可使用,也有許多現成的平台可直接使用。各種繪圖軟體甚至影像編輯的外掛在一兩週內,如雨後春筍般出現。
在各種 AI 產生的內容型態中(文字、影像、影片、語音等),人類能最快速瀏覽、決定丟棄或取用一部分元素的,就是影像這種型態。對比以文字而言,例如以 GPT-3 產生的文章,人需要更多的時間閱讀、編修,進而利用這些產出。因此,以相同資訊量比較起來,人腦可以說是以超高頻寬吸收影像的資訊,以及能有效的進一步決定要如何使用它。
Stable Diffusion 能快速產生影像(約 10 秒內),並很快會以各種現有的軟體外掛形式讓人使用(如 Photoshop, figma 等),這等同於把人和機器之間的超高頻寬變成雙向的,能擷取這些大量產出的內容、選用、繼續產出更多內容,幾乎是魔術。
開源 AI 模型
整個 Stable Diffusion 的訓練素材、訓練過程、直接可取用的模型檔 (weights) 都是開源的2(這邊可以看到上面範例太空圖案產出的”靈感”來源),亦即人人都可以協助修改與或另外改進這個專案。訓練素材來自約 23 億張網路上有附註說明的圖。
根據作者,訓練成本約 US$600k:
與 OpenAI 的 Dall-E 相比,Stable Diffusion 並未禁止(也無法禁止)產出有關名人、帶有偏見的畫作或照片品質的圖,可以預期這類 generative contents 的出現,會加速整個社會更廣泛的討論相關道德議題。相比於原本少數 AI 巨頭「保護」這些技術、掌握對人類影響的話語權與討論進程,短期內由於 Stable Diffusion 的出現,這個領域跟爭論會相對混亂,但我認為會更快到達較廣泛的社會共識。
@simonw 也提出未來可能會有 “AI Vegan” 的概念,亦即有些人會選擇不去使用特定的 AI 模型,如在訓練過程中使用任何未經授權的資料來源。
加速 ML Infra 發展
可預見 Stable Diffusion 將帶來一波爆炸性的 AI 終端使用,因此 ML Infra 產業在這個需求下更接近大眾市場,也會因此有更多工具,讓其他各類應用場景發展得更快。
如 Greylock Partner Sarah Guo 所言:"let a million intelligent applications bloom"
所有訓練用的影像是 laion-aesthetics 這個含 metadata 的開放資料集,但 url 所連結影像並非都是開放授權