AI繪畫神器Stable Diffusion新模型Stable Diffusion XL,比肩Midjourney

最近 Stability AI 推出了一個新模型 Stable Diffusion XL,參數(shù)是 SD v2.1 的 2.5 倍,那這個新模型的圖像生成效果如何呢?今天就繼續(xù)來測試一下。

Stable Diffusion XL 簡介

DreamStudio - SD XL:

夢幻工作室 (dreamstudio.ai) (新用戶有 200 點免費生成額度)

Clip - SD XL:

Clip - Stable Diffusion (目前免費生成)

此次 Stable Diffusion XL 一共更新在兩個平臺上,一是 Stability AI 官方 AI 繪畫軟件 DreamStudio,另一個則是之前被 Stability AI 收購的 AI 圖像處理平臺 Clip。二者的區(qū)別在于 DreamStudio 上有很多的可調(diào)節(jié)參數(shù),比如畫面比例、圖像數(shù)量等,Clip 是統(tǒng)一的 1:1 的畫面比例,一次生成 4 張,單張圖像放大后可達到 1024*1024px。


據(jù) Stability AI 官網(wǎng)介紹,SD XL 模型支持用更短的提示創(chuàng)建描述性圖像,并在可以在圖像中生成文字,模型增強了圖像的構(gòu)圖和臉部生成能力,使畫面更加逼真和美觀。

SD XL 生成的圖像


生成準確的文字和畫手一樣,一直是 AI 繪畫中的難題,直到 Controlnet 插件出現(xiàn) ,我們才能在 SD WebUI 中通過輪廓檢測功能固定文字外形,從而生成精準的文字內(nèi)容,而此次 SD XL 模型可以生成文字無疑是又是 AI 繪畫的一大進步。我分別在 Midjourney 和 SD XL 中用文本提示詞進行測試,結(jié)果是 SD XL 的文字生成效果的確比 Midjourney 好。

接著繼續(xù)用和之前一樣的主題進行圖像生成測試。首先是人像,可以看出 SD XL 比 v2.1 的效果要好很多,構(gòu)圖正確,人物面部沒有扭曲變形,整體質(zhì)感也好很多,質(zhì)量看起來并不比 Midjourney 差,說明 XL 模型在照片真實性上有進行專門的優(yōu)化 。

然后是動漫風(fēng),XL 生成的圖像在畫面整體質(zhì)量有明顯提升,應(yīng)該是對數(shù)據(jù)集進行了優(yōu)化,但是有一個非常大的缺點就是五官和四肢不正常,在生成的 2 批 8 張圖像中,每一張都有五官四肢不正常的情況,圖像可用率極低。

而在 3D 風(fēng)格上 XL 模型還是有比較明顯的進步的,無論是人物精細度還是畫面整體美感都比之前的 v2.1 要好,不過和動漫風(fēng)一樣存在四肢不正常的情況,下面是我從生成的 4 張圖像中挑出的雙手看起來比較正常的一張,感覺 XL 模型在這一塊的訓(xùn)練沒做好。


最后再看一下矢量扁平插畫和概念場景的表現(xiàn) ,同樣都有非常明顯的美感提升,不過也能看出 SD XL 在文本提示的理解上還有缺陷,在扁平插畫的測試中它忽略了“白色背景”這一關(guān)鍵詞;而由于 SD XL 目前還是測試版,畫面尺寸不能做到 16:9,這也讓圖像的表現(xiàn)性受限。

通過上面的圖像生成測試可以看出,Stable Diffusion 的 XL 模型 比 V2.1 在質(zhì)量上有了明顯進步,特別是在人像質(zhì)量上,雖還不能達到 midjourney V5 的水平,但是在目前的 AI 繪畫工具總也算表現(xiàn)比較好的;新增的文字生成功能也是比較獨特的,除了接入 Controlnet 的 SD WebUI,其他 AI 繪畫工具目前都還沒有生成準確文字內(nèi)容的能力。

同時 Stable Diffusion XL 的缺點也是比較明顯的,即人物的四肢不正常,這點在動漫和 3D 風(fēng)格中尤為突出;模型對提示文本的理解能力也有缺陷,會漏掉一些關(guān)鍵詞語,期待 Stability AI 在后續(xù)的更新中能進一步優(yōu)化現(xiàn)在這些問題。



文章來自公眾號:優(yōu)設(shè)

作者:夏花生er

每天更新,
全站高品質(zhì)素材免費下載!