Stable Diffusion XL 0.9, model umelej inteligencie používaný na generovanie vysokokvalitných obrázkov, nedávno dostal aktualizáciu, ktorá umožňuje jeho použitie s modelmi verzie 1.5. Pred touto aktualizáciou mal základný model SDXL (verzia 0.9) obmedzenia pri vytváraní realistických a estetických tvárí. Tváre vytvorené pomocou základného modelu vyzerali zvláštne a celková kompozícia anatómie tváre bola mimo.
Na odstránenie týchto nedostatkov bol vyvinutý postup tak, že sa vzal podnet (prompt) a vložil sa do základného modelu SDXL spolu s latentným kódom. Tým sa vygeneroval počiatočný obraz, ktorý sa potom spresnil zadaním do spresňujúceho modelu SDXL. Model spresňovača využíval iný model ako základný model, čo viedlo k zlepšeniu obrazu. Proces vylepšovania zahŕňal pridanie šumu do obrazu, aby bol čistejší, po ktorom nasledoval krok obnovy tváre. Konečným výsledkom bola tvár, ktorá vyzerala podstatne lepšie ako pôvodná.
Čo môže verzia 1.5 urobiť pre vaše umelecké diela
Na ukážku účinnosti tohto postupu bol poskytnutý príklad. Pôvodný obrázok vygenerovaný základným modelom SDXL mal vygenerovanú tvár s čudnými anatomickými prvkami. Po jeho iterácií cez model verzie 1.5 sa však problémy vyriešili a tvár vyzerala oveľa lepšie. To sa ukázalo ako potenciál pri zlepšovaní kvality generovaných obrázkov.
V ukážke bol uvedený aj rozšírený postup, ktorý využíval modely SDXL aj verzie 1.5. Hoci tento postup nebol zdokonalený a vyzeral chaoticky, ukázal sa ako sľubný pri zlepšovaní generovaných obrázkov. Tento rozšírený postup zahŕňal prevzatie obrazu z SDXL, pridanie šumu a následné použitie virtuálneho modelu verzie 1.5 na ďalšie zlepšenie obrazu. Výsledky boli sľubné, pričom sa pozorovala lepšia anatómia tváre a hrudníka.
Porovnanie obrazov vytvorených len pomocou SDXL a obrazov vytvorených pomocou verzie 1.5 ilustrovalo dosiahnuté zlepšenia. Anatómia tváre, najmä oči, vyzerala na snímkach vytvorených len pomocou SDXL zvláštne. Po ich preložení cez model verzie 1.5 sa však črty tváre stali definovanejšími a realistickejšími. Hoci sa stále vyskytovali určité problémy s anatómiou tváre, obrázky vytvorené pomocou verzie 1.5 boli výrazne lepšie ako základný model.
Na záver možno konštatovať, že integrácia modelu Stable Diffusion XL 0.9 s modelmi verzie 1.5 ukázala veľký potenciál pri zlepšovaní kvality generovaných obrazov. Postup zahŕňajúci základné a zdokonaľovacie modely SDXL spolu s pridaním obnovy šumu a tváre viedol k výraznému zlepšeniu. S ďalšími úpravami a experimentovaním by táto integrácia mohla viesť k ešte lepším a realistickejším generovaným obrázkom.
Je pozoruhodné, že vek postáv vytvorených pomocou SDXL 1.0 nezodpovedal pôvodným zámerom autora. Napríklad pri snahe vytvoriť mladú ženu vo veku 20 rokov sa zdalo, že výsledný obrázok zobrazuje ženu vo veku 30 alebo 40 rokov. Umelec zistil, že použitím modelu SDXL 1.5 sa kvalita tváre a celkový obraz výrazne zlepšili a vykreslili presnejšie zobrazenie mladej postavy.
Ako zlepšiť výstupy pre umenie generované AI v aplikácii Stable Diffusion XL 0.9
Napriek tomuto pokroku sú stále potrebné ďalšie vylepšenia. Videopríklad poukázal na niekoľko oblastí, v ktorých by sa softvér SDXL mohol zlepšiť. Jedným z príkladov je zobrazenie dúhovky v očiach, ktoré sa pri použití modelu SDXL 1.0 javilo skreslené a nerealistické. Keď sa však obrázok spracoval pomocou modelu SDXL 1.5, celková kvalita tvárových čŕt sa zlepšila, čo naznačuje, že technológia sa vyvíja.
Ďalšou výzvou, s ktorou sa príklad stretol, bola potreba zvýšiť rozlíšenie snímok na 4K. Na dosiahnutie tohto cieľa sa spoliehali na techniku viacnásobného difúzneho zvýšenia rozlíšenia z 1080p na 4K. Hoci sa tento krok ukázal ako efektívny, do celkového pracovného postupu pridal ďalšiu vrstvu zložitosti.
Okrem toho v príklade uviedli, že základný model SDXL nebol pre ich účely použiteľný, pretože výsledkom boli divne vyzerajúce tváre so skreslenými anatomickými črtami. Toto obmedzenie naznačuje, že na zabezpečenie presných a realistických zobrazení je potrebné ďalšie zdokonalenie. Používanie SDXL s vlastnými modelmi by bolo vhodnejšie, keď budú k dispozícii vyladené verzie. Vlastné modely budú čoskoro uvoľnené, čo umožní presnejšie a dokonalejšie výtvarné spracovanie.
Napriek týmto výzvam a obmedzeniam môžeme byť v súvislosti s budúcnosťou SDXL plní nádeje. Príklady vylepšených kompozícií tvárí a postupu s použitím modelu SDXL 1.5 v kombinácii s upscalingom priniesli želateľné výsledky. Stable Diffusion XL 0.9 je prísľubom ako inovatívny nástroj pre umenie umelej inteligencie. Hoci stále existujú oblasti, ktoré si vyžadujú zlepšenie, napríklad skreslenie tváre a anatomická presnosť, pokroky dosiahnuté v modeli SDXL 1.5 sú povzbudivé. Umelci očakávajú vydanie vyladených vlastných modelov a tešia sa na využívanie SDXL na vytváranie úžasných a realistických umeleckých diel.