Home AI Modell för kontrollerad diffusion kan ändra materialegenskaper hos objekt i bilder

Modell för kontrollerad diffusion kan ändra materialegenskaper hos objekt i bilder

by admin
MIT CSAIL-forskare hjälpte till att utveckla en diffusionsmodell som kan ändra fyra materialegenskaper hos objekt i bilder: grovhet, metallicitet, albedo och transparens. Kredit: Alex Shipps/MIT CSAIL

Forskare från MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) och Google Research kan just ha utfört digital trolldom – i form av en diffusionsmodell som kan ändra de materiella egenskaperna hos objekt i bilder.

Systemet, som kallas Alchemist, gör det möjligt för användare att ändra fyra attribut hos både verkliga och AI-genererade bilder: grovhet, metallicitet, albedo (ett objekts ursprungliga basfärg) och transparens. Som en diffusionsmodell från bild till bild kan man mata in valfritt foto och sedan justera varje egenskap inom en kontinuerlig skala från -1 till 1 för att skapa en ny bild. Dessa fotoredigeringsfunktioner kan potentiellt användas för att förbättra modellerna i videospel, utöka möjligheterna för AI i visuella effekter och berika träningsdata för robotar.

Magin bakom Alchemist börjar med en diffusionsmodell för denoising: I praktiken använde forskarna Stable Diffusion 1.5, som är en text-till-bild-modell som hyllas för sina fotorealistiska resultat och redigeringsmöjligheter. Tidigare arbete hade byggt på den populära modellen för att göra det möjligt för användare att göra ändringar på högre nivå, som att byta objekt eller ändra djupet på bilder. CSAIL och Google Researchs metod tillämpar däremot denna modell för att fokusera på attribut på låg nivå och revidera de finare detaljerna i ett objekts materialegenskaper med ett unikt, skjutreglage-baserat gränssnitt som överträffar sina motsvarigheter.

Medan tidigare diffusionssystem kunde dra upp en kanin ur en hatt för en bild, kunde Alchemist omvandla samma djur till att se genomskinligt ut. Systemet kan också få en gummianka att se metallisk ut, ta bort den gyllene nyansen från en guldfisk och putsa en gammal sko. Program som Photoshop har liknande funktioner, men den här modellen kan ändra materialegenskaper på ett mer okomplicerat sätt. För att till exempel få ett foto att se metalliskt ut krävs flera steg i det välanvända programmet.

”När du tittar på en bild som du har skapat blir resultatet ofta inte exakt som du hade tänkt dig”, säger Prafull Sharma, doktorand i elektroteknik och datavetenskap vid MIT, CSAIL-ansluten och huvudförfattare till en ny artikel som beskriver arbetet. ”Du vill kunna styra bilden medan du redigerar den, men de befintliga kontrollerna i bildredigeringsprogram kan inte ändra materialen. Med Alchemist utnyttjar vi fotorealismen i utdata från text-till-bild-modeller och tar fram en slider-kontroll som gör att vi kan ändra en specifik egenskap efter att den ursprungliga bilden har levererats.”

Exakt kontroll

”Generativa text-till-bild-modeller har gjort det möjligt för vardagliga användare att generera bilder lika enkelt som att skriva en mening. Det kan dock vara en utmaning att styra dessa modeller”, säger Jun-Yan Zhu, Assistant Professor vid Carnegie Mellon University, som inte medverkade i arbetet med artikeln.

”Att generera en vas är enkelt, men att syntetisera en vas med specifika materialegenskaper som transparens och grovhet kräver att användarna tillbringar timmar med att prova olika textmeddelanden och slumpmässiga frön. Detta kan vara frustrerande, särskilt för professionella användare som kräver precision i sitt arbete. Alchemist presenterar en praktisk lösning på denna utmaning genom att möjliggöra exakt kontroll över materialen i en inmatad bild samtidigt som den utnyttjar de datadrivna förutsättningarna för storskaliga diffusionsmodeller, vilket inspirerar framtida arbeten att sömlöst införliva generativa modeller i de befintliga gränssnitten för vanligt förekommande programvara för innehållsskapande”, fortsätter Zhu.

Alchemists designfunktioner kan hjälpa till att justera utseendet på olika modeller i videospel. Genom att tillämpa en sådan spridningsmodell inom denna domän kan skaparna påskynda sin designprocess och förfina texturerna så att de passar spelet på en nivå. Dessutom skulle Sharma och hans teams projekt kunna hjälpa till att ändra grafiska designelement, videor och filmeffekter för att förbättra fotorealismen och uppnå önskat materialutseende med precision.

Metoden skulle också kunna förfina träningsdata för robotar för uppgifter som manipulation. Genom att introducera maskinerna för fler texturer kan de bättre förstå de olika föremål som de kommer att greppa i den verkliga världen. Alchemist kan till och med potentiellt hjälpa till med bildklassificering genom att analysera var ett neuralt nätverk misslyckas med att känna igen de materiella förändringarna i en bild.

Teamets arbete överträffade liknande modeller när det gäller att troget redigera endast det begärda objektet av intresse. Till exempel, när en användare uppmanade olika modeller att justera en delfin till maximal transparens, uppnådde endast Alchemist denna bedrift samtidigt som havsbakgrunden lämnades oredigerad. När forskarna tränade den jämförbara diffusionsmodellen InstructPix2Pix på samma data som deras jämförelsemetod, fann de att Alchemist uppnådde överlägsna noggrannhetspoäng. På samma sätt visade en användarstudie att MIT-modellen föredrogs och sågs som mer fotorealistisk än sin motsvarighet.

Hålla det verkligt med syntetiska data

Enligt forskarna var det opraktiskt att samla in riktiga data. Istället tränade de sin modell på ett syntetiskt dataset genom att slumpmässigt redigera materialattributen för 1 200 material som applicerats på 100 allmänt tillgängliga, unika 3D-objekt i Blender, ett populärt designverktyg för datorgrafik.

”Kontrollen av generativ AI-bildsyntes har hittills begränsats av vad text kan beskriva”, säger Frédo Durand, Amar Bose Professor of Computing vid MIT:s avdelning för elektroteknik och datavetenskap (EECS) och CSAIL-medlem, som är seniorförfattare till artikeln. ”Det här arbetet öppnar för ny och mer finkornig kontroll av visuella attribut som ärvts från årtionden av datorgrafikforskning.”

”Alchemist är den typ av teknik som behövs för att göra maskininlärning och diffusionsmodeller praktiska och användbara för CGI-samhället och grafiska formgivare”, tillägger Google Research senior software engineer och medförfattare Mark Matthews. ”Utan det är du fast med den här typen av okontrollerbar stokasticitet. Det är kanske kul ett tag, men någon gång måste du få riktigt arbete gjort och få det att stämma överens med en kreativ vision.”

Sharmas senaste projekt kommer ett år efter att han ledde forskningen kring Materialistic, en maskininlärningsmetod som kan identifiera liknande material i en bild. Detta tidigare arbete visade hur AI-modeller kan förfina sina färdigheter i materialförståelse, och precis som Alchemist finjusterades det på ett syntetiskt dataset med 3D-modeller från Blender.

Ändå har Alchemist några begränsningar för tillfället. Modellen har svårt att korrekt tolka belysningen, så ibland misslyckas den med att följa en användares inmatning. Sharma noterar att denna metod ibland också genererar fysiskt osannolika transparenser. Tänk dig till exempel en hand som delvis är inuti ett flingpaket – med Alchemists maximala inställning för detta attribut skulle du se en klar behållare utan att fingrarna sträcker sig in.

Forskarna vill gärna utveckla hur en sådan modell kan förbättra 3D-tillgångar för grafik på scennivå. Alchemist skulle också kunna hjälpa till att härleda materialegenskaper från bilder. Enligt Sharma skulle den här typen av arbete kunna öppna upp för kopplingar mellan objekts visuella och mekaniska egenskaper i framtiden.

William T. Freeman, professor i EECS vid MIT och CSAIL-medlem, är också en av huvudförfattarna, tillsammans med Varun Jampani och Google Research-forskarna Yuanzhen Li, Ph.D., Xuhui Jia och Dmitry Lagun. Gruppens arbete kommer att lyftas fram vid CVPR i juni.

You may also like

Leave a Comment