Illustrasjon med KI-bildegeneratorer
Postet 13. juli 2014
Tradisjonell bilderedigering innebærer ofte å fikle med bilder i timesvis, ofte uten å komme til et brukbart resultat. Prosessen med å generere bilder ved hjelp av KI en ganske annerledes opplevelse.
I dette eksemplet er bildet trykket på ecoprint/botanisk trykk – en teknikk som i seg selv er vel verd å utforske.
Det mest interessante opplever jeg at oppstår gjennom den stadig tettere koblingen mellom verbalspråk og visualisering. Her finner jeg Diktillustrasjon med kunstig intelligens særlig interessant.
Men det er først når bildet får en personlig touch blir det spennende. I mitt tilfelle skjer dette oftest i møte mellom de digitale KI-genererte bildene og analoge teknikker, der utgangspunktet er kopierbart, men den enkelte kopien blir original.
Et helt annet eksempel er bildet som endte med å pryde plakaten for Global Science Opera i 2024. Her er dialogen med bildegeneratoren enklere. Jeg begynte her med følgende prompt:
– En astronaut i romdrakt. Glasset i romdraktens hode er bytte med en sfære som viser jordkloden
Jeg ender med et bilde som virker lovende, men ber likevel om
– Vis astronauten halvt fra siden
Deretter noen forsøk på å justere:
– La jordkloden fylle hele innsiden av glasset i hjelmen
og
– Vis astronauten fra siden og i halvfigur
Dialogen er på ingen måte særlig avansert, men den er like fullt engasjerende fordi responsen er rimelig rask, og en får en opplevelse av at det hele er konstruktivt.
Allerede ved dette fjerde bildet er jeg kommet til et uttrykk som jeg synes fungerer, og ber om et litt annet utsnitt.
– Behold dette bildet, men vis mer av kroppen.
Prosessen ender her. Ikke helt i mål, men med litt outpainting (også det ved hjelp av KI) var resultatet i boks. På adskillig kortere tid enn det har tatt å skrive om det.
Dette er selvsagt ikke egnet for alle former for illustrasjonsarbeid, men du verden så raskt KI kommer med forslag. "Arbeidet" består dermed av å velge og raffinere. I tilfeller der en ikke er avhengig av et bestemt visuelt uttrykk, og slipper å bekymre seg for korrekte detaljer fungerer dette utmerket. Det er dermed vanskelig å se for seg at markedet for illustrasjonsfotografier kan leve særlig lenge i tiden som kommer.
Generativ KI og kreativitet
Meningene er mange om hva kreativitet egentlig er, men i denne sammenhengen definerer jeg det som evne og trang til å finne og utforske problemer. Kanskje går skillet mellom kunstneren og ingeniørens kreativitet ved at kunstneren er mer på jakt etter problemer, mens ingeniøren løser problemer som allerede er identifisert. Samtidig ligger det samtidig mye kreativitet i problemløsning.
Det alle nok kan enes om er at det finner forskjellige former og nivåer for kreativitet. Den kreativiteten som kjennetegner en god kunstner eller ingeniør, arter seg annerledes når de bruker sin kreativitet på sine respektive fagområder.
Tradisjonelt knyttes kreativitet til mennesker, men dette utfordres av maskiner som benytter kunstig intelligens (KI), som allerede frembringer objekter som fremstår som resultat av kreative prosesser.
Noe som kjennetegner maskiner er at de er agnostiske når det gjelder tradisjonelle fagområder. En industrirobot bryr seg ikke om den lakkerer en bil eller maler en form for bilde. Ikke minst ser en dette når en begynner å trene fysiske roboter med samme type nevrale nettverk som benyttes i store språkmodeller. På samme vis blir det virkelig fart i resultatene som kommer ut når KI-modeller, i utganspunktet utviklet for verbaltekst, trenes med visuelle data,
KI-teknikkene, basert på såkalt Reinforcement Learning (forsterkende læring), kommer frem til alternative løsninger som fremstår som ytterst kreative – løsninger som kan fremstå som nyskapende og overraskende. Dette kommer ganske nær essensen av "kreativitet".
Generative KI-modeller kan lage bilder, design, videoer, musikk, osv – innhold som tidligere kun mennesker var i stand til å skape. Dette fører til at mange "kreative fag" føler seg utfordret av KI, noe som i seg selv er med på å bekrefte at KI kan produsere resultater, som om den har kreative evner.
Den viktigste grunnen til at KI fremstår som "kreativ" handler om hvordan kunstig nevrale nettverk er inspirert av biologiske nevrale nettverk. Når våre hjerner bearbeider informasjon lagrer vi ikke dette som tekst, bilder eller lyder, men snarere mønstre som lar oss gjenkalle og skape informasjon egnet for disse informasjonsbærerne.
Kunstige nevrale nettverk trenes med store mengder informasjon og trekker ut mønstre og egenskaper fra treningsdataene, som så kan brukes for å skape noe som ikke finnes i de datene som nettverket er trent med. I motsetning til et mennesker, som kun kan motta og behandle en ganske begrenset mengde informasjon gjennom et liv, kan kunstige nevrale nettverk trene med milliarder av elementer i løpet av kort tid. I det ligger et formidabelt "kreativt" potensiale, ikke minst på tvers av fagområder.
En dialogisk prosess
I denne videoen sitter Gro Røsland og Jon Hoem på Teams, og diskuterer hvordan de kan bruke KI-bilder i et undervisningsopplegg om livsmestring og psykisk helse. Videoen ble laget til HVL-konferansen 2024. Tema er høyere utdanning i framtiden – kunstig intelligens.
Bruk av KI, kan gi flotte, men samtidig merkelige resultater. Å komme frem til brukbare tekster og bilder krever derfor at vi kritisk vurderer resultatene. I så tilfelle kan KI være et svært godt verktøy i alle fag.
Nedenfor ser vi nærmere på bildene som vi kom frem til og diskuterer i denne videoen. Bildene kommer dels ut fra tidligere forsøk med å illustrere dikt ved hjelp av KI.
Her er utgangspunktet Edvard Munch sitt bilde, "Aske".
Vi ber Chat-GPT om å beskrive dette bildet:
Den sentrale figuren er en kvinne med langt, flytende hår. Hun holder hodet med begge hender, albuene strukket utover. Hun har på seg en hvit kjole med et detaljert, floral design i midtpartiet. Hennes holdning og uttrykk antyder en stemning av fortvilelse eller nød. Til høyre for henne ser det ut til å være en annen figur, mørk og bøyd, som kan representere tristhet eller en annen person i en tilstand av sorg. Bakgrunnen antyder en skog eller en lund med høye, mørke trær og en lys sti eller lysning som står i kontrast til trærnes mørke. Stilen på kunstverket er stemningsfull og uttrykksfull, med dristige linjer og en begrenset fargepalett.
Edvard Munch, «Aske II», 1899. Litografi trykket i sort. Håndkolorert med vannfarger i rødt, blått, grønt, gult og oransje.
Her kan vi stille spørsmål ved tolkningen. Det er liten tvil om at skikkelsen nede til høyre uttrykker noe som kan oppfattes som "fortvilelse og nød", men det er langt fra like klart at dette gjelder kvinneskikkelsen til venstre i det original bildet.
For eksempelets del går vi videre med den verbale beskrivelsen gitt av Chat-GPT, og ber om å få generert et bilde ut fra denne beskrivelsen.
Her ser vi at ulike KI-verktøy, eller i og for seg flere forsøk med samme verktøy, gir svært ulike resultater. Noen av de er svært lite brukbare i vår sammenheng.
Vi er ikke så fornøyde med disse forslagene og ber derfor om å få et visuelt uttrykk som ligger tettere opp mot oriignalen, som er et litografi:
Bildet vi ser ovenfor, til venstre bærer tydelig preg av at mange av de litografiene som KIen er trent på, nok stammer fra sent på 1800-tallet. Bildet vi har fått her viser i alle fall tydelige trekk fra stilretningen Art Nouveau – passende nok "ny kunst".
Bildet gir oss kanskje et lite innblikk i treningsdatene, samtidig som vi tydelig ser de visuelle referansene til originalen, representert i den verbaltekstlige beskrivelsen.
Vi er imidlertid ikke fornøyde. Bildet er visuelt slående, men vi er på jakt etter et annet uttrykk. En vei videre kan være å vise til en annen type trykketeknikk, tresnitt:
Her får vi først et forslag i direkte visuell forlengelse av forrige bilde. Vi ber om å få forenklet dette ytterligere, og ender opp med fet uttrykk vi liker. Her er vi fornøyd med motivet, selv om det fremdeles er noen mindre ting som ikke er helt bra, som enkelte detaljer og proporsjoner.
Vi konkluderer med at det nok ikke er bildet i seg selv som er viktigst. Det å komme frem til et resultat, i dialog med KI, er en prosess som både lærere, studenter og elever kan jobbe med.
Vi enes også om at en alltid må se på detaljene, og som oftest justere manuelt. Det å generere bilder er på denne måten sammenlignbart med å bruke KI for å generere verbaltekst: Hvis en kun tar første versjon kan det skje mye rart .
Slik KI-tjenestene er per i dag ( 2024) kommer en ikke utenom noe manuelt arbeid. Dersom resultatet skal bli bra må en guide KIen, lese korrektur og redigere visuell informasjon.