En titt på den nye Al Generative Art

Al Generativ kunst er en type kunst, i de fleste tilfeller visuell, som er basert på samarbeid mellom et menneske og et autonomt system. Et "autonomt system" er definert som et Kunstig intelligens programvare, algoritme eller modell som er i stand til å utføre komplekse operasjoner uten behov for programmererintervensjon.

Fra de bisarre sammenstillingene av bilder skapt av Dall-E Mini til NFT markedet, kommer bilder generert av AI-algoritmer i økende grad inn i mainstream-fantasien. Faktisk er to viktige prosjekter om emnet som fortjener å bli analysert: midt på reisen og DALL-E2.

Nyhetene har selvfølgelig også kommet til Twitter. Charles Hoskinson kommenterer blant annet det, som skrev:

AI genererte kunst. Jeg klarte å lage dette bildet på bare noen få minutter. Jeg kan ikke forestille meg hvor bemerkelsesverdig denne teknologien vil være om 3 år pic.twitter.com/jOToCZj7ki
- Charles Hoskinson (@IOHK_Charles) Februar 1, 2023

Al Generative Art: tidlige eksperimenter og funksjoner

Etter å ha forstått hva generativ kunst er, er det viktig å understreke et av dens grunnleggende prinsipper: tilfeldig. Som er en grunnleggende egenskap ved generativ kunst.

Faktisk, avhengig av type programvare, er det autonome systemet i stand til å behandle resultater som alltid er forskjellige og unike hver gang genereringskommandoen utføres, eller det kan returnere et variabelt antall resultater som svar på brukerinndata.

De første eksperimentene i Generativ kunst går tilbake til 1960-tallet med eksperimentene til Harold Cohen og hans AARON program. Cohen brukte først frittstående programvare for å generere abstrakte kunstverk inspirert av Pop Art-silketrykk. Cohens verk er nå utstilt på Tate Gallery i London.

En annen egenskap ved generativ kunst, men en som er mindre og mindre et privilegium, er repetisjonen av mønstre eller abstrakte elementer levert av programmereren og implementert i programvarekoden.

I tillegg har utviklingen av stadig mer komplekse nevrale nettverk som opererer på tekst-bilde-assosiasjon muliggjort utviklingen av generative modeller som er i stand til å skape stadig mer realistiske og nøyaktige bilder. Det mest kjente eksemplet på denne kategorien av generativ kunst er Plate.

Dall-E er et multimodalt nevralt nettverk basert på GPT-3 dyp læringsmodell fra OpenAI, det samme selskapet som også nylig utviklet ChatGPT, chatboten lansert i november 2022 og optimalisert med "overvåket" og forsterkende læringsteknikker.

Tilbake til Dall-E ser vi at dette systemet er i stand til å generere bilder fra en tekstbeskrivelse, kalt en "spørsmål," basert på et datasett med tekst-bilde-par.

Den første versjonen av Dall-E, som ble presentert for publikum i januar 2021 og forble privilegiet til et lite antall fagfolk på feltet, representerte en reell revolusjon når det gjelder denne typen generative modeller, og overgikk innovasjonene til GPT- 3 selv.

Av betydning er også det faktum at nøyaktigheten til resultatene behandlet av Dall-E viste seg å være det perfekte utvalget for en annen OpenAI-løsning: CLIP (Contrastive Language-Image Pre-training).

Et bildeklassifisering og rangering av nevralt nettverk trent på grunnlag av tekst-bilde-assosiasjoner, for eksempel bildetekster funnet på Internett. Takket være CLIPs intervensjon, som reduserer antallet resultater foreslått til brukeren per forespørsel til 32, ble det funnet at Dall-E returnerte tilfredsstillende bilder i de fleste tilfeller.

Midjourney: design, menneskelig infrastruktur og kunstig intelligens

Som forventet, midt på reisen er et viktig prosjekt som er en del av det nye Al Generative Art-konseptet. Nærmere bestemt er Midjourney et uavhengig forskningslaboratorium som utforsker nye måter å tenke på og utvider den menneskelige artens fantasifulle krefter.

Å bruke det er enkelt: først må en konto opprettes på Discord, en plattform som er vert for ulike fellesskap, der Midjourney er en av dem. Innenfor applikasjonen er de ulike chatterom der man kan delta aktivt eller ikke i diskusjoner.

Det er viktig å påpeke at for å prøve å bruke kunstig intelligens for første gang må man gå til "nybegynnere" kanaler, hvor 25 gratis gjengivelser er tilgjengelige.

En gjengivelse tilsvarer genereringen av fire forskjellige varianter generert fra samme tekstinndata.

Dermed refererer de 25 gjengivelsene til 25 behandlingsjobber utført av Midjourney-boten. Følgelig krever generering av bildet interaksjon med Midjourney-roboten via en tekstmelding kalt en "prompt", der det vil være nøkkelord som beskriver bildet brukeren har i tankene.

Du kan legge til så mange detaljer du vil, det viktige er å dele søkeordene med komma. Når gjengivelsen er ferdig, returnerer datamaskinen fire forskjellige bilder basert på beskrivelsene du kan velge mellom.

I tillegg, når programmet er ferdig med å gjengi, kan du kommunisere dine preferanser basert på bildene og, hvis du ønsker, få fire flere versjoner generert på nytt.

DALL-E 2: det nye AI-systemet for kunstverk

I tillegg til Midjourney er DALL-E 2 også det nye AI-systemet som kan lage realistiske bilder og kunstverk fra en naturlig språkbeskrivelse. Ikke bare det, DALL-E 2 kan også kombinere konsepter, attributter og stiler.

Styrken til det nye AI-systemet ligger også i å kunne utvide bilder utover det som er i det originale lerretet, og skape nye ekspansive komposisjoner. I tillegg kan den gjøre realistiske endringer i eksisterende bilder fra en naturlig språktekst og kan legge til og fjerne elementer som tar hensyn til skygger, refleksjoner og teksturer.

DALL-E 2s muligheter inkluderer også å ta et bilde og lage flere varianter av det inspirert av originalen. DALL-E 2 har lært forholdet mellom bilder og teksten som brukes for å beskrive dem.

Den bruker en prosess som heter "diffusjon," som starter med et mønster av tilfeldige prikker og gradvis endrer det mønsteret mot et bilde når det gjenkjenner spesifikke aspekter ved det bildet.

Så, etter at OpenAI introduserte DALL-E i januar 2021, genererer nå det nyeste systemet, DALL-E 2, mer realistiske og nøyaktige bilder med fire ganger så høy oppløsning.

DALL-E 2 startet som et forskningsprosjekt og er nå tilgjengelig som en beta versjon. Sikkerhetsbegrensninger som systemet har utviklet og fortsetter å forbedre inkluderer: å begrense systemets evne til å generere voldelige, hate eller voksne bilder, og læringsbasert trinnvis distribusjon.

Kilde: https://en.cryptonomist.ch/2023/02/02/ai-generative-art/