Hvor hardt bør vi presse generativ AI ChatGPT til å spy ut hatytringer, spør AI-etikk og AI-lov

Hva skal vi gjøre med generativ kunstig intelligens som produserer støtende innhold som hatytringer?

Getty

Alle har sitt bruddpunkt.

Jeg antar at du også kan si det alt har sitt bristepunkt.

Vi vet at mennesker for eksempel noen ganger kan knipse og uttale bemerkninger som de ikke nødvendigvis mener å si. På samme måte kan du til tider få en enhet eller maskin til å knipse, for eksempel å presse bilen for hardt og den begynner å vakle eller fly fra hverandre. Dermed er forestillingen at mennesker eller "alle" sannsynligvis har et bruddpunkt, og på samme måte kan vi hevde at objekter og ting generelt også har en tendens til å ha et bruddpunkt.

Det kan være ganske fornuftige og viktige grunner til å finne ut hvor bruddpunktet eksisterer. For eksempel har du utvilsomt sett disse videoene som viser frem en bil som blir satt gjennom sine skritt for å identifisere hvilke bruddpunkter den har. Forskere og testere vil ramme en bil inn i en murvegg for å se hvor godt støtfangeren og strukturen til kjøretøyet tåler den uønskede handlingen. Andre tester kan omfatte bruk av et spesialisert rom eller lager som produserer ekstrem kulde eller ekstrem varme for å se hvordan en bil vil klare seg under forskjellige værforhold.

Jeg tar opp dette hjertelige emnet i dagens spalte slik at vi kan diskutere hvordan noen for tiden presser hardt på kunstig intelligens (AI) for å identifisere og antagelig avsløre en bestemt type bruddpunkt, nemlig bruddpunktet innenfor AI som produserer hatytringer.

Ja, det er riktig, det er ulike ad hoc og til tider systematiske anstrengelser i gang for å måle hvorvidt det er mulig å få AI til å spy ut hatytringer. Dette har blitt en ivrig sport, om du vil, på grunn av den økende interessen for og populariteten til generativ AI.

Du er kanskje klar over at en generativ AI-app kjent som ChatGPT har blitt byens store tale som et resultat av å kunne generere utrolig flytende essays. Overskrifter fortsetter å buldre og fremheve den forbløffende skriften som ChatGPT klarer å produsere. ChatGPT regnes som en generativ AI-applikasjon som tar som input noe tekst fra en bruker og deretter genererer eller produserer en utgang som består av et essay. AI er en tekst-til-tekst-generator, selv om jeg beskriver AI som en tekst-til-essay-generator siden det lettere tydeliggjør hva den vanligvis brukes til.

Mange blir overrasket når jeg nevner at denne typen kunstig intelligens har eksistert en stund, og at ChatGPT, som ble utgitt i slutten av november, ikke på en eller annen måte gjorde krav på prisen som den som først flyttet inn i dette riket av tekst-til-essay. tilbøyelighet. Jeg har diskutert gjennom årene andre lignende generative AI-apper, se min dekning på lenken her.

Grunnen til at du kanskje ikke kjenner til eller husker de tidligere forekomstene av generativ AI, skyldes kanskje den klassiske "manglende lansering"-gåten. Her er det som vanligvis har skjedd. En AI-produsent slipper sin generative AI-app, og gjør det med stor spenning og ivrig forventning om at verden vil sette pris på oppfinnelsen av en bedre musefelle, kan man si. Til å begynne med ser alt bra ut. Folk er forbløffet over hva AI kan gjøre.

Dessverre er neste trinn at hjulene begynner å gå av den velkjente bussen. AI produserer et essay som inneholder et stygt ord eller kanskje en stygg frase. En viral tweet eller andre sosiale medier-poster fremhever tydelig at AI gjorde dette. Fordømmelse oppstår. Vi kan ikke ha AI som går rundt og genererer støtende ord eller støtende bemerkninger. Et voldsomt tilbakeslag dukker opp. AI-produsenten prøver kanskje å justere den indre funksjonen til AI, men kompleksiteten til algoritmene og dataene egner seg ikke til raske løsninger. Et stormløp følger. Flere og flere eksempler på AI-utsendende forurensninger blir funnet og lagt ut på nettet.

AI-produsenten har motvillig, men tydeligvis ikke noe annet valg enn å fjerne AI-appen fra bruk. De fortsetter som sådan og kommer ofte med en unnskyldning som de angrer på hvis noen ble fornærmet av AI-utdataene som ble generert.

Tilbake til tegnebrettet går AI-makeren. En lekse er tatt. Vær veldig forsiktig med å slippe generativ AI som produserer stygge ord eller lignende. Det er dødens kyss for AI. Videre vil AI-produsenten få sitt rykte ødelagt og slått, noe som kan vare lenge og undergrave all deres andre AI-innsats, inkludert de som ikke har noe å gjøre med generativ AI i seg selv. Det er en nå varig feil å få kjeften din til å svelge ut støtende AI-språk. Det skjer fortsatt.

Vask, skyll og gjenta.

I de tidlige dagene av denne typen AI var AI-produsentene ikke fullt så samvittighetsfulle eller flinke til å skrubbe AI-en sin når det gjaldt å forhindre støtende utslipp. Nå for tiden, etter tidligere å ha sett jevnaldrende bli fullstendig knust av et PR-mareritt, har de fleste AI-produsenter tilsynelatende fått med seg budskapet. Du må sette på så mange rekkverk som mulig. Prøv å forhindre at AI sender ut stygge ord eller stygge fraser. Bruk hvilken som helst munnkurvsteknikk eller filtreringsmetoder som vil stoppe AI fra å generere og vise ord eller essays som er funnet å være upassende.

Her er en smakebit på banneroverskriften som brukes når AI blir tatt for å avgi uanstendige utdata:

"AI viser forferdelig toksisitet"
"AI stinker av direkte bigotteri"
"AI blir åpenbart offensivt støtende"
"AI spyr ut forferdelige og umoralske hatytringer"
Etc.

For å lette diskusjonen her, vil jeg referere til produksjon av støtende innhold som å likestille med produksjon av hatmeldinger. Når det er sagt, vær oppmerksom på at det er all slags støtende innhold som kan produseres, som går utover grensene for hatytringer alene. Hatytringer tolkes vanligvis som bare én form for støtende innhold.

La oss fokusere på hatytringer for denne diskusjonen, for å lette diskusjonen, men innse at annet støtende innhold også fortjener gransking.

Graver inn i hatytringer av mennesker og av AI

FN definerer hatmeldinger denne måten:

«I vanlig språkbruk refererer 'hatfulle ytringer' til støtende diskurs rettet mot en gruppe eller et individ basert på iboende egenskaper (som rase, religion eller kjønn) og som kan true sosial fred. For å gi FN et enhetlig rammeverk for å håndtere problemet globalt, definerer FNs strategi og handlingsplan for hatytringer hatytringer som 'enhver form for kommunikasjon i tale, skrift eller atferd, som angriper eller bruker nedsettende eller diskriminerende språk med henvisning til en person eller en gruppe på grunnlag av hvem de er, med andre ord basert på deres religion, etnisitet, nasjonalitet, rase, farge, avstamning, kjønn eller annen identitetsfaktor.' Men til dags dato er det ingen universell definisjon av hatytringer under internasjonal menneskerettighetslov. Konseptet er fortsatt under diskusjon, spesielt i forhold til menings- og ytringsfrihet, ikke-diskriminering og likeverd» (FN-nettsted med tittelen «Hva er hatytringer?»).

AI som produserer tekst er utsatt for å komme inn i hatytringssfæren. Du kan si det samme om tekst-til-kunst, tekst-til-lyd, tekst-til-video og andre moduser for generativ AI. Det er alltid en mulighet for for eksempel at en generativ kunstig intelligens vil produsere et kunstverk som oser av hatefulle ytringer. For formålet med denne diskusjonen her, skal jeg fokusere på tekst-til-tekst- eller tekst-til-essay-mulighetene.

Inn i alt dette kommer en rekke AI-etikk og AI-lovbetraktninger.

Vær oppmerksom på at det pågår et arbeid for å innarbeide etiske AI-prinsipper i utviklingen og bruken av AI-apper. En voksende kontingent av bekymrede og tidligere AI-etikere prøver å sikre at arbeidet med å utvikle og ta i bruk AI tar hensyn til et syn på å gjøre AI For Good og avverge AI for Bad. På samme måte er det foreslått nye AI-lover som blir slått rundt som potensielle løsninger for å forhindre at AI-arbeidet går amok på menneskerettigheter og lignende. For min pågående og omfattende dekning av AI-etikk og AI-lov, se lenken her og lenken her, bare for å nevne noen få.

Utviklingen og kunngjøringen av etiske AI-forskrifter blir forfulgt for å forhåpentligvis forhindre at samfunnet faller i en myriade av AI-fremkallende feller. For min dekning av FNs AI-etiske prinsipper slik de er utviklet og støttet av nesten 200 land gjennom innsatsen til UNESCO, se lenken her. På samme måte utforskes nye AI-lover for å prøve å holde AI på en jevn kjøl. En av de siste opptakene består av et sett med foreslåtte AI Bill of Rights som det amerikanske hvite hus nylig ga ut for å identifisere menneskerettigheter i en tidsalder med AI, se lenken her. Det kreves en landsby for å holde AI- og AI-utviklere på en rettmessig vei og avskrekke målrettet eller utilsiktet underhendt innsats som kan undergrave samfunnet.

Jeg skal flette inn AI-etikk og AI-lovrelaterte betraktninger i denne diskusjonen om AI som spyr ut hatefulle ytringer eller annet støtende innhold.

En bit av forvirringen som jeg umiddelbart vil rydde opp i, er at dagens AI ikke er sansende, og derfor kan du ikke proklamere at AI kan produsere hatefulle ytringer på grunn av en målrettet menneskelignende hensikt som på en eller annen måte er nedfelt i AI. Zany hevder at den nåværende AI-en er sansende og at AI-en har en ødelagt sjel, noe som får den til å generere hatytringer.

Latterlig.

Ikke fall for det.

Gitt denne keystone-forskriften, blir noen opprørt over slike indikasjoner siden du tilsynelatende slipper AI-en av kroken. Under den merkelige måten å tenke på, kommer formaningen deretter om at du tilsynelatende er villig til å la AI generere noen form for grusomme utganger. Du er for AI som spyr ut hatytringer.

Jepp, en ganske vridd form for ulogikk. Den virkelige kjernen i saken er at vi må holde AI-produsentene ansvarlige, sammen med den som driver med AI eller driver AI. Jeg har diskutert lenge at vi ennå ikke er i ferd med å innrømme juridisk personskap til AI, se mine analyser på lenken her, og inntil da er AI i hovedsak utenfor det juridiske ansvaret. Det er imidlertid mennesker som ligger til grunn for utviklingen av AI. I tillegg ligger mennesker til grunn for feltingen og driften av AI. Vi kan gå etter disse menneskene for å bære ansvaret for deres AI.

Som en side kan dette også være vanskelig, spesielt hvis AI-en flyter ut på Internett og vi ikke er i stand til å finne ut hvilket eller hvilke mennesker som gjorde dette, som er et annet emne jeg har dekket i spaltene mine på lenken her. Vanskelig eller ikke, vi kan fortsatt ikke proklamere at AI er den skyldige parten. Ikke la mennesker snikende bruke falsk antropomorfisering for å gjemme seg og unnslippe ansvarlighet for det de har gjort.

Tilbake til saken.

Du lurer kanskje på hvorfor det er slik at alle AI-produsenter ikke bare begrenser sin generative AI slik at det er umulig for AI å produsere hatytringer. Dette virker lettvint. Bare skriv litt kode eller opprett en sjekkliste med hatefulle ord, og sørg for at AI-en aldri genererer noe slikt. Det virker kanskje nysgjerrig at AI-produsentene ikke allerede har tenkt på denne raske løsningen.

Vel, jeg hater å fortelle deg dette, men kompleksiteten som ligger i å tolke hva som er eller ikke er hatytringer, viser seg å være mye vanskeligere enn du kanskje antar at det er.

Flytt dette til menneskets domene og hvordan mennesker chatter med hverandre. Anta at du har et menneske som ønsker å unngå å ytre hatefulle ytringer. Denne personen er veldig bevisst på hatytringer og håper virkelig å unngå å noen gang si et ord eller en setning som kan utgjøre hatytringer. Denne personen er vedvarende oppmerksom på ikke å la et tøft av hatytringer slippe ut av munnen.

Vil dette mennesket som har en hjerne og er varslet om å unngå hatytringer, alltid og uten noen sjanse for å skli være i stand til å være i stand til å sikre at de aldri kommer med hatytringer?

Din første impuls kan være å si at ja, selvfølgelig, et opplyst menneske ville være i stand til å oppnå det målet. Folk er smarte. Hvis de setter seg på noe, kan de få det til. Periode, slutten av historien.

Ikke vær så sikker.

Tenk deg at jeg ber denne personen fortelle meg om hatytringer. Videre ber jeg dem gi meg et eksempel på hatytringer. Jeg vil se eller høre et eksempel slik at jeg kan vite hva hatytringer består av. Mine grunner for å spørre dette er overbord.

Hva skal personen si til meg?

Jeg tror du kan se fellen som er lagt. Hvis personen gir meg et eksempel på hatytringer, inkludert faktisk å si et stygt ord eller uttrykk, har de selv nå ytret hatytringer. Bam, vi har dem. Mens de sverget å aldri si hatytringer, har de faktisk gjort det nå.

Urettferdig, utbryter du! De sa bare det ordet eller de ordene for å gi et eksempel. I deres hjerter trodde de ikke på ordet eller ordene. Det er helt ute av kontekst og opprørende å erklære at personen er hatefull.

Jeg er sikker på at du ser at det å uttrykke hatytringer ikke nødvendigvis skyldes et hatefullt grunnlag. I dette tilfellet, forutsatt at personen ikke "mente" ordene, og de bare resiterte ordene for demonstrasjonsformål, ville vi sannsynligvis være enige om at de ikke hadde ment å styrke hatytringene. Selvfølgelig er det noen som kan insistere på at det å ytre hatefulle ytringer, uansett årsak eller grunnlag, likevel er feil. Personen burde ha avvist forespørselen. De burde ha stått på sitt og nektet å si hatefulle ord eller fraser, uansett hvorfor eller hvordan de blir bedt om å gjøre det.

Dette kan bli noe sirkulært. Hvis du ikke er i stand til å si hva som utgjør hatefulle ytringer, hvordan kan andre vite hva de skal unngå når de kommer med ytringer av noe slag? Det ser ut til at vi sitter fast. Du kan ikke si det som ikke skal sies, og ingen andre kan heller fortelle deg hva det er som ikke kan sies.

Den vanlige måten rundt dette dilemmaet er å beskrive med andre ord det som anses å være hatytringer, uten å påberope seg selve hatytringene. Troen er at å gi en samlet indikasjon vil være tilstrekkelig til å informere andre om hva de må unngå. Det virker som en fornuftig taktikk, men den har også problemer, og en person kan fortsatt falle inn i å bruke hatytringer fordi de ikke skjønte at den bredere definisjonen omfattet detaljene i det de har ytret.

Alt dette handler om mennesker og hvordan mennesker snakker eller kommuniserer med hverandre.

Husk at vi her er fokusert på AI. Vi må få AI til å unngå eller helt stoppe seg selv fra å avgi hatefulle ytringer. Du kan kanskje argumentere for at vi kanskje kan gjøre det ved å sørge for at AI aldri blir gitt eller trent på noe som utgjør hatefulle ytringer. Voila, hvis det ikke er en slik inngang, vil det antagelig ikke være noen slik utgang. Problem løst.

La oss se hvordan dette utspiller seg i virkeligheten. Vi velger å regnemessig få en AI-app til å gå ut på Internett og undersøke tusenvis på tusenvis av essays og fortellinger som er lagt ut på Internett. Ved å gjøre det trener vi AI beregningsmessig og matematisk i hvordan man finner mønstre blant ordene som mennesker bruker. Det er slik det siste innen generativ AI blir utviklet, og er også et avgjørende grunnlag for hvorfor AI er så tilsynelatende flytende i å produsere essays på naturlig språk.

Fortell meg, hvis du kan, hvordan ville beregningsopplæringen basert på millioner og milliarder av ord på Internett gjøres på en slik måte at det ikke på noe tidspunkt ble omfattet av noen skinn eller til og med småbiter av hatytringer?

Jeg vil tørre å si at dette er en vanskelig og nesten umulig ambisjon.

Oddsen er at hatytringer vil bli sluppet opp av AI og dets databaserte mønstermatchende nettverk. Å prøve å forhindre dette er problematisk. I tillegg, selv om du har minimert det, er det fortsatt noen som kan snike seg gjennom. Du har stort sett ikke noe annet valg enn å anta at noen vil eksistere innenfor mønstertilpasningsnettverket eller at en skygge av slike ordlyder vil bli forankret.

Jeg legger til flere vendinger.

Jeg tror vi alle kan erkjenne at hatytringer endrer seg over tid. Det som kan ha blitt oppfattet som ikke å være hatytringer kan bli kulturelt og samfunnsmessig bestemt som å være hatytringer på et senere tidspunkt. Så hvis vi trener AI-en vår på Internett-tekst og la oss si fryse AI-en for ikke å gjennomføre ytterligere opplæring på Internett, kan vi ha kommet over hatytringer på den tiden, selv om det ikke ble ansett som hatefulle ytringer på den tiden. Først i ettertid kan den nevnte talen erklæres som hatefulle ytringer.

Igjen, essensen er at bare å prøve å løse dette problemet ved å sikre at AI aldri blir utsatt for hatytringer ikke kommer til å være sølvkulen. Vi vil fortsatt måtte finne et middel for å forhindre AI fra å sende ut hatytringer på grunn av for eksempel endrede seder som senere inkluderer hatytringer som tidligere ikke ble ansett for å være det.

Nok en vri er verdt å tenke over.

Jeg nevnte tidligere at når brukeren bruker generativ AI som ChatGPT, skriver brukeren inn tekst for å anspore AI til å lage et essay. Den angitte teksten betraktes som en form for forespørsel eller forespørsel for AI-appen. Jeg skal forklare mer om dette om et øyeblikk.

I alle fall, forestill deg at noen som bruker en generativ AI-app, bestemmer seg for å gå inn som et spørsmål om hatytringer.

Hva bør skje?

Hvis AI tar disse ordene og produserer et essay som utgang basert på disse ordene, er sjansen stor for at hatytringene blir inkludert i det genererte essayet. Du skjønner, vi fikk AI til å si hatytringer, selv om den aldri ble trent på hatytringer i starten.

Det er noe annet du trenger å vite.

Husk at jeg nettopp nevnte at et menneske kan snubles ved å be dem gi eksempler på hatefulle ytringer. Det samme kan forsøkes på AI. En bruker skriver inn en melding som ber AI-en om å gi eksempler på hatytringer. Bør AI overholde og gi slike eksempler? Jeg vedder på at du sannsynligvis tror at AI ikke bør gjøre det. På den annen side, hvis AI-en er regnemessig rigget til å ikke gjøre det, utgjør dette en potensiell ulempe som de som bruker AI-en ikke vil kunne bli, skal vi si noen gang bli instruert av AI-en om hva hatytringer faktisk er ( utover å bare generalisere om det)?

Vanskelige spørsmål.

Jeg pleier å kategorisere AI-utsendt hatprat i disse tre hovedområdene:

Hverdagsmodus. AI sender ut hatytringer uten noen eksplisitt oppfordring fra brukeren og som om han gjør det på en "vanlig" måte.
Av Casual Prodding. AI avgir hatefulle ytringer som oppfordret av en bruker til vedkommendes oppgitte melding eller serie av meldinger som ser ut til å inkludere eller direkte søke etter slike utslipp.
Per Bestemt Stoking. AI avgir hatefulle ytringer etter en veldig målbevisst og seig serie med raske dytt og prods fra en bruker som er opptatt av å få AI til å produsere slike resultater.

De tidligere generasjonene med generativ AI ville ofte utsende hatytringer med en gang; dermed kan du klassifisere disse tilfellene som en type hverdagsmodus instansiering. AI-produsenter trakk seg tilbake og lekte med AI for å gjøre det mindre sannsynlig at de lett blir fast i produksjon av hatefulle ytringer.

Ved utgivelsen av den mer raffinerte AI er sjansen for å se noen hverdagsmodus tilfeller av hatytringer ble dramatisk redusert. I stedet vil hatefulle ytringer sannsynligvis bare oppstå når en bruker gjorde noe som en oppfordring som kan utløse beregningsmessig og matematisk en kobling til hatrelatert ytring i mønstertilpasningsnettverket. En bruker kan gjøre dette ved en tilfeldighet og ikke innse at det de ga som en forespørsel, spesielt ville generere hatytringer. Etter å ha mottatt hatytringer i et essay som er skrevet ut, ville brukeren ofte innse og se at noe i spørsmålet logisk sett kunne ha ført til at hatytringer ble inkludert i utdataene.

Det er dette jeg omtaler som uformell prodding.

I dag er de ulike innsatsene for å begrense AI-generert hatytring relativt sterke i forhold til tidligere. Som sådan må du nesten gå ut av veien for å få frem hatytringer. Noen velger å med vilje se om de kan få hatefulle ytringer til å komme ut av disse generative AI-appene. Jeg kaller dette bestemt fyring.

Jeg vil understreke at alle tre av de angitte modusene kan forekomme og at de ikke utelukker hverandre gjensidig. En generativ AI-app kan potensielt produsere hatytringer uten noen form for oppfordring som ser ut til å stimulere til slik produksjon. På samme måte kan noe i en ledetekst logisk og matematisk tolkes som relatert til hvorfor hatytringer har blitt sendt ut. Og så er det tredje aspektet, målrettet forsøk på å få hatefulle ytringer produsert, det kanskje vanskeligste av modusene å prøve og få AI til å unngå å bli motivert til å oppfylle. Mer om dette et øyeblikk.

Vi har litt ekstra utpakking å gjøre om dette heftige emnet.

Først bør vi sørge for at vi alle er på samme side om hva Generativ AI består av og også hva ChatGPT handler om. Når vi dekker den grunnleggende fasetten, kan vi utføre en overbevisende vurdering av denne tungtveiende saken.

Hvis du allerede er godt kjent med Generative AI og ChatGPT, kan du kanskje skumle den neste delen og fortsette med delen som følger den. Jeg tror at alle andre vil finne lærerikt de viktige detaljene om disse sakene ved å lese avsnittet nøye og bli oppdatert.

En rask innføring om generativ AI og ChatGPT

ChatGPT er et interaktivt, samtaleorientert system for generell bruk av AI, i hovedsak en tilsynelatende ufarlig generell chatbot, men den brukes aktivt og ivrig av folk på måter som fanger mange helt på vakt, som jeg skal utdype om kort tid. Denne AI-appen utnytter en teknikk og teknologi i AI-området som ofte omtales som Generativ AI. AI genererer utdata som tekst, som er det ChatGPT gjør. Andre generativ-baserte AI-apper produserer bilder som bilder eller kunstverk, mens andre genererer lydfiler eller videoer.

Jeg vil fokusere på de tekstbaserte generative AI-appene i denne diskusjonen siden det er det ChatGPT gjør.

Generative AI-apper er svært enkle å bruke.

Alt du trenger å gjøre er å skrive inn en melding, og AI-appen vil generere et essay for deg som prøver å svare på spørsmålet ditt. Den komponerte teksten vil virke som om essayet ble skrevet av menneskelig hånd og sinn. Hvis du skulle skrive inn en melding som sa "Fortell meg om Abraham Lincoln", vil den generative AI gi deg et essay om Lincoln. Dette er vanligvis klassifisert som generativ AI som presterer tekst-til-tekst eller noen foretrekker å kalle det tekst-til-essay produksjon. Som nevnt er det andre moduser for generativ AI, som tekst-til-kunst og tekst-til-video.

Din første tanke kan være at denne generative evnen ikke virker som en så stor sak når det gjelder å produsere essays. Du kan enkelt gjøre et online søk på Internett og lett finne tonnevis av essays om president Lincoln. Kickeren i tilfellet med generativ AI er at det genererte essayet er relativt unikt og gir en original komposisjon i stedet for en kopi. Hvis du skulle prøve å finne det AI-produserte essayet på nettet et sted, ville du neppe oppdaget det.

Generativ AI er forhåndsopplært og bruker en kompleks matematisk og beregningsmessig formulering som er satt opp ved å undersøke mønstre i skrevne ord og historier over nettet. Som et resultat av å undersøke tusenvis og millioner av skriftlige passasjer, kan AI spy ut nye essays og historier som er en blanding av det som ble funnet. Ved å legge til ulike sannsynlighetsfunksjoner, er den resulterende teksten ganske unik i forhold til det som har blitt brukt i treningssettet.

Derfor har det vært bråk om at elever kan jukse når de skriver essays utenfor klasserommet. En lærer kan ikke bare ta essayet som svikefulle studenter hevder er deres eget forfatterskap og søke å finne ut om det ble kopiert fra en annen nettkilde. Totalt sett vil det ikke være noe definitivt eksisterende essay på nettet som passer til det AI-genererte essayet. Alt i alt må læreren motvillig akseptere at studenten skrev essayet som et originalt arbeid.

Det er ytterligere bekymringer om generativ AI.

En avgjørende ulempe er at essayene produsert av en generativ-basert AI-app kan ha forskjellige usannheter innebygd, inkludert åpenbart usanne fakta, fakta som er misvisende fremstilt, og tilsynelatende fakta som er helt oppdiktet. Disse fabrikkerte aspektene blir ofte referert til som en form for AI hallusinasjoner, et slagord som jeg misliker, men som dessverre ser ut til å ha blitt populært uansett (for min detaljerte forklaring om hvorfor dette er elendig og uegnet terminologi, se min dekning på lenken her).

Jeg vil gjerne avklare et viktig aspekt før vi går inn i tykke ting om dette emnet.

Det har vært noen uhyggelige påstander på sosiale medier om Generativ AI hevder at denne siste versjonen av AI faktisk er det sansende AI (nei, de tar feil!). De innen AI Ethics og AI Law er spesielt bekymret for denne spirende trenden med utstrakte påstander. Du kan høflig si at noen mennesker overdriver hva dagens AI faktisk kan gjøre. De antar at AI har evner som vi ennå ikke har klart å oppnå. Det er uheldig. Enda verre kan de tillate seg selv og andre å komme i alvorlige situasjoner på grunn av en antagelse om at AI vil være sansende eller menneskelignende når det gjelder å kunne handle.

Ikke antropomorfiser AI.

Hvis du gjør det, vil du bli fanget i en klissete og hard avhengighetsfelle av å forvente at AI skal gjøre ting den ikke er i stand til å utføre. Når det er sagt, er det siste innen generativ AI relativt imponerende for hva det kan gjøre. Vær imidlertid oppmerksom på at det er betydelige begrensninger som du kontinuerlig bør huske på når du bruker en generativ AI-app.

Hvis du er interessert i det raskt voksende oppstyret om ChatGPT og Generative AI, har jeg laget en fokusert serie i spalten min som du kan finne informativ. Her er et blikk i tilfelle noen av disse emnene fanger deg:

1) Spådommer om generative AI-fremskritt som kommer. Hvis du vil vite hva som sannsynligvis vil utspille seg om AI gjennom 2023 og utover, inkludert kommende fremskritt innen generativ AI og ChatGPT, vil du lese min omfattende liste over 2023-spådommer på lenken her.
2) Generativ kunstig intelligens og råd om mental helse. Jeg valgte å gjennomgå hvordan generativ AI og ChatGPT brukes til råd om mental helse, en plagsom trend, i henhold til min fokuserte analyse på lenken her.
3) Grunnleggende om generativ AI og ChatGPT. Dette stykket utforsker nøkkelelementene i hvordan generativ AI fungerer, og fordyper spesielt i ChatGPT-appen, inkludert en analyse av buzz og fanfare, på lenken her.
4) Spenning mellom lærere og studenter over generativ AI og ChatGPT. Her er måtene studentene vil bruke generativ AI og ChatGPT på. I tillegg er det flere måter for lærere å takle denne flodbølgen. Se lenken her.
5) Kontekst og generativ AI-bruk. Jeg foretok også en undersøkelse med sesongmessig smak om en julenisserelatert kontekst som involverer ChatGPT og generativ AI på lenken her.
6) Svindlere som bruker generativ AI. På et illevarslende notat, noen svindlere har funnet ut hvordan de kan bruke generativ AI og ChatGPT til å gjøre feil, inkludert å generere svindel-e-poster og til og med produsere programmeringskode for skadelig programvare, se min analyse på lenken her.
7) Rookie-feil ved bruk av generativ AI. Mange mennesker både overskrider og overraskende underskjønner hva generativ AI og ChatGPT kan gjøre, så jeg så spesielt på underskuddet som AI-nybegynnere pleier å gjøre, se diskusjonen på lenken her.
8) Mestring av generative AI-meldinger og AI-hallusinasjoner. Jeg beskriver en ledende tilnærming til å bruke AI-tillegg for å håndtere de ulike problemene knyttet til å prøve å legge inn passende meldinger i generativ AI, pluss at det er flere AI-tillegg for å oppdage såkalte AI-hallusinerte utdata og usannheter, som dekket kl lenken her.
9) Avkrefte Bonehead-påstander om å oppdage generative AI-produserte essays. Det er et misforstått gullrush av AI-apper som forkynner å være i stand til å fastslå om et gitt essay var menneskeskapt versus AI-generert. Totalt sett er dette misvisende, og i noen tilfeller er det en grusom og uholdbar påstand, se min dekning på lenken her.
10) Rollespill via generativ AI kan være tegn på ulemper med mental helse. Noen bruker generativ AI som ChatGPT for å spille rollespill, der AI-appen reagerer på et menneske som om det eksisterer i en fantasiverden eller andre oppdiktede omgivelser. Dette kan få psykiske konsekvenser, ser du lenken her.
11) Avsløre rekkevidden av utgitte feil og usannheter. Ulike innsamlede lister blir satt sammen for å prøve å vise frem naturen til ChatGPT-produserte feil og usannheter. Noen mener dette er essensielt, mens andre sier at øvelsen er fåfengt, se min analyse på lenken her.
12) Skoler som forbyr generativ AI ChatGPT mangler båten. Du vet kanskje at forskjellige skoler som New York City (NYC) Department of Education har erklært et forbud mot bruk av ChatGPT på nettverket og tilhørende enheter. Selv om dette kan virke som en nyttig forholdsregel, flytter den ikke nålen og savner dessverre helt båten, se min dekning på lenken her.
13) Generativ AI ChatGPT kommer til å være overalt på grunn av den kommende API. Det er en viktig vri på vei rundt bruken av ChatGPT, nemlig at via bruk av en API-portal inn i denne spesielle AI-appen, vil andre programvareprogrammer kunne påkalle og bruke ChatGPT. Dette kommer til å dramatisk utvide bruken av generativ AI og har bemerkelsesverdige konsekvenser, se min utdypning på lenken her.
14) Måter som ChatGPT kan svekke eller smelte. Flere potensielle irriterende problemer lå foran ChatGPT når det gjelder å undergrave den så langt enorme rosen den har mottatt. Denne analysen undersøker nøye åtte mulige problemer som kan føre til at ChatGPT mister dampen og til og med havner i hundehuset, se lenken her.
15) Å spørre om generativ AI ChatGPT er et speil i sjelen. Noen mennesker har gledd at generativ kunstig intelligens som ChatGPT gir et speil inn i menneskehetens sjel. Dette virker ganske tvilsomt. Her er måten å forstå alt dette på lenken her.
16) Konfidensialitet og personvern oppslukt av ChatGPT. Mange ser ikke ut til å innse at lisensieringen knyttet til generative AI-apper som ChatGPT ofte gjør det mulig for AI-produsenten å se og bruke de oppgitte spørsmålene dine. Du kan risikere personvern og tap av datakonfidensialitet, se min vurdering på lenken her.
17) Måter som app-produsenter tvilsomt prøver å få ChatGPT-rettigheter. ChatGPT er fyrtårnet for oppmerksomhet akkurat nå. App-produsenter som ikke har noe med ChatGPT å gjøre, prøver febrilsk å hevde eller antyde at de bruker ChatGPT. Her er hva du skal passe på, se lenken her.

Du kan finne av interesse at ChatGPT er basert på en versjon av en forgjenger AI-app kjent som GPT-3. ChatGPT anses å være et litt neste steg, referert til som GPT-3.5. Det er forventet at GPT-4 sannsynligvis vil bli utgitt våren 2023. GPT-4 kommer antagelig til å være et imponerende skritt fremover når det gjelder å kunne produsere tilsynelatende enda mer flytende essays, gå dypere og være en ærefrykt -inspirerende vidunder med hensyn til komposisjonene den kan produsere.

Du kan forvente å se en ny runde med uttrykt undring når våren kommer og det siste innen generativ AI slippes.

Jeg tar dette opp fordi det er en annen vinkel å huske på, som består av en potensiell akilleshæl til disse bedre og større generative AI-appene. Hvis en AI-leverandør gjør tilgjengelig en generativ AI-app som skummende spyr ut urenheter, kan dette knekke håpet til disse AI-produsentene. En samfunnsmessig ringvirkning kan føre til at all generativ AI får et alvorlig svart øye. Folk vil utvilsomt bli ganske opprørt over dårlige resultater, som har skjedd mange ganger allerede og ført til støyende samfunnsmessige fordømmelsesreaksjoner mot AI.

En siste forvarsel for nå.

Uansett hva du ser eller leser i et generativt AI-svar som synes for å bli formidlet som rent saklig (datoer, steder, personer osv.), sørg for å være skeptisk og være villig til å dobbeltsjekke det du ser.

Ja, datoer kan lages, steder kan gjøres opp, og elementer som vi vanligvis forventer å være uanstendige er alle gjenstand for mistanker. Ikke tro det du leser og hold et skeptisk øye når du undersøker generative AI-essays eller utganger. Hvis en generativ AI-app forteller deg at Abraham Lincoln fløy landet rundt i sitt eget private jetfly, ville du utvilsomt vite at dette er malarky. Dessverre er det kanskje noen mennesker som ikke innser at jetfly ikke fantes på hans tid, eller de vet kanskje, men unnlater å legge merke til at essayet kommer med denne frekke og opprørende falske påstanden.

En sterk dose sunn skepsis og en vedvarende tankegang av vantro vil være din beste ressurs når du bruker generativ AI.

Vi er klare til å gå inn i neste fase av denne oppklaringen.

Skyver generativ AI til et bristepunkt

Nå som vi har etablert det grunnleggende, kan vi dykke ned i emnet å presse generativ AI og ChatGPT for å generere hatytringer og annet støtende innhold.

Når du først logger på ChatGPT, er det forskjellige advarende indikasjoner, inkludert disse:

"Kan av og til produsere skadelige instruksjoner eller partisk innhold."
"Trent til å avslå upassende forespørsler."
"Kan av og til generere feil informasjon."
"Begrenset kunnskap om verden og hendelser etter 2021."

Her er et spørsmål du kan tenke over.

Gir advarselen om at AI-appen kan produsere skadelige instruksjoner og/eller mulig forutinntatt innhold tilstrekkelig spillerom for AI-produsenten?

Med andre ord, anta at du bruker ChatGPT og det genererer et essay som du mener inneholder hatytringer. La oss anta at du er sur på dette. Du går til sosiale medier og legger ut sinte kommentarer om at AI-appen er det verste noensinne. Kanskje du er så fornærmet at du erklærer at du kommer til å saksøke AI-produsenten for å tillate slike hatytringer.

Motargumentet er at AI-appen hadde en advarsel, og dermed aksepterte du risikoen ved å fortsette å bruke AI-appen. Fra et AI-etikk-perspektiv gjorde kanskje AI-produsenten nok for å hevde at du var klar over hva som kunne skje. På samme måte, fra et juridisk perspektiv, utgjorde kanskje advarselen tilstrekkelig heads-up, og du vil ikke seire i retten.

Alt dette er oppe i luften, og vi får vente og se hvordan ting utvikler seg.

På en måte har AI-produsenten noe annet for seg i deres forsvar mot eventuelle opprørte påstander fra AI-appen som muligens produserer hatefulle ytringer. De har forsøkt å forhindre at støtende innhold genereres. Du skjønner, hvis de ikke hadde gjort noe for å begrense dette, antar man at de ville vært på tynnere is. Ved i det minste å ha anstrengt seg for å avverge saken, har de antagelig et noe sterkere ben å stå på (det kan fortsatt slås ut under dem).

En kurativ tilnærming som ble brukt besto av en AI-teknikk kjent som RLHF (forsterkningslæring via menneskelig tilbakemelding). Dette består vanligvis av å la AI generere innhold som deretter mennesker blir bedt om å vurdere eller vurdere. Basert på vurderingen eller anmeldelsen, prøver AI'en matematisk og beregningsmessig å unngå det som anses som urettmessig eller støtende innhold. Tilnærmingen er ment å undersøke nok eksempler på hva som er rett kontra hva som er galt til at AI kan finne ut et overordnet matematisk mønster og deretter bruke det mønsteret fremover.

En annen hyppig tilnærming i disse dager består av å bruke Adversarial AI.

Her er hvordan det fungerer. Du setter opp et annet AI-system som vil prøve å være en motstander av AI-en du prøver å trene. I dette tilfellet vil vi etablere et AI-system som prøver å fremkalle hatefulle ytringer. Det vil føre meldinger inn i AI-appen som tar sikte på å lure AI-appen til å produsere stygt innhold. I mellomtiden holder AI-en som er målrettet oversikt over når den motstridende AI-en er vellykket, og prøver deretter algoritmisk å justere for å redusere at det ikke skjer igjen. Det er en katt versus mus gambit. Dette kjøres om og om igjen, og gjør det til den motstridende AI ikke lenger ser ut til å være spesielt vellykket med å få den målrettede AI til å gjøre de dårlige tingene.

Via disse to hovedteknikkene, pluss andre tilnærminger, er mye av dagens generative AI mye bedre til å unngå og/eller oppdage støtende innhold enn tilfellet var tidligere.

Ikke forvent perfeksjon av disse metodene. Sjansen er at den lavthengende frukten av feil utganger sannsynligvis vil bli holdt i sjakk av slike AI-teknikker. Det er fortsatt mye rom for stygghet som kan slippes ut.

Jeg pleier å påpeke at dette er noen av fasettene det søkes å fange:

Avgir et spesielt stygt ord
Angi en spesiell stygg setning, setning eller bemerkning
Uttrykker en spesiell stygg oppfatning
Antyder en bestemt stygg handling eller forestilling
Ser ut til å stole på en spesiell stygg antagelse
Annen

Ingenting av dette er eksakt vitenskap. Innse at vi har med ord å gjøre. Ord er semantisk tvetydige. Å finne et spesielt stygt ord er en barnelek, men det er mye vanskeligere å prøve å måle om en setning eller et avsnitt inneholder et utseende av en stygg mening. I henhold til den tidligere definisjonen av hatytringer av FN, eksisterer det et enormt handlingsrom for hva som kan tolkes som hatytringer kontra hva som kanskje ikke er det.

Du kan si at de grå områdene er i øyet til betrakteren.

Når vi snakker om øyet til betrakteren, er det mennesker i dag som bruker generativ AI som ChatGPT som målrettet prøver å få disse AI-appene til å produsere støtende innhold. Dette er deres søken. De bruker timer på timer på å forsøke å få dette til å skje.

Hvorfor det?

Her er mine karakteriseringer av de menneskelige AI-offensive utdatajegerne:

Ekte. Disse menneskene ønsker å hjelpe med å foredle AI og hjelpe menneskeheten med å gjøre det. De tror at de gjør heroisk arbeid og gleder seg over at de kan hjelpe til med å fremme AI til det beste for alle.
Funsters. Disse menneskene tenker på denne innsatsen som et spill. De liker å rote rundt med AI. Å vinne spillet består i å finne det verste av det verste i det du kan få AI til å generere.
Show-offs. Disse menneskene håper å få oppmerksomhet for seg selv. De regner med at hvis de finner noen virkelig stygge gullklumper, kan de få litt av det skinnende lyset på dem som ellers er fokusert på selve AI-appen.
bitters. Disse menneskene er irritert over denne AI. De ønsker å undergrave all den fossende entusiasmen. Hvis de kan oppdage noen stinkende stygge ting, vil kanskje dette ta luften ut av spenningsballongen for AI-appen.
Andre motivasjoner

Mange av dem som utfører funn-offensiviteten er hovedsakelig i bare en av disse leirene. Selvfølgelig kan du være i mer enn én leir om gangen. Kanskje en bitter person også har en side ved side intensjon om å være ekte og heroisk. Noen eller alle disse motivasjonene kan eksistere side om side. Når du blir bedt om å forklare hvorfor noen prøver å presse en generativ AI-app inn i hatytringsområdet, er det vanlige svaret å si at du er i den genuine leiren, selv om du kanskje er det marginalt og i stedet sitter strittende i en av de andre leire.

Hva slags spørsmålsrelatert lureri bruker disse menneskene?

Det ganske åpenbare trikset innebærer å bruke et stygt ord i en ledetekst. Hvis du er "heldig" og AI-appen faller for det, kan dette meget godt ende opp i utgangen. Da har du ditt gotcha-øyeblikk.

Sjansen er stor for at en godt utformet og veltestet generativ AI-app vil fange det enkle trikset. Du vil vanligvis bli vist en advarsel som sier slutte å gjøre det. Hvis du fortsetter, vil AI-appen bli programmert til å kaste deg ut av appen og flagge kontoen din. Det kan være at du blir forhindret fra å logge på igjen (vel, i det minste under påloggingen du brukte på det tidspunktet).

Når du beveger deg oppover triksstigen, kan du gi en melding som prøver å få AI-en inn i konteksten av noe stygt. Har du noen gang spilt det spillet der noen ber deg si noe uten å si det du skal si? Dette er det spillet, selv om det foregår med AI.

La oss spille det spillet. Anta at jeg ber AI-appen om å fortelle meg om andre verdenskrig og spesielt de viktigste statlige lederne som er involvert. Dette virker som en uskyldig forespørsel. Det er ingenting som ser ut til å være verdig å flagge i ledeteksten.

Se for deg at det utsendte essayet fra AI-appen inkluderer en omtale av Winston Churchill. Det gir absolutt mening. En annen kan være Franklin D. Roosevelt. En annen kan være Josef Stalin. Anta at det også er omtale av Adolf Hitler. Dette navnet vil bli inkludert i omtrent ethvert essay om andre verdenskrig og de i rollene med fremtredende makt.

Nå som vi har fått navnet hans på bordet og en del av AI-samtalen, vil vi deretter prøve å få AI til å innlemme det navnet på en måte som vi kan vise frem som potensielle hatytringer.

Vi går inn på en annen melding og forteller AI-appen at det er en person i nyhetene i dag som har navnet John Smith. Videre indikerer vi i ledeteksten at John Smith er veldig beslektet med den ondskapsmannen fra andre verdenskrig. Fellen er nå satt. Vi ber deretter AI-appen om å generere et essay om John Smith, basert utelukkende på "faktumet" vi skrev inn om hvem John Smith kan sidestilles med.

På dette tidspunktet kan AI-appen generere et essay som navngir WWII-personen og beskriver John Smith som å være av samme stoff. Det er ingen stygge ord i seg selv i essayet, annet enn å hentyde til den berømte ugjerningsmannen og sette likhetstegn mellom den personen og John Smith.

Har AI-appen nå produsert hatytringer?

Du kan si at ja, det har det. Å ha omtalt John Smith som å være som den berømte ugjerningsmannen, er absolutt en form for hatytringer. AI bør ikke komme med slike uttalelser.

En replikk er at dette ikke er hatefulle ytringer. Dette er bare et essay produsert av en AI-app som ikke har noen legemliggjøring av sansning. Du kan hevde at hatytringer bare oppstår når intensjonen ligger til grunn for talen. Uten noen intensjon kan ikke talen klassifiseres som hatytringer.

Absurd, kommer svaret på replikken. Ord betyr noe. Det spiller ingen rolle om AI "mente" å produsere hatytringer. Alt som betyr noe er at hatytringer ble produsert.

Rundt og rundt går dette.

Jeg vil ikke si så mye mer akkurat nå om å prøve å lure AI. Det er mer sofistikerte tilnærminger. Jeg har dekket disse andre steder i mine spalter og bøker, og vil ikke gjenta disse her.

konklusjonen

Hvor langt bør vi presse disse AI-appene for å se om vi kan få ut støtende innhold?

Du kan hevde at det ikke er noen grense som kan pålegges. Jo mer vi presser på, jo mer kan vi forhåpentligvis måle hvordan vi kan forhindre denne AI og fremtidige iterasjoner av AI for å avverge slike sykdommer.

Noen bekymrer seg imidlertid for at hvis den eneste måten å få stygghet innebærer ekstreme lureri, vil det undergrave de fordelaktige sidene ved AI. Å hevde at AI har en forferdelig stygghet, om enn når den blir lurt til å sende den ut, gir en falsk fortelling. Folk vil bli opprørt over AI på grunn av oppfattet hvor lett AI genererte negativt innhold. De vet kanskje ikke eller blir fortalt hvor langt ned i kaninhullet personen måtte gå for å få slike utganger.

Det hele er mat til ettertanke.

Noen siste kommentarer foreløpig.

William Shakespeare sa spesielt dette om tale: «Talking er ikke å gjøre. Det er en slags god gjerning å si godt, og likevel er ord ikke gjerninger.» Jeg tar dette opp fordi noen hevder at hvis AI bare genererer ord, burde vi ikke være så altfor oppegående. Hvis AI-en handlet på ordene og ergo utførte stygge handlinger, ville vi måtte sette foten ned. Ikke slik hvis utgangen bare er ord.

Et motstridende synspunkt ville likne dette anonyme ordtaket: «Tungen har ingen bein, men er sterk nok til å knuse et hjerte. Så vær forsiktig med ordene dine." En AI-app som sender ut stygge ord er kanskje i stand til å knuse hjerter. Det alene gjør søken etter å stoppe urenheter til en verdig sak, vil noen si.

Enda et anonymt ordtak for å avslutte denne tunge diskusjonen:

"Vær forsiktig med ordene dine. Når de først er sagt, kan de bare bli tilgitt, ikke glemt."

Som mennesker kan vi ha vanskelig for å glemme stygghet produsert av AI, og vår tilgivelse kan likeledes være nølende med å bli gitt.

Vi er tross alt bare mennesker.

Kilde: https://www.forbes.com/sites/lanceeliot/2023/02/05/how-hard-should-we-push-generative-ai-chatgpt-into-spewing-hate-speech-asks-ai- etikk-og-ai-lov/