Juridisk dommedag for generativ AI-chatGPT hvis de blir tatt for å plagiere eller krenke, advarer AI-etikk og AI-lov

Gi kreditt der kreditt forfaller.

Det er litt visdom som du kanskje er oppdratt til å tro på. Ja, man antar eller forestiller seg at vi alle kan være rimelig enige om at dette er en rettferdig og fornuftig tommelfingerregel i livet. Når noen gjør noe som fortjener anerkjennelse, sørg for at de får sin fortjente anerkjennelse.

Det motsatte synspunktet ville virke mye mindre overbevisende.

Hvis noen gikk rundt og insisterte på at æren skulle ikke bli anerkjent når kreditt forfaller, vel, du kan hevde at en slik tro er uhøflig og muligens underhendt. Vi opplever ofte at vi blir voldsomt forstyrret når kreditt svindles av noen som har oppnådd noe bemerkelsesverdig. Jeg tør påstå at vi er spesielt ugunstige når andre feilaktig tar æren for andres arbeid. Det er en foruroligende dobbeltmoral. Personen som skulle ha fått æren blir nektet sitt øyeblikk i solen. I tillegg nyter lureren rampelyset selv om de feilaktig lurer oss til å misbruke våre gunstige hengivenheter.

Hvorfor all denne diskursen om å skaffe kreditt på de mest riktige måter og avverge de gale og foraktelige måtene?

Fordi vi ser ut til å stå overfor en lignende knipe når det kommer til det siste innen kunstig intelligens (AI).

Ja, påstander er at dette skjer beviselig via en type AI kjent som Generativ AI. Det er mye håndgrep at Generative AI, den hotteste AI i nyhetene i disse dager, allerede har tatt æren for det den ikke fortjener å ta æren for. Og dette vil sannsynligvis forverres etter hvert som generativ AI blir stadig mer utvidet og utnyttet. Mer og mer æren gir den generative AI, mens dessverre de som rikt fortjener den sanne æren blir liggende i støvet.

Min foreslåtte måte å tydelig betegne dette påståtte fenomenet på er via to snertne slagord:

  • 1) Plagiat i stor skala
  • 2) Opphavsrettsbrudd i stor skala

Jeg antar at du kanskje er klar over generativ AI på grunn av en mye populær AI-app kjent som ChatGPT som ble utgitt i november av OpenAI. Jeg vil si mer om generativ AI og ChatGPT et øyeblikk. Hold ut.

La oss komme med en gang til kjernen av hva som får folks geiter, så å si.

Noen har ivrig klaget over at generativ kunstig intelligens potensielt kan rive av mennesker som har skapt innhold. Du skjønner, de fleste generative AI-apper er data trent ved å undersøke data funnet på Internett. Basert på disse dataene kan algoritmene finpusse et enormt internt mønstertilpasningsnettverk i AI-appen som deretter kan produsere tilsynelatende nytt innhold som utrolig ser ut som om det ble utviklet av menneskehånd i stedet for et stykke automatisering

Denne bemerkelsesverdige bragden skyldes i stor grad bruken av Internett-skannet innhold. Uten volum og rikdom av Internett-innhold som en kilde for dataopplæring, ville den generative AI stort sett vært tom og være av liten eller ingen interesse for å bli brukt. Ved å la AI undersøke millioner på millioner av elektroniske dokumenter og tekst, sammen med all slags tilknyttet innhold, blir mønstertilpasningen gradvis utledet for å prøve å etterligne menneskeprodusert innhold.

Jo mer innhold som undersøkes, er sjansen for at mønstertilpasningen vil bli mer finslipt og bli enda bedre på mimikken, alt annet likt.

Her er spørsmålet om zillion dollar:

  • Stort spørsmål: Hvis du eller andre har innhold på internett som en generativ AI-app ble trent på, antagelig uten din direkte tillatelse og kanskje helt uten din bevissthet i det hele tatt, bør du ha rett til en del av kaken med hensyn til hvilken verdi som oppstår fra den generative AI-datatreningen?

Noen hevder heftig at det eneste riktige svaret er Ja, spesielt at de menneskelige innholdsskaperne virkelig fortjener deres del av handlingen. Saken er at du ville bli hardt presset for å finne noen som har fått sin rettferdige del, og enda verre, nesten ingen har fått noen del overhodet. Internettinnholdsskaperne som ufrivillig og ubevisst bidro, blir i hovedsak nektet sin rettmessige kreditt.

Dette kan karakteriseres som grusomt og opprørende. Vi har nettopp gått gjennom utpakkingen av visdommen om at æren skal gis der æren skal. Når det gjelder generativ AI, tilsynelatende ikke det. Den langvarige og dydige tommelfingerregelen om kreditt ser ut til å være ufølsomt brutt.

Oi, lyder replikken, du overdriver fullstendig og feiltolker situasjonen. Jada, den generative AI undersøkte innhold på Internett. Jada, dette var rikelig nyttig som en del av dataopplæringen til den generative AI. Riktignok ville de imponerende generative AI-appene i dag ikke vært like imponerende uten denne gjennomtenkte tilnærmingen. Men du har gått en bro for langt når du sier at innholdsskaperne bør tildeles noen spesiell ære.

Logikken er som følger. Mennesker går ut på Internett og lærer ting fra Internett, og gjør det rutinemessig og uten noe oppstyr i seg selv. En person som leser blogger om rørleggerarbeid og deretter overstadig ser på fritt tilgjengelige videoer om rørleggerarbeid, kan neste dag gå ut og få jobb som rørlegger. Trenger de å gi en del av deres rørleggerarbeid-relaterte pengeoverføringer til bloggeren som skrev om hvordan man setter i gang en vask? Trenger de å gi et gebyr over til vloggeren som laget videoen som viser fremgangsmåten for å fikse et lekk badekar?

Nesten absolutt ikke.

Dataopplæringen til den generative AI er bare et middel til å utvikle mønstre. Så lenge utdataene fra generativ AI ikke bare er en gjengivelse av nøyaktig det som ble undersøkt, kan du overbevisende argumentere for at de har "lært" og derfor ikke er gjenstand for å gi noen spesifikk kreditt til noen spesifikk kilde. Med mindre du kan fange den generative AI i å utføre en eksakt oppstøt, er indikasjonene at AI har generalisert utover en bestemt kilde.

Ingen kreditt skyldes noen. Eller, man antar, du kan si at æren går til alle. Den samlende teksten og annet innhold av menneskeheten som finnes på Internett får æren. Vi får alle æren. Å prøve å finne kreditt til en bestemt kilde er meningsløst. Vær glad for at AI blir avansert og at menneskeheten alt vil ha nytte av det. Disse innleggene på Internett burde føle seg beæret over at de bidro til en fremtid med fremskritt innen AI og hvordan dette vil hjelpe menneskeheten for evigheten.

Jeg vil ha mer å si om begge disse kontrasterende synspunktene.

I mellomtiden, lener du deg mot leiren som sier at kreditt er forfalt og forsinket for de som har nettsteder på Internett, eller finner du ut at den motsatte siden som sier at Internett-innholdsskapere er bestemt ikke å bli dratt av er en mer overbevisende holdning?

En gåte og en gåte hang sammen.

La oss pakke ut dette.

I dagens spalte vil jeg ta opp disse uttrykte bekymringene om at generativ AI i hovedsak plagierer eller muligens krenker opphavsretten til innhold som har blitt lagt ut på Internett (betraktet som et immaterielle rettigheter eller IP-problem). Vi skal se på grunnlaget for disse betenkeligheter. Jeg vil av og til referere til ChatGPT under denne diskusjonen siden det er gorillaen på 600 pund av generativ AI, men husk at det er mange andre generative AI-apper, og de er generelt basert på de samme generelle prinsippene.

I mellomtiden lurer du kanskje på hva generativ AI faktisk er.

La oss først dekke det grunnleggende om generativ kunstig intelligens, og deretter kan vi se nærmere på den presserende saken.

Inn i alt dette kommer en rekke AI-etikk og AI-lovbetraktninger.

Vær oppmerksom på at det pågår et arbeid for å innarbeide etiske AI-prinsipper i utviklingen og bruken av AI-apper. En voksende kontingent av bekymrede og tidligere AI-etikere prøver å sikre at arbeidet med å utvikle og ta i bruk AI tar hensyn til et syn på å gjøre AI For Good og avverge AI for Bad. På samme måte er det foreslått nye AI-lover som blir slått rundt som potensielle løsninger for å forhindre at AI-arbeidet går amok på menneskerettigheter og lignende. For min pågående og omfattende dekning av AI-etikk og AI-lov, se lenken her og lenken her, bare for å nevne noen få.

Utviklingen og kunngjøringen av etiske AI-forskrifter blir forfulgt for å forhåpentligvis forhindre at samfunnet faller i en myriade av AI-fremkallende feller. For min dekning av FNs AI-etiske prinsipper slik de er utviklet og støttet av nesten 200 land gjennom innsatsen til UNESCO, se lenken her. På samme måte utforskes nye AI-lover for å prøve å holde AI på en jevn kjøl. En av de siste opptakene består av et sett med foreslåtte AI Bill of Rights som det amerikanske hvite hus nylig ga ut for å identifisere menneskerettigheter i en tidsalder med AI, se lenken her. Det kreves en landsby for å holde AI- og AI-utviklere på en rettmessig vei og avskrekke målrettet eller utilsiktet underhendt innsats som kan undergrave samfunnet.

Jeg vil flette AI-etikk og AI-lovrelaterte betraktninger inn i denne diskusjonen.

Grunnleggende om generativ AI

Den mest kjente forekomsten av generativ AI er representert av en AI-app kalt ChatGPT. ChatGPT sprang inn i den offentlige bevisstheten tilbake i november da den ble utgitt av AI-forskningsfirmaet OpenAI. Helt siden ChatGPT har høstet store overskrifter og forbløffende overskredet sine tildelte femten minutter med berømmelse.

Jeg tipper du har sikkert hørt om ChatGPT eller kanskje til og med kjenner noen som har brukt det.

ChatGPT regnes som en generativ AI-applikasjon fordi den tar som input fra en bruker og deretter genererer eller produserer en produksjon som består av et essay. AI er en tekst-til-tekst-generator, selv om jeg beskriver AI som en tekst-til-essay-generator siden det lettere tydeliggjør hva den vanligvis brukes til. Du kan bruke generativ AI til å komponere lange komposisjoner, eller du kan få den til å gi ganske korte pittige kommentarer. Det er alt etter ditt bud.

Alt du trenger å gjøre er å skrive inn en melding, og AI-appen vil generere et essay for deg som prøver å svare på spørsmålet ditt. Den komponerte teksten vil virke som om essayet ble skrevet av menneskelig hånd og sinn. Hvis du skulle skrive inn en melding som sa "Fortell meg om Abraham Lincoln", vil den generative AI gi deg et essay om Lincoln. Det finnes andre moduser for generativ AI, for eksempel tekst-til-kunst og tekst-til-video. Jeg vil her fokusere på tekst-til-tekst-variasjonen.

Din første tanke kan være at denne generative evnen ikke virker som en så stor sak når det gjelder å produsere essays. Du kan enkelt gjøre et online søk på Internett og lett finne tonnevis av essays om president Lincoln. Kickeren i tilfellet med generativ AI er at det genererte essayet er relativt unikt og gir en original komposisjon i stedet for en kopi. Hvis du skulle prøve å finne det AI-produserte essayet på nettet et sted, ville du neppe oppdaget det.

Generativ AI er forhåndsopplært og bruker en kompleks matematisk og beregningsmessig formulering som er satt opp ved å undersøke mønstre i skrevne ord og historier over nettet. Som et resultat av å undersøke tusenvis og millioner av skriftlige passasjer, kan AI spy ut nye essays og historier som er en blanding av det som ble funnet. Ved å legge til ulike sannsynlighetsfunksjoner, er den resulterende teksten ganske unik i forhold til det som har blitt brukt i treningssettet.

Det er mange bekymringer rundt generativ AI.

En avgjørende ulempe er at essayene produsert av en generativ-basert AI-app kan ha ulike usannheter innebygd, inkludert åpenbart usanne fakta, fakta som er misvisende fremstilt, og tilsynelatende fakta som er helt oppdiktet. Disse fabrikkerte aspektene blir ofte referert til som en form for AI hallusinasjoner, et slagord som jeg misliker, men som dessverre ser ut til å ha blitt populært uansett (for min detaljerte forklaring om hvorfor dette er elendig og uegnet terminologi, se min dekning på lenken her).

En annen bekymring er at mennesker lett kan ta æren for et generativt AI-produsert essay, til tross for at de ikke har skrevet essayet selv. Du har kanskje hørt at lærere og skoler er ganske bekymret for fremveksten av generative AI-apper. Studenter kan potensielt bruke generativ AI for å skrive sine tildelte essays. Hvis en student hevder at et essay er skrevet av egen hånd, er det liten sjanse for at læreren kan se om det i stedet ble forfalsket av generativ AI. For min analyse av denne elev- og lærerforvirrende fasetten, se min dekning på lenken her og lenken her.

Det har vært noen vanvittige store påstander på sosiale medier om Generativ AI hevder at denne siste versjonen av AI faktisk er det sansende AI (nei, de tar feil!). De innen AI Ethics og AI Law er spesielt bekymret for denne spirende trenden med utstrakte påstander. Du kan høflig si at noen mennesker overdriver hva dagens AI faktisk kan gjøre. De antar at AI har evner som vi ennå ikke har klart å oppnå. Det er uheldig. Enda verre kan de tillate seg selv og andre å komme i alvorlige situasjoner på grunn av en antagelse om at AI vil være sansende eller menneskelignende når det gjelder å kunne handle.

Ikke antropomorfiser AI.

Hvis du gjør det, vil du bli fanget i en klissete og hard avhengighetsfelle av å forvente at AI skal gjøre ting den ikke er i stand til å utføre. Når det er sagt, er det siste innen generativ AI relativt imponerende for hva det kan gjøre. Vær imidlertid oppmerksom på at det er betydelige begrensninger som du kontinuerlig bør huske på når du bruker en generativ AI-app.

En siste forvarsel for nå.

Uansett hva du ser eller leser i et generativt AI-svar som synes for å bli formidlet som rent saklig (datoer, steder, personer osv.), sørg for å være skeptisk og være villig til å dobbeltsjekke det du ser.

Ja, datoer kan lages, steder kan gjøres opp, og elementer som vi vanligvis forventer å være uanstendige er alle gjenstand for mistanker. Ikke tro det du leser og hold et skeptisk øye når du undersøker generative AI-essays eller utganger. Hvis en generativ AI-app forteller deg at Abraham Lincoln fløy rundt i landet i sitt private jetfly, ville du utvilsomt vite at dette er malarky. Dessverre er det kanskje noen mennesker som ikke innser at jetfly ikke fantes på hans tid, eller de vet kanskje, men unnlater å legge merke til at essayet kommer med denne frekke og opprørende falske påstanden.

En sterk dose sunn skepsis og en vedvarende tankegang av vantro vil være din beste ressurs når du bruker generativ AI.

Vi er klare til å gå inn i neste fase av denne oppklaringen.

Internett og generativ AI er i dette sammen

Nå som du har et inntrykk av hva generativ AI er, kan vi utforske det irriterende spørsmålet om generativ AI er ganske eller urettferdig "utnyttende", eller noen vil si åpenlyst utnytte Internett-innhold.

Her er mine fire viktige emner som er relevante for denne saken:

  • 1) Dobbeltproblemer: Plagiat og brudd på opphavsrett
  • 2) Å prøve å bevise plagiat eller brudd på opphavsrett vil være et forsøk
  • 3) Begrunnelse for plagiat eller brudd på opphavsrett
  • 4) Juridiske landminer venter

Jeg vil dekke hvert av disse viktige emnene og komme med innsiktsfulle betraktninger som vi alle bør tenke nøye over. Hvert av disse emnene er en integrert del av et større puslespill. Du kan ikke se på bare ett stykke. Du kan heller ikke se på noen brikke isolert fra de andre brikkene.

Dette er en intrikat mosaikk og hele puslespillet må gis skikkelig harmonisk vurdering.

Dobbeltproblemer: Plagiat og brudd på opphavsrett

Det dobbelte problemet for de som lager generativ kunstig intelligens, er at varene deres kan gjøre to dårlige ting:

  • 1) Plagiat. Den generative AI kan tolkes som plagiere innhold som finnes på Internett i henhold til Internett-skanningen som fant sted under datatrening av AI.
  • 2) Brudd på opphavsrett. Den generative AI kan hevdes som foretak brudd på opphavsretten knyttet til Internett-innholdet som ble skannet under dataopplæring.

For å presisere, er det mye mer innhold på Internett enn det som faktisk vanligvis skannes for dataopplæring av generativ AI. Bare en liten brøkdel av Internett brukes vanligvis. Dermed kan vi antagelig anta at alt innhold som ikke ble skannet under datatrening, ikke har noe spesielt biff med generativ AI.

Dette er imidlertid noe diskutabelt siden du potensielt kan trekke en linje som forbinder annet innhold som ble skannet med innholdet som ikke ble skannet. Et annet viktig forbehold er også at selv om det er innhold som ikke ble skannet, kan det fortsatt argumenteres for å være plagiert og/eller krenket opphavsrett hvis utdataene fra den generative AI-en kanskje lander på samme ordlyd. Poenget mitt er at det er mye squishiness i alt dette.

Bottom line: Generativ AI er full av potensielle AI Etiske og AI-lovlige juridiske gåter når det kommer til plagiat og brudd på opphavsrett underbygger den rådende dataopplæringspraksisen.

Så langt har AI-produsenter og AI-forskere skøytet gjennom dette ganske mye fritt, til tross for det truende og usikkert dinglende sverdet som henger over dem. Bare noen få søksmål er til dags dato innledet mot denne praksisen. Du har kanskje hørt eller sett nyhetsartikler om slike rettslige handlinger. En involverer for eksempel tekst-til-bilde-firmaene Midjourney og Stability AI for å krenke kunstnerisk innhold som er lagt ut på Internett. En annen innebærer brudd på tekst-til-kode mot GitHub, Microsoft og OpenAI på grunn av Copilot-programvaren som produserer AI-apper. Getty Images har også hatt som mål å gå etter Stability AI for brudd på tekst-til-bilde.

Du kan forutse at flere slike søksmål kommer til å bli anlagt.

Akkurat nå er det litt tilfeldig å starte disse søksmålene siden utfallet er relativt ukjent. Vil retten side med AI-produsentene, eller vil de som mener innholdet deres ble urettferdig utnyttet bli seierherrene? En kostbar juridisk kamp er alltid en alvorlig sak. Å bruke de store saksomkostningene må veies opp mot sjansene for å vinne eller tape.

AI-produsentene ser ut til å nesten ikke ha noe annet valg enn å kjempe. Hvis de skulle falle inn, selv en liten bit, er oddsen at en strøm av ytterligere søksmål ville resultere (i hovedsak åpner døren for økte sjanser for at andre også vinner). Så snart det er lovlig blod i vannet, vil de gjenværende lovlige haiene skynde seg til den betraktede "enkle poengsummen", og et bankende og bankende pengeblod vil helt sikkert oppstå.

Noen mener at vi bør vedta nye AI-lover som vil beskytte AI-produsentene. Beskyttelsen kan til og med ha tilbakevirkende kraft. Grunnlaget for dette er at hvis vi ønsker å se generative AI-fremskritt, må vi gi AI-produsentene en rullebane for sikker sone. Når søksmål begynner å vinne seire mot AI-produsentene, hvis det skjer (vi vet ikke ennå), er bekymringen at generativ AI vil forsvinne ettersom ingen vil være villige til å støtte AI-firmaene.

Som dyktig påpekt i en nylig Bloomberg Law-artikkel med tittelen "ChatGPT: IP, Cybersecurity & Other Legal Risks of Generative AI" av Dr. Ilia Kolochenko og Gordon Platt, Bloomberg Law, februar 2023, her er to viktige utdrag som gjenspeiler disse synspunktene:

  • «En heftig debatt raser nå blant amerikanske juridiske forskere og IP-juridisk professorer om hvorvidt uautorisert skraping og påfølgende bruk av opphavsrettsbeskyttet data utgjør et brudd på opphavsretten. Hvis synet til juridiske utøvere som ser brudd på opphavsretten i slik praksis råder, kan brukere av slike AI-systemer også være ansvarlige for sekundære krenkelser og potensielt møte juridiske konsekvenser.»
  • "For å håndtere utfordringen på en helhetlig måte, bør lovgivere vurdere ikke bare å modernisere den eksisterende opphavsrettslovgivningen, men også implementere et sett med AI-spesifikke lover og forskrifter."

Husk at vi som samfunn innførte juridisk beskyttelse for utvidelse av Internett, som nå er vitne til av Høyesterett som gjennomgår den berømte eller beryktede Section 230. Dermed virker det innenfor rimelighetens grenser og presedens at vi kan være villige til å gjøre noen tilsvarende beskyttelse for å fremme generativ AI. Kanskje kan beskyttelsene settes opp midlertidig, og utløper etter at generativ AI har nådd et forhåndsbestemt ferdighetsnivå. Andre beskyttelsesbestemmelser kan utformes.

Jeg vil snart legge ut min analyse av hvordan Høyesteretts vurdering og den endelige kjennelsen om seksjon 230 kan påvirke bruken av generativ AI. Vær på utkikk etter det kommende innlegget!

Tilbake til den skarpt uttalte oppfatningen om at vi burde gi spillerom for den samfunnsmessige fryktinngytende teknologiske innovasjonen kjent som generativ AI. Noen vil si at selv om det påståtte opphavsrettsbruddet har eller skjer, burde samfunnet som helhet være villig til å tillate dette for de spesifikke formålene med å fremme generativ AI.

Håpet er at nye AI-lover vil bli nøye utformet og tilpasset opplysningene knyttet til dataopplæring for generativ AI.

Det er mange motargumenter til denne forestillingen om å utforme nye AI-lover for dette formålet. En bekymring er at enhver slik ny AI-lov vil åpne slusene for alle slags opphavsrettsbrudd. Vi vil beklage den dagen vi tillot slike nye AI-lover å lande på bøkene. Uansett hvor hardt du prøver å begrense dette til bare AI-datatrening, vil andre snikende eller smart finne smutthull som vil utgjøre uhindret og utbredt brudd på opphavsretten.

Rundt og rundt går argumentene.

Et argument som ikke holder spesielt vann har å gjøre med å prøve å saksøke AI selv. Legg merke til at jeg har referert til AI-produsenten eller AI-forskerne som de skyldige interessentene. Dette er mennesker og selskaper. Noen foreslår at vi bør målrette AI som den parten som skal saksøkes. Jeg har diskutert lenge i spalten min at vi ennå ikke tillegger AI juridisk personskap, se lenken her for eksempel, og dermed vil slike søksmål rettet mot AI i seg selv anses som meningsløse akkurat nå.

Som et tillegg til spørsmålet om hvem eller hva som skal saksøkes, tar dette opp et annet saftig tema.

Anta at en bestemt generativ AI-app er utviklet av en AI-produsent som vi vil kalle Widget Company. Widget Company er relativt liten i størrelse og har ikke mye inntekt, og heller ikke mye i form av eiendeler. Å saksøke dem vil sannsynligvis ikke skaffe de store rikdommene som man kanskje søker. På det meste ville du bare ha tilfredsstillelsen av å rette opp det du oppfatter som galt.

Du vil gå etter den store fisken.

Her er hvordan det kommer til å oppstå. En AI-produsent velger å gjøre sin generative AI tilgjengelig for Big Time Company, et stort konglomerat med tonnevis av deig og tonnevis av eiendeler. En rettssak ved navn Widget Company ville nå ha et bedre mål i sikte, nemlig også ved å navngi Big Time Company. Dette er en kamp mellom David og Goliat som advokater vil like. Selvfølgelig vil Big Time Company utvilsomt prøve å vrikke av fiskekroken. Hvorvidt de kan gjøre det er nok en gang et juridisk spørsmål som er usikkert, og de kan bli håpløst fast i møkka.

Før vi kommer mye videre på dette, vil jeg gjerne ha noe avgjørende på bordet om de påståtte inngrepene av generativ AI på grunn av datatrening. Jeg er sikker på at du intuitivt innser at plagiering og brudd på opphavsrett er to noe forskjellige beist. De har mye til felles, selv om de også er vesentlig forskjellige.

Her er en praktisk kort beskrivelse fra Duke University som forklarer de to:

  • «Plagiat er best definert som ukjent bruk av en annen persons arbeid. Det er et etisk spørsmål som involverer et krav om kreditt for arbeid som fordringshaveren ikke opprettet. Man kan plagiere andres verk uavhengig av opphavsrettsstatusen til det verket. For eksempel er det likevel plagiat å kopiere fra en bok eller artikkel som er for gammel til fortsatt å være under opphavsrett. Det er også plagiat å bruke data hentet fra en ukjent kilde, selv om faktamateriale som data kanskje ikke er beskyttet av opphavsrett. Plagiat er imidlertid lett å kurere - riktig sitering til den opprinnelige kilden til materialet."
  • «Krenkelse av opphavsrett er derimot uautorisert bruk av andres verk. Dette er et juridisk spørsmål som avhenger av om verket er beskyttet av opphavsrett i utgangspunktet eller ikke, samt av detaljer som hvor mye som brukes og formålet med bruken. Hvis man kopierer for mye av et beskyttet verk, eller kopierer for et uautorisert formål, vil det å bare erkjenne originalkilden ikke løse problemet. Bare ved å søke forhåndstillatelse fra opphavsrettsinnehaveren unngår man risikoen for et bruddgebyr.»

Jeg påpeker viktigheten av disse to bekymringene, slik at du vil innse at rettsmidler kan variere tilsvarende. Dessuten er de begge involvert i betraktninger som gjennomsyrer AI-etikk og AI-lov, noe som gjør dem like verdt å undersøke.

La oss utforske et påstått rettsmiddel eller løsning. Du vil se at det kan hjelpe en av de dobbelte problemene, men ikke den andre.

Noen har insistert på at alt AI-produsentene trenger å gjøre er å sitere kildene deres. Når generativ AI produserer et essay, inkluderer du bare spesifikke sitater for det som står i essayet. Oppgi ulike URL-er og andre indikasjoner på hvilket Internett-innhold som ble brukt. Dette ser ut til å få dem fri for betenkeligheter med plagiat. Det utsendte essayet ville antagelig tydelig identifisere hvilke kilder som ble brukt for ordlyden som ble produsert.

Det er noen uenigheter i den påståtte løsningen, men på et 30,000 XNUMX fots nivå, la oss si at det fungerer som en semi-tilfredsstillende kur for plagiat-dilemmaet. Som nevnt ovenfor i forklaringen om brudd på opphavsrett, vil ikke sitering av kildemateriale nødvendigvis få deg ut av hundehuset. Forutsatt at innholdet var opphavsrettsbeskyttet, og avhengig av andre faktorer som hvor mye av materialet som ble brukt, kan det ventende sverdet for brudd på opphavsretten svinge ned kraftig og med endelighet.

Dobbelttrøbbel er kodeordet her.

Å prøve å bevise plagiat eller brudd på opphavsrett vil være et forsøk

Bevis det!

Det er det slitte refrenget som vi alle har hørt på forskjellige tidspunkter i livet.

Du vet hvordan det går. Du kan påstå at noe skjer eller har skjedd. Du vet kanskje i ditt hjerte at dette har funnet sted. Men når det kommer til push-versus-shove, må du ha beviset.

I dagens språkbruk må du vise kvitteringer, som de sier.

Mitt spørsmål til deg er dette: Hvordan skal vi beviselig bevise at generativ kunstig intelligens har utnyttet Internett-innhold upassende?

Man antar at svaret skal være enkelt. Du ber eller ber den generative AI om å produsere et utskrevet essay. Du tar så essayet og sammenligner det med det som finnes på Internett. Hvis du finner essayet, bam, har du den generative AI spikret til den velkjente veggen.

Livet ser ut til å aldri være så enkelt.

Se for oss at vi får generativ AI til å produsere et essay som inneholder omtrent 100 ord. Vi går rundt og prøver å nå alle kriker og hjørner av Internett, og søker etter de 100 ordene. Hvis vi finner de 100 ordene, vist i nøyaktig samme rekkefølge og på identisk måte, ser det ut til at vi har fanget oss selv hete.

Anta at vi finner på Internett et tilsynelatende "sammenlignbart" essay, selv om det bare samsvarer med 80 av de 100 ordene. Dette virker kanskje fortsatt tilstrekkelig. Men forestill deg at vi bare finner en forekomst av 10 ord av de 100 som samsvarer. Er det nok til å hevde at enten plagiering har forekommet eller at opphavsrettsbrudd har skjedd?

Gråhet finnes.

Tekst er morsom på den måten.

Sammenlign dette med tekst-til-bilde eller tekst-til-kunst omstendigheter. Når generativ AI gir en tekst-til-bilde- eller tekst-til-kunst-funksjon, skriver du inn en tekstmelding og AI-appen produserer et bilde som er litt basert på ledeteksten du ga. Bildet kan være ulikt alle bilder som noen gang har blitt sett på denne eller noen annen planet.

På den annen side kan bildet minne om andre bilder som finnes. Vi kan se på det generative AI-produserte bildet og litt av mageinstinkt si at det ser ut som et annet bilde som vi har sett før. Generelt sett visuell aspekter ved sammenligning og kontrast er litt lettere utført. Når det er sagt, vær så snill å vite at store juridiske debatter sikrer over hva som utgjør overlapping eller replikering av ett bilde fra et annet.

En annen lignende situasjon eksisterer med musikk. Det er generative AI-apper som lar deg skrive inn en tekstmelding, og utdataene som produseres av AI er lydmusikk. Disse tekst-til-lyd- eller tekst-til-musikk AI-funksjonene begynner akkurat nå å dukke opp. En ting du kan satse din topp på, er at musikken produsert av generativ AI kommer til å bli nøye gransket for krenkelse. Vi ser ut til å vite når vi hører musikalsk krenkelse, men igjen er dette et komplekst juridisk spørsmål som ikke bare er basert på hvordan vi føler om den oppfattede replikasjonen.

Tillat meg ett eksempel til.

Tekst-til-kode generativ AI gir deg muligheten til å skrive inn en tekstmelding, og AI vil produsere programmeringskode for deg. Du kan deretter bruke denne koden for å lage et dataprogram. Du kan bruke koden nøyaktig slik den er generert, eller du kan velge å redigere og justere koden for å passe dine behov. Det er også behov for å sørge for at koden er passende og brukbar siden det er mulig at feil og usannheter kan oppstå i den genererte koden.

Din første antagelse kan være at programmeringskoden ikke er annerledes enn tekst. Det er bare tekst. Visst, det er en tekst som gir et spesielt formål, men det er fortsatt tekst.

Vel, ikke akkurat. De fleste programmeringsspråk har et strengt format og struktur i forhold til innholdet i kodesetningene til det språket. Dette er på en måte mye smalere enn frittflytende naturlig språk. Du er litt inne i hvordan kodingssetningene er formulert. På samme måte er sekvensen og måten utsagnene blir brukt og arrayert på noe innrammet.

Alt i alt er muligheten for å vise frem at programmeringskoden ble plagiert eller krenket nesten enklere enn naturlig språk. Når en generativ AI går for å skanne programmeringskode på Internett og senere genererer programmeringskode, vil sjansene for å argumentere for at koden ble åpenlyst replikert være relativt mer overbevisende. Ikke en slam dunk, så forvent bitre kamper om dette.

Mitt overordnede poeng er at vi kommer til å ha de samme AI-etikkene og AI Law-problemene som konfronterer alle moduser for generativ AI.

Plagiat og brudd på opphavsrett vil være problematisk for:

  • Tekst-til-tekst eller tekst-til-essay
  • Tekst-til-bilde eller tekst-til-kunst
  • Tekst-til-lyd eller tekst-til-musikk
  • Tekst-til-video
  • Tekst-til-kode
  • Etc.

De er alle underlagt de samme bekymringene. Noen kan være litt lettere å "bevise" enn andre. Alle av dem kommer til å ha sitt eget utvalg av mareritt av AI-etikk og AI-lov.

Påberope seg plagiat eller brudd på opphavsrett

For diskusjonsformål, la oss fokusere på tekst-til-tekst eller tekst-til-essay generativ AI. Jeg gjør det delvis på grunn av den enorme populariteten til ChatGPT, som er tekst-til-tekst-typen av generativ AI. Det er mange mennesker som bruker ChatGPT, sammen med mange andre som bruker forskjellige lignende tekst-til-tekst-generative AI-apper.

Vet de som bruker generative AI-apper at de potensielt er avhengige av plagiering eller brudd på opphavsrett?

Det virker tvilsomt at de gjør det.

Jeg vil tørre å påstå at den rådende antakelsen er at hvis den generative AI-appen er tilgjengelig for bruk, må AI-produsenten eller selskapet som har betjent AI vite eller være trygg på at det ikke er noe uheldig med varene de tilbyr for bruk. Hvis du kan bruke den, må den være over bord.

La oss gå tilbake til min tidligere kommentar om hvordan vi skal prøve å bevise at en spesiell generativ AI jobber på et feilaktig grunnlag med hensyn til dataopplæringen.

Jeg kan også legge til at hvis vi kan fange en generativ kunstig intelligens som gjør det, vil sjansene for å fange de andre sannsynligvis øke. Jeg sier ikke at alle generative AI-apper vil være i samme båt. Men de kommer til å finne seg selv i ganske hard sjø når en av dem er festet til veggen.

Også derfor vil det være umåtelig verdt å holde øye med de eksisterende rettssakene. Den første som vinner med hensyn til den påståtte krenkelsen, hvis dette skjer, vil muligens bety undergang og dysterhet for de andre generative AI-appene, med mindre en viss sneverhet slipper unna de bredere problemene. De som taper når det gjelder den påståtte krenkelsen, betyr ikke nødvendigvis at de generative AI-appene kan ringe bjeller og feire. Det kan være at tapet tilskrives andre faktorer som ikke er like relevante for de andre generative AI-appene, og så videre.

Jeg hadde nevnt at hvis vi tar et essay på 100 ord og prøver å finne de nøyaktige ordene i nøyaktig samme rekkefølge på Internett, kan vi ha en relativt solid sak for plagiat eller brudd på opphavsretten, alt annet likt. Men hvis antallet ord som samsvarer er lavt, ser det ut til at vi er på tynn is.

Jeg vil gjerne grave dypere inn i det.

Et åpenbart aspekt ved å gjøre en sammenligning består av nøyaktig samme ord i nøyaktig samme rekkefølge. Dette kan forekomme for hele passasjer. Dette ville være praktisk å få øye på, nesten som å bli gitt oss på et sølvfat.

Vi kan også være mistenksomme hvis bare en tekstbit matcher. Tanken ville være å se om de er avgjørende ord eller kanskje fyllord som vi lett kan fjerne eller ignorere. Vi ønsker heller ikke å bli lurt av bruken av ord i deres fortid eller fremtid, eller en annen tomfoolery. Disse variasjonene i ord bør også vurderes.

Et annet sammenligningsnivå vil være når ordene ikke er spesielt de samme ordene i stor grad, men ordene selv i en variert tilstand fortsatt ser ut til å ha de samme poengene. For eksempel vil et sammendrag ofte bruke ganske like ord som en originalkilde, men vi kan se at sammendraget virker basert på originalkilden.

Det vanskeligste sammenligningsnivået vil være basert på konsepter eller ideer. Anta at vi ser et essay som ikke har de samme eller lignende ordene som sammenligningsgrunnlag, men essensen eller ideene er de samme. Vi er riktignok på vei inn i røft territorium. Hvis vi uten videre skulle si at ideer er tett beskyttet, ville vi lagt lokk på nesten alle former for kunnskap og kunnskapsforstørrelse.

Vi kan nok en gang referere til en praktisk forklaring fra Duke University:

  • «Opphavsrett beskytter ikke ideer, bare det spesifikke uttrykket for en idé. For eksempel bestemte en domstol at Dan Brown ikke krenket opphavsretten til en tidligere bok da han skrev Da Vinci-koden fordi alt han lånte fra det tidligere arbeidet var de grunnleggende ideene, ikke detaljene ved plott eller dialog. Siden opphavsretten er ment å oppmuntre til kreativ produksjon, opprettholder det formålet med opphavsretten å bruke andres ideer til å lage et nytt og originalt verk, og det bryter ikke med den. Bare hvis man kopierer en annens uttrykk uten tillatelse er opphavsretten potensielt krenket."
  • «For å unngå plagiering, på den annen side, må man erkjenne kilden selv til ideer som er lånt fra noen andre, uavhengig av om uttrykket til disse ideene er lånt med dem. En parafrase krever derfor sitering, selv om den sjelden reiser noe opphavsrettslig problem.»

Vær oppmerksom på som tidligere identifisert forskjellene mellom de doble problemfasettene.

Nå er det å sette sammenligningstilnærmingene i praksis noe som har pågått i mange år. Tenk på det på denne måten. Studenter som skriver essays for skolearbeidet kan bli fristet til å hente innhold fra Internett og late som om de har skrevet de A-klasse Pulitzer-prisen.

Lærere har brukt programmer for plagiatsjekking i lang tid for å håndtere dette. En lærer tar en elevs essay og mater den inn i plagiatkontrollen. I noen tilfeller vil en hel skole lisensiere bruken av et plagiatkontrollprogram. Når studentene leverer inn et essay, må de først sende essayet til plagiatkontrollprogrammet. Læreren blir informert om hva programmet rapporterer.

Dessverre må du være ekstremt forsiktig med hva disse plagieringskontrollprogrammene har å si. Det er viktig å nøye vurdere om de rapporterte indikasjonene er gyldige. Som allerede nevnt, kan evnen til å fastslå om et verk ble kopiert være tåkete. Hvis du tankeløst aksepterer resultatet av kontrollprogrammet, kan du feilaktig anklage en student for å kopiere når de ikke gjorde det. Dette kan være sjeleknusende.

For å gå videre kan vi prøve å bruke plagieringskontrollprogrammer når det gjelder å teste generative AI-utganger. Behandle de utsendte essayene fra en generativ AI-app som om den var skrevet av en student. Vi måler deretter hva plagiatkontrollen sier. Dette gjøres med en klype salt.

Det er en nylig forskningsstudie som forsøkte å operasjonalisere denne typen sammenligninger i sammenheng med generativ AI på akkurat denne måten. Jeg vil gjerne gå gjennom noen interessante funn med deg.

For det første kreves det litt ekstra bakgrunn. Generativ AI blir noen ganger referert til som LLM-er (store språkmodeller) eller ganske enkelt LM-er (språkmodeller). For det andre er ChatGPT basert på en versjon av en annen OpenAI generativ AI-pakke kalt GPT-3.5. Før GPT-3.5 var det GPT-3, og før det var GPT-2. I dag anses GPT-2 som ganske primitiv i forhold til den senere serien, og vi venter alle spent på den kommende avdukingen av GPT-4, se diskusjonen min på lenken her.

Forskningsstudien som jeg kort vil utforske besto av å undersøke GPT-2. Det er viktig å innse siden vi nå er lenger utenfor mulighetene til GPT-2. Ikke trekk noen forhastede konklusjoner om resultatene av denne analysen av GPT-2. Ikke desto mindre kan vi lære mye av vurderingen av GPT-2. Studien har tittelen "Do Language Models Plagiarize?" av Jooyoung Lee, Thai Le, Jinghui Chen og Dongwon Lee, som vises i ACM WWW '23, 1.–5. mai 2023, Austin, TX, USA.

Dette er hovedspørsmålet deres:

  • "I hvilken grad (ikke begrenset til memorering) utnytter LM-er fraser eller setninger fra treningseksemplene deres?"

De brukte disse tre nivåene eller kategoriene av potensielt plagiat:

  • "Ordrett plagiat: Nøyaktige kopier av ord eller setninger uten transformasjon."
  • "Plagiering i parafrase: Synonym substitusjon, ordrekkefølge og/eller tilbakeoversettelse."
  • "Ideeplagiering: Representasjon av kjerneinnhold i en langstrakt form."

GPT-2 ble faktisk trent på Internett-data og dermed en passende kandidat for denne typen analyser:

  • "GPT-2 er forhåndsopplært på WebText, og inneholder over 8 millioner dokumenter hentet fra 45 millioner Reddit-lenker. Siden OpenAI ikke har gitt ut WebText offentlig, bruker vi OpenWebText som er en åpen kildekode-gjenskaping av WebText-korpuset. Det har vært pålitelig brukt av tidligere litteratur."

Selektive nøkkelfunn som utdrag fra studien består av:

  • "Vi oppdaget at forhåndstrente GPT-2-familier plagierer fra OpenWebText."
  • "Våre funn viser at finjustering reduserer ordrett plagiatsaker fra OpenWebText betydelig."
  • "I samsvar med Carlini et al. og Carlini et al., finner vi at større GPT-2-modeller (large og xl) generelt genererer plagierte sekvenser oftere enn mindre."
  • "Men forskjellige LM-er kan vise forskjellige plagieringsmønstre, og derfor kan det hende at resultatene våre ikke generaliserer direkte til andre LM-er, inkludert nyere LM-er som GPT-3 eller BLOOM."
  • "I tillegg er automatiske plagiatdetektorer kjent for å ha mange feilmoduser (både i falske negative og falske positive).
  • "Gitt at flertallet av LMs treningsdata er skrapet fra nettet uten å informere innholdseiere, har deres gjentakelse av ord, uttrykk og til og med kjerneideer fra treningssett til genererte tekster etiske implikasjoner."

Vi trenger definitivt mange flere studier av denne typen.

Hvis du er nysgjerrig på hvordan GPT-2 er sammenlignet med GPT-3 når det gjelder datatrening, er det ganske markant kontrast.

I følge rapporterte indikasjoner var dataopplæringen for GPT-3 mye mer omfattende:

  • «Modellen ble trent ved hjelp av tekstdatabaser fra internett. Dette inkluderte hele 570 GB data hentet fra bøker, netttekster, Wikipedia, artikler og andre artikler på internett. For å være enda mer nøyaktig ble 300 milliarder ord matet inn i systemet" (BBC Science Focus magasinet, "ChatGPT: Alt du trenger å vite om OpenAIs GPT-3-verktøy" av Alex Hughes, februar 2023).

For de av dere som er interessert i mer dyptgående beskrivelser av dataopplæringen for GPT-3, her er et utdrag fra det offisielle GPT-3 modellkortet lagt ut på GitHub (sist oppdatert dato oppført som september 2020):

  • «GPT-3-treningsdatasettet er sammensatt av tekst som er lagt ut på internett, eller av tekst lastet opp til internett (f.eks. bøker). Internett-dataene som den har blitt trent på og evaluert mot til dags dato inkluderer: (1) en versjon av CommonCrawl-datasettet, filtrert basert på likhet med referansekorpus av høy kvalitet, (2) en utvidet versjon av webtekst-datasettet, (3 ) to internettbaserte bokkorpus, og (4) engelskspråklige Wikipedia.»
  • "Gitt treningsdataene, er GPT-3s utganger og ytelse mer representative for internett-tilkoblede populasjoner enn de som er gjennomsyret av verbal, ikke-digital kultur. Den Internett-tilkoblede befolkningen er mer representativ for utviklede land, velstående, yngre og mannlige synspunkter, og er stort sett USA-sentrisk. Rikere nasjoner og befolkninger i utviklede land viser høyere internettpenetrasjon. Det digitale kjønnsskillet viser også at færre kvinner er representert på nettet over hele verden. I tillegg, fordi forskjellige deler av verden har forskjellige nivåer av internettpenetrasjon og tilgang, underrepresenterer datasettet mindre tilkoblede samfunn."

En av de ovennevnte indikasjonene om GPT-3 er at en tommelfingerregel blant de som lager generativ AI er at jo mer Internett-data du kan skanne, øker sjansene for å forbedre eller fremme den generative AI.

Du kan se på dette på en av to måter.

  • 1) Forbedret AI. Vi kommer til å ha generativ AI som kryper over så mye av Internett som mulig. Det spennende resultatet er at den generative AI vil være bedre enn den allerede er. Det er noe å se frem til.
  • 2) Kopieringspotensial i massevis. Denne utvidelsen av skanning av Internett gjør på en ubehagelig og engasjerende måte plagiat- og brudd på opphavsrettproblemet potensielt større og større. Mens det før ikke var så mange innholdsskapere påvirket, kommer størrelsen til å blomstre. Hvis du er en advokat på siden av innholdsskaperne, får du tårer i øynene (kanskje tårer av forferdelse, eller gledestårer over hvilke utsikter dette gir når det gjelder søksmål).

Er glasset halvfullt eller halvtomt?

Du bestemmer.

Lovlige landminer venter

Et spørsmål du kanskje tenker over er om det publiserte Internett-innholdet ditt anses som rettferdig spill for å bli skannet. Hvis innholdet ditt er bak en betalingsmur, er det antagelig ikke et mål for å bli skannet fordi det ikke lett kan nås, avhengig av styrken til betalingsmuren.

Jeg vil tippe at de fleste vanlige mennesker ikke har innholdet sitt gjemt bak en betalingsmur. De vil at innholdet deres skal være offentlig tilgjengelig. De antar at folk vil ta en titt på det.

Betyr det å ha innholdet ditt offentlig tilgjengelig også aksiomatisk at du godkjenner at det skannes for bruk av generativ AI som blir datatrent?

Kanskje ja, kanskje nei.

Det er en av de juridiske sakene som ruller med øynene.

Tilbake til det tidligere siterte Bloomberg-loven artikkel, nevner forfatterne viktigheten av vilkårene og betingelsene (T&C) knyttet til mange nettsteder:

  • «Den lovlige landminen – som i stor grad ignoreres av uvitende AI-selskaper som driver online-roboter for dataskraping – er skjult i vilkår og betingelser som vanligvis er tilgjengelig på offentlige nettsteder av alle typer. I motsetning til den for tiden uoppgjorte IP-loven og dilemmaet for brudd på opphavsrett, støttes et nettsteds vilkår og betingelser av veletablert kontraktslovgivning og kan vanligvis håndheves i retten basert på tilstrekkelig antall presedenser.»

De indikerer at forutsatt at nettstedet ditt har en lisensieringsrelatert side, er sjansen stor for at hvis du brukte en standardisert moderne mal, kan den inneholde en avgjørende klausul:

  • "Som følgelig inneholder de fleste vilkår og betingelser for nettsteder – rikelig tilgjengelig i gratis tilgang – en klausul som forbyr automatisert dataskraping. Ironisk nok har slike fritt tilgjengelige maler muligens blitt brukt til ChatGPT-trening. Derfor kan innholdseiere ønske å gjennomgå sine vilkår og betingelser og sette inn en egen klausul som klart forbyr all bruk av innhold fra nettsidene til AI-opplæring eller relaterte formål, enten det samles inn manuelt eller automatisk, uten skriftlig forhåndstillatelse fra eieren av nettstedet. ."

En ekstra kicker er inkludert i deres analyse av potensielle handlinger for innholdsskapere å ta om nettstedene deres:

  • «Derfor kan det å sette inn en tvangskraftig likvidasjonsbestemmelse for hvert brudd på klausulen om ikke-skraping, forsterket med en bestemmelse uten binding, være en holdbar løsning for de forfatterne av kreativt innhold som ikke er opptatt av å gi fruktene av deres intellektuelt arbeid for AI-opplæringsformål uten å bli betalt for det eller i det minste gitt en skikkelig æren for arbeidet deres."

Det kan være lurt å konsultere advokaten din om dette.

Noen sier at dette er en viktig måte å prøve å fortelle AI-produsentene at innholdsskapere er svært seriøse når det gjelder å beskytte innholdet deres. Å sørge for at lisensieringen din har riktig ordlyd, ser ut til å sette AI-produsentene på varsel.

Andre er imidlertid litt nedslående. De sier oppgitt at du kan fortsette med å sette det tøffeste og mest dødelige juridiske språket på nettstedet ditt, men til slutt kommer AI-produsentene til å skanne det. Du vil ikke vite at de gjorde det. Du vil ha en djevel av en tid som beviser at de gjorde det. Det er usannsynlig at du oppdager at utdataene deres gjenspeiler innholdet ditt. Det er en oppoverbakke kamp som du ikke kommer til å vinne.

Motargumentet er at du overgir slaget før det i det hele tatt ble ført. Hvis du i det minste ikke har tilstrekkelig juridisk språk, og hvis du noen gang fanger dem, vil de vrikke seg frem for å unnslippe ethvert ansvar. Alt fordi du ikke postet den riktige typen juridisk språk.

I mellomtiden vil en annen tilnærming som søker å få trekkraft bestå av merking nettstedet ditt med noe som sier at nettstedet ikke skal skannes av generativ AI. Tanken er at en standardisert markør vil bli utviklet. Nettsteder kan antagelig legge til markøren på nettstedet sitt. AI-produsenter vil bli fortalt at de bør endre dataskanningen for å hoppe over de merkede nettstedene.

Kan en markørtilnærming være vellykket? Bekymringer inkluderer kostnadene for å skaffe og legge ut merkene. Sammen med om AI-produsentene vil følge markørene og sørge for at de unngår å skanne de merkede nettstedene. Et annet perspektiv er at selv om AI-produsentene ikke går med på markeringene, gir dette en annen ledetråd for å gå til retten og argumentere for at innholdsskaperen gikk den siste milen for å prøve å advare om AI-skanningen.

Jepp, det hele får hodet til å snurre.

konklusjonen

Et par siste kommentarer om dette vanskelige temaet.

Er du klar for et tankevekkende perspektiv på hele denne kunstige intelligensen som et plagiat- og opphavsrettskrenkende dilemma?

Mye av antakelsen om å "fange" generativ kunstig intelligens ved plagiat eller brudd på opphavsrett, avhenger av å oppdage utdata som ligner veldig på tidligere arbeider som innholdet på Internett som potensielt ble skannet under dataopplæring.

Anta imidlertid at et splitt-og-hersk-triks er på spill her.

Her er hva jeg mener.

Hvis den generative AI låner en liten bit herfra og en liten bit derfra, og til slutt blander dem sammen for å produsere en bestemt utgang, er sjansene for å kunne ha et gotcha-øyeblikk enormt redusert. Enhver utgang vil tilsynelatende ikke stige til en tilstrekkelig terskel til at du med sikkerhet kan si at den ble klippet fra ett bestemt kildeelement. Det resulterende essayet eller andre produksjonsmåter vil bare brøkdels kunne matches. Og med den vanlige tilnærmingen med å prøve å argumentere for at plagiat eller brudd på opphavsretten har skjedd, må du vanligvis vise frem mer enn en liten bittebit er på spill, spesielt hvis biten ikke skiller seg ut og kan finnes over hele Internett (undercutting). enhver tilstrekkelig bevisbyrde for urettmessig tilegnelse).

Kan du fortsatt overbevisende erklære at dataopplæringen til generativ AI har dratt av nettsteder og innholdsskapere selv om det foreslåtte beviset er en tilsynelatende uvesentlig andel?

Tenk på det.

Hvis vi står overfor potensielt plagiat i stor skala og brudd på opphavsrett i stor skala, må vi kanskje endre vår tilnærming til å definere hva som er plagiat og/eller brudd på opphavsrett. Kanskje det er en sak å fremme plagiering eller brudd på opphavsrett i hovedsak eller i det store. En mosaikk bestående av tusenvis eller millioner av små utdrag kan tolkes som å begå slike brudd. Det tilsynelatende problemet er imidlertid at dette kan gjøre at all slags innhold plutselig kommer under en paraply av brudd. Dette kan være en glatt bakke.

Tunge tanker.

Når vi snakker om tunge tanker, sa Leo Tolstoj, den legendariske forfatteren, berømt: «Den eneste meningen med livet er å tjene menneskeheten.»

Hvis nettstedet ditt og andres nettsteder blir skannet for å forbedre AI, og selv om du ikke får en eneste krone for det, kan du kanskje ha en høytidelig trøst i den brennende troen på at du bidrar til menneskehetens fremtid? Det virker som en liten pris å betale.

Vel, med mindre AI viser seg å være den fryktede eksistensielle risikoen som fjerner alle mennesker fra eksistensen. Du burde ikke ta æren for det. Jeg antar at du like snart ikke ville bidra til det forferdelige resultatet. Sett til side den katastrofale spådommen, tenker du kanskje at hvis AI-produsentene tjener penger på sin generative AI, og de ser ut til å nyte profittjaget, bør du også få en del av kaken. Del og del likt. AI-produsentene bør be om tillatelse til å skanne et hvilket som helst nettsted og deretter også forhandle frem en pris som skal betales for å ha fått lov til å gjennomføre skanningen.

Gi kreditt der kreditt forfaller.

La oss gi Sir Walter Scott det siste ordet for nå: «Å, for et sammenfiltret nett vi vever. Når vi først øver oss på å lure.»

Dette gjelder kanskje hvis du tror at bedrag er på gang, eller kanskje ikke gjelder hvis du tror at alt er rett og slett rett og legitimt. Vær så snill å gi deg selv æren for å ha tenkt over dette. Du fortjener det.

Kilde: https://www.forbes.com/sites/lanceeliot/2023/02/26/legal-doomsday-for-generative-ai-chatgpt-if-caught-plagiarizing-or-infringing-warns-ai-ethics- og-ai-lov/