Kapitalistische Intelligentie? AI is geruststellend dom! (deel 2)

AI genereerde dit beeld met de woorden “Artificial Intelligence is reassuringly dumb”

Een vertaling in vijf delen van een artikel van het Duitse Wildcat over Artificial Intelligence (AI), oftewel Kunstmatige Intelligentie (KI) in het Nederlands. Het werd eerder al in het Engels vertaald door onze vrienden van de Angry Workers uit het Verenigd Koninkrijk. Deel 1 lees je hier.

Die AI lijkt me geruststellend dom
(Duitse komiek Helge Schneider)

AI is overal. Vooral in de reclame. Smartphones en tablets sorteren foto’s op onderwerp; ze worden ontgrendeld met gezichtsherkenning; de spoorwegen gebruiken beeldherkenning voor onderhoud; financiële dienstverleners gebruiken machines om het risico van leners in te schatten…

Maar deze voorbeelden hebben niets te maken met generatieve AI. Het zijn gewoon algoritmen voor de analyse van big data. Om marketingredenen wordt alles dat met big data te maken heeft tegenwoordig als AI bestempeld. Immers, zelfs de eenvoudigste programmeerlus voor data-analyse kan op deze manier effectiever worden verkocht. In de zomer haalde de Hamburgse start-up Circus geld op bij investeerders. Het bedrijfsidee: thuisbezorging van maaltijden die “door kunstmatige intelligentie worden bereid op basis van de voorkeuren van de klant”.

Er zijn ook productieve voorbeelden: een team heeft AI gebruikt om nieuwe eiwitten te ontwikkelen in farmaceutisch onderzoek. In de chipproductie besparen zelflerende systemen herbewerking door mensenhanden. Amazon gebruikt AI om de hoeveelheid verzendingen te voorspellen, hoewel een klassieke waarschijnlijkheidsberekening net zo goed zou zijn.

De term “kunstmatige intelligentie” werd in de jaren vijftig bedacht voor reclamedoeleinden, en het heeft ook wat onder “intelligentie” wordt verstaan compatibel gemaakt met kapitalisme.

In 1959 schreef de elektrotechnisch ingenieur Arthur Samuel een programma voor het bordspel dammen, dat voor het eerst beter kon spelen dan mensen. De doorbraak was dat Samuel een IBM-mainframe computer tegen zichzelf leerde spelen, en registreerde welke zet in welke spelsituatie de kans op winst vergrootte. Een machine die tegen een machine speelt, en al doende leert, is het begin van “kunstmatige intelligentie” – kunstmatig inderdaad, maar waarom “intelligentie”?

De term “kunstmatige intelligentie” was vier jaar eerder bedacht door de Amerikaanse computerwetenschapper John McCarthy. Hij deed onderzoek naar gegevensverwerking, samen met vele anderen, waaronder de cyberneticus Norbert Wiener. Maar McCarthy wilde niet alleen in de voetsporen van anderen treden. Hij wilde de lauweren verzamelen voor iets van hemzelf. En dus schreef hij “kunstmatige intelligentie” in plaats van “cybernetica” in zijn aanvraag bij de Rockefeller Foundation voor financiering van het Dartmouth Summer Research Project. “Het seminar is gebaseerd op de aanname dat in principe alle aspecten van leren en andere kenmerken van intelligentie zo nauwkeurig beschreven kunnen worden dat er een machine gebouwd kan worden ter simulatie van deze processen. Het doel is om uit te vinden hoe machines taal kunnen gebruiken om (…)” De aanvraag werd goedgekeurd – maar niet volledig: de Rockefeller Foundation betaalde slechts 7.500 dollar, zodat een achttal wetenschappers elkaar een zomer lang konden ontmoeten. De conferentie duurde slechts een maand en was niet meer dan een “uitgebreide brainstormsessie” zonder resultaten. Maar vandaag de dag wordt het gezien als het begin van AI, en alle deelnemers werden internationaal bekende experts in kunstmatige intelligentie.

McCarthy schreef later dat hij de term wilde gebruiken om “de vlag aan de mast te nagelen”. Maar hij verving daarmee de inhoud van het begrip intelligentie door iets anders. Het Latijnse woord intellegere betekent “beseffen, begrijpen, grijpen”. Mensen worden intelligent door te begrijpen. “Intelligentie” ontstaat in interactie met de omgeving (geen cognitie zonder lichaam) en in sociale interactie. Mensen ontwikkelden taal zodat ze samen konden koken. De smaak van chocolade en de geur van rozemarijn zijn kwalitatieve ervaringen die niet als “data” kunnen worden opgeslagen. Maar McCarthy had de weg gewezen: “simulatie van deze processen” – dat wil zeggen, een simulatie van begrijpen. (2) In de euforische fase van de jaren zestig dachten AI-onderzoekers dat ze computers konden voeden met voldoende gegevens, en ze zo kundig met elkaar konden verbinden dat ze het menselijk brein zouden overtreffen. Maar al snel volgde ontgoocheling. Hoe meer we over het menselijk brein begrepen, hoe duidelijker het werd dat het nooit mogelijk zou worden om het na te maken met een machine (bijna 100 miljard zenuwcellen, allemaal onderling verbonden door 5.800.000 kilometer aan neurale netwerken…). Het vlaggenschipproject Human Brain van de EU heeft in dit opzicht in tien jaar geen vooruitgang geboekt. (3)

Begin jaren zeventig begon een lange “AI-winter”

De overwinning van de IBM-computer Deep Blue op de regerend wereldkampioen schaken in 1997 werd gevierd als een nieuwe belangrijke verschijning van “kunstmatige intelligentie” op het wereldtoneel. Deep Blue was echter geen “kunstmatig intelligent” systeem dat van zijn fouten leerde. Het was slechts een extreem snelle computer die 200 miljoen schaakposities per seconde kon evalueren (brute kracht). Belangrijker was AlphaGo’s overwinning op ’s werelds beste go-speler in 2016. De machine had eerder al vele miljoenen keren tegen zichzelf gespeeld en zelfstandig zetten ontwikkeld waar geen mens eerder aan had gedacht.

“Leugens, verdomde leugens – en statistieken”
(Mark Twain)

McCarthy gebruikte destijds de term “neurale netwerken” in zijn voorstel, en dat was al net zo’n handige reclametruc. Die term roept beelden op van een kunstmatig brein, gesimuleerd met computerchips. Maar de “neurale netwerken van AI” lijken in niets op het netwerk van neuronen in de hersenen. Het is een statistisch proces dat wordt gebruikt om zogenaamde “knooppunten” in verschillende lagen te rangschikken. In de regel is een knooppunt verbonden met een subset van knooppunten in de laag eronder. Als je wilt dat een bepaalde computer paarden kan herkennen, geef je hem veel paardenfoto’s. Daaruit haalt de computer “set kenmerken”: oren, ogen, hoeven, kortharige vacht, enzovoorts. Als het vervolgens een nieuwe foto moet beoordelen, gaat het programma hiërarchisch te werk: de eerste laag analyseert alleen helderheidswaarden, de volgende laag horizontale en verticale lijnen, de derde ronde vormen, de vierde ogen, enzovoort. Pas de laatste laag stelt een algemeen model samen.

De daaropvolgende fijnafstemming bestaat uit het goedkeuren van het resultaat wanneer het een afbeelding correct heeft herkend (de verbindingen tussen de knooppunten worden dan versterkt) of het afkeuren van het resultaat wanneer het een hond als een paard herkent (de verbindingen tussen de knooppunten worden dan herschikt). Op deze manier wordt het systeem sneller en nauwkeuriger – maar zonder ooit te “begrijpen” wat een paard is.

Chatbots creëren op deze manier taal. Ze zijn noch de hoogste, noch de belangrijkste, noch de krachtigste, noch de gevaarlijkste soort AI. Als het gaat om het vermenigvuldigen van grote getallen, doen ze het slechter dan welke zakrekenmachine uit de jaren zeventig ook. De technologie achter zogenaamde “generatieve AI” is in wezen gebaseerd op statistische gevolgtrekkingen uit enorme hoeveelheden gegevens. Statistiek is een hulpwetenschap. Economen, epidemiologen, sociologen, enzovoorts, passen statistiek ‘intuïtief’ toe om een benaderende oriëntatie te krijgen in bepaalde contexten. Ze zijn zich ervan bewust dat statistische voorspellingen zelden accuraat zijn; ze maken fouten en leiden soms tot doodlopende wegen. Generatieve AI presenteert statistische voorspellingen daarentegen als een resultaat. Het is de basis van haar prestaties. De modellen zijn per definitie niet in staat om hun resultaten af te leiden of te rechtvaardigen. Ze worden getraind tot de resultaten kloppen.

Je kunt een AI-systeem niet vertellen dat het een fout heeft gemaakt: “Doe dat niet nog een keer!”. Omdat het systeem geen idee heeft wat “dat” is, of hoe het dat moet vermijden. AI-systemen die gebaseerd zijn op machinaal leren en getraind zijn op basis van enorme hoeveelheden gegevens, in plaats van op algemene principes of vuistregels, zijn niet in staat om advies op te volgen.

Een chatbot plakt reeksen taalvormen uit zijn trainingsgegevens aan elkaar zonder enige verwijzing naar de betekenis van de woorden. Als ChatGPT wordt gevraagd wat Berlijn is, spuugt hij uit dat Berlijn de hoofdstad van Duitsland is. Niet omdat hij enig idee heeft wat Berlijn is, wat een stad is of waar Duitsland ligt, maar omdat het statistisch gezien het meest waarschijnlijke antwoord is.

Chatbots worden ook dommer naarmate ze verder komen. Dat komt deels doordat ze tijdens het machinaal leren ook gevoed worden met producten van andere chatbots, en deels doordat slecht betaalde clickwerkers soms zelf ChatGPT gebruiken voor fine-tuning, om zogenaamd handgeschreven teksten sneller te genereren. Slechts zes maanden na de release begonnen de klachten zich op te stapelen dat de prestaties van ChatGPT steeds meer fouten bevatten en slechter werden. De gebruikstijd daalde over het algemeen met tien procent en het aantal downloads van deze AI daalde met 38 procent. De AI-industrie reageert op de paradoxale, maar typische manier: ze verhoogt de hoeveelheid trainingsgegevens en parameters nog verder – ondanks het feit dat het probleem in eerste instantie is ontstaan door een teveel aan gegevens.

Big Data

Het is behoorlijk belachelijk om machinaal taal te genereren, niet op basis van logische regels en betekenis, maar op basis van hoe waarschijnlijk het is dat dat ene woord, of die ene tekstmodule, de andere opvolgt – omdat het proces enorme computercapaciteiten, een enorm energieverbruik en veel herbewerking vereist. Maar juist deze onzin vormt de kern van het winstmodel. Want alleen de grote techbedrijven hebben zulke enorme datacenters, en ze hebben de afgelopen twee decennia de benodigde datavolumes en het benodigde geld bijeengebracht. Grote taalmodellen zijn daarom een winstmodel waarin niemand met hen kan concurreren; zelfs overheidsonderzoeksinstellingen of internationale topuniversiteiten hebben niet de benodigde computers, laat staan de gegevens!

Google, Facebook, Amazon, enzovoorts, hebben de digitale voetafdruk van de complete mensheid vastgelegd. Google, bijvoorbeeld, heeft voor zijn trainingsgegevens de afgelopen twaalf jaar speciale crawlers gebruikt om 1,56 biljoen woorden te verzamelen uit openbare dialooggegevens en webteksten. Crawlers zijn gegevensopzuigers die alles op het openbare internet vastleggen. Wat jarenlang geaccepteerd werd als gegevensverzameling voor reclamedoeleinden, kan nu niet meer worden teruggedraaid. Zodra trainingsmodellen de gegevens hebben verwerkt, kunnen ze niet meer worden verwijderd.

De trainingsgegevens van de chatbots bevatten echter niet alleen de miljarden en miljarden gegevens die we hen ‘vrijwillig’ ter beschikking hebben gesteld, maar ook auteursrechtelijk beschermde teksten. De AI’s worden ook getraind met databases die auteursrechtelijk beschermde werken illegaal ter beschikking stellen. Journalisten van het Amerikaanse tijdschrift The Atlantic doorzochten de ongeveer 100 gigabyte grote Books3-database die elke kunstmatige intelligentie voedt. Als resultaat publiceerden ze op 25 september een doorzoekbare database met ongeveer 183.000 titels met ISBN’s.

Hetzelfde geldt voor de beeldgeneratoren: miljarden foto’s op internet zijn het bouwmateriaal voor de beelden in programma’s zoals Dall-E. Sommige foto’s zijn gemaakt door professionele fotografen, en die werden eenvoudigweg door de AI gescand op hun professionele websites. Niemand heeft hen gevraagd of ze daarmee instemden, laat staan dat hen een vergoeding werd aangeboden. Ze kunnen ook niet bewijzen dat hun foto’s zijn gebruikt tijdens de training van de kunstmatige generatoren. Het is per definitie niet mogelijk om te reconstrueren welke individuele foto’s zijn gebruikt om een machinebeeld te creëren.

Lees verder in deel 3.

Wildcat

(Dit artikel verscheen oorspronkelijk in het herfstnummer van 2023 van Wildcat onder de titel: “Kapitalistische Intelligenz – Was steckt hinter dem Hype um KI?”)

Noten

  • 2. “The cooking ties smell, flavor and language together in a way seldom recognised: the smell and flavors of cooking were likely a prime factor in the development of language”, Gordon M. Shepherd: “Neurogastronomy, How the Brain Creates Flavour and Why It Matters”.
  • 3. In 2013 gaf de EU hersenonderzoeker Henry Markram 600 miljoen euro om het Human Brain Project op te zetten, het grootste hersenonderzoeksproject ter wereld. Markram had beloofd het hele menselijke brein één op één te simuleren in een computermodel en therapieën te ontwikkelen voor alles van alzheimer tot schizofrenie. Het eindigde in oktober, na tien jaar. Het kwam niet eens in de buurt van het kunnen nabootsen van het menselijk brein. Schizofrenie en alzheimer zijn nog niet overwonnen. Neurowetenschappen hebben helemaal geen duidelijke theorie; er is zelfs geen overeenstemming over centrale concepten zoals geheugen, cognitie of zelfs bewustzijn. Ze dichten dat gat met computermetaforen. En dat levert onderzoeksgelden op – maar brengt de wetenschap niet vooruit.