Hoe werken Large Language Models (LLM)?

In de afgelopen jaren hebben we een flinke vooruitgang gezien in de ontwikkeling van artificial intelligence (AI) en machine learning. Een van de meest tot de verbeelding sprekende doorbraken in dit domein is de opkomst van Large Language Models (LLM's). LLM's zijn modellen die om kunnen gaan met menselijke taal. Denk bijvoorbeeld aan Google Translate, Google Assistent en Chat GPT. Deze geavanceerde AI-modellen hebben de potentie om onze communicatie en informatieverwerking drastisch te veranderen.

Maar wat zijn Large Language Models nu precies, wat zijn de toepassingen en hoe ziet de toekomst er uit?

Wat zijn Large Language Models?

Large Language Models zijn geavanceerde AI-systemen die zijn ontworpen om menselijke taal te begrijpen, te verwerken en te genereren. Deze modellen zijn getraind op enorme hoeveelheden tekstdata zoals boeken, artikelen en websites als Wikipedia. Complexe algoritmen en deep neural networks zorgen ervoor dat LLM's natuurlijke taal verwerken op een manier die vergelijkbaar is met menselijke taalvaardigheid. Daar komt heel wat bij kijken zoals ik al eerder in een artikel over Chat GPT schreef.

Large Language Models bestaan al een tijdje. Denk aan modellen zoals GPT-1 (Generative Pre-trained Transformer 1), dat OpenAI in 2028 introduceerde. Sindsdien heeft de technologie een enorme sprong voorwaarts gemaakt en zijn de modellen aanzienlijk groter en krachtiger geworden. GPT-3 bestaat inmiddels uit 175 miljard parameters. Het aantal parameters is een indicatie van de omvang en complexiteit. De snelle ontwikkeling van LLM’s is voornamelijk te danken aan de beschikbaarheid van snelle hardware (computerchips) en gestructureerde digitale data.

Training van Large Language Models

De meeste LLM zijn vooraf getraind zodat het model op basis van een trainingsdataset, woorden (tokens) kan voorspellen. Er zijn twee algemene stijlen van een dergelijke training:

  • autoregressief, de GPT-stijl dat het volgende woord voorspelt.
    In een tekstsegment als "Ik eet graag" voorspelt het model telkens het volgend token op basis van het voorgaande, zoals in dit geval "ijs".
  • gemaskeerd, de BERT-stijl (cloze-test).
    In een algemeen tekstsegment als "Ik hou van [MASK] [MASK]" voorspelt het model de gemaskerde tokens, zoals "ijs eten" waardoor de zin inhoud krijgt.

Het trainen van een Large Language Model is een complex proces dat aanzienlijke computerkracht en grote hoeveelheden data vereist. Het trainen van een LLM bestaat uit de volgende globale stappen:

Dataset verzamelen
Om een LLM te trainen, is er uiteraard een dataset aan tekstgegevens vereist. Dit kan bestaan uit boeken, artikelen, websites, sociale media-updates en andere bronnen. Het is belangrijk dat de dataset een breed scala aan onderwerpen en stijlen omvat, zodat het model een algemeen begrip van taal kan ontwikkelen.

Preprocessing
Voordat een dataset gebruiksklaar is, moet je enkele voorbereidingen nemen. Denk hierbij bijvoorbeeld aan het verwijderen van ongewenste tekens, het opschonen van de tekst en het omzetten van de tekst naar een geschikt formaat voor de training. Je kunt het een beetje vergelijken met data cleaning alvorens je data importeert in je marketingdatabase.

Architectuur selecteren
Er zijn verschillende architecturen beschikbaar voor het trainen van LLM's, zoals het transformer-model van Chat GPT. De keuze van de architectuur hangt af van de specificaties en vereisten van je project.

Model initialiseren
Het model wordt voor aanvang geïnitialiseerd (basisinstelling) met willekeurige gewichten en parameters. Deze bepalen uiteindelijk hoe goed het model in staat is een taak uit te voeren. Het algoritme past de initiële configuratie aan tijdens het trainingsproces.

Training
Het trainen van een LLM vereist vanwege de enorme hoeveelheid rekenwerk het gebruik van krachtige GPU's of zelfs gespecialiseerde AI-chips. Tijdens het trainingsproces worden de tekstgegevens in batches aan het model gevoed. Het model probeert de statistische patronen en samenhang in de tekst te leren door het aanpassen van de gewichten en parameters. In dit deel van de training is het model dus zelflerend (unsupervised learning) en verwerk in een hoog tempo enorme hoeveelheden data.

Fine-tuning
Na de initiële training kan het model verder worden getuned op specifieke taken of domeinen. Denk bijvoorbeeld aan het verder trainen met een specifieke dataset zoals medische teksten voor een LLM in de gezondheidszorg. Ook kan er menskracht worden ingeroepen om het model te tunen en het zo meer menselijkheid te geven (supervised learning). Het model geeft in trainingsmodus op een vraag dan niet één maar meerder antwoorden. Een trainer kent vervolgens een waarde toe aan verschillende antwoorden op basis van correctheid of menselijkheid.

Evaluatie
Tijdens het trainingsproces vindt er een periodieke evaluatie plaats om de prestaties te meten.

Iteratie en optimalisatie
Het trainingsproces kan meerdere trainingen vereisen om het model verder te verfijnen. Op basis van de evaluatieresultaten maakt men aanpassingen aan de architectuur, hyperparameters en trainingsmethoden om de prestaties verder te verbeteren.

Toepassingen van Large Language Models

De mogelijkheden van LLM's zijn bijna eindeloos en toepasbaar binnen vele domeinen. Eigenlijk kunnen deze (idealiter) worden ingezet voor bijna alle communicatie met mensen. Om maar een paar voorbeelden te noemen:

  • Natuurlijke Taalverwerking (NLP)
    LLM's worden ingezet voor NLP-taken zoals automatische vertaling. Denk hierbij aan Google Translate of Google Docs. Of voor het samenvatten van teksten, waarin Chat GPT goed is. Hoewel Google Translate kleine stukken tekst best goed vertaalt, heeft het nog wel wat moeite met langere teksten die wat verder uitweiden. Ook voor vraag-antwoordsystemen zoals een chatbot en sentimentanalyse heeft een LLM zijn waarde. Denk bijvoorbeeld aan een analyse van comments op social media.
  • Contentcreatie
    LLM's zijn ook zelfcreëerd, wat wil zeggen dat zij content kunnen maken, op basis van een opdracht. Al jaren worden beursberichten automatisch gegenereerd. Deze zijn vrij standaard van opzet en hebben een beperkte scope. Tegenwoordig zien we ook meer bredere vormen, zoals nieuwsartikelen, blogposts, whitepapers en zelfs fictieverhalen. Hoewel er nog steeds menselijke redactie en controle nodig zijn, kunnen LLM's het schrijfproces nu al versnellen.
  • Virtuele assistenten
    LLM's vormen de kern van virtuele assistenten en slimme luidsprekers zoals Google Assistant. Ze helpen gebruikers bij het zoeken van informatie, vragen beantwoorden en gepersonaliseerde aanbevelingen doen. Slimme luidsprekers zijn nog verre van ideaal omdat ze te vaak niet doen wat mensen verwachten. Mijn Google Assist roept regelmatig: "Ik weet niet hoe ik je hierbij kan helpen". Dat de AI maar in 80% van de gevallen mij helpt, zorgt ervoor dat ik deze bij voorbaat maar zeer sporadisch gebruik. Ikzelf gebruik mijn Google Home enkel voor opdrachten als: “Speel muziek”, “Zet koffie op de boodschappenlijst” en “Zet een alarm over 34 minuten”. En heel soms doe ik nog eens een poging met een kennisvraag: “Hoe oud in Bruce Springsteen?”. Het droom-niveau van LCARS - het besturingssysteem uit StarTrek hebben we nog lang niet bereikt. Al duurt dat misschien niet zo lang meer...
LCARS AI in StartTrek

Uitdagingen en ethische overwegingen

Hoewel LLM's potentieel vele mogelijkheden bieden, brengen ze ook uitdagingen en ethische overwegingen met zich mee. Een belangrijke zorg is de mogelijke verspreiding van desinformatie. Niet alleen kan de trainingsdata bevooroordeeld zijn (bias) maar ook heeft het algoritme nog steeds geen idee van de wereld om zich heen en 'fantaseert' er af en toe lekker op los. We noemen dat hallucineren (AI legt verkeerde verbanden), maar dat is wel heel erg fluffy uitgedrukt. LLM's zijn zo krachtig dat ze zeer overtuigend valse informatie kunnen genereren, wat de verspreiding van nepnieuws zal versterken.

Daarnaast roepen LLM's vragen op over privacy en gegevensbescherming. Aangezien deze modellen zijn getraind op enorme hoeveelheden gegevens, is het belangrijk om ervoor te zorgen dat persoonlijke informatie veilig is en dat er transparantie is over hoe gegevens worden gebruikt. De generative image tool Dall-E roept alleen al heel wat copyright-vragen op toen er in gegenereerde afbeeldingen beeldmerken opdoken. Maar ook zijn websites van jou en mij gebruikt om AI te trainen, terwijl AI websites misschien in de toekomst overbodig maakt.

De toekomst van Large Language Models

De ontwikkeling van LLM's zal nieuwe doorbraken mogelijk maken die ons van meer gemak voorzien. Op korte termijn is Chat GPT is een hele zichtbare. Ook merk ik dat Google Docs steeds betere suggesties doet. En ik verwacht dat Google Assistant een boost krijgt.

De gebruiksvriendelijkheid van LLM's zal op korte termijn leiden tot een nieuwe contentexplosie. Nu al gebruikt menig marketeer Chat GPT om aan de vermeende contentvraag te kunnen voldoen. Mensen kiezen altijd voor gemak. Omdat LLM’s van zichzelf niet creatief zijn, kunnen we vooral meer van hetzelfde verwachten. En dat is dan weer voer voor het zelflerende algoritme. We created a monster! Opvallen? Dan blijft ook op creatief gebied menselijke redactie voorlopig vereist en zijn het menselijk inzicht en kennis die het onderscheid maken.

In de toekomst kunnen we grotere en geavanceerdere taalmodellen verwachten, met meer parameters die beter inspelen op context en nuances in taal en hierdoor beter aan de verwachtingen van mensen voldoen. Taalmodellen worden goedkoper en eenvoudiger te trainen en komen hierdoor voor meer bedrijven beschikbaar. Waarschijnlijk is het niet nodig om je eigen model te ontwikkelen, maar biedt Google een aanvullende AI-dienst aan voor Google Workspace. "Schrijf notulen voor de laatste video call", "Beantwoord de e-mail over de laatste marketingcijfers", "Maak een offerte voor Jansen bv voor product X".

Ook niet geheel ondenkbaar is het dat we een digitale vertegenwoordiger van onszelf krijgen. Deze beantwoordt mijn mail in mijn tone of voice, helpt me met de agenda te plannen en bestelt mijn boodschappen. En is er om mee te kletsen. LCARS meets HER.

Geavanceerde AI in 'Her'.

Zoals met alles, kunnen ook LLM's op een goede en een slechte manier worden ingezet. Daarom is het verstandig om ook aandacht te schenken aan negatieve effecten. Vroeger ontving ik spamberichten als "Lieve Postbankklant". Die waren redelijk eenvoudig te herkennen. Nu zijn spamberichten al een stuk lastiger te onderscheiden. En met LLM's zal spam alleen nog maar beter, persoonlijker en multi-channel worden. En dat is dan meteen een hele grote keerzijde van een prachtig instrument.

Leave a reply