Tokens in AI uitgelegd: waarom Cursor, Claude en ChatGPT soms de draad kwijt raken

Wie werkt met AI tools zoals Cursor AI, ChatGPT of Claude komt vroeg of laat termen tegen als tokens, context window of meldingen zoals context full. Voor veel mensen klinkt dat vaak technisch en vaag. Ik ontvang hier dan ook vaak vragen over. Het is handig om hier wat meer over te weten. Tokens bepalen namelijk grotendeels of goed een AI-model werkt.

Sterker nog: Veel problemen met AI komen door tokens en de context window. Een AI heeft een beperkt “geheugen”, dit wordt ook wel context window genoemd. Alles wat je typt, uploadt of laat lezen (zoals code in Cursor of chatgeschiedenis in ChatGPT) neemt plek in dat geheugen in.

Als dat geheugen vol raakt, vergeet de AI oudere dingen. Dan lijkt Cursor bijvoorbeeld code te vergeten, volgt ChatGPT je instructies niet meer goed of wordt een gesprek onsamenhangend. Het model is dan niet kapot, het kan gewoon niet alles tegelijk onthouden.

Inhoudsopgave

Het grootste misverstand: AI leest geen tekst zoals mensen

Mensen lezen woorden en zinnen als geheel. AI doet dat niet. Een AI-model ziet tekst meer als een lange stroom kleine stukjes informatie. Die stukjes noemen we tokens. Dat kunnen woorden zijn, maar ook delen van woorden, leestekens of zelfs stukjes code.

Dat klinkt misschien onlogisch, maar stel je voor dat iemand een boek niet leest per zin, maar per klein bouwsteentje. Dat is ongeveer hoe AI werkt.

Het woord “voetbalvereniging” wordt bijvoorbeeld opgesplitst:

voet + bal + ver + eni + ging = 5 tokens¹

Voor ons is het één woord. Voor AI zijn het 5 losse stukjes. Daarom kosten lange woorden, code en technische teksten veel meer “geheugen” dan je denkt.

Waarom bestaan tokens eigenlijk?

Omdat AI geen betekenis begrijpt zoals wij dat doen. Een model voorspelt constant welk stukje tekst waarschijnlijk hierna komt. Niet op basis van echt begrip, maar op basis van patronen die het tijdens training heeft geleerd.

Als jij schrijft:

“Ik drink graag koffie met…”

dan voorspelt het model dat woorden zoals “melk” of “suiker” waarschijnlijk volgen.

Dat voorspellen gebeurt token voor token. Dus een AI-model denkt niet in complete zinnen. Het bouwt een antwoord stukje voor stukje op. En dat voorspellen? Dat lukt dankzij de ‘transformer’.

AI bestaat dankzij de transformer
Alle moderne AI zoals ChatGPT, Claude en Cursor werkt met de transformer-architectuur (Vaswani et al., 2017). Dat is de grote uitvinding die alles mogelijk maakte.
Wat doet een transformer anders dan oude AI?

Dan het belangrijkste onderdeel: context

De context kun je zien als het tijdelijke werkgeheugen van een AI-model. Alles wat tijdens jouw gesprek actief wordt meegenomen zit daarin. Niet alleen jouw laatste bericht, maar vaak ook eerdere berichten, bestanden, code, instructies en achtergrondinformatie van de tool zelf.

Dat betekent dus dat wanneer je een groot project opent, het model probeert enorme hoeveelheden informatie tegelijk vast te houden.

En daar zit een limiet aan.

Waarom die “context full” melding verschijnt

Veel mensen schrikken wanneer Cursor bijvoorbeeld zegt: Context 74% full

Dat klinkt alsof je computergeheugen volloopt, maar eigenlijk betekent het iets anders.

Het AI-model heeft maar een bepaalde hoeveelheid ruimte om informatie tegelijk “in beeld” te houden. Zodra die ruimte voller raakt, moet het model steeds harder werken om relevante informatie terug te vinden.

Waarom code zo snel problemen veroorzaakt

Bij normaal chatten valt het vaak nog mee. Maar programmeertools zoals Cursor gebruiken gigantisch veel tokens. Dat komt doordat programmeercode voor AI verrassend “duur” is. Een simpele regel code die voor mensen heel kort lijkt, bestaat voor AI uit veel kleine onderdelen. Variabelen, haakjes, punten, functienamen en speciale tekens worden allemaal apart verwerkt.

En dan heb je nog:

Comments
Imports
Documentatie
Foutmeldingen
Logs
Geopende bestanden

Alles samen kan enorm oplopen. Daarom raken AI-code-assistenten veel sneller hun context kwijt dan gewone chatbots.

Waarom AI soms ineens ‘dommer’ lijkt te worden in een gesprek/sessie

Dit herkennen veel mensen. n het begin van een gesprek werkt alles slim en scherp. Maar na een lange sessie begint de AI rare fouten te maken. Eerdere instructies worden vergeten. Antwoorden worden slordiger. Veel gebruikers denken dan: “Het model is dom geworden.” Maar meestal raakt het model gewoon overbelast.

Hoe voller de context wordt, hoe moeilijker het wordt om belangrijke informatie prioriteit te geven. Oudere delen van het gesprek krijgen minder aandacht en soms worden ze gedeeltelijk samengevat of zelfs genegeerd.

Waarom grotere contextvensters zo belangrijk zijn

AI-bedrijven praten tegenwoordig veel over modellen met:

128k context
200k context
Soms zelfs miljoenen tokens ²

Dit betekent dat het model meer informatie tegelijk kan vasthouden. Dat is vooral handig voor:

Grote programmeerprojecten
Lange documenten
Complete boeken
Juridische bestanden
Uitgebreide chats

Toch betekent een groter contextvenster niet automatisch dat alles perfect werkt. Ook grote modellen kunnen verdwalen in enorme hoeveelheden informatie. Meer geheugen betekent namelijk niet automatisch betere focus.

De toekomst: AI wordt slimmer in contextbeheer

Op dit moment werken veel AI-tools nog vrij grof met context. Ze sturen enorme hoeveelheden informatie mee in de hoop dat het model zelf begrijpt wat belangrijk is. Maar dat is niet efficiënt.

Mijn verwachting is dat AI-systemen de komende jaren veel slimmer worden in het beheren van context. Niet alles hoeft straks nog constant actief meegestuurd te worden.

Waarschijnlijk gaan toekomstige AI-tools beter onderscheid maken tussen: