Wat betekenen AI parameters zoals 7B en 70B eigenlijk?

Wanneer ik nieuwe AI-modellen bekijk, zie ik vaak termen zoals 4B, 8B of 70B parameters voorbijkomen. Voor veel mensen klinkt dat technisch en onduidelijk. Toch zegt dit getal iets belangrijks over een AI-model.

Het B staat voor miljard. Dus 7B = 7 miljard parameters, 70B = 70 miljard parameters. Parameters bepalen namelijk hoeveel informatie een model kan verwerken en hoe complex het model is opgebouwd. Dit geldt voor tekst (zoals bij ChatGPT) en voor afbeeldingen (zoals bij Midjourney of Stable Diffusion).

In dit artikel leg ik uit:

Wat AI-parameters zijn,
Waarom grote modellen vaak meer parameters hebben,
Waarom een kleiner model soms toch verrassend goed kan werken.

Inhoudsopgave

Wat zijn parameters in AI-modellen?

Parameters zijn kleine stukjes opgeslagen informatie in een AI-model. Een AI-model gebruikt deze informatie om patronen te herkennen en taken uit te voeren. Tijdens de training leert het model steeds meer verbanden tussen woorden, beelden of geluiden. Al die geleerde informatie wordt opgeslagen in de parameters.

Wat doen parameters in AI?

Parameters helpen een AI-model om informatie te begrijpen en te verwerken. Hoe meer parameters een model heeft, hoe meer complexe verbanden het meestal kan herkennen. Daardoor kan een groter model vaak uitgebreidere antwoorden geven of moeilijkere taken uitvoeren. Meer parameters betekenen alleen niet automatisch dat een model altijd beter is.

Een voorbeeld: stel dat je een AI-model leert wat een kat is. In het begin weet het model nog niet hoe een kat eruitziet. Tijdens de training leert het model langzaam dat katten vaak oren, snorharen, ogen en een staart hebben. Die informatie wordt opgeslagen in de parameters. Daardoor kan het model later ook katten herkennen die het nog niet eerder heeft gezien.

Waarom hebben sommige AI-modellen zoveel parameters?

Sommige AI-modellen hebben enorm veel parameters omdat ze heel veel informatie moeten verwerken. Een modern AI-model moet niet alleen losse woorden herkennen, maar ook complete zinnen begrijpen, verbanden leggen en context onthouden. Bij afbeeldingen moet een model vormen, kleuren, licht en objecten leren herkennen. Hoe groter en complexer de training is, hoe meer parameters er meestal nodig zijn. Daarom hebben moderne AI-modellen soms miljarden parameters om goed te kunnen werken.

Wat betekent 7B, 13B of 70B in de praktijk?

De getallen 7B, 13B en 70B geven aan hoeveel miljard parameters een AI-model heeft. Een 7B-model is meestal sneller en lichter, waardoor het vaak op een normale computer kan draaien. Een 70B-model is veel groter en kan vaak moeilijkere taken uitvoeren, maar gebruikt ook veel meer geheugen en rekenkracht. Grotere modellen geven vaak uitgebreidere antwoorden en begrijpen ingewikkelde opdrachten beter. Toch betekent een hoger getal niet automatisch dat een model altijd slimmer of beter is.

Een voorbeeld: stel dat je een simpele vraag stelt zoals “Wat is de hoofdstad van Frankrijk?”. Dan kunnen zowel een 7B-model als een 70B-model meestal goed antwoorden. Maar bij een moeilijke opdracht, zoals het schrijven van code of het samenvatten van een lang document, presteert een groter model vaak beter omdat het meer complexe verbanden kan verwerken.

Waarom zijn nieuwe AI-modellen soms beter met minder parameters?

Bij nieuwe AI-modellen gaat het niet alleen om zoveel mogelijk parameters. Bedrijven maken modellen ook slimmer en sneller. Een nieuw model kan beter getraind zijn. Het heeft betere voorbeelden gezien en leert van feedback. Daardoor geeft het beter antwoorden met minder parameters.

Nieuwe modellen begrijpen opdrachten vaak beter. Ze onthouden ook beter wat er eerder is gezegd. Daardoor kan een kleiner model soms beter werken dan een ouder en groter model. Ook worden veel nieuwe modellen gemaakt om op normale computers of laptops te werken. Je hoeft geen dure computer te hebben.

Wat betekent architectuur in AI?
De architectuur van een AI-model is de manier waarop het model is opgebouwd. Je kunt het zien als het ontwerp of de structuur van de AI.
Twee modellen kunnen evenveel parameters hebben, maar toch heel verschillend werken. Dat komt doordat de architectuur bepaalt:
Hoe een model informatie verwerkt
Hoe het verbanden legt
Hoe het antwoorden maakt
Nieuwe architecturen zorgen er vaak voor dat AI sneller, slimmer en beter werkt dan oudere modellen.

Hoeveel parameters heeft ChatGPT?

Van veel bekende AI-modellen is het aantal parameters openbaar. Bij ChatGPT ligt dat anders. OpenAI deelt de exacte aantallen van moderne modellen zoals GPT-4 en GPT-4o niet officieel. Het bedrijf zegt dat dit onder andere te maken heeft met concurrentie (andere AI-bedrijven) en veiligheid.

Daardoor bestaan er vooral schattingen van onderzoekers en AI-experts. Rond GPT-3 was het aantal parameters nog wel bekend. Dat model had 175 miljard parameters. Bij GPT-4 zijn alleen schattingen bekend. Sommige experts denken dat GPT-4 uit meerdere kleinere modellen bestaat. Deze modellen werken samen. Hierdoor lopen schattingen uiteen van honderden miljarden tot mogelijk meer dan één biljoen parameters.

Toch kijken AI-bedrijven tegenwoordig minder naar alleen het aantal parameters. Moderne modellen worden vooral beter door beter training, betere data en slimmere architecturen. Ook OpenAI heeft aangegeven dat de toekomst van AI niet alleen draait om steeds grotere modellen.

Wat is belangrijker dan parameters?

Parameters zijn belangrijk, maar ze bepalen niet alleen hoe goed een AI-model werkt. De training van een model speelt bijvoorbeeld een grote rol. Een model dat is getraind op goede en juiste data geeft vaak betere antwoorden dan een groter model met slechte training. Ook de kwaliteit van de data is belangrijk. Als een model veel verkeerde of onduidelijke informatie leert, werkt het slecht. Dan helpen meer parameters niet.

Daarnaast wordt het contextvenster steeds belangrijker. Dat bepaalt hoeveel tekst of informatie een AI-model tegelijk kan gebruiken tijdens een gesprek of opdracht. Een model met een groot contextvenster kan langere documenten beter begrijpen en verwerken.

Ook snelheid speelt mee. Sommige kleinere modellen reageren veel sneller en zijn daardoor handiger voor dagelijks gebruik of lokale AI op een computer.

Daarnaast bestaan er modellen voor één taak. Deze noemen we gespecialiseerde modellen. Ze zijn gemaakt voor bijvoorbeeld programmeren, beeldbewerking of samenvatten. Zo’n gespecialiseerd model kan soms beter werken dan een algemeen groot model.

Tot slot gebruiken veel bedrijven fine-tuning. Daarbij wordt een bestaand AI-model extra getraind voor een specifieke taak of doelgroep. Hierdoor kan een kleiner model toch zeer goede resultaten geven. Daarom kijken AI-ontwikkelaars tegenwoordig niet alleen meer naar het aantal parameters, maar vooral naar hoe goed het model werkt in de praktijk.