We vertrouwen steeds meer op kunstmatige intelligentie voor complexe taken. Daarom is het zeer belangrijk dat de antwoorden die we krijgen betrouwbaar zijn. In dit artikel bespreek ik self-consistency in prompting, een techniek die helpt de nauwkeurigheid van grote taalmodellen (LLM’s) te verbeteren. Ik leg aan de hand van voorbeelden uit hoe deze aanpak zorgt voor betere antwoorden. Ook vergelijk ik deze methode met de bekende chain-of-thought methode en laat ik zien wat de voordelen zijn.
Wat is het?
Self-consistency is een techniek in prompt engineering die helpt om de betrouwbaarheid en nauwkeurigheid van large language models (LLMs) te verbeteren. Dit is vooral handig bij taken die redeneren vereisen. Het idee is simpel: in plaats van de LLM slechts één keer te bevragen, geef je hem meerdere keren dezelfde prompt. Vervolgens analyseer je de antwoorden en kies je het antwoord dat het vaakst voorkomt, of dat het meest consistent is met de eerdere redeneringen. Je kan dit ook toepassen in text-to-image prompting, waar je dezelfde prompt meerdere keren uit laat voeren.
Waarom: Door verschillende antwoorden op dezelfde vraag te combineren, zorgt self-consistency ervoor dat het definitieve antwoord meer een samenhangend geheel vormt. Dit consensusantwoord is meestal betrouwbaarder en nauwkeuriger dan een enkel, op zichzelf staand antwoord.
Voordelen t.o.v. Chain of Thought (CoT) prompting
Door Self-Consistency toe te passen, probeert men weg te komen van de beperking van “chain-of-thought prompting” (CoT prompting), waarbij de LLM stap voor stap redeneert. Met deze manier van prompting voorkom je dat het model vastloopt in een onjuiste redenering. Als de LLM in een stap-voor-stap beredenering een fout maakt in bijvoorbeeld de tweede stap, zullen de stappen erna ook fout zijn.
Goed om te weten: Het beste kan je Self-Consistency samen met CoT-prompting toepassen.
Nog meer voordelen van deze manier van prompting op een rij:
- Robuustere resultaten: Door meerdere antwoorden te genereren en te vergelijken, vermindert de kans op fouten gebaseerd op toevallige keuzes of biases in het model.
- Meerdere perspectieven: Het aanmoedigt de LLM om het probleem vanuit verschillende invalshoeken te benaderen, wat kan leiden tot een beter begrip van de vraag.
- Hogere betrouwbaarheid: Uiteindelijk levert self-consistency een consistenter en betrouwbaarder antwoord op, omdat het gebaseerd is op een soort “consensus” onder verschillende redeneringen van de LLM.
Een voorbeeld van Self-Consistency prompting
Is de volgende stelling belangrijk voor de psychologische veiligheid van werknemers?
“Werknemers moeten zich vrij voelen om vragen te stellen, feedback te geven en te ontvangen, te experimenteren en fouten te maken.”
Leg stap-voor-stap uit waarom.
Leuk: Ik heb de prompt volgens het CoT-principe geformuleerd door er aan toe te voegen “Leg stap-voor-stap uit waarom”. In dit geval zou je kunnen spreken van een zero-shot-chain-of-thought-prompt
Ik stel de vraag aan ChatGPT 4. In de screenshots zie je de antwoorden die ik heb gekregen. Samengevat:
- Antwoord 1: Ja, de stelling is inderdaad belangrijk voor de psychologische veiligheid van werknemers.
- Antwoord 2: Ja, de stelling is zeer belangrijk voor de psychologische veiligheid van werknemers
- Antwoord 3: Ja, de stelling is zeer belangrijk voor de psychologische veiligheid van werknemers.
In dit geval ga ik er vanuit dat het antwoord volgens dit LLM een ja is.



Nog een voorbeeld
Ik ga ChatGPT een beetje uitdagen met een wat moeilijkere en bredere vraag. Deze vraag, die ook volgens de regels van CoT-prompting zijn geformuleerd, stel ik drie keer.
“Welke drie factoren dragen het meest bij aan economische groei in ontwikkelingslanden? Leg stap voor stap uit waarom.”
- Antwoord 1: Onderwijs, infrastructuur, en institutionele kwaliteit
- Antwoord 2: Onderwijs en menselijk kapitaal, infrastructuurontwikkeling en institutionele kwaliteit
- Antwoord 3: Onderwijs, infrastructuur en institutionele kwaliteit
Het antwoord is: Onderwijs, infrastructuur en institutionele kwaliteit.
Het antwoord is zo uitgebreid, omdat ik stap-voor-stap toe heb gevoegd aan de prompt, dat ik het niet goed in een screenshot kan plaatsen. Ik heb dan ook voor de samenvatting van het antwoord de tussenkopjes opgeschreven.