SST Software – Maatwerk software Enschede
Facebook Instagram LinkedIn

Waarom is OpenAI in het Nederlands duurder dan in het Engels?

Dat OpenAI niet gratis is, is duidelijk. Maar hoe werkt het pricing-model dan en waar word je dus op afgerekend? Het is belangrijk om te beseffen dat er een verschil is in welke taal (nee, niet programmeertaal, maar de gesproken taal) je gebruikt in je project. Dit heeft namelijk zeker invloed op de gebruikskosten.

Wat zijn tokens?

Tokens in OpenAI verwijzen naar stukjes tekst die het model leest, die het ‘vocabulair’ van het model bepalen. Een token kan zo kort zijn als één teken of zo lang als één woord. Frequente woorden worden niet opgesplitst, en meer zeldzame woorden worden omgezet naar betekenisvolle subwoorden. Het concept van tokens is centraal in de werking van veel moderne machine learning-modellen voor tekstverwerking. Voordat tekst aan het model wordt gevoerd, wordt het eerst omgezet naar tokens. Dit betekent dat de hele tekst wordt opgesplitst in deze individuele tokens. De hoeveelheid tokens die je vervolgens aan het model voert, bepalen de gebruikskosten. Dus; hoe meer tokens je stuurt naar het model, hoe duurder het wordt.

OpenAI

De tokenizer gebruikt voor de GPT-modellen van OpenAI zijn geoptimaliseerd voor de Engelse taal. Dit houdt in dat deze, bijvoorbeeld door het feit dat de tokenizer gebaseerd is op meer Engelse teksten, Engelse zinnen opsplitsen in grotere delen omdat de woorden in deze zinnen vaker voorkomen in de training data van de tokenizer.

Dit wil niet zeggen dat het model slechter is in het interpreteren van Nederlandse tekstinput, maar het zegt vooral iets over de efficiëntie ervan en dat deze gewoonweg het meest in het Engels getraind is.

Hoe ziet dit er in de praktijk uit?

Om te illustreren wat het verschil is in een Nederlandse en een Engelse tekst die zijn omgezet in tokens, hebben we in twee teksten met kleuren aangegeven wat het verschil is. Ieder gekleurd blokje is één token:

Een Engelse tekst tokenized, gevisualiseerd met kleuren.
Een Nederlandse tekst tokenized, gevisualiseerd met kleuren.

Zijn tokens het enige wat van toepassing is op de kosten?

In de basis zijn tokens hetgeen waarop een prijs van een request naar het model wordt gebaseerd. Hoe OpenAI echter werkt, is dat tijdens een sessie of chatgesprek ook de context van het gesprek wordt bijgehouden. Iedere keer dat een chat dus een volgende berichtwisseling nodig heeft, wordt dus in beide gevallen (dus zowel bij de vraag als het antwoord) de gehele opgebouwde context uit die sessie weer meegenomen. Het is dus van belang dat OpenAI uiteraard zo snel mogelijk tot een goed antwoord komt. Niet alleen vanwege de gebruikerservaring, maar ook de kosten.

Wat kan (open)AI voor mijn organisatie betekenen?

AI kent veel toepassingen, waarvan de bekendste op dit moment ChatGPT is. De kracht van AI in jouw organisatie valt of staat met de kwaliteit van je data. Binnen een software onderzoek kijken we altijd naar alle mogelijkheden. Wij kijken graag met je mee wat voor mogelijkheden er zijn voor jouw organisatie!

Bram Wenting

Bram Wenting is mede-eigenaar van SST Software en SST Labs. Lees zijn blogs.

Volg Bram

welkom oplossing

Cookies zijn nodig voor het contact-formulier. Toon cookiemelding

velden gemarkeerd met een * zijn verplicht