Drie lagen diepgang. Van onze open datasets via de API, naar hoe taalmodellen gewichten vormen, tot de wiskundige structuur die AI-kennis mogelijk maakt.
Sectie A
Wij delen een selectie datasets via onze publieke API's. Altijd geanonimiseerd, nooit tot personen herleidbaar, nooit met persoonsgegevens. De data gaat over kennis, vaardigheden, regio's en systemen — niet over mensen.
Geen van onze gedeelde datasets bevat persoonsgegevens. Geen namen, geen adressen, geen BSN-nummers, geen e-mailadressen, geen IP-adressen, geen combinaties die tot een individu te herleiden zijn. De data is geconstrueerd op aggregaat- of categorieniveau. Dit is geen juridische voorzorg — het is een principekeuze.
Wil je weten welke datasets beschikbaar zijn en hoe de API werkt? Zie de Developer Portal →
Geografische en commerciële data van Zuid-Limburg. Geologische lagen, locatietype-classificaties, regionale economische indicatoren. Geen adressen van individuen, geen herleidbare kenmerken.
Gestructureerde kennisindices per domein en sector. Welke kennis bestaat, hoe die samenhangt, en hoe diep een domein is uitgewerkt. Geen individuele kennisprofielen.
Gestandaardiseerde vaardigheidstaxonomie. Welke skills bestaan, hoe ze zich verhouden, welke combinaties relevant zijn voor welke rollen. Geen individuele profielen, geen matchingsdata.
Capability-beschrijvingen van AI-systemen en -modellen. Wat een systeem kan, in welke domeinen, met welke beperkingen. Geen gebruikersdata, geen interactiegeschiedenissen.
Sectie B
Na elk puzzelboek leer je bepaalde woorden sterker te associëren met anderen. "Appel" roept "fruit" op. "Neuron" roept "hersenen" op. Hoe vaker je een combinatie tegenkomt, hoe sterker de koppeling.
Een taalmodel doet precies dit — maar dan met miljarden zinnen tegelijk, en met getallen in plaats van gevoel. Die getallen zijn de gewichten. Ze zeggen hoe sterk twee concepten aan elkaar gekoppeld zijn, hoe belangrijk een bepaald woord is in een bepaalde context, en welk woord het meest waarschijnlijk volgt.
Een AI-model is in essentie een gigantische verzameling van miljarden van zulke gewichten. Wanneer je een vraag stelt, rekent het model op basis van die gewichten uit welke tekst het meest zinvolle antwoord oplevert.
Boeken, websites, wetenschappelijke papers, code. Miljarden zinnen in tientallen talen. De grondstof.
Elke zin wordt geknipt in stukjes (tokens) — woorden, woorddelen of leestekens. Elk token krijgt een uniek getal. "Hond" wordt 4721. "loopt" wordt 9043. De computer ziet alleen nummers.
Elk token-getal wordt omgezet naar een lange reeks getallen (een vector) die zijn betekenis representeert. Woorden met vergelijkbare betekenis liggen dicht bij elkaar in deze wiskundige ruimte. "Koning" en "koningin" staan dicht bij elkaar. "Steen" staat ver weg.
De embeddings stromen door lagen van kunstmatige neuronen. Elke laag verfijnt het begrip: niet alleen welk woord, maar in welke context, met welke bedoeling, na welke andere woorden. Dit zijn de transformer-lagen van moderne taalmodellen.
Door training op miljarden voorbeelden worden de verbindingssterkteparameters in het netwerk bijgesteld via backpropagation. Het resultaat: een vaste verzameling gewichten die alle geleerde kennis vasthoudt. Dit zijn de modelgewichten — een bestand van vaak 10–100+ GB.
Het getrainde model is een compacte maar rijke representatie van taalpatronen en kennisrelaties. Combineer dit met MERRADT-gestructureerde data via RAG, en je hebt een systeem dat niet alleen taal begrijpt maar ook jouw specifieke context kent.
Sectie C — Hardcore
Dit is de wiskundige kern van moderne AI. Geen vereiste kennis — maar wie dit begrijpt, begrijpt waarom AI meer is dan een slimme zoekmachine.
Één enkel getal. Temperatuur: 21°C. Gewicht: 0.423. Geen richting, geen dimensie. Een punt.
Een rij getallen met één richting. Een embedding is een vector. Elke dimensie zegt iets over een eigenschap van het woord.
Een tabel van getallen. De gewichtenmatrix van één neurale laag is een matrix. Elke rij = één neuron. Elke kolom = één input. Matrix-vermenigvuldiging is de basisoperatie van deep learning.
Een tensor is een matrix die meer dan twee dimensies heeft. Een batch van 32 zinnen, elk met 512 tokens, elk met een embedding van 768 dimensies, is een tensor van vorm [32 × 512 × 768]. Dit is de data die door een transformer stroomt.
Wat je hier ziet: 32 zinnen tegelijk (batch), elk opgedeeld in 512 tokens, elk token beschreven door 768 getallen. In totaal: 32 × 512 × 768 = 12.582.912 getallen — voor één stap in het model.
Een mens ziet drie dimensies. Een tensor heeft er tientallen tot honderden. Multi-axiale visualisatie is de techniek om hogerdimensionale data toch begrijpelijk te maken door projecties, kleurcodering en dimensiereductie.
Techniek 1
768-dimensionale embeddings worden geprojecteerd op een 2D-vlak. Woorden die dicht bij elkaar liggen in de hoge-dimensionale ruimte, liggen ook dicht bij elkaar in de projectie. Dit maakt clusters zichtbaar.
Techniek 2
In transformer-modellen bepaalt het attention-mechanisme welke tokens op welke andere tokens letten. Een heatmap over een matrix van [token × token] maakt zichtbaar welke woorden cruciaal zijn voor de betekenis van andere woorden.
Techniek 3 — MERRADT
MERRADT is zelf een multi-axiale beschrijving: elk object heeft 8 assen (M-E-R-R-A-D-T). De combinatie van alle 8 waarden geeft een unieke positie in een 8-dimensionale ruimte — de "vingerafdruk" van het object.
Waarom dit relevant is voor MeAndAI: Wanneer SAGAN een vraag beantwoordt via RAG, vergelijkt het systeem de vraag-embedding met alle object-embeddings in de database via vector-similariteit — een operatie die plaatsvindt in een ruimte van honderden dimensies. Multi-axiale visualisatie helpt ons begrijpen waarom het model bepaalde objecten relevant vindt en andere niet. Het is de debugtool van AI die zichzelf begrijpt.
Verder verdiepen
Toegang tot de API's, technische documentatie en developer support.