Data Science
van binnen.

Drie lagen diepgang. Van onze open datasets via de API, naar hoe taalmodellen gewichten vormen, tot de wiskundige structuur die AI-kennis mogelijk maakt.

Sectie A

Open datasets via
de MeAndAI API's

Wij delen een selectie datasets via onze publieke API's. Altijd geanonimiseerd, nooit tot personen herleidbaar, nooit met persoonsgegevens. De data gaat over kennis, vaardigheden, regio's en systemen — niet over mensen.

🔒

Privacy by design — zonder uitzonderingen

Geen van onze gedeelde datasets bevat persoonsgegevens. Geen namen, geen adressen, geen BSN-nummers, geen e-mailadressen, geen IP-adressen, geen combinaties die tot een individu te herleiden zijn. De data is geconstrueerd op aggregaat- of categorieniveau. Dit is geen juridische voorzorg — het is een principekeuze.

Wil je weten welke datasets beschikbaar zijn en hoe de API werkt? Zie de Developer Portal →

✓ Anoniem · Geen persoonsdata

STRATA — Geo & commercieel

Geografische en commerciële data van Zuid-Limburg. Geologische lagen, locatietype-classificaties, regionale economische indicatoren. Geen adressen van individuen, geen herleidbare kenmerken.

GeoJSON REST Aggregaatdata
✓ Anoniem · Geen persoonsdata

HKI — Human Knowledge Index

Gestructureerde kennisindices per domein en sector. Welke kennis bestaat, hoe die samenhangt, en hoe diep een domein is uitgewerkt. Geen individuele kennisprofielen.

JSON Categorisch Domeingebonden
✓ Anoniem · Geen persoonsdata

HSI — Human Skill Index

Gestandaardiseerde vaardigheidstaxonomie. Welke skills bestaan, hoe ze zich verhouden, welke combinaties relevant zijn voor welke rollen. Geen individuele profielen, geen matchingsdata.

JSON Taxonomisch Genormaliseerd
✓ Anoniem · Geen persoonsdata

MSI — Machine Skill Index

Capability-beschrijvingen van AI-systemen en -modellen. Wat een systeem kan, in welke domeinen, met welke beperkingen. Geen gebruikersdata, geen interactiegeschiedenissen.

JSON Capability-scores Modelneutraal

Sectie B

Gewichten, taalmodellen
& hoe AI leert lezen

🎈 Eerst in gewone taal

Stel je voor dat je een enorm kruiswoordpuzzelboek hebt doorgespit.

Na elk puzzelboek leer je bepaalde woorden sterker te associëren met anderen. "Appel" roept "fruit" op. "Neuron" roept "hersenen" op. Hoe vaker je een combinatie tegenkomt, hoe sterker de koppeling.

Een taalmodel doet precies dit — maar dan met miljarden zinnen tegelijk, en met getallen in plaats van gevoel. Die getallen zijn de gewichten. Ze zeggen hoe sterk twee concepten aan elkaar gekoppeld zijn, hoe belangrijk een bepaald woord is in een bepaalde context, en welk woord het meest waarschijnlijk volgt.

Een AI-model is in essentie een gigantische verzameling van miljarden van zulke gewichten. Wanneer je een vraag stelt, rekent het model op basis van die gewichten uit welke tekst het meest zinvolle antwoord oplevert.

Van ruwe tekst naar AI-leesbare kennismodule

1

Ruwe tekst — alles wat er is

Boeken, websites, wetenschappelijke papers, code. Miljarden zinnen in tientallen talen. De grondstof.

2

Tokenisatie — tekst wordt nummers

Elke zin wordt geknipt in stukjes (tokens) — woorden, woorddelen of leestekens. Elk token krijgt een uniek getal. "Hond" wordt 4721. "loopt" wordt 9043. De computer ziet alleen nummers.

3

Embeddings — betekenis als positie in ruimte

Elk token-getal wordt omgezet naar een lange reeks getallen (een vector) die zijn betekenis representeert. Woorden met vergelijkbare betekenis liggen dicht bij elkaar in deze wiskundige ruimte. "Koning" en "koningin" staan dicht bij elkaar. "Steen" staat ver weg.

4

Neurale lagen — context verwerken

De embeddings stromen door lagen van kunstmatige neuronen. Elke laag verfijnt het begrip: niet alleen welk woord, maar in welke context, met welke bedoeling, na welke andere woorden. Dit zijn de transformer-lagen van moderne taalmodellen.

5

Gewichten — de geleerde kennis

Door training op miljarden voorbeelden worden de verbindingssterkteparameters in het netwerk bijgesteld via backpropagation. Het resultaat: een vaste verzameling gewichten die alle geleerde kennis vasthoudt. Dit zijn de modelgewichten — een bestand van vaak 10–100+ GB.

AI-leesbare kennismodule

Het getrainde model is een compacte maar rijke representatie van taalpatronen en kennisrelaties. Combineer dit met MERRADT-gestructureerde data via RAG, en je hebt een systeem dat niet alleen taal begrijpt maar ook jouw specifieke context kent.

Hoe een embedding eruitziet (sterk vereenvoudigd)

-- Het woord "Pinot Noir" als embedding vector (768 dimensies in werkelijkheid)
"Pinot Noir" → [
  0.423, // sterk verwant aan: wijn
  0.381, // sterk verwant aan: rood
  0.298, // verwant aan: Bourgondisch
  0.071, // zwak verwant aan: voedsel
  -0.183, // tegenstelling aan: wit
  ... 763 meer dimensies ...
]

-- Cosine similarity: hoe dicht staan twee woorden bij elkaar?
similarity("Pinot Noir", "Merlot") → 0.89 // dicht bij elkaar
similarity("Pinot Noir", "betonmixer") → 0.04 // ver van elkaar

Sectie C — Hardcore

Tensoren &
multi-axiale visualisatie

Dit is de wiskundige kern van moderne AI. Geen vereiste kennis — maar wie dit begrijpt, begrijpt waarom AI meer is dan een slimme zoekmachine.

Van getal naar tensor: vier niveaus

Rang 0 — Scalar 1 getal

Één enkel getal. Temperatuur: 21°C. Gewicht: 0.423. Geen richting, geen dimensie. Een punt.

7
Rang 1 — Vector 1 as, n getallen

Een rij getallen met één richting. Een embedding is een vector. Elke dimensie zegt iets over een eigenschap van het woord.

[0.42, 0.38, -0.18, 0.07]
Rang 2 — Matrix 2 assen, rijen × kolommen

Een tabel van getallen. De gewichtenmatrix van één neurale laag is een matrix. Elke rij = één neuron. Elke kolom = één input. Matrix-vermenigvuldiging is de basisoperatie van deep learning.

[[0.42, 0.38], [0.71, -0.23], [0.05, 0.91]]
Rang 3+ — Tensor n assen, n dimensies

Een tensor is een matrix die meer dan twee dimensies heeft. Een batch van 32 zinnen, elk met 512 tokens, elk met een embedding van 768 dimensies, is een tensor van vorm [32 × 512 × 768]. Dit is de data die door een transformer stroomt.

Visueel: een 3D-tensor

As 1: tokens (512) As 2: embeddings (768) As 3: batch (32) 0.42 -0.18 0.71 ... 0.38 0.95 -0.44 Tensor: [32 × 512 × 768]

Wat je hier ziet: 32 zinnen tegelijk (batch), elk opgedeeld in 512 tokens, elk token beschreven door 768 getallen. In totaal: 32 × 512 × 768 = 12.582.912 getallen — voor één stap in het model.

Multi-axiale visualisatie — wat betekent het?

Een mens ziet drie dimensies. Een tensor heeft er tientallen tot honderden. Multi-axiale visualisatie is de techniek om hogerdimensionale data toch begrijpelijk te maken door projecties, kleurcodering en dimensiereductie.

Techniek 1

t-SNE / UMAP projectie

768-dimensionale embeddings worden geprojecteerd op een 2D-vlak. Woorden die dicht bij elkaar liggen in de hoge-dimensionale ruimte, liggen ook dicht bij elkaar in de projectie. Dit maakt clusters zichtbaar.

Techniek 2

Attention heatmaps

In transformer-modellen bepaalt het attention-mechanisme welke tokens op welke andere tokens letten. Een heatmap over een matrix van [token × token] maakt zichtbaar welke woorden cruciaal zijn voor de betekenis van andere woorden.

Techniek 3 — MERRADT

8-dimensioneel object-portret

MERRADT is zelf een multi-axiale beschrijving: elk object heeft 8 assen (M-E-R-R-A-D-T). De combinatie van alle 8 waarden geeft een unieke positie in een 8-dimensionale ruimte — de "vingerafdruk" van het object.

Waarom dit relevant is voor MeAndAI: Wanneer SAGAN een vraag beantwoordt via RAG, vergelijkt het systeem de vraag-embedding met alle object-embeddings in de database via vector-similariteit — een operatie die plaatsvindt in een ruimte van honderden dimensies. Multi-axiale visualisatie helpt ons begrijpen waarom het model bepaalde objecten relevant vindt en andere niet. Het is de debugtool van AI die zichzelf begrijpt.

Verder verdiepen

Bouw op dit fundament

Toegang tot de API's, technische documentatie en developer support.