AI in je product. Goed gedaan.
RAG-systemen, agentic workflows, on-prem LLM-serving, function-calling pipelines. We bouwen AI-features die overeind blijven in productie — geen demos die overeind blijven op Twitter.
Als de AI breekt, werkt jouw product nog steeds.
RAG over je eigen data
pgvector of Qdrant, chunking die het document respecteert, citaten bij elk antwoord, evaluation harnesses zodat je weet wanneer retrieval verslechtert. Geen vendor lock-in op een managed vector DB die je niet kunt auditen.
Agentic workflows die niet eeuwig doorlopen
Tool-using agents met budgetten, timeouts, escape hatches, en een audit log van elke call. We gebruiken Anthropic's Claude met MCP-servers, OpenAI's tool-calling, of welke vorm dan ook bij de klus past.
On-prem LLM serving
vLLM op jouw GPUs, model-selectie, quantisatie, batching, observability. Voor gereguleerde sectoren die geen klantdata naar OpenAI mogen sturen of als de volumes te hoog worden om dat economisch te doen.
De saaie delen van AI-ops
Prompt-versiebeheer, eval harnesses op echte productie-traffic, regressiedetectie, prompt-injection-verdediging, PII-redactie. Het verschil tussen "ooit gedemonstreerd" en "twee jaar lang in productie gedraaid".
Het is een telefoongesprek. Erger dan dat kan het niet worden.
Geen discovery-deck. Geen 45-minuten "kwalificatiegesprek." 30 minuten, jouw probleem, mijn mening. Als we een fit zijn weet je dat in minuut 12.