Ka0s: Ollama dividido (Gen vs Embed)

El error más común cuando montas un sistema RAG en producción es asumir que “un solo endpoint de modelos” lo resuelve todo.

En cuanto metes ingesta real (bases de datos, miles/millones de chunks), embeddings se comen la cola y la generación se degrada.

Separar para proteger la experiencia

En Ka0s lo resolvemos con dos servicios:

Rationale documentado: core/docs/ka0s_agent_knowledge_pipeline/01_concept.md.

Online (Query):

Offline (Ingesta):

Mañana: cómo hacemos incrementalidad sin depender de “magia”: estado persistente, watermarks y control de volumen.

Tags: post ka0s ollama ai kubernetes performance