Asistente IA · LLM Local

Jarvis — Asistente Local

Asistente IA personal 100% local con Ollama, interfaz web y contexto persistente. Tus conversaciones en tu servidor. Sin enviar ni una palabra a la nube.

python ollama llama 3 fastapi docker

100%

Local

0€

API cost

<2s

Respuesta

Multi

Modelos

El Reto

La IA que usas
te lee mientras hablas.

Cada prompt enviado a ChatGPT o Claude es entrenamiento potencial. Cada pregunta sobre tu código, tu empresa, tus ideas: datos que se van. Además, los costes de API se acumulan rápido en uso intensivo diario.

El reto era construir un asistente con la misma calidad conversacional que los servicios cloud, pero completamente local. Sin latencia de red. Sin coste recurrente. Sin que nadie lea tus conversaciones.

Los mejores modelos open-source
ya no tienen nada que envidiar a GPT-3.5.

La llegada de LLaMA 3 y Mistral cambió la ecuación. Con hardware consumer modesto, la inferencia local es práctica y rápida. Solo hacía falta envolverlo bien.

Arquitectura

Ollama en el fondo.
FastAPI en el medio.
Web en la palma.

Ollama gestiona la descarga, cuantización y servicio de modelos localmente. Expone una API REST compatible con el formato OpenAI. FastAPI actúa como wrapper: añade gestión de contexto, historial de conversación y autenticación básica.

// pipeline de inferencia

Entrada

Web UI

Interfaz chat local

→

API Gateway

FastAPI

Contexto + historial

→

Inferencia

Ollama

LLaMA 3 / Mistral

→

Respuesta

Streaming

Token a token

live

El historial de conversación se persiste en SQLite. Cada sesión mantiene contexto entre peticiones. La selección de modelo es dinámica: LLaMA 3 para conversación general, CodeLlama para código y Mistral para análisis de documentos.

Modelos

Cada modelo,
su tarea.

No todos los LLMs son iguales. La clave de un asistente útil es elegir el modelo adecuado para cada caso de uso. Ollama hace que el cambio entre modelos sea transparente.

modelo 01

LLaMA 3 8B

Conversación general, brainstorming, redacción. Equilibrio velocidad/calidad inmejorable.

modelo 02

Mistral 7B

Análisis de documentos, resúmenes, razonamiento donde importa la precisión sobre la velocidad.

modelo 03

CodeLlama 13B

Generación y revisión de código. Soporta 20+ lenguajes con bloques de código formateados.

modelo 04

Phi-3 Mini

Tareas rápidas y ligeras. 3.8B parámetros, respuestas en menos de 1 segundo en hardware local.

Resultado

Uso diario.
Cero factura. Cero arrepentimiento.

Jarvis lleva más de 6 meses en producción como herramienta de trabajo diaria. El tiempo de respuesta medio con LLaMA 3 es de 1.4 segundos en el hardware del homelab. Para CodeLlama, alrededor de 2.1 segundos por respuesta completa.

El ahorro mensual estimado frente a una suscripción ChatGPT Plus: 20€/mes. Amortizado en menos de tres meses. Y la privacidad no tiene precio.

Historial persistente entre sesiones con SQLite
Acceso desde cualquier dispositivo via Tailscale
Integración con n8n para automatización de tareas repetitivas
Streaming de tokens para respuesta percibida instantánea

Python Ollama LLaMA 3 Mistral 7B CodeLlama FastAPI SQLite Docker

← Volver Todos los proyectos IT ↗ Siguiente Proyecto · IT Stack de Monitorización →

Jarvis — Asistente Local

La IA que usaste lee mientras hablas.

Ollama en el fondo.FastAPI en el medio.Web en la palma.

Cada modelo,su tarea.