Asistente IA · LLM Local
Jarvis — Asistente Local
Asistente IA personal 100% local con Ollama, interfaz web y contexto persistente. Tus conversaciones en tu servidor. Sin enviar ni una palabra a la nube.
La IA que usas
te lee mientras hablas.
Cada prompt enviado a ChatGPT o Claude es entrenamiento potencial. Cada pregunta sobre tu código, tu empresa, tus ideas: datos que se van. Además, los costes de API se acumulan rápido en uso intensivo diario.
El reto era construir un asistente con la misma calidad conversacional que los servicios cloud, pero completamente local. Sin latencia de red. Sin coste recurrente. Sin que nadie lea tus conversaciones.
Los mejores modelos open-source
ya no tienen nada que envidiar a GPT-3.5.
La llegada de LLaMA 3 y Mistral cambió la ecuación. Con hardware consumer modesto, la inferencia local es práctica y rápida. Solo hacía falta envolverlo bien.
Ollama en el fondo.
FastAPI en el medio.
Web en la palma.
Ollama gestiona la descarga, cuantización y servicio de modelos localmente. Expone una API REST compatible con el formato OpenAI. FastAPI actúa como wrapper: añade gestión de contexto, historial de conversación y autenticación básica.
El historial de conversación se persiste en SQLite. Cada sesión mantiene contexto entre peticiones. La selección de modelo es dinámica: LLaMA 3 para conversación general, CodeLlama para código y Mistral para análisis de documentos.
Cada modelo,
su tarea.
No todos los LLMs son iguales. La clave de un asistente útil es elegir el modelo adecuado para cada caso de uso. Ollama hace que el cambio entre modelos sea transparente.
LLaMA 3 8B
Conversación general, brainstorming, redacción. Equilibrio velocidad/calidad inmejorable.
Mistral 7B
Análisis de documentos, resúmenes, razonamiento donde importa la precisión sobre la velocidad.
CodeLlama 13B
Generación y revisión de código. Soporta 20+ lenguajes con bloques de código formateados.
Phi-3 Mini
Tareas rápidas y ligeras. 3.8B parámetros, respuestas en menos de 1 segundo en hardware local.
Uso diario.
Cero factura. Cero arrepentimiento.
Jarvis lleva más de 6 meses en producción como herramienta de trabajo diaria. El tiempo de respuesta medio con LLaMA 3 es de 1.4 segundos en el hardware del homelab. Para CodeLlama, alrededor de 2.1 segundos por respuesta completa.
El ahorro mensual estimado frente a una suscripción ChatGPT Plus: 20€/mes. Amortizado en menos de tres meses. Y la privacidad no tiene precio.
- Historial persistente entre sesiones con SQLite
- Acceso desde cualquier dispositivo via Tailscale
- Integración con n8n para automatización de tareas repetitivas
- Streaming de tokens para respuesta percibida instantánea