
ChatGPT acapara toda la atención con sus 180 millones de usuarios. Mientras tanto, más de la mitad del mercado de LLM se ejecuta on-premises. No es un error tipográfico. Más organizaciones confían en modelos de lenguaje de código abierto que puedes poseer, modificar y controlar, en lugar de APIs propietarias que te obligan a alquilar mes tras mes.
Desde principios de 2023, los lanzamientos de modelos de código abierto casi se han duplicado en comparación con las alternativas de código cerrado. Las empresas se cansaron de ver cómo sus facturas de API se disparaban mientras los proveedores cambiaban las estructuras de precios de forma arbitraria. Querían vías de escape. Las consiguieron.
Esta guía elimina el ruido del marketing. Examinaremos los principales LLM de código abierto que realmente importan en 2026, compararemos su rendimiento en el mundo real y te mostramos cómo desplegarlos usando Ollama y LangChain sin quemar tu presupuesto de infraestructura.
Visión General de los Modelos LLM de Código Abierto
Los modelos LLM de código abierto vienen en dos variantes: modelos base y variantes ajustadas (ajuste fino). Los modelos base conocen los patrones del lenguaje. Los modelos ajustados siguen instrucciones. Necesitarás estos últimos para cualquier cosa útil.
El ecosistema abarca desde modelos de 1B de parámetros que se ejecutan en tu móvil hasta monstruos de 670B parámetros que requieren varias GPU H100. El tamaño importa en este contexto de una manera inesperada. Un modelo de 7B bien ajustado a menudo supera a uno de 70B mal configurado. El contexto importa más que la cantidad bruta de parámetros.
Este artículo se centra en modelos disponibles a través de Ollama porque el despliegue manual hace perder tiempo. ¿Por qué pasar tres días peleándote con entornos de Python cuando Ollama lo gestiona en tres comandos? Cada modelo aquí funciona con flujos de trabajo estándar. No necesitas hardware especial.
Las opciones de despliegue se dividen en tres grupos: en local para los fanáticos de la privacidad de los datos, en la nube para los entusiastas de la escalabilidad e híbrido para quienes no pueden decidirse. Elige en función de tus requisitos de cumplimiento, no del ruido publicitario de los proveedores. HIPAA exige en local. ¿Todo lo demás? Tú decides.
Ventajas y Desventajas de los LLM de Código Abierto
Es tuyo. Esa es la ventaja de los LLM que todo el mundo dice querer hasta que se da cuenta de que ser propietario implica responsabilidad. Ningún proveedor puede descatalogar tu modelo, cambiar los precios o cerrar tu acceso a la API. Tú controlas los datos de entrenamiento, el proceso de ajuste fino y la infraestructura de despliegue.
El ajuste fino funciona mejor con modelos de código abierto porque puedes ajustar hiperparámetros que los desarrolladores originales nunca expusieron. Las contribuciones de la comunidad ayudan a acelerar este proceso. Alguien ya resolvió tu problema de optimización; solo necesitas encontrar su repositorio en GitHub.
Los costes se vuelven previsibles. En lugar de ver cómo los precios basados en el uso se disparan durante la semana de lanzamiento, pagas por servidores. Los costes fijos superan a las pesadillas variables. A tu CFO le encantará. Puede que a tu equipo de infraestructura no tanto.
Aquí está lo que nadie menciona: la calidad va por detrás de GPT-4 y Claude. Los equipos de código abierto no cuentan con presupuestos de entrenamiento de miles de millones de dólares. Lo compensan con arquitecturas ingeniosas y esfuerzo de la comunidad, pero ¿el rendimiento puro? Los modelos cerrados siguen ganando en la mayoría de los benchmarks.
La seguridad se complica cuando los pesos del modelo residen en tus servidores. Los atacantes pueden sondear vulnerabilidades sin límites de velocidad. La inyección de prompts, el envenenamiento de datos y los ataques de inversión de modelos se vuelven más fáciles. Tú eres responsable de la defensa. No hay ningún equipo de seguridad al que llamar cuando algo falla.
Las licencias varían enormemente. Apache 2.0 significa «haz lo que quieras». La licencia Llama de Meta añade restricciones comerciales a gran escala. Algunos modelos prohíben por completo el uso comercial. Lee la letra pequeña o tus abogados la leerán por ti más adelante.
Comparación de LLM de Código Abierto
No existe el mejor LLM de código abierto. Quien afirme lo contrario está vendiendo algo. El modelo adecuado depende de tu caso de uso, tu hardware y tu tolerancia a depurar a las 2 de la mañana.
Los benchmarks mienten. No de forma intencionada, pero miden tareas sintéticas que no coinciden con el trabajo real. Las puntuaciones de MMLU (Massive Multitask Language Understanding) importan menos que el hecho de que tu chatbot deje de alucinar nombres de clientes. La clasificación de LLM de código abierto de Hugging Face ejecuta seis pruebas estandarizadas. Esto es útil para comparar manzanas con manzanas, pero inútil para predecir el rendimiento en producción.
La clasificación acepta envíos de cualquiera, lo que democratiza la evaluación e incentiva la manipulación de métricas. Los modelos se optimizan para el rendimiento en benchmarks en lugar de para un comportamiento útil. Ya hemos visto esta película antes con ImageNet.
Prueba con tus datos reales. Ejecuta el modelo con consultas representativas. Mide la latencia bajo carga. Cuenta las alucinaciones por cada mil respuestas. Los benchmarks sintéticos no te dirán si el modelo funciona para tu escenario de pesadilla específico.
Llama 4: Modelo de IA de Propósito General
Meta lanzó Llama 4 en abril de 2025, y es una bestia diferente a todo lo anterior. Toda la arquitectura cambió a mezcla de expertos (MoE). Tienes dos modelos que realmente puedes descargar hoy: Scout y Maverick.
Scout ejecuta 17 mil millones de parámetros activos extraídos de un total de 109 mil millones repartidos entre 16 expertos. Cabe en una sola H100. Cuantízalo a int4 y estarás ejecutando inferencia seria sin pedir una segunda hipoteca para tu rack. La ventana de contexto de 10 millones de tokens suena increíble sobre el papel. Las pruebas de aguja en un pajar se superan. ¿Recuperación de documentos en el mundo real? Tu experiencia puede variar. Meta no ha publicado evaluaciones más allá de lo básico.
Maverick es la opción más pesada. Los mismos 17B de parámetros activos, pero 400B en total repartidos entre 128 expertos, con un límite de ventana de contexto de 1 millón. Meta utiliza este modelo internamente para WhatsApp, Messenger e Instagram. Los benchmarks muestran que supera a GPT-4o y Gemini 2.0 Flash. Hay un inconveniente. Meta envió a LMArena una «versión experimental de chat optimizada para la conversacionalidad» que difiere de la que realmente descargas. La comunidad notó que el modelo de producción se comporta de manera diferente. Toma esas cifras de benchmarks con el escepticismo adecuado.
Este coloso existe en algún lugar del clúster de entrenamiento de Meta. Afirman que tiene 288B de parámetros activos y aproximadamente 2 billones en total. No está disponible. No planifiques en torno a ello.
Los modelos ahora son multimodales de forma nativa: texto e imágenes como entrada, y texto como salida. Entrenados con datos que cubren 200 idiomas, con soporte de ajuste fino para 12: árabe, inglés, francés, alemán, hindi, indonesio, italiano, portugués, español, tagalo, tailandés y vietnamita. Sin embargo, los usuarios europeos se llevan una sorpresa desagradable. Las capacidades de visión están bloqueadas en la UE por la política de uso aceptable de Meta. Por lo tanto, lee los términos antes de desplegarlo.
Llama Guard se encarga del filtrado de seguridad de las entradas y salidas. Prompt Guard detecta intentos de jailbreak y de inyección de prompts. CyberSecEval ejecuta evaluaciones de seguridad. Todo suena razonable sobre el papel de las especificaciones. Los ataques obvios se detectan, pero los más sutiles se cuelan: la historia de siempre con las herramientas de seguridad.
La licencia sigue siendo de «pesos abiertos», no de código abierto. La Licencia Comunitaria de Llama 4 permite el uso comercial si estás por debajo de los 700 millones de usuarios activos mensuales. Ese umbral impide que Microsoft y OpenAI construyan productos competidores sobre el trabajo de Meta, pero tu startup está bien. Estás obligado a añadir la leyenda «Built with Llama» en los productos comerciales y tus derivados heredan las restricciones de la licencia. Mientras tanto, DeepSeek se distribuye bajo licencia MIT sin ninguna obligación posterior. Algo que tener en cuenta al elegir tu modelo base.
Mistral AI: Soluciones de LLM en Dispositivo
La startup francesa Mistral AI pasó de cero a actor principal en 18 meses. Sus modelos de 3B y 8B se ejecutan en teléfonos. Se ejecutan de verdad, no del tipo «técnicamente posible pero inutilizable». Los tiempos de respuesta se mantienen por debajo de los 500 ms en hardware reciente.
Los modelos Ministral superan a las alternativas de tamaño similar de Google y Microsoft en la mayoría de los benchmarks. La arquitectura Mixture-of-Experts activa solo las partes necesarias de la red; esto reduce los costes sin sacrificar calidad. En teoría. En la práctica, aparecen los compromisos habituales entre velocidad y precisión.
La llamada a funciones nativa funciona sin prompts especiales: el LLM de Mistral entiende el uso de herramientas desde el primer momento. Los modelos competidores necesitan una ingeniería de prompts más elaborada para lograr los mismos resultados. Esta funcionalidad importa más que las puntuaciones de benchmarks cuando se construyen agentes.
Las ventanas de contexto alcanzan los 128k tokens en sus modelos más grandes. Útil para el análisis de documentos, pero excesivo para chatbots. La mayoría de las conversaciones no necesitan más de 8k tokens de contexto, a menos que tus usuarios escriban novelas como prompts.
La licencia se divide entre Apache 2.0 para los modelos pequeños y licencias comerciales para los modelos grandes. La empresa Mistral AI necesita ingresos. No se les puede culpar. Su estructura de niveles parece justa en comparación con alternativas que lo bloquean todo detrás de muros de pago.
Falcon 3: Despliegue de LLM con Recursos Limitados
El Instituto de Innovación Tecnológica de Abu Dabi creó Falcon 3 para ejecutarse en portátiles. No en portátiles gaming con tres tarjetas gráficas. Portátiles normales. El modelo de 3B se ejecuta cómodamente en un MacBook Air.
Entrenar con 14 billones de tokens cuesta mucho dinero. Aun así, TII lo gastó, duplicando el volumen de datos de su predecesor. Más datos de entrenamiento se correlacionan con un mejor razonamiento. Esta relación se mantiene hasta que deja de hacerlo. A partir de cierto punto, solo estás enseñando al modelo a memorizar Stack Overflow.
La variante Falcon3-Mamba utiliza State Space Models en lugar de transformers. Arquitectura diferente, resultados similares. Inferencia más rápida en secuencias largas. Peor rendimiento en secuencias cortas. Elige tu veneno según la longitud de entrada esperada.
El soporte multilingüe cubre inglés, francés, español y portugués. Cuatro idiomas superan el enfoque de Meta de fingir compatibilidad con cincuenta idiomas, donde la calidad se desploma en picado después del inglés. Las limitaciones honestas ayudan más que las capacidades falsas.
Gratuito para investigación y uso comercial bajo la Licencia TII Falcon. No hemos encontrado ninguna trampa oculta. Refrescante después de leer el documento legal de 12 páginas de Meta.
Google Gemma 3: Desarrollo Responsable de IA
Google creó Gemma 3 utilizando tecnología de Gemini 2.0. El modelo de 27B supera a Llama-405B, DeepSeek-V3 y o3-mini en los benchmarks de LMArena. Eso es un modelo de 27 mil millones de parámetros superando a algo quince veces más grande. La versión de 4B supera al modelo de 27B de la generación anterior. La física sigue existiendo, pero Google encontró una laguna mediante entrenamiento por destilación y una arquitectura de atención intercalada 5 a 1 que evita que la caché KV se dispare.
Cinco tamaños de modelo ahora: 270M, 1B, 4B, 12B y 27B. El diminuto 270M usa un 0,75 % de batería para 25 conversaciones en un Pixel 9 Pro. No escribirá tu novela, pero clasificará tickets de soporte sin derretir tu dispositivo edge. Los modelos de 4B en adelante son multimodales. Texto e imágenes. El modelo de 1B se mantiene solo de texto.
Las ventanas de contexto pasaron de 8K a 128K tokens. Eso son 30 imágenes de alta resolución, un libro de 300 páginas o una hora de vídeo en un solo prompt. Compatibilidad con más de 140 idiomas. La llamada a funciones viene integrada, así que puedes crear agentes reales en lugar de pesadillas encadenadas por prompts.
«Desarrollo responsable de IA» suena a marketing hasta que lees el informe técnico. Las pruebas internas de Google mostraron mejoras significativas en seguridad infantil, seguridad de contenidos y sesgos de representación en comparación con los modelos Gemma anteriores. Realizaron evaluaciones de aseguramiento sin filtros de seguridad para medir el comportamiento bruto del modelo. La mayoría de los laboratorios se saltan este trabajo aburrido. Entregar rápido vence a la seguridad, siempre.
ShieldGemma 2 filtra contenido de imágenes dañinas. Construido sobre la base de 4B, supera a LlavaGuard 7B, GPT-4o mini y al modelo base Gemma 3 en la detección de contenido sexualmente explícito, violento y peligroso. Le proporcionas políticas de seguridad personalizadas. Devuelve clasificaciones de sí/no con razonamiento. Mejor que nada, peor que una revisión humana, pero al menos escala. La eficacia sigue siendo el cuello de botella.
La compatibilidad con marcos de trabajo abarca Keras, JAX, PyTorch, Hugging Face y vLLM. En resumen: probablemente puedas hacerlo funcionar con tu stack actual. Probablemente. Tanto AMD con ROCm como NVIDIA han publicado optimizaciones. Gemma QAT te permite ejecutar el modelo de 27B en local sobre GPUs de consumo como la RTX 3090 mediante entrenamiento con cuantización consciente (quantization-aware training). Tu equipo gaming acaba de convertirse en un servidor de inferencia en producción. Eso sí, buena suerte explicando esa factura de electricidad.
Microsoft Phi-4: IA rentable y eficiente
Phi-4 de Microsoft demuestra que los modelos más pequeños, entrenados con mejores datos, superan a modelos más grandes entrenados con datos de baja calidad. La versión de 16B parámetros compite de tú a tú con alternativas de 70B en tareas de razonamiento. No en todas las tareas, solo en tareas de razonamiento.
La generación de datos sintéticos suele ser criticada porque enseña a los modelos a imitarse a sí mismos. Microsoft aplicó un filtrado agresivo, conservó solo ejemplos de alta calidad y logró resultados que, según las leyes de escalado, no deberían ser posibles. Al final, las leyes de escalado describen tendencias, no límites físicos.
La variante Phi-3.5 MoE activa solo 6,6B parámetros por entrada, a pesar de tener 42B parámetros en total. Tu servidor ve una carga de trabajo equivalente a un modelo de 7B. Tu benchmark muestra un rendimiento propio de un modelo de 42B. Al marketing le encanta este truco.
Las ventanas de contexto alcanzan los 128k tokens en Phi-3.5. Phi-4 bajó a 16k. Nadie lo notó porque 16k cubre el 99 % del uso real. El otro 1 % escribe artículos académicos como prompts.
La licencia Microsoft Research permite el uso comercial, pero con restricciones. Léela. Los abogados de Microsoft redactaron un lenguaje muy específico sobre las obras derivadas. Tus abogados también deberían leerla.
Command R: IA conversacional empresarial
Cohere creó Command R para empresas dispuestas a pagar por calidad. El modelo de 104B maneja el razonamiento complejo mejor que la mayoría de las alternativas. El modelo de 7B se ejecuta de forma local manteniendo un rendimiento aceptable. Elige en función de si valoras más la calidad o poder dormir tranquilo.
Las ventanas de contexto de 128k tokens permiten flujos RAG que funcionan de verdad. La mayoría de los modelos se ahogan con contextos largos. Command R los procesa sin alucinar referencias a documentos que nunca ha visto. Esta fiabilidad cuesta cómputo, pero merece la pena en aplicaciones donde la precisión importa.
El uso de herramientas funciona de forma nativa. El modelo entiende cuándo llamar a funciones, cómo interpretar los resultados y qué hacer cuando las APIs devuelven errores. Los competidores tratan el uso de herramientas como algo secundario, pero Cohere lo diseñó desde el inicio para ello.
La compatibilidad multilingüe cubre 23 idiomas, con niveles de calidad variables. El inglés y el francés funcionan muy bien. El tailandés y el vietnamita necesitan ayuda. Cohere documenta estas limitaciones en lugar de fingir que todos los idiomas reciben el mismo trato.
La licencia CC BY-NC 4.0 bloquea el uso comercial de los pesos abiertos. ¿Quieres vender software usando Command R? Paga Cohere. Es justo, entrenar modelos cuesta dinero.
StableLM: modelos para prototipado rápido
Stability AI lanzó StableLM para desarrolladores que necesitan código funcionando antes del viernes. El modelo de 1,6B entrenado con 2 billones de tokens supera a otras opciones por debajo de 2B. La velocidad importa durante el prototipado. La precisión importa en producción. StableLM está optimizado para lo primero.
Siete idiomas reciben soporte real: inglés, español, alemán, italiano, francés, portugués y neerlandés. Idiomas europeos. ¿Notas un patrón? Los datos de entrenamiento provienen de fuentes europeas y los resultados reflejan ese sesgo.
La capacidad de completar en medio permite predecir segmentos de código faltantes. Los modelos tradicionales solo continúan desde el final. Esta elección arquitectónica permite una mejor autocompletación de código. Los competidores de Cursor y Copilot deberían tomar nota.
Las variantes StableLM-Code se especializan en tareas de programación. StableLM-Japanese y StableLM-Arabic atienden mercados específicos. La especialización supera a la generalización cuando conoces bien tu dominio objetivo.
La licencia se divide entre las ediciones Community y Enterprise. Los proyectos pequeños lo usan gratis, mientras que los despliegues grandes pagan. Es un punto intermedio razonable entre lo completamente abierto y lo completamente cerrado.
StarCoder: un LLM destacado para programación
BigCode creó StarCoder para desarrolladores, por desarrolladores. El proceso de entrenamiento se documentó públicamente. Se listaron las fuentes del conjunto de datos y se abordaron las preocupaciones éticas antes del lanzamiento.
Más de 600 lenguajes de programación suena excesivo, y lo es, ya que la mayoría de los desarrolladores usan como máximo cinco lenguajes. Pero contar con soporte para Haskell y Fortran significa que los casos límite también quedan cubiertos. Alguien por ahí mantiene COBOL, y StarCoder también puede ayudarle.
El modelo de 15B iguala a competidores de 33B o más. El modelo de 3B iguala al antiguo StarCoder de 15B. Cada generación reduce el tamaño a la mitad manteniendo el rendimiento. Al final, la física interviene. Aún no hemos llegado a este punto.
La función de completar en medio funciona mejor que las alternativas porque StarCoder se entrenó específicamente para ello. Otros modelos añadieron el FIM como algo secundario. Las decisiones de arquitectura importan. Los objetivos de entrenamiento importan aún más.
Licencia Apache 2.0: úsalo como quieras. Crea productos comerciales. Entrena modelos derivados. BigCode entrega lo que otros proyectos solo prometen.
Yi Model: procesamiento de lenguaje bilingüe
01.AI creó Yi para el mercado chino. El soporte bilingüe inglés-chino funciona bien porque ambos idiomas recibieron la misma atención durante el entrenamiento. La mayoría de los modelos “multilingües” hablan inglés y un resto del mundo bastante roto. Yi maneja bien ambos idiomas.
Las ventanas de contexto de 200k tokens permiten procesar libros completos. Nunca usarás 200k tokens. Tus usuarios tampoco lo harán. Pero tener ese margen evita errores de truncamiento de contexto en 190k tokens cuando algún usuario pega Guerra y paz entero en tu chatbot.
Yi-1.5 mejoró sobre Yi-1.0 gracias a 500B tokens de preentrenamiento continuo. Mismo modelo base. Mejores datos significan mejores resultados. El ajuste fino importa menos de lo que la gente cree. La calidad de los datos importa más.
El rendimiento en matemáticas y programación mejoró en las versiones recientes; sin embargo, “mejoró” significa que pasó de malo a aceptable. Yi no reemplazará a GPT-4 para razonamiento complejo. Se encargará de tareas básicas sin hacerte quedar mal.
También tiene licencia Apache 2.0, sin restricciones: crea lo que quieras. Distribúyelo donde quieras. 01.AI busca más cuota de mercado que ingresos por licencias.
Qwen 3: programación y matemáticas multilingües
Qwen 3 de Alibaba abarca de 0,6B a 235B parámetros, combinando arquitecturas densas y MoE. El modelo insignia de 235B activa solo 22B parámetros por token. Obtienes una inferencia un 90 % más barata que ejecutar los 235B completos. Las matemáticas cuadran, aunque tus costes de producción no.
36 billones de tokens de entrenamiento esta vez, el doble que los que tenía la versión 2.5. Las ventanas de contexto alcanzan 128K en los modelos grandes y 32K en los pequeños. La actualización de julio de 2025 lo llevó a 1 millón de tokens si quieres procesar bases de código completas en un solo prompt. Buena suerte con tu presupuesto de GPU.
El modo de pensamiento híbrido es la verdadera novedad aquí. Un modelo alterna entre razonamiento paso a paso y respuestas instantáneas. Lo activas con una etiqueta en el prompt. Los problemas complejos reciben un razonamiento completo. Las preguntas simples no desperdician ciclos fingiendo pensar. He visto a equipos de DevOps reducir sus costes de inferencia dirigiendo las solicitudes según su complejidad, en lugar de ejecutar todo en modo de razonamiento.
Ahora son 119 idiomas. Eso es cuatro veces más que la lista de la versión 2.5. El inglés y el chino siguen funcionando mejor. El resto se encuentra en algún punto entre “realmente útil” y “simplemente interpreta el input de forma técnica”. Prueba tus pares de idiomas reales antes de prometer nada a los stakeholders.
Todos los tamaños usan Apache 2.0: ya no tienes que revisar qué modelo necesita qué licencia. Hazle ajuste fino, lánzalo comercialmente, no hace falta contratar a un abogado antes. Alibaba simplificó la situación legal desde la versión 2.5, y eso importa más que la mayoría de las mejoras de benchmarks cuando intentas desplegar algo.
La eficiencia del MoE es lo que hace que esto sea interesante para producción. Qwen3-30B-A3B cabe en una sola A100 de 80GB. Se ejecuta con 3B parámetros activos mientras iguala los benchmarks de Qwen-32B. Las capacidades de agente funcionan en ambos modos: llamadas a herramientas, automatización de navegador y ejecución de código incluidas. La variante de 30B obtiene 69,6 en Tau2-Bench, lo que la pone al nivel de modelos propietarios que cuestan dinero real para ejecutar.
DeepSeek V4: LLM eficiente a gran escala
DeepSeek V3.2 se lanzó con 685B parámetros totales, pero activa solo 37B por token. La arquitectura MoE hace el trabajo pesado aquí. Tu stack de inferencia ve un modelo de 37B. Los benchmarks muestran algo que supera a GPT-5 en tareas de razonamiento.
La verdadera novedad es la Atención Dispersa de DeepSeek (DSA): han reducido la complejidad de la atención de cuadrática a casi lineal. Ejecuta un prompt de 128k tokens en la V3.1 y verás cómo explota la memoria de tu GPU. Ejecuta el mismo en la V3.2 y, de hecho, cabe. Eso no es marketing vacío. Ese es un trabajo algorítmico que la mayoría de los laboratorios no toca, porque lanzar funciones es más llamativo que optimizar los detalles internos. DeepSeek hace ambas cosas.
La Atención Latente Multi‑cabeza comprime la caché KV sin afectar la calidad de tu salida. Combinado con DSA, la inferencia con contextos largos deja de ser un suplicio y empieza a ser predecible.
V3.2 viene en dos sabores. La variante Thinking estándar integra el razonamiento directamente en el uso de herramientas. Es el primer modelo de la línea en hacer eso. ¿Quieres crear un agente que tenga que pensar qué herramienta llamar? Ahora funciona. La variante Special elimina por completo el soporte de herramientas y lleva el razonamiento al máximo. Medallas de oro en la IMO 2025 y la IOI 2025. Programación competitiva y olimpiadas de matemáticas, resueltas por un modelo de pesos abiertos. Elige tu compromiso.
Los 128k de contexto manejan documentos largos. El inglés y el chino funcionan bien. ¿Otros idiomas? Usable, pero visiblemente más débil.
Ejecutarlo localmente significa usar H200 o B200. Incluso cuantizado a 4 bits, necesitas más de 350 GB de VRAM. Esto no es un modelo para portátil. vLLM y SGLang tienen soporte desde el día 0. Las imágenes Docker ya existen. Despliega si tienes el hierro necesario.
El precio de la API ronda los 0,28 USD/0,42 USD por millón de tokens de entrada/salida. Compáralo con lo que cobra Anthropic por Sonnet y las matemáticas se ponen interesantes rápidamente.
El código está cubierto por la licencia MIT. Los pesos del modelo usan la licencia de DeepSeek. Si el modelo genera menos de 1 M USD de ingresos anuales, el uso comercial es gratuito. Si es más que eso, habla con ellos. Términos claros superan leer 47 páginas de jerga legal preguntándote si le debes dinero a alguien.
Empezando con LangChain y Ollama
Ollama instala LLM locales sin tener que lidiar con un infierno de dependencias. Tres comandos. Listo. Esta simplicidad importa más que cualquier puntuación de benchmark. LangChain proporciona el pegamento entre los modelos y las aplicaciones.
La integración de IA en n8n permite crear flujos de trabajo de forma visual. A los desarrolladores no les gusta la programación visual… hasta que se acercan los plazos. Entonces, arrastrar y soltar supera escribir código repetitivo por centésima vez. La combinación LangChain + Ollama funciona con suficiente fiabilidad para producción.
Existen tres opciones de despliegue: modelos en Hugging Face con plan gratuito, Hugging Face Inference Endpoints para velocidad, u Ollama para control total. El plan gratuito funciona para prototipos. Los endpoints cuestan dinero de verdad, pero ofrecen rendimiento real. Ollama requiere gestionar tus propios servidores, pero elimina el encierro con proveedores.
Las capacidades de agente de IA en n8n permiten razonamiento en múltiples pasos. Los agentes llaman a herramientas, procesan los resultados y encadenan operaciones. Cuando funcionan, son mágicos. Cuando fallan, depurarlos lleva horas. Así que asegúrate de guardar los registros de conversación.
El Self‑hosted AI Starter Kit ofrece plantillas que realmente funcionan. Los ejemplos para copiar y pegar superan la documentación que asume que sabes qué significa CORS. Empieza aquí, a menos que disfrutes leer especificaciones de API a medianoche.
Guía de despliegue de LLM local
Ejecutar un LLM local requiere orquestar cuatro componentes: modelo, capa de servicio, marco de integración y lógica de la aplicación. Cada componente falla de manera diferente. Prueba a fondo.
Los nodos básicos de LLM Chain gestionan flujos de trabajo estándar. Activa la salida estructurada. Agrega mensajes del sistema. Inyecta contexto usando expresiones como {{ $now.toISO() }}. La configuración toma minutos. La depuración lleva días cuando algo falla.
Los nodos de Chat Trigger sirven para pruebas. Las aplicaciones reales necesitan fuentes de datos reales: bases de datos, webhooks y cargas de archivos. Los triggers simulan el uso. La producción revela problemas que los triggers no detectan.
El modelo de chat Ollama necesita cuatro ajustes: selección de modelo (mistral-nemo equilibra tamaño y calidad), temperatura en 0,1 para consistencia, keepAlive en 2 h para persistencia de memoria y memory locking activado para velocidad. Todo lo demás permanece por defecto, a menos que sepas por qué lo estás cambiando.
El análisis de salida estructurada evita el caos. Los esquemas JSON definen los formatos esperados. Los parsers de auto‑corrección manejan desviaciones menores. Ninguno evita que los modelos ignoren tus esquemas cuidadosamente diseñados y devuelvan texto libre de todos modos.
El manejo de errores distingue los prototipos de los sistemas de producción. Agrega nodos de “No Operation” después de los errores. Implementa lógica de reintento. Define mecanismos de respaldo (fallbacks). Los modelos fallan. Las redes fallan. Todo falla. Planifica en consecuencia.
Prueba con usuarios reales. Las pruebas sintéticas no detectan los casos límite que los usuarios encuentran en minutos. Registra todo. Los usuarios rompen las cosas de formas que no puedes imaginar. Los registros te dicen cómo.
Preguntas frecuentes sobre LLM de código abierto
¿Qué tipos de LLM de código abierto existen?
Los modelos preentrenados ya conocen el lenguaje. Los modelos de ajuste fino siguen instrucciones. Necesitas versiones de ajuste fino para trabajo real. Los modelos base sirven para investigación y proyectos personalizados, donde quieres tener control total.
Algunas personas diferencian el preentrenamiento continuo del ajuste fino. Es el mismo proceso subyacente. Con datos diferentes. El preentrenamiento continuo añade conocimiento del dominio. El ajuste fino enseña comportamiento específico para una tarea. Ambos modifican los pesos del modelo. Ambos requieren capacidad de cómputo.
¿Cómo empezar con un LLM de código abierto?
Instálalo localmente si tu hardware lo permite. Ollama hace que esto sea sencillo. Alquila servidores GPU si necesitas modelos más grandes. Los proveedores en la nube ofrecen instancias preconfiguradas. Haz clic en los botones, espera y despliega.
Los servidores solo con CPU cuestan menos. La inferencia se ejecuta más lento. Elige según los requisitos de latencia y las limitaciones de presupuesto. No alquiles H100 para chatbots que atienden a diez usuarios al día.
¿Cómo ejecutar un LLM localmente?
Ollama junto con OpenWebUI te da ChatGPT de forma local. GPT4All funciona si prefieres aplicaciones independientes. LM Studio ofrece mayor control. Jan se centra en la privacidad. NextChat crea interfaces conversacionales. Todos se instalan en minutos. Todos funcionan razonablemente bien.
Elige según tu flujo de trabajo. Quienes prefieren la línea de comandos usan Ollama directamente. Quienes prefieren una interfaz gráfica optan por LM Studio. Los paranoicos de la privacidad eligen Jan. Todos los demás eligen lo que funcione primero.
¿Cuánta RAM necesitas para ejecutar un LLM?
4 GB permiten ejecutar modelos pequeños, pero con bajo rendimiento. 8 GB permite manejar modelos de 3B a 7B de forma decente. 16 GB abre la mayoría de las opciones. 32 GB o más permite usar modelos grandes sin hacer swap. La VRAM de la GPU importa más que la RAM del sistema. 8 GB de VRAM cubren la mayoría de los casos de uso para consumidores.
El ajuste fino necesita de 2 a 3 veces la memoria de inferencia. La cuantización reduce los requisitos. Los formatos GGUF intercambian calidad por tamaño. Prueba antes de comprar hardware. La herramienta “¿Puedes ejecutarlo?” ofrece estimaciones. Las pruebas reales brindan certeza.
¿Cuánto cuesta ejecutar un LLM de código abierto?
Despliegue local: gratis si tu hardware lo soporta. VPS sin GPU: 20‑50 USD al mes. Servidores GPU: 50–200+ USD al mes, según las especificaciones. Plataformas gestionadas: precios comparables a los de OpenAI, pero con propiedad y control sobre tus datos.
Los costos ocultos duelen. Electricidad para el despliegue local. Tiempo de mantenimiento para soluciones autoalojadas. Infraestructura de respaldo cuando la principal falla. Calcula el costo total de manera honesta. Compara de manera justa. Elige sabiamente.
¿Son seguros los LLM de código abierto?
Código abierto significa que los atacantes pueden ver los pesos del modelo. Pueden sondear vulnerabilidades sin límites de tasa. La inyección de prompts se vuelve más fácil. La contaminación de datos se vuelve posible. Los ataques de inversión del modelo extraen datos de entrenamiento. Cada técnica funciona mejor contra modelos abiertos.
La defensa requiere esfuerzo. La validación de entradas detecta ataques evidentes. El limitador de solicitudes frena los ataques de fuerza bruta. La supervisión detecta anomalías. Ninguna evita a los atacantes determinados. La seguridad por oscuridad falla. La seguridad mediante la diligencia a veces funciona.
¿Por qué usar LLM de código abierto de forma comercial?
Privacidad de los datos. Control de los costos. Independencia del proveedor. Estas razones suenan abstractas hasta que tu proveedor de API sube los precios un 40 % a mitad del trimestre o deja de dar soporte al modelo del que depende tu producto.
Los modelos más pequeños manejan tareas básicas lo suficientemente bien. El ajuste fino mejora los resultados para dominios específicos. La transparencia permite auditorías de cumplimiento. La personalización apoya la voz de la marca. Estas capacidades importan más que las posiciones en los benchmarks.
El rendimiento queda por detrás de GPT‑4 y Claude. Los requisitos de recursos superan a los de las API gestionadas. El mantenimiento requiere conocimientos técnicos. Estos compromisos son costosos. La dependencia de proveedores externos duele aún más.
Conclusión
El mejor LLM de código abierto no existe. Llama 4 destaca en tareas generales. Mistral AI se optimiza para dispositivos móviles. DeepSeek maximiza la eficiencia. Qwen 3 maneja programación multilingüe. StarCoder se centra en la programación. Cada uno gana en su categoría.
Herramientas como n8n y LangChain hacen que el despliegue sea manejable. Aun así, seguirás dedicando tiempo a depurar. Los modelos aún generan alucinaciones. Nada funciona a la perfección. Todo funciona lo suficientemente bien si estableces expectativas realistas.