Modelos open-weight y closed-weight
Modelos Open-weight y Closed-weight — son dos enfoques fundamentalmente diferentes para el desarrollo y la distribución de grandes modelos lingüísticos (LLM), que conforman una dicotomía clave en el ecosistema actual de la inteligencia artificial. La elección entre estos enfoques afecta las capacidades técnicas, la economía, la seguridad y el futuro desarrollo de la IA[1].
La diferencia radica en la disponibilidad de los parámetros entrenados (pesos) del modelo. Los modelos Open-weight publican sus pesos, permitiendo a la comunidad utilizarlos, modificarlos y desplegarlos localmente. Por el contrario, los modelos Closed-weight mantienen sus pesos en secreto, proporcionando acceso a sus capacidades exclusivamente a través de API propietarias[2].
Definiciones y diferencias clave
Modelos Open-weight (con pesos abiertos)
Los modelos Open-weight son sistemas en los que los parámetros entrenados (pesos) de la red neuronal están públicamente disponibles para su uso, modificación y distribución. Según la definición de Andrej Karpathy de OpenAI, un modelo de este tipo es similar a "entregar el archivo binario de un sistema operativo": los usuarios reciben un producto funcional, pero, por lo general, sin acceso al código fuente de entrenamiento ni a los datos de entrenamiento.
Características clave:
- Despliegue local: La capacidad de ejecutar el modelo en hardware propio, lo que garantiza un control total sobre los datos y la confidencialidad.
- Ajuste fino (Fine-tuning): La capacidad de adaptar el modelo a tareas y dominios específicos.
- Transparencia y auditoría: Los investigadores pueden estudiar los mecanismos internos del modelo para identificar sesgos y vulnerabilidades.
Modelos Closed-weight (con pesos cerrados)
Los modelos Closed-weight (también conocidos como propietarios) son sistemas cuyos parámetros son un secreto comercial y solo están disponibles a través de API o licencias restringidas. Las empresas desarrolladoras, como OpenAI y Anthropic, controlan por completo la arquitectura, los métodos de entrenamiento y los mecanismos de inferencia. En el informe técnico de GPT-4 se indica explícitamente la negativa a revelar detalles, "dada la naturaleza competitiva y las implicaciones de seguridad de los modelos a gran escala"[3].
Características clave:
- Control centralizado: El desarrollador gestiona las actualizaciones, la seguridad y las políticas de uso.
- Facilidad de uso: El acceso a través de una API libera a los usuarios de la necesidad de gestionar una infraestructura compleja.
- Opacidad: La falta de acceso a los mecanismos internos imposibilita una auditoría independiente y dificulta la comprensión de las causas de respuestas erróneas o sesgadas.
Diferencia con el Open-source
Es importante distinguir entre los términos open-weight y open-source. Un verdadero modelo open-source implica la publicación de todos los artefactos necesarios para su reproducción: pesos, arquitectura, código de entrenamiento y conjuntos de datos. La mayoría de los modelos "abiertos" actuales, como Llama de Meta, son open-weight, pero no completamente open-source, ya que sus datos de entrenamiento y métodos de entrenamiento precisos permanecen cerrados.
Análisis comparativo: rendimiento, costo e innovación
Rendimiento y personalización
Históricamente, los modelos closed-weight, como GPT-4, han liderado en los benchmarks generales. Sin embargo, la brecha de rendimiento se está reduciendo rápidamente. Según el Stanford AI Index 2025, esta se ha reducido del 8% al 1.7% en el último año[1]. Modelos open-weight potentes, como LLaMA 3.1 405B de Meta y DeepSeek-V3, demuestran resultados comparables y, en algunas tareas (especialmente en programación), superiores[4].
La ventaja clave de los modelos open-weight radica en la personalización profunda. La capacidad de reentrenamiento con datos específicos les permite superar a modelos más grandes pero genéricos de tipo closed-weight en dominios especializados, como la medicina o el derecho.
Aspectos económicos
- Costo de entrenamiento: La creación de modelos de frontera (frontier) es extremadamente costosa. Se estima que el entrenamiento de GPT-4 costó más de $100 millones. Los modelos open-weight, como DeepSeek-V3, alcanzan un rendimiento similar con un costo de $5.5 millones, democratizando el acceso a la creación de sistemas potentes.
- Costo de uso (inferencia): Los modelos closed-weight se facturan bajo un modelo de pago por uso (pay-per-use) a través de API, lo que puede generar altos costos con grandes volúmenes. Los modelos open-weight, desplegados localmente, requieren una inversión inicial en infraestructura, pero tienen un costo total de propiedad (TCO) significativamente menor a escala.
Impacto en la investigación científica y la innovación
Los modelos open-weight están transformando fundamentalmente la investigación científica al garantizar la reproducibilidad y la democratización del acceso. Investigadores de todo el mundo pueden analizar, criticar y mejorar los modelos abiertos, lo que crea un ecosistema dinámico y acelera el progreso. A su vez, los modelos cerrados generan una "crisis de reproducibilidad", ya que los resultados declarados no pueden ser verificados de forma independiente.
Seguridad y dilemas éticos
La cuestión de la seguridad es un dilema central en el debate entre la apertura y el control.
- Enfoque Closed-weight (Prevención centralizada): Desarrolladores como OpenAI y Anthropic aplican un enfoque preventivo. Implementan filtros de seguridad complejos, realizan intensas pruebas de "equipo rojo" (red teaming) y se adhieren a políticas estrictas, como la Responsible Scaling Policy de Anthropic, comprometiéndose a no desplegar modelos que superen ciertos umbrales de riesgo[5].
- Enfoque Open-weight (Resiliencia descentralizada): Esta filosofía, similar a la del mundo open-source, sugiere que "con suficientes ojos, todos los errores son superficiales". La comunidad puede encontrar y corregir vulnerabilidades más rápidamente. Sin embargo, esto también crea riesgos: los actores malintencionados pueden estudiar los modelos con la misma facilidad para encontrar vulnerabilidades o eliminar los mecanismos de seguridad mediante el reentrenamiento.
Las investigaciones muestran que la intención humana, y no la disponibilidad del modelo, es el principal factor de riesgo. El 90% de los casos documentados de abuso de la IA generativa están relacionados con la explotación de capacidades permitidas, y no con daños generados por los propios sistemas.
Enfoques regulatorios: UE y EE. UU.
- Ley de IA de la UE: Adopta un enfoque preventivo y basado en el riesgo. La ley impone obligaciones estrictas a los modelos con "riesgo sistémico" (que requieren más de 1025 FLOPS para su entrenamiento), pero concede exenciones limitadas a los modelos open-source que no presentan dicho riesgo. Esto crea un incentivo para la transparencia, pero también una complejidad regulatoria.
- Enfoque de EE. UU.: Se basa en el fomento de la innovación y la gestión de riesgos a través de estándares industriales. La Orden Ejecutiva 14110 del Presidente Biden y el posterior informe de la NTIA recomiendan abstenerse de imponer restricciones inmediatas a los modelos open-weight, proponiendo en su lugar la creación de un sistema de monitoreo para tomar decisiones basadas en evidencia[6].
Modelos y actores clave
| Tipo de modelo | Modelo | Desarrollador | Característica clave |
|---|---|---|---|
| Open-weight | LLaMA 3.1 | Meta | Alto rendimiento que estableció el estándar para los modelos abiertos; gran comunidad. |
| Mixtral 8x7B | Mistral AI | Arquitectura de "mezcla de expertos" (MoE), que proporciona un alto rendimiento con bajos costos de inferencia. | |
| Closed-weight | GPT-4 / GPT-4o | OpenAI | Líder histórico en rendimiento, con sólidas capacidades multimodales. |
| Claude 4 Opus | Anthropic | Enfoque en la seguridad y la ética (Constitutional AI), con una gran ventana de contexto. |
Enlaces
- Stanford AI Index Report 2025 — Informe anual sobre el estado de la IA.
- Informe de la NTIA sobre modelos con pesos abiertos
Literatura
- OpenAI et al. (2023). GPT-4 Technical Report. arXiv:2303.08774.
- Touvron, H. et al. (2023). Llama 2: Open Foundation and Fine-Tuned Chat Models. arXiv:2307.09288.
- DeepSeek-AI (2025). DeepSeek-V3 Technical Report. arXiv:2412.19437.
- Kapoor, S.; Bommasani, R. et al. (2024). On the Societal Impact of Open Foundation Models. arXiv:2403.07918.
- U.S. NTIA (2024). Dual-Use Foundation Models with Widely Available Model Weights. NTIA Report.
- Stanford HAI (2025). Artificial Intelligence Index Report 2025. Full PDF.
- Anthropic (2023). Responsible Scaling Policy. Anthropiс RSP.
- Klyman, K. et al. (2024). A Design Framework for Open-Source Foundation Model Safety. arXiv:2406.10415.
- Kembery, E.; Reed, T. (2024). AI Safety Frameworks Should Include Procedure for Model Access Decisions. arXiv:2411.10547.
- European Commission (2024). General-Purpose AI Models in the AI Act – Q&A. EU AI Act FAQ.
- Zhang, X. et al. (2025). Mitigating Cyber Risk in the Age of Open-Weight LLMs. arXiv:2505.17109.
- Biderman, S. et al. (2024). Risks and Opportunities of Open-Source Generative AI. arXiv:2405.08597.
Notas
- ↑ 1.0 1.1 «Artificial Intelligence Index Report 2025». Stanford University HAI. [1] Consultado el 4 de julio de 2025.
- ↑ Karpathy, Andrej. «On Open-sourcing LLMs». X (formerly Twitter).
- ↑ «GPT-4 Technical Report». OpenAI. [2]
- ↑ «DeepSeek-V2 and DeepSeek-Coder-V2 Technical Report».
- ↑ «Anthropic's Responsible Scaling Policy». Anthropic.
- ↑ «Dual-Use Foundation Models with Widely Available Model Weights». U.S. Department of Commerce, NTIA. (2024).