Mistral AI (ES)
Mistral AI es una empresa francesa de inteligencia artificial especializada en el desarrollo de grandes modelos lingüísticos (LLM). Fundada en abril de 2023, la empresa se ha convertido rápidamente en uno de los actores clave en los mercados europeo y mundial, posicionándose como una alternativa a los modelos propietarios de los gigantes tecnológicos estadounidenses.
Una característica clave del enfoque de Mistral AI es su énfasis en la creación de modelos de alto rendimiento con pesos abiertos (principalmente bajo la licencia Apache 2.0), lo que promueve la democratización del acceso a tecnologías de IA de vanguardia. La empresa es conocida por sus innovaciones arquitectónicas, como Grouped-Query Attention (GQA), Sliding Window Attention (SWA) y Sparse Mixture-of-Experts (MoE), que permiten a sus modelos alcanzar una alta eficiencia con un tamaño y un coste computacional relativamente bajos.
Historia
Mistral AI fue fundada en París en abril de 2023 por tres investigadores franceses: Arthur Mensch (Arthur Mensch), Guillaume Lample y Timothée Lacroix. Los tres fundadores habían trabajado previamente en grandes modelos lingüísticos en empresas líderes a nivel mundial: Mensch fue investigador en Google DeepMind, mientras que Lample y Lacroix trabajaron en LLM en Meta AI.
La misión de la empresa es hacer que los avances de vanguardia en IA sean accesibles para todos, promoviendo la apertura, la colaboración y la transparencia. Este enfoque permitió a Mistral AI atraer rápidamente importantes inversiones:
- Junio de 2023: 105 millones de euros en una ronda semilla, estableciendo un récord en Europa.
- Diciembre de 2023: 385 millones de euros en una ronda de Serie A, tras la cual la valoración de la empresa superó los 2000 millones de dólares, alcanzando el estatus de «unicornio».
- Febrero de 2024: Se anunció una asociación estratégica con Microsoft, que incluyó una inversión de 16 millones de dólares y la disponibilidad de los modelos de Mistral en la nube de Azure.
- Junio de 2024: Una nueva ronda de financiación de 600 millones de euros, que elevó la valoración de la empresa a aproximadamente 5800 millones de euros, convirtiéndola en una de las startups de IA más valiosas del mundo.
Características técnicas de la arquitectura
Los modelos de Mistral AI se basan en la arquitectura de los transformadores, pero incluyen varias innovaciones clave destinadas a aumentar la eficiencia y reducir los costes computacionales.
Transformador con mejoras (Mistral 7B)
El primer modelo de la empresa, Mistral 7B, introdujo dos importantes mejoras arquitectónicas:
- Sliding Window Attention (SWA) (Atención de Ventana Deslizante): En lugar de que cada token atienda a todos los tokens anteriores (lo que tiene una complejidad cuadrática), SWA limita la atención a una ventana de tamaño fijo (por ejemplo, 4096 tokens). Esto permite procesar secuencias muy largas (hasta 32 000 tokens o más) con una complejidad computacional lineal, acelerando significativamente el procesamiento.
- Grouped-Query Attention (GQA) (Atención de Consulta Agrupada): Una optimización del mecanismo estándar de atención de múltiples cabezas (multi-head attention). GQA utiliza un número menor de «cabezas» para las claves (keys) y los valores (values) que para las consultas (queries) (por ejemplo, en una proporción de 8:1), lo que reduce significativamente los requisitos de memoria y acelera el proceso de generación (inferencia) sin una pérdida notable de calidad.
Sparse Mixture-of-Experts (MoE)
En los modelos de la serie Mixtral (por ejemplo, Mixtral 8x7B, Mixtral 8x22B), se utiliza la arquitectura Sparse Mixture-of-Experts (Mezcla Dispersa de Expertos). En lugar de una única capa densa de red neuronal, se emplean varias subredes «expertas» en paralelo. Para cada token de entrada, una capa especial de gating (enrutador) selecciona dinámicamente un pequeño subconjunto de expertos para su activación (normalmente 2 de 8).
Esto permite crear modelos con un número total de parámetros enorme (Mixtral 8x22B tiene 141 000 millones), pero solo una pequeña fracción de ellos se utiliza para procesar cada token (~39 000 millones). Como resultado, el modelo alcanza una calidad comparable a la de modelos «densos» mucho más grandes, pero con la velocidad y el coste de inferencia de modelos considerablemente más pequeños.
Arquitectura Mamba (SSM)
En 2024, Mistral AI presentó el modelo experimental Codestral Mamba, basado en la arquitectura Mamba (Selective State-Space Model). A diferencia de los transformadores, Mamba utiliza un mecanismo recurrente basado en modelos de espacio de estados. Sus ventajas clave son:
- Complejidad lineal con respecto a la longitud de la secuencia, lo que la hace extremadamente rápida en contextos largos.
- Contexto teóricamente «infinito», limitado solo por la memoria disponible.
- Alta velocidad de inferencia en comparación con los transformadores equivalentes.
Cronología y modelos
| Mes / Año | Modelo | Parámetros (miles de millones) | Características clave | Licencia |
|---|---|---|---|---|
| 09 / 2023 | Mistral 7B | 7,3 | Arquitectura GQA + SWA; contexto de 32k; supera a Llama 2 13B en todos los benchmarks. | Apache 2.0 |
| 12 / 2023 | Mixtral 8x7B | 46,7 (12,9 activos) | Primer modelo MoE abierto; calidad a la par de GPT-3.5. | Apache 2.0 |
| 02 / 2024 | Mistral Small / Large | ? | Modelos «junior» y insignia, disponibles a través de API. | Small: Apache 2.0, Large: Research |
| 04 / 2024 | Mixtral 8x22B | 141 (39 activos) | Contexto de 64k; calidad SOTA entre los modelos de código abierto en el momento de su lanzamiento. | Apache 2.0 |
| 05 / 2024 | Codestral 22B | 22 | Modelo especializado para la generación de código (más de 80 idiomas). | Non-Production |
| 07 / 2024 | Mathstral 7B / Nemo 12B | 7 / 12 | Modelos especializados para matemáticas y multilingüismo. | Apache 2.0 |
| 07 / 2024 | Codestral Mamba 7.3B | 7,3 | Modelo experimental para código basado en la arquitectura Mamba; contexto de 256k+. | Apache 2.0 |
| 09 / 2024 | Pixtral 12B | 12 | Primer modelo multimodal abierto (texto + imágenes). | Apache 2.0 |
| 11 / 2024 | Mistral Large 24.11 | ~100+ (estimado) | Modelo insignia actualizado con razonamiento mejorado. | Research |
| 01 / 2025 | Mistral Small 3 | 24 | Optimizado para baja latencia (hasta 150 tokens/s); calidad a la par de modelos de 70B. | Apache 2.0 |
| 05 / 2025 | Mistral Medium 3 | ? | Modelo multimodal de frontera (texto, imágenes) con un contexto de 128k. | Propietaria |
| 05 / 2025 | Devstral 24B | 24 | Modelo «agente» para el desarrollo autónomo de software; 46,8% en SWE-Bench. | Apache 2.0 |
Comparación con la competencia
- vs. Llama (Meta): Los modelos de Mistral superan consistentemente a los modelos de Llama de tamaño similar o incluso mayor. Mistral 7B superó a Llama 2 13B, y Mixtral 8x7B superó a Llama 2 70B. La principal diferencia es la licencia: Mistral utiliza la permisiva licencia Apache 2.0, mientras que la licencia de Llama tiene restricciones.
- vs. GPT (OpenAI): Los modelos insignia de OpenAI (GPT-4) siguen siendo líderes en las tareas más complejas, pero los modelos abiertos de Mistral (como Mixtral 8x7B) demuestran una calidad comparable a la de GPT-3.5. Mistral ofrece una alternativa abierta que permite desplegar los modelos localmente y controlarlos por completo.
- vs. Claude (Anthropic): Los modelos de Claude son conocidos por su gran ventana de contexto y su enfoque en la seguridad. Mistral ha ofrecido modelos abiertos con un contexto comparable o mayor. En cuanto al rendimiento en benchmarks estándar (LMSys Arena), el modelo Medium 3 superó a Claude 3 Opus.
Aplicaciones y ecosistema
Productos
- Le Chat: Un asistente de chat público (web, iOS/Android) que demuestra las capacidades de los modelos de Mistral, incluida la búsqueda web y la generación de imágenes.
- La Plateforme: Una plataforma empresarial con acceso a través de API a todos los modelos de Mistral, que permite a las empresas integrar los LLM en sus productos.
Clientes corporativos
Las tecnologías de Mistral son utilizadas por grandes empresas como BNP Paribas (finanzas), CMA CGM (logística), Zalando (e-commerce) y la agencia gubernamental France Travail. Para los clientes europeos, la posibilidad de desplegar los modelos localmente es crucial para cumplir con el GDPR.
Comunidad de código abierto
Gracias a su licencia abierta, los modelos de Mistral se han convertido en la base de miles de proyectos en plataformas como Hugging Face. La comunidad entrena activamente los modelos para resolver tareas especializadas, creando versiones para biología (BioMistral), jurisprudencia (SaulLM-7B) y localización a diferentes idiomas (por ejemplo, el polaco Bielik 7B).
Licenciamiento
| Serie de modelos | Licencia | Restricciones |
|---|---|---|
| Base, Small, Mixtral, Mathstral, Nemo, Pixtral, Devstral | Apache 2.0 | Uso comercial libre. |
| Codestral 22B | Non-Production License | Prohibido el uso comercial sin un acuerdo por separado. |
| Serie Large, serie Medium | Mistral Research / Propietaria | Acceso solo a través de la API en la nube. |
Enlaces
Bibliografía
- Ainslie, J. et al. (2023). GQA: Training Generalized Multi‑Query Transformer Models from Multi‑Head Checkpoints. arXiv:2305.13245.
- Beltagy, I.; Peters, M. E.; Cohan, A. (2020). Longformer: The Long‑Document Transformer. arXiv:2004.05150.
- Dao, T. et al. (2022). FlashAttention: Fast and Memory‑Efficient Exact Attention with IO‑Awareness. arXiv:2205.14135.
- Ding, Y. et al. (2024). LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens. arXiv:2402.13753.
- Fedus, W.; Zoph, B.; Shazeer, N. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
- Gu, A.; Dao, T. (2023). Mamba: Linear‑Time Sequence Modeling with Selective State Spaces. arXiv:2312.00752.
- He, L. et al. (2025). Scaling Instruction‑Tuned LLMs to Million‑Token Contexts via Hierarchical Synthetic Data Generation. arXiv:2504.12637.
- Jiang, A. Q. et al. (2023). Mistral 7B. arXiv:2310.06825.
- Jiang, A. Q. et al. (2024). Mixtral of Experts. arXiv:2401.04088.
- Peng, B. et al. (2023). YaRN: Efficient Context Window Extension of Large Language Models. arXiv:2309.00071.
- Shazeer, N. (2019). Fast Transformer Decoding: One Write‑Head is All You Need. arXiv:1911.02150.