DeepSeek (modèle de langage)
DeepSeek est une entreprise de recherche chinoise en intelligence artificielle qui développe des grands modèles de langage (LLM) et des systèmes multimodaux. L'entreprise a acquis une grande notoriété grâce à la distribution ouverte des poids de ses modèles et à leur grande efficacité économique, ce qui a provoqué un ajustement des prix sur le marché de l'IA à la fin de 2024 et au début de 2025.[1]
Histoire
Le fondateur de DeepSeek est l'entrepreneur et cofondateur du fonds spéculatif High‑Flyer, Liang Wenfeng. Au printemps 2023, High‑Flyer a scindé sa division de recherche en IA, qui est devenue en mai de la même année la société DeepSeek AI. En 2025, l'effectif de l'entreprise atteignait déjà environ 160 employés.[2] Dès ses débuts, la société a affirmé sa volonté d'ouverture, en publiant les poids de ses modèles (« open-weight ») sous des licences permissives et en s'orientant vers la recherche fondamentale sur l'AGI.
Contrairement à la plupart des startups, DeepSeek est financée par le budget R&D de High-Flyer, ce qui, selon son fondateur, lui permet de se concentrer sur des objectifs à long terme plutôt que sur une monétisation immédiate.[3]
L'entreprise a suscité une vive réaction dans les communautés technologique et financière en janvier 2025 après la sortie du modèle DeepSeek-R1. L'annonce que l'entraînement d'un modèle comparable à GPT-4 a coûté moins de 6 millions de dollars (contre des estimations de plus de 100 millions de dollars pour GPT-4) a provoqué une chute des actions des géants de la technologie et a contraint l'industrie à repenser le paradigme selon lequel « plus de calcul = meilleur modèle ».[4]
Caractéristiques architecturales
- Mélange d'experts (DeepSeekMoE)
- La plupart des modèles phares de DeepSeek utilisent une architecture de mélange d'experts (MoE). Contrairement aux modèles « denses », où tous les paramètres sont activés lors du traitement d'une requête, dans les modèles MoE, seule une petite partie des sous-réseaux spécialisés (les « experts ») est sollicitée pour chaque token. DeepSeek a développé sa propre implémentation de MoE avec des experts « partagés », une segmentation à grain fin et un équilibrage de charge sans perte auxiliaire, ce qui permet d'activer seulement une fraction des centaines de milliards de paramètres et de réduire considérablement les coûts de calcul.[5]
- Multi‑Head Latent Attention (MLA)
- Une méthode de compression du cache KV en un vecteur latent, permettant d'économiser jusqu'à 93 % de mémoire et d'utiliser des fenêtres de contexte allant jusqu'à 128 000 tokens. Cette technologie est essentielle pour un traitement efficace des textes longs.[6]
- Entraînement FP8 et prédiction multi-tokens
- Les modèles de la famille V3 utilisent une précision mixte FP8 (nombres à virgule flottante sur 8 bits) et la prédiction simultanée de plusieurs tokens, ce qui accélère les processus d'entraînement et d'inférence.[7]
Famille de modèles
- DeepSeek LLM — modèles de base de 7 et 67 milliards de paramètres (2023), première version bilingue (EN/ZH) qui a surpassé LLaMA‑2 70B dans plusieurs tâches.[8]
- DeepSeek‑Coder (2023) — une gamme de modèles pour la programmation (1,3 – 33 milliards) et son évolution Coder‑V2 (16 milliards / 236 milliards MoE, contexte de 128K, 338 langages de programmation).[9]
- DeepSeek‑V2 (mai 2024) — 236 milliards (21 milliards actifs) MoE‑LLM avec MLA ; entraîné sur 8,1 billions de tokens.[10]
- DeepSeek‑V3 (décembre 2024) — 671 milliards (37 milliards actifs) ; entraînement d'environ 2,8 millions d'heures-GPU sur Nvidia H800 pour un coût d'environ 5,5 millions de dollars.[11]
- DeepSeek‑R1 (janvier 2025) — une série de modèles pour le raisonnement logique ; la version R1‑0528 s'est approchée de OpenAI o3 sur AIME 2025 et LiveCodeBench.[12]
- DeepSeek‑VL / VL2 — modèles multimodaux VL (jusqu'à 4,5 milliards actifs) avec traitement d'images en mosaïque dynamique de 1024×1024.[13]
- DeepSeek‑Math 7B — modèle spécialisé, 51,7 % de précision sur le benchmark MATH ; proche de GPT‑4.[14]
- DeepSeek‑Prover‑V2 — 671 milliards MoE pour la démonstration de théorèmes en Lean 4 ; 63,5 % sur miniF2F.
- Modèles R1 distillés — versions ouvertes de 1,5 à 70 milliards de paramètres basées sur Llama et Qwen.[15]
Chronologie des versions clés
| Date | Version et caractéristiques clés |
|---|---|
| 2 nov. 2023 | DeepSeek‑Coder v1 : premiers modèles open-weight pour le code. |
| 29 nov. 2023 | DeepSeek LLM 7B/67B : modèle bilingue entraîné sur 2 billions de tokens. |
| 11 janv. 2024 | DeepSeek‑MoE 16B : lancement de l'architecture MoE. |
| 6 fév. 2024 | DeepSeek‑Math 7B : modèle spécialisé en mathématiques (51,7 % sur MATH). |
| 6 mai 2024 | DeepSeek‑V2 236B : introduction des architectures MLA et MoE. |
| 17 juin 2024 | DeepSeek‑Coder‑V2 : contexte de 128K, prise en charge de 338 langages de programmation. |
| 13 déc. 2024 | DeepSeek‑VL2 : modèle multimodal basé sur MoE. |
| 27 déc. 2024 | DeepSeek‑V3 671B : modèle phare entraîné pour moins de 6 millions de dollars. |
| 20 janv. 2025 | DeepSeek‑R1 / R1‑Zero : modèles pour le raisonnement, entraînés par apprentissage par renforcement (RL). |
| 27 janv. 2025 | Janus‑Pro : modèle de génération d'images surpassant DALL‑E 3. |
Performance et benchmarks
- DeepSeek‑V3 a dépassé Llama 3.1 et Qwen 2.5 et s'est approché du niveau de GPT‑4 sur MMLU et GPQA‑Diamond.[16]
- DeepSeek‑Coder‑V2 a obtenu un score de 72,9 % sur Arena‑Hard, à parité avec GPT‑4o et au-dessus de tous les modèles ouverts, à l'exception de Claude‑3.5‑Sonnet.[17]
- DeepSeek‑Math 7B a atteint 51,7 % sur MATH, ce qui est proche de Gemini‑Ultra avec une taille 10 fois inférieure.[18]
- R1‑Zero a amélioré le résultat AIME 2024 pass@1 de 15,6 % à 71 % uniquement grâce à l'entraînement par RL.[19]
Économie et API
DeepSeek propose une API publique pour les modèles V3 et R1 à des prix allant de 0,07 $ à 0,14 $ par million de tokens d'entrée avec cache-hit, et de 1,10 $ à 2,19 $ par million de tokens de sortie, soit jusqu'à des dizaines de fois moins cher que les tarifs de GPT‑4o.[20]
Licences et open-source
La plupart des modèles sont distribués sous la licence MIT ou Apache 2.0, qui autorisent un usage commercial. L'entreprise publie les poids sur Hugging Face et GitHub, mais garde confidentiels les datasets complets et les pipelines d'entraînement (« open weight, but not full open source »).
Impact sur l'industrie
- Le lancement de R1 a provoqué une chute d'une journée des cours de NVIDIA, Microsoft et d'autres entreprises, suite à l'annonce d'un « modèle de classe GPT‑4 pour 6 millions de dollars ».[21]
- La démonstration d'un entraînement réussi sur des puces Nvidia H800 soumises à des restrictions à l'exportation a stimulé le débat sur l'efficacité des sanctions américaines et a accéléré le développement d'accélérateurs d'IA chinois (par exemple, le Huawei Ascend 910B).
Critiques et limitations
- Sécurité : dans le test HarmBench, le modèle R1 a laissé passer 100 % des requêtes indésirables (« jailbreak »).
- Censure politique : les versions conversationnelles filtrent les sujets « sensibles » pour le gouvernement chinois (événements de la place Tian'anmen en 1989, statut de Taïwan, etc.).
- Stockage des données : le stockage des données utilisateur sur des serveurs en Chine limite l'utilisation de l'API par les entreprises occidentales soumises au RGPD et à des régimes juridiques similaires.[22]
Littérature
- Dai, D. et al. (2024). DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture‑of‑Experts Language Models. arXiv:2401.06066.
- Ding, Y. et al. (2024). LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens. arXiv:2402.13753.
- Fedus, W.; Zoph, B.; Shazeer, N. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
- He, L. et al. (2025). Scaling Instruction‑Tuned LLMs to Million‑Token Contexts via Hierarchical Synthetic Data Generation. arXiv:2504.12637.
- Jegham, N. et al. (2025). Visual Reasoning Evaluation of Grok, Deepseek Janus, Gemini, Qwen, Mistral, and ChatGPT. arXiv:2502.16428.
- Lepikhin, D. et al. (2020). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. arXiv:2006.16668.
- Peng, B. et al. (2023). YaRN: Efficient Context Window Extension of Large Language Models. arXiv:2309.00071.
- Shen, Y. et al. (2025). Long‑VITA: Scaling Large Multi‑modal Models to 1 Million Tokens with Leading Short‑Context Accuracy. arXiv:2502.05177.
- Su, J. et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
- Zhong, M. et al. (2024). Understanding the RoPE Extensions of Long‑Context LLMs: An Attention Perspective. arXiv:2406.13282.
Notes
- ↑ DeepSeek's low-cost AI spotlights billions spent by US tech // Reuters. 2025-01-27.
- ↑ Who is Liang Wenfeng, the founder of DeepSeek? // Reuters. 2025-01-28.
- ↑ Who is Liang Wenfeng, the founder of DeepSeek? // Reuters. 2025-01-28.
- ↑ DeepSeek's low-cost AI spotlights billions spent by US tech // Reuters. 2025-01-27.
- ↑ DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model // Hugging Face. 2024.
- ↑ DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model // Hugging Face. 2024.
- ↑ DeepSeek-V3: A Parameter-Efficient MoE Large Language Model with Better Performance // arXiv. 2024.
- ↑ DeepSeek LLM: Scaling Open-Source Language Models with Longtermism // arXiv. 2024.
- ↑ DeepSeek-Coder-V2: A More Powerful and Economical Coder // arXiv. 2024.
- ↑ DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model // Hugging Face. 2024.
- ↑ DeepSeek-V3: A Parameter-Efficient MoE Large Language Model with Better Performance // arXiv. 2024.
- ↑ DeepSeek-R1: A 671B Parameter MoE LLM with Unprecedented Reasoning Capabilities // arXiv. 2025.
- ↑ GitHub - deepseek-ai/DeepSeek-VL: Towards Real-World Vision-Language Understanding // GitHub.
- ↑ DeepSeek-Math: Pushing the Limits of Mathematical Reasoning in Open-Source Models // arXiv. 2024.
- ↑ DeepSeek-R1: A 671B Parameter MoE LLM with Unprecedented Reasoning Capabilities // arXiv. 2025.
- ↑ DeepSeek-V3: A Parameter-Efficient MoE Large Language Model with Better Performance // arXiv. 2024.
- ↑ DeepSeek-Coder-V2: A More Powerful and Economical Coder // arXiv. 2024.
- ↑ DeepSeek-Math: Pushing the Limits of Mathematical Reasoning in Open-Source Models // arXiv. 2024.
- ↑ DeepSeek-R1: A 671B Parameter MoE LLM with Unprecedented Reasoning Capabilities // arXiv. 2025.
- ↑ DeepSeek Explained: Why This AI Model Is Gaining Popularity // DigitalOcean.
- ↑ DeepSeek's low-cost AI spotlights billions spent by US tech // Reuters. 2025-01-27.
- ↑ DeepSeek's low-cost AI spotlights billions spent by US tech // Reuters. 2025-01-27.
Voir aussi
- Grands modèles de langage d'OpenAI
- Mélange d'experts (MoE)