DeepSeek
DeepSeek — китайская исследовательская компания в области искусственного интеллекта, разрабатывающая большие языковые модели (LLM) и мультимодальные системы. Широкую известность фирма получила благодаря открытому распространению весов своих моделей и их высокой экономической эффективности, что спровоцировало корректировку цен на ИИ‑рынке в конце 2024 — начале 2025 годов.[1]
История
Основатель DeepSeek — предприниматель и соучредитель хедж‑фонда High‑Flyer Лян Вэньфэн. Весной 2023 года High‑Flyer отделил исследовательское ИИ‑подразделение, которое в мае того же года стало компанией DeepSeek AI. Уже к 2025 году штат вырос до ~160 сотрудников.[2] С первых дней компания декларировала курс на открытость — публикацию весов («open‑weight») под разрешительными лицензиями и ориентацию на фундаментальные исследования AGI.
В отличие от большинства стартапов, DeepSeek финансируется из R&D-бюджета High-Flyer, что, по словам основателя, позволяет сосредоточиться на долгосрочных целях, а не на сиюминутной монетизации.[3]
Значительный резонанс в технологическом и финансовом сообществе компания вызвала в январе 2025 года после выпуска модели DeepSeek-R1. Заявление о том, что обучение модели, сопоставимой с GPT-4, обошлось менее чем в $6 млн (в сравнении с оценками в $100+ млн для GPT-4), вызвало обвал акций технологических гигантов и заставило индустрию переосмыслить парадигму «больше вычислений = лучше модель».[4]
Архитектурные особенности
- Mixture‑of‑Experts (DeepSeekMoE)
- Большинство флагманских моделей DeepSeek используют архитектуру смеси экспертов (MoE). В отличие от «плотных» моделей, где при обработке запроса активируются все параметры, в МоЕ-моделях для каждого токена задействуется лишь небольшая часть специализированных подсетей («экспертов»). DeepSeek разработала собственную реализацию MoE с «общими» экспертами, мелкозернистой сегментацией и балансировкой нагрузки без вспомогательных потерь, что позволяет активировать лишь часть из сотен миллиардов параметров и резко снижать вычислительные издержки.[5]
- Multi‑Head Latent Attention (MLA)
- Метод сжатия KV‑кэша до латентного вектора, экономящий до 93 % памяти и позволяющий использовать контекстные окна размером до 128 000 токенов. Эта технология является ключевой для эффективной работы с длинными текстами.[6]
- FP8 training и Multi‑Token Prediction
- В моделях семейства V3 применяется смешанная точность FP8 (8-битные числа с плавающей запятой) и одновременное предсказание нескольких токенов, что ускоряет процессы обучения и инференса (вывода).[7]
Семейство моделей
- DeepSeek LLM — базовые модели на 7 и 67 млрд параметров (2023), первый билингвальный (EN/ZH) релиз, превзошедший LLaMA‑2 70B в ряде задач.[8]
- DeepSeek‑Coder (2023) — линейка моделей для программирования (1,3 – 33 млрд) и её развитие Coder‑V2 (16 млрд / 236 млрд MoE, контекст 128K, 338 языков кодирования).[9]
- DeepSeek‑V2 (май 2024) — 236 млрд (21 млрд активных) MoE‑LLM c MLA; обучена на 8,1 трлн токенов.[10]
- DeepSeek‑V3 (декабрь 2024) — 671 млрд (37 млрд активных); обучение ≈2,8 млн GPU‑часов на Nvidia H800 стоимостью ≈$5,5 млн.[11]
- DeepSeek‑R1 (январь 2025) — линия моделей для логических рассуждений (reasoning); версия R1‑0528 приблизилась к OpenAI o3 на AIME 2025 и LiveCodeBench.[12]
- DeepSeek‑VL / VL2 — мультимодальные VL‑модели (до 4,5 млрд активных) с динамической мозаичной обработкой изображений 1024×1024.[13]
- DeepSeek‑Math 7B — специализированная модель, 51,7 % точности на бенчмарке MATH; близко к GPT‑4.[14]
- DeepSeek‑Prover‑V2 — 671 млрд MoE для доказательства теорем в Lean 4; 63,5 % на miniF2F.
- Дистиллированные R1‑модели — открытые версии от 1,5 до 70 млрд параметров на базах Llama и Qwen.[15]
Хронология ключевых релизов
| Дата | Релиз и ключевые особенности |
|---|---|
| 2 ноя 2023 | DeepSeek‑Coder v1: первые open‑weight модели для кода. |
| 29 ноя 2023 | DeepSeek LLM 7B/67B: билингвальная модель, обученная на 2 трлн токенов. |
| 11 янв 2024 | DeepSeek‑MoE 16B: дебют MoE‑архитектуры. |
| 6 фев 2024 | DeepSeek‑Math 7B: специализированная модель для математики (51,7 % на MATH). |
| 6 мая 2024 | DeepSeek‑V2 236B: внедрение архитектур MLA и MoE. |
| 17 июн 2024 | DeepSeek‑Coder‑V2: 128K контекст, поддержка 338 языков программирования. |
| 13 дек 2024 | DeepSeek‑VL2: мультимодальная модель на основе MoE. |
| 27 дек 2024 | DeepSeek‑V3 671B: флагманская модель, обученная менее чем за $6 млн. |
| 20 янв 2025 | DeepSeek‑R1 / R1‑Zero: модели для рассуждений, обученные с помощью RL. |
| 27 янв 2025 | Janus‑Pro: модель для генерации изображений, превосходящая DALL‑E 3. |
Производительность и бенчмарки
- DeepSeek‑V3 обогнала Llama 3.1 и Qwen 2.5 и приблизилась к уровню GPT‑4 по MMLU и GPQA‑Diamond.[16]
- DeepSeek‑Coder‑V2 набрала 72,9 % на Arena‑Hard — паритет с GPT‑4o и выше всех открытых моделей, кроме Claude‑3.5‑Sonnet.[17]
- DeepSeek‑Math 7B — 51,7 % на MATH, что близко к Gemini‑Ultra при в 10 раз меньшем размере.[18]
- R1‑Zero подняла результат AIME 2024 pass@1 с 15,6 % до 71 % только за счёт RL‑обучения.[19]
Лицензирование и open‑source
Большинство моделей распространяются под лицензией MIT или Apache 2.0, допускающей коммерческое использование. Компания публикует веса на Hugging Face и GitHub, однако сохраняет закрытыми полные датасеты и обучающие пайплайны («open weight, but not full open source»).
Влияние на индустрию
- Запуск R1 вызвал однодневное проседание котировок NVIDIA, Microsoft и других компаний на фоне новостей о «модели класса GPT‑4 за $6 млн».[20]
- Демонстрация успешного обучения на чипах Nvidia H800 под экспортными ограничениями стимулировала дискуссию о действенности санкций США и ускорила разработку китайских ИИ‑ускорителей (например, Huawei Ascend 910B).
Критика и ограничения
- Безопасность: в тесте HarmBench модель R1 пропустила 100 % нежелательных запросов («джейлбрейк»).
- Политическая цензура: чат‑версии фильтруют «чувствительные» для китайского правительства темы (события на площади Тяньаньмэнь в 1989 году, статус Тайваня и т. п.).
- Хранение данных: хранение пользовательских данных на серверах в Китае ограничивает использование API западными корпорациями, подчиняющимися GDPR и аналогичным правовым режимам.[21]
Литература
- Dai, D. et al. (2024). DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture‑of‑Experts Language Models. arXiv:2401.06066.
- Ding, Y. et al. (2024). LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens. arXiv:2402.13753.
- Fedus, W.; Zoph, B.; Shazeer, N. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
- He, L. et al. (2025). Scaling Instruction‑Tuned LLMs to Million‑Token Contexts via Hierarchical Synthetic Data Generation. arXiv:2504.12637.
- Jegham, N. et al. (2025). Visual Reasoning Evaluation of Grok, Deepseek Janus, Gemini, Qwen, Mistral, and ChatGPT. arXiv:2502.16428.
- Lepikhin, D. et al. (2020). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. arXiv:2006.16668.
- Peng, B. et al. (2023). YaRN: Efficient Context Window Extension of Large Language Models. arXiv:2309.00071.
- Shen, Y. et al. (2025). Long‑VITA: Scaling Large Multi‑modal Models to 1 Million Tokens with Leading Short‑Context Accuracy. arXiv:2502.05177.
- Su, J. et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
- Zhong, M. et al. (2024). Understanding the RoPE Extensions of Long‑Context LLMs: An Attention Perspective. arXiv:2406.13282.
Примечания
- ↑ DeepSeek's low-cost AI spotlights billions spent by US tech // Reuters. 2025-01-27.
- ↑ Who is Liang Wenfeng, the founder of DeepSeek? // Reuters. 2025-01-28.
- ↑ Who is Liang Wenfeng, the founder of DeepSeek? // Reuters. 2025-01-28.
- ↑ DeepSeek's low-cost AI spotlights billions spent by US tech // Reuters. 2025-01-27.
- ↑ DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model // Hugging Face. 2024.
- ↑ DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model // Hugging Face. 2024.
- ↑ DeepSeek-V3: A Parameter-Efficient MoE Large Language Model with Better Performance // arXiv. 2024.
- ↑ DeepSeek LLM: Scaling Open-Source Language Models with Longtermism // arXiv. 2024.
- ↑ DeepSeek-Coder-V2: A More Powerful and Economical Coder // arXiv. 2024.
- ↑ DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model // Hugging Face. 2024.
- ↑ DeepSeek-V3: A Parameter-Efficient MoE Large Language Model with Better Performance // arXiv. 2024.
- ↑ DeepSeek-R1: A 671B Parameter MoE LLM with Unprecedented Reasoning Capabilities // arXiv. 2025.
- ↑ GitHub - deepseek-ai/DeepSeek-VL: Towards Real-World Vision-Language Understanding // GitHub.
- ↑ DeepSeek-Math: Pushing the Limits of Mathematical Reasoning in Open-Source Models // arXiv. 2024.
- ↑ DeepSeek-R1: A 671B Parameter MoE LLM with Unprecedented Reasoning Capabilities // arXiv. 2025.
- ↑ DeepSeek-V3: A Parameter-Efficient MoE Large Language Model with Better Performance // arXiv. 2024.
- ↑ DeepSeek-Coder-V2: A More Powerful and Economical Coder // arXiv. 2024.
- ↑ DeepSeek-Math: Pushing the Limits of Mathematical Reasoning in Open-Source Models // arXiv. 2024.
- ↑ DeepSeek-R1: A 671B Parameter MoE LLM with Unprecedented Reasoning Capabilities // arXiv. 2025.
- ↑ DeepSeek's low-cost AI spotlights billions spent by US tech // Reuters. 2025-01-27.
- ↑ DeepSeek's low-cost AI spotlights billions spent by US tech // Reuters. 2025-01-27.
См. также