DeepSeek

Материал из Systems analysis wiki
Перейти к навигации Перейти к поиску

DeepSeek — китайская исследовательская компания в области искусственного интеллекта, разрабатывающая большие языковые модели (LLM) и мультимодальные системы. Широкую известность фирма получила благодаря открытому распространению весов своих моделей и их высокой экономической эффективности, что спровоцировало корректировку цен на ИИ‑рынке в конце 2024 — начале 2025 годов.[1]

История

Основатель DeepSeek — предприниматель и соучредитель хедж‑фонда High‑Flyer Лян Вэньфэн. Весной 2023 года High‑Flyer отделил исследовательское ИИ‑подразделение, которое в мае того же года стало компанией DeepSeek AI. Уже к 2025 году штат вырос до ~160 сотрудников.[2] С первых дней компания декларировала курс на открытость — публикацию весов («open‑weight») под разрешительными лицензиями и ориентацию на фундаментальные исследования AGI.

В отличие от большинства стартапов, DeepSeek финансируется из R&D-бюджета High-Flyer, что, по словам основателя, позволяет сосредоточиться на долгосрочных целях, а не на сиюминутной монетизации.[3]

Значительный резонанс в технологическом и финансовом сообществе компания вызвала в январе 2025 года после выпуска модели DeepSeek-R1. Заявление о том, что обучение модели, сопоставимой с GPT-4, обошлось менее чем в $6 млн (в сравнении с оценками в $100+ млн для GPT-4), вызвало обвал акций технологических гигантов и заставило индустрию переосмыслить парадигму «больше вычислений = лучше модель».[4]

Архитектурные особенности

Mixture‑of‑Experts (DeepSeekMoE)
Большинство флагманских моделей DeepSeek используют архитектуру смеси экспертов (MoE). В отличие от «плотных» моделей, где при обработке запроса активируются все параметры, в МоЕ-моделях для каждого токена задействуется лишь небольшая часть специализированных подсетей («экспертов»). DeepSeek разработала собственную реализацию MoE с «общими» экспертами, мелкозернистой сегментацией и балансировкой нагрузки без вспомогательных потерь, что позволяет активировать лишь часть из сотен миллиардов параметров и резко снижать вычислительные издержки.[5]
Multi‑Head Latent Attention (MLA)
Метод сжатия KV‑кэша до латентного вектора, экономящий до 93 % памяти и позволяющий использовать контекстные окна размером до 128 000 токенов. Эта технология является ключевой для эффективной работы с длинными текстами.[6]
FP8 training и Multi‑Token Prediction
В моделях семейства V3 применяется смешанная точность FP8 (8-битные числа с плавающей запятой) и одновременное предсказание нескольких токенов, что ускоряет процессы обучения и инференса (вывода).[7]

Семейство моделей

  • DeepSeek LLM — базовые модели на 7 и 67 млрд параметров (2023), первый билингвальный (EN/ZH) релиз, превзошедший LLaMA‑2 70B в ряде задач.[8]
  • DeepSeek‑Coder (2023) — линейка моделей для программирования (1,3 – 33 млрд) и её развитие Coder‑V2 (16 млрд / 236 млрд MoE, контекст 128K, 338 языков кодирования).[9]
  • DeepSeek‑V2 (май 2024) — 236 млрд (21 млрд активных) MoE‑LLM c MLA; обучена на 8,1 трлн токенов.[10]
  • DeepSeek‑V3 (декабрь 2024) — 671 млрд (37 млрд активных); обучение ≈2,8 млн GPU‑часов на Nvidia H800 стоимостью ≈$5,5 млн.[11]
  • DeepSeek‑R1 (январь 2025) — линия моделей для логических рассуждений (reasoning); версия R1‑0528 приблизилась к OpenAI o3 на AIME 2025 и LiveCodeBench.[12]
  • DeepSeek‑VL / VL2 — мультимодальные VL‑модели (до 4,5 млрд активных) с динамической мозаичной обработкой изображений 1024×1024.[13]
  • DeepSeek‑Math 7B — специализированная модель, 51,7 % точности на бенчмарке MATH; близко к GPT‑4.[14]
  • DeepSeek‑Prover‑V2 — 671 млрд MoE для доказательства теорем в Lean 4; 63,5 % на miniF2F.
  • Дистиллированные R1‑модели — открытые версии от 1,5 до 70 млрд параметров на базах Llama и Qwen.[15]

Хронология ключевых релизов

Дата Релиз и ключевые особенности
2 ноя 2023 DeepSeek‑Coder v1: первые open‑weight модели для кода.
29 ноя 2023 DeepSeek LLM 7B/67B: билингвальная модель, обученная на 2 трлн токенов.
11 янв 2024 DeepSeek‑MoE 16B: дебют MoE‑архитектуры.
6 фев 2024 DeepSeek‑Math 7B: специализированная модель для математики (51,7 % на MATH).
6 мая 2024 DeepSeek‑V2 236B: внедрение архитектур MLA и MoE.
17 июн 2024 DeepSeek‑Coder‑V2: 128K контекст, поддержка 338 языков программирования.
13 дек 2024 DeepSeek‑VL2: мультимодальная модель на основе MoE.
27 дек 2024 DeepSeek‑V3 671B: флагманская модель, обученная менее чем за $6 млн.
20 янв 2025 DeepSeek‑R1 / R1‑Zero: модели для рассуждений, обученные с помощью RL.
27 янв 2025 Janus‑Pro: модель для генерации изображений, превосходящая DALL‑E 3.

Производительность и бенчмарки

  • DeepSeek‑V3 обогнала Llama 3.1 и Qwen 2.5 и приблизилась к уровню GPT‑4 по MMLU и GPQA‑Diamond.[16]
  • DeepSeek‑Coder‑V2 набрала 72,9 % на Arena‑Hard — паритет с GPT‑4o и выше всех открытых моделей, кроме Claude‑3.5‑Sonnet.[17]
  • DeepSeek‑Math 7B — 51,7 % на MATH, что близко к Gemini‑Ultra при в 10 раз меньшем размере.[18]
  • R1‑Zero подняла результат AIME 2024 pass@1 с 15,6 % до 71 % только за счёт RL‑обучения.[19]

Лицензирование и open‑source

Большинство моделей распространяются под лицензией MIT или Apache 2.0, допускающей коммерческое использование. Компания публикует веса на Hugging Face и GitHub, однако сохраняет закрытыми полные датасеты и обучающие пайплайны («open weight, but not full open source»).

Влияние на индустрию

  • Запуск R1 вызвал однодневное проседание котировок NVIDIA, Microsoft и других компаний на фоне новостей о «модели класса GPT‑4 за $6 млн».[20]
  • Демонстрация успешного обучения на чипах Nvidia H800 под экспортными ограничениями стимулировала дискуссию о действенности санкций США и ускорила разработку китайских ИИ‑ускорителей (например, Huawei Ascend 910B).

Критика и ограничения

  • Безопасность: в тесте HarmBench модель R1 пропустила 100 % нежелательных запросов («джейлбрейк»).
  • Политическая цензура: чат‑версии фильтруют «чувствительные» для китайского правительства темы (события на площади Тяньаньмэнь в 1989 году, статус Тайваня и т. п.).
  • Хранение данных: хранение пользовательских данных на серверах в Китае ограничивает использование API западными корпорациями, подчиняющимися GDPR и аналогичным правовым режимам.[21]

Литература

  • Dai, D. et al. (2024). DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture‑of‑Experts Language Models. arXiv:2401.06066.
  • Ding, Y. et al. (2024). LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens. arXiv:2402.13753.
  • Fedus, W.; Zoph, B.; Shazeer, N. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
  • He, L. et al. (2025). Scaling Instruction‑Tuned LLMs to Million‑Token Contexts via Hierarchical Synthetic Data Generation. arXiv:2504.12637.
  • Jegham, N. et al. (2025). Visual Reasoning Evaluation of Grok, Deepseek Janus, Gemini, Qwen, Mistral, and ChatGPT. arXiv:2502.16428.
  • Lepikhin, D. et al. (2020). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. arXiv:2006.16668.
  • Peng, B. et al. (2023). YaRN: Efficient Context Window Extension of Large Language Models. arXiv:2309.00071.
  • Shen, Y. et al. (2025). Long‑VITA: Scaling Large Multi‑modal Models to 1 Million Tokens with Leading Short‑Context Accuracy. arXiv:2502.05177.
  • Su, J. et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
  • Zhong, M. et al. (2024). Understanding the RoPE Extensions of Long‑Context LLMs: An Attention Perspective. arXiv:2406.13282.

Примечания

  1. DeepSeek's low-cost AI spotlights billions spent by US tech // Reuters. 2025-01-27.
  2. Who is Liang Wenfeng, the founder of DeepSeek? // Reuters. 2025-01-28.
  3. Who is Liang Wenfeng, the founder of DeepSeek? // Reuters. 2025-01-28.
  4. DeepSeek's low-cost AI spotlights billions spent by US tech // Reuters. 2025-01-27.
  5. DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model // Hugging Face. 2024.
  6. DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model // Hugging Face. 2024.
  7. DeepSeek-V3: A Parameter-Efficient MoE Large Language Model with Better Performance // arXiv. 2024.
  8. DeepSeek LLM: Scaling Open-Source Language Models with Longtermism // arXiv. 2024.
  9. DeepSeek-Coder-V2: A More Powerful and Economical Coder // arXiv. 2024.
  10. DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model // Hugging Face. 2024.
  11. DeepSeek-V3: A Parameter-Efficient MoE Large Language Model with Better Performance // arXiv. 2024.
  12. DeepSeek-R1: A 671B Parameter MoE LLM with Unprecedented Reasoning Capabilities // arXiv. 2025.
  13. GitHub - deepseek-ai/DeepSeek-VL: Towards Real-World Vision-Language Understanding // GitHub.
  14. DeepSeek-Math: Pushing the Limits of Mathematical Reasoning in Open-Source Models // arXiv. 2024.
  15. DeepSeek-R1: A 671B Parameter MoE LLM with Unprecedented Reasoning Capabilities // arXiv. 2025.
  16. DeepSeek-V3: A Parameter-Efficient MoE Large Language Model with Better Performance // arXiv. 2024.
  17. DeepSeek-Coder-V2: A More Powerful and Economical Coder // arXiv. 2024.
  18. DeepSeek-Math: Pushing the Limits of Mathematical Reasoning in Open-Source Models // arXiv. 2024.
  19. DeepSeek-R1: A 671B Parameter MoE LLM with Unprecedented Reasoning Capabilities // arXiv. 2025.
  20. DeepSeek's low-cost AI spotlights billions spent by US tech // Reuters. 2025-01-27.
  21. DeepSeek's low-cost AI spotlights billions spent by US tech // Reuters. 2025-01-27.

См. также