DeepSeek

DeepSeek — китайская исследовательская компания в области искусственного интеллекта, разрабатывающая большие языковые модели (LLM) и мультимодальные системы. Широкую известность фирма получила благодаря открытому распространению весов своих моделей и их высокой экономической эффективности, что спровоцировало корректировку цен на ИИ‑рынке в конце 2024 — начале 2025 годов.^[1]

История

Основатель DeepSeek — предприниматель и соучредитель хедж‑фонда High‑Flyer Лян Вэньфэн. Весной 2023 года High‑Flyer отделил исследовательское ИИ‑подразделение, которое в мае того же года стало компанией DeepSeek AI. Уже к 2025 году штат вырос до ~160 сотрудников.^[2] С первых дней компания декларировала курс на открытость — публикацию весов («open‑weight») под разрешительными лицензиями и ориентацию на фундаментальные исследования AGI.

В отличие от большинства стартапов, DeepSeek финансируется из R&D-бюджета High-Flyer, что, по словам основателя, позволяет сосредоточиться на долгосрочных целях, а не на сиюминутной монетизации.^[3]

Значительный резонанс в технологическом и финансовом сообществе компания вызвала в январе 2025 года после выпуска модели DeepSeek-R1. Заявление о том, что обучение модели, сопоставимой с GPT-4, обошлось менее чем в $6 млн (в сравнении с оценками в $100+ млн для GPT-4), вызвало обвал акций технологических гигантов и заставило индустрию переосмыслить парадигму «больше вычислений = лучше модель».^[4]

Архитектурные особенности

Mixture‑of‑Experts (DeepSeekMoE): Большинство флагманских моделей DeepSeek используют архитектуру смеси экспертов (MoE). В отличие от «плотных» моделей, где при обработке запроса активируются все параметры, в МоЕ-моделях для каждого токена задействуется лишь небольшая часть специализированных подсетей («экспертов»). DeepSeek разработала собственную реализацию MoE с «общими» экспертами, мелкозернистой сегментацией и балансировкой нагрузки без вспомогательных потерь, что позволяет активировать лишь часть из сотен миллиардов параметров и резко снижать вычислительные издержки.^[5]
Multi‑Head Latent Attention (MLA): Метод сжатия KV‑кэша до латентного вектора, экономящий до 93 % памяти и позволяющий использовать контекстные окна размером до 128 000 токенов. Эта технология является ключевой для эффективной работы с длинными текстами.^[6]
FP8 training и Multi‑Token Prediction: В моделях семейства V3 применяется смешанная точность FP8 (8-битные числа с плавающей запятой) и одновременное предсказание нескольких токенов, что ускоряет процессы обучения и инференса (вывода).^[7]

Семейство моделей

DeepSeek LLM — базовые модели на 7 и 67 млрд параметров (2023), первый билингвальный (EN/ZH) релиз, превзошедший LLaMA‑2 70B в ряде задач.^[8]
DeepSeek‑Coder (2023) — линейка моделей для программирования (1,3 – 33 млрд) и её развитие Coder‑V2 (16 млрд / 236 млрд MoE, контекст 128K, 338 языков кодирования).^[9]
DeepSeek‑V2 (май 2024) — 236 млрд (21 млрд активных) MoE‑LLM c MLA; обучена на 8,1 трлн токенов.^[10]
DeepSeek‑V3 (декабрь 2024) — 671 млрд (37 млрд активных); обучение ≈2,8 млн GPU‑часов на Nvidia H800 стоимостью ≈$5,5 млн.^[11]
DeepSeek‑R1 (январь 2025) — линия моделей для логических рассуждений (reasoning); версия R1‑0528 приблизилась к OpenAI o3 на AIME 2025 и LiveCodeBench.^[12]
DeepSeek‑VL / VL2 — мультимодальные VL‑модели (до 4,5 млрд активных) с динамической мозаичной обработкой изображений 1024×1024.^[13]
DeepSeek‑Math 7B — специализированная модель, 51,7 % точности на бенчмарке MATH; близко к GPT‑4.^[14]
DeepSeek‑Prover‑V2 — 671 млрд MoE для доказательства теорем в Lean 4; 63,5 % на miniF2F.
Дистиллированные R1‑модели — открытые версии от 1,5 до 70 млрд параметров на базах Llama и Qwen.^[15]

Хронология ключевых релизов

Дата	Релиз и ключевые особенности
2 ноя 2023	DeepSeek‑Coder v1: первые open‑weight модели для кода.
29 ноя 2023	DeepSeek LLM 7B/67B: билингвальная модель, обученная на 2 трлн токенов.
11 янв 2024	DeepSeek‑MoE 16B: дебют MoE‑архитектуры.
6 фев 2024	DeepSeek‑Math 7B: специализированная модель для математики (51,7 % на MATH).
6 мая 2024	DeepSeek‑V2 236B: внедрение архитектур MLA и MoE.
17 июн 2024	DeepSeek‑Coder‑V2: 128K контекст, поддержка 338 языков программирования.
13 дек 2024	DeepSeek‑VL2: мультимодальная модель на основе MoE.
27 дек 2024	DeepSeek‑V3 671B: флагманская модель, обученная менее чем за $6 млн.
20 янв 2025	DeepSeek‑R1 / R1‑Zero: модели для рассуждений, обученные с помощью RL.
27 янв 2025	Janus‑Pro: модель для генерации изображений, превосходящая DALL‑E 3.

Производительность и бенчмарки

DeepSeek‑V3 обогнала Llama 3.1 и Qwen 2.5 и приблизилась к уровню GPT‑4 по MMLU и GPQA‑Diamond.^[16]
DeepSeek‑Coder‑V2 набрала 72,9 % на Arena‑Hard — паритет с GPT‑4o и выше всех открытых моделей, кроме Claude‑3.5‑Sonnet.^[17]
DeepSeek‑Math 7B — 51,7 % на MATH, что близко к Gemini‑Ultra при в 10 раз меньшем размере.^[18]
R1‑Zero подняла результат AIME 2024 pass@1 с 15,6 % до 71 % только за счёт RL‑обучения.^[19]

Лицензирование и open‑source

Большинство моделей распространяются под лицензией MIT или Apache 2.0, допускающей коммерческое использование. Компания публикует веса на Hugging Face и GitHub, однако сохраняет закрытыми полные датасеты и обучающие пайплайны («open weight, but not full open source»).

Влияние на индустрию

Запуск R1 вызвал однодневное проседание котировок NVIDIA, Microsoft и других компаний на фоне новостей о «модели класса GPT‑4 за $6 млн».^[20]
Демонстрация успешного обучения на чипах Nvidia H800 под экспортными ограничениями стимулировала дискуссию о действенности санкций США и ускорила разработку китайских ИИ‑ускорителей (например, Huawei Ascend 910B).

Критика и ограничения

Безопасность: в тесте HarmBench модель R1 пропустила 100 % нежелательных запросов («джейлбрейк»).
Политическая цензура: чат‑версии фильтруют «чувствительные» для китайского правительства темы (события на площади Тяньаньмэнь в 1989 году, статус Тайваня и т. п.).
Хранение данных: хранение пользовательских данных на серверах в Китае ограничивает использование API западными корпорациями, подчиняющимися GDPR и аналогичным правовым режимам.^[21]

Литература

Dai, D. et al. (2024). DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture‑of‑Experts Language Models. arXiv:2401.06066.
Ding, Y. et al. (2024). LongRoPE: Extending LLM Context Window Beyond 2 Million Tokens. arXiv:2402.13753.
Fedus, W.; Zoph, B.; Shazeer, N. (2021). Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity. arXiv:2101.03961.
He, L. et al. (2025). Scaling Instruction‑Tuned LLMs to Million‑Token Contexts via Hierarchical Synthetic Data Generation. arXiv:2504.12637.
Jegham, N. et al. (2025). Visual Reasoning Evaluation of Grok, Deepseek Janus, Gemini, Qwen, Mistral, and ChatGPT. arXiv:2502.16428.
Lepikhin, D. et al. (2020). GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. arXiv:2006.16668.
Peng, B. et al. (2023). YaRN: Efficient Context Window Extension of Large Language Models. arXiv:2309.00071.
Shen, Y. et al. (2025). Long‑VITA: Scaling Large Multi‑modal Models to 1 Million Tokens with Leading Short‑Context Accuracy. arXiv:2502.05177.
Su, J. et al. (2021). RoFormer: Enhanced Transformer with Rotary Position Embedding. arXiv:2104.09864.
Zhong, M. et al. (2024). Understanding the RoPE Extensions of Long‑Context LLMs: An Attention Perspective. arXiv:2406.13282.

Примечания

↑ DeepSeek's low-cost AI spotlights billions spent by US tech // Reuters. 2025-01-27.
↑ Who is Liang Wenfeng, the founder of DeepSeek? // Reuters. 2025-01-28.
↑ Who is Liang Wenfeng, the founder of DeepSeek? // Reuters. 2025-01-28.
↑ DeepSeek's low-cost AI spotlights billions spent by US tech // Reuters. 2025-01-27.
↑ DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model // Hugging Face. 2024.
↑ DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model // Hugging Face. 2024.
↑ DeepSeek-V3: A Parameter-Efficient MoE Large Language Model with Better Performance // arXiv. 2024.
↑ DeepSeek LLM: Scaling Open-Source Language Models with Longtermism // arXiv. 2024.
↑ DeepSeek-Coder-V2: A More Powerful and Economical Coder // arXiv. 2024.
↑ DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model // Hugging Face. 2024.
↑ DeepSeek-V3: A Parameter-Efficient MoE Large Language Model with Better Performance // arXiv. 2024.
↑ DeepSeek-R1: A 671B Parameter MoE LLM with Unprecedented Reasoning Capabilities // arXiv. 2025.
↑ GitHub - deepseek-ai/DeepSeek-VL: Towards Real-World Vision-Language Understanding // GitHub.
↑ DeepSeek-Math: Pushing the Limits of Mathematical Reasoning in Open-Source Models // arXiv. 2024.
↑ DeepSeek-R1: A 671B Parameter MoE LLM with Unprecedented Reasoning Capabilities // arXiv. 2025.
↑ DeepSeek-V3: A Parameter-Efficient MoE Large Language Model with Better Performance // arXiv. 2024.
↑ DeepSeek-Coder-V2: A More Powerful and Economical Coder // arXiv. 2024.
↑ DeepSeek-Math: Pushing the Limits of Mathematical Reasoning in Open-Source Models // arXiv. 2024.
↑ DeepSeek-R1: A 671B Parameter MoE LLM with Unprecedented Reasoning Capabilities // arXiv. 2025.
↑ DeepSeek's low-cost AI spotlights billions spent by US tech // Reuters. 2025-01-27.
↑ DeepSeek's low-cost AI spotlights billions spent by US tech // Reuters. 2025-01-27.

См. также

[1] DeepSeek's low-cost AI spotlights billions spent by US tech // Reuters. 2025-01-27.

[2] Who is Liang Wenfeng, the founder of DeepSeek? // Reuters. 2025-01-28.

[3] Who is Liang Wenfeng, the founder of DeepSeek? // Reuters. 2025-01-28.

[4] DeepSeek's low-cost AI spotlights billions spent by US tech // Reuters. 2025-01-27.

[5] DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model // Hugging Face. 2024.

[6] DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model // Hugging Face. 2024.

[7] DeepSeek-V3: A Parameter-Efficient MoE Large Language Model with Better Performance // arXiv. 2024.

[8] DeepSeek LLM: Scaling Open-Source Language Models with Longtermism // arXiv. 2024.

[9] DeepSeek-Coder-V2: A More Powerful and Economical Coder // arXiv. 2024.

[10] DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model // Hugging Face. 2024.

[11] DeepSeek-V3: A Parameter-Efficient MoE Large Language Model with Better Performance // arXiv. 2024.

[12] DeepSeek-R1: A 671B Parameter MoE LLM with Unprecedented Reasoning Capabilities // arXiv. 2025.

[13] GitHub - deepseek-ai/DeepSeek-VL: Towards Real-World Vision-Language Understanding // GitHub.

[14] DeepSeek-Math: Pushing the Limits of Mathematical Reasoning in Open-Source Models // arXiv. 2024.

[15] DeepSeek-R1: A 671B Parameter MoE LLM with Unprecedented Reasoning Capabilities // arXiv. 2025.

[16] DeepSeek-V3: A Parameter-Efficient MoE Large Language Model with Better Performance // arXiv. 2024.

[17] DeepSeek-Coder-V2: A More Powerful and Economical Coder // arXiv. 2024.

[18] DeepSeek-Math: Pushing the Limits of Mathematical Reasoning in Open-Source Models // arXiv. 2024.

[19] DeepSeek-R1: A 671B Parameter MoE LLM with Unprecedented Reasoning Capabilities // arXiv. 2025.

[20] DeepSeek's low-cost AI spotlights billions spent by US tech // Reuters. 2025-01-27.

[21] DeepSeek's low-cost AI spotlights billions spent by US tech // Reuters. 2025-01-27.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

DeepSeek

Содержание

История

Архитектурные особенности

Семейство моделей

Хронология ключевых релизов

Производительность и бенчмарки

Лицензирование и open‑source

Влияние на индустрию

Критика и ограничения

Литература

Примечания

См. также

Навигация

DeepSeek

История

Архитектурные особенности

Семейство моделей

Хронология ключевых релизов

Производительность и бенчмарки

Лицензирование и open‑source

Влияние на индустрию

Критика и ограничения

Литература

Примечания

См. также

Навигация

Поиск