YandexGPT (language model) — Yandex的大语言模型
Jump to navigation
Jump to search
YandexGPT (Yet another GPT) 是由 Yandex 开发的大型语言模型系列,于2023年5月首次发布。[1] YandexGPT 网络被用于内置助手 Alisa、搜索及其他服务中,并通过 Yandex Cloud 平台的公共 API 提供。[2]
YaLM-100B (2022) 是一个早期的研究模型,拥有1000亿参数并开源;它作为“概念验证”,但 YandexGPT 是为商业应用而独立开发的。[3]
发布历史
| 日期 | 版本 | 主要特点 |
|---|---|---|
| 2022年6月 | YaLM-100B | 1000亿参数,1.7 TB 数据;Apache 2.0。[3] |
| 2023年5月17日 | YandexGPT 1.0 | 集成到 Alisa 助手中。[1] |
| 2023年9月7日 | YandexGPT 2 | 内部测试质量提升67%。[4] |
| 2024年3月28日 | YandexGPT 3 Pro / Lite | 新的企业级 API 产品线。[5] |
| 2024年10月24日 | YandexGPT 4 Pro / Lite | 32,000 token 的上下文;隐藏推理 (chain-of-thought)。[6] |
| 2025年2月25日 | YandexGPT 5 Pro | 在64%的任务中与 GPT-4o 性能持平。[7] |
| 2025年3月31日 | YandexGPT 5 Lite Instruct | 80亿参数模型开源;Llama 格式。[8] |
架构与训练
- 基础架构:针对俄语优化的 Transformer。
- YandexGPT 5 Lite:Llama 兼容;预训练数据量约15万亿 token,后续微调数据量约3200亿 token。[8]
上下文与限制
- 架构上下文长度上限为 32,000 token (版本 4/5)。[6]
- 公共 API 将单个请求 (prompt + completion) 限制在 7,400 token 内。[9]
- 根据“Quotas and limits”部分的规定,**回复**的最大长度为 2,000 token。[10]
当前模型 (2025年6月)
| 模型 | 参数 | 上下文 | 许可证 | 备注 |
|---|---|---|---|---|
| YandexGPT 5 Pro | 未公开 | 32,000 | 专有 | 通过 API 和“Alisa Pro”提供。[7] |
| YandexGPT 5 Lite | 80亿 | 32,000 | Yandex GPT-Lite License | 开源;Llama 兼容。[8] |
| YaLM-100B | 1000亿 | 2,048 | Apache 2.0 | 初始项目。[3] |
基准测试
- 内部测试:5 Pro 在64%的任务中与 GPT-4o 性能持平;相比 4 Pro 性能提升67%。[7]
- ru-LLM Arena:在俄语模型中,YandexGPT 的 ELO 评分保持领先地位。[11]
Fine-tuning - 微调
5 Lite 版本官方支持 LoRA 方法;在 model card 中发布了运行示例。[8]
API 模式
- 同步模式 — 用于快速响应 (Lite)。
- 异步模式 — 用于资源密集型任务 (Pro)。[2]
多模态能力
YandexGPT 系列仍为纯文本模型;多模态服务(“Neuro”、“YandexArt”、“Yandex Vision”)是独立发展的。[6]
链接
参考文献
- Matkin, N. et al. (2024). Comparative Analysis of Encoder-Based NER and Large Language Models for Skill Extraction from Russian Job Vacancies. arXiv:2407.19816.
- Tsanda, A.; Bruches, E. (2024). Russian-Language Multimodal Dataset for Automatic Summarization of Scientific Papers. arXiv:2405.07886.
- Goloburda, M. et al. (2025). Qorǵau: Evaluating LLM Safety in Kazakh-Russian Bilingual Contexts. arXiv:2502.13640.
- Togmanov, M. et al. (2025). KazMMLU: Evaluating Language Models on Kazakh, Russian, and Regional Knowledge of Kazakhstan. arXiv:2502.12829.
- Noels, S. et al. (2025). What Large Language Models Do Not Talk About: An Empirical Study of Moderation and Censorship Practices. arXiv:2504.03803.
注释
- ↑ 1.0 1.1 “Yandex 在 Alisa 中加入了 ChatGPT 的同类产品”。RBC。[1]
- ↑ 2.0 2.1 “Getting started with YandexGPT (Quickstart)”. Yandex Cloud Docs. [2]
- ↑ 3.0 3.1 3.2 “yandex/YaLM‑100B: Pretrained language model with 100B”. GitHub. [3]
- ↑ “Yandex 如何决定通过其 ChatGPT 同类产品盈利”。RBC。[4]
- ↑ “Yandex 推出了第三代 YandexGPT 神经网络”。RBC。[5]
- ↑ 6.0 6.1 6.2 “更强大的 YandexGPT 4 模型系列”。Habr。[6]
- ↑ 7.0 7.1 7.2 “Yandex 将 YandexGPT 5 Pro 集成到‘Alisa Pro’聊天中”。AdIndex。[7]
- ↑ 8.0 8.1 8.2 8.3 “yandex/YandexGPT‑5‑Lite‑8B‑pretrain”. Hugging Face. [8]
- ↑ “ChatYandexGPT API Reference (max_tokens = 7400)”. LangChain Docs. [9]
- ↑ “Yandex Cloud service quotas and limits → Foundation Models”. Yandex Cloud Docs. [10]
- ↑ “llmarena/llmarena — 俄罗斯的 LLM 众包评估平台”. GitHub. [11]