The 2024 AI Index Report

AI Index Report 2024 — седьмое ежегодное издание отчёта AI Index, подготовленное Стэнфордским институтом искусственного интеллекта, ориентированного на человека (Stanford HAI)^[1]. Отчёт 2024 года является наиболее масштабным за всю историю публикации и выходит в момент, когда влияние ИИ на общество становится беспрецедентно заметным. Издание включает новые оценки стоимости обучения моделей, детальный анализ ответственного ИИ и впервые содержит отдельную главу, посвящённую влиянию ИИ на науку и медицину. Отчёт отслеживает, систематизирует и визуализирует данные, связанные с искусственным интеллектом, предоставляя объективную и тщательно верифицированную информацию для политиков, исследователей, руководителей, журналистов и широкой общественности.

Структура отчёта

Отчёт 2024 года состоит из девяти тематических глав^[1]:

Исследования и разработки (Research and Development) — тренды в публикациях, патентах, базовых моделях и открытых проектах.
Техническая производительность (Technical Performance) — бенчмарки, сравнение с человеческим уровнем, мультимодальность.
Ответственный ИИ (Responsible AI) — инциденты, безопасность, предвзятость, конфиденциальность.
Экономика (Economy) — инвестиции, рынок труда, корпоративное внедрение, роботизация.
Наука и медицина (Science and Medicine) — новая глава: прорывы в науке и медицинских приложениях ИИ.
Образование (Education) — подготовка кадров, образовательные программы, ChatGPT в обучении.
Политика и управление (Policy and Governance) — законодательство, регулирование, национальные стратегии.
Разнообразие (Diversity) — гендерное и этническое разнообразие в сфере ИИ.
Общественное мнение (Public Opinion) — отношение населения к ИИ по данным международных опросов.

Ключевые выводы отчёта (Top 10)

Авторы отчёта выделили десять главных тезисов 2024 года^[1]:

1. ИИ превосходит людей в ряде задач, но не во всех

Системы искусственного интеллекта превзошли человеческий уровень на нескольких бенчмарках, включая классификацию изображений (ImageNet), визуальное рассуждение (VQA) и понимание английского языка (SuperGLUE). При этом ИИ по-прежнему уступает людям в более сложных задачах: математике олимпиадного уровня (MATH), визуальном обыденном рассуждении и планировании^[1].

2. Индустрия доминирует в передовых ИИ-исследованиях

В 2023 году индустрия создала 51 значимую модель машинного обучения, тогда как академия — лишь 15. При этом 21 модель стала результатом совместной работы индустрии и академии — рекордный показатель^[1].

3. Стоимость обучения передовых моделей резко растёт

По оценкам AI Index и Epoch AI, затраты на обучение GPT-4 составили около 78 млн долларов, а Gemini Ultra от Google — порядка 191 млн долларов^[2]. Для сравнения: обучение исходной модели Transformer в 2017 году стоило около 900 долларов, а RoBERTa Large в 2019 году — около 160 тысяч^[1].

4. США лидируют как источник ведущих моделей ИИ

В 2023 году 61 значимая модель ИИ была создана в организациях США, значительно опережая ЕС (21 модель) и Китай (15 моделей)^[1].

5. Стандартизированные оценки ответственности LLM серьёзно отстают

Исследование AI Index выявило значительный дефицит стандартизации в отчётности по ответственному ИИ. Ведущие разработчики — OpenAI, Google и Anthropic — тестируют свои модели на различных бенчмарках ответственного ИИ, что затрудняет систематическое сравнение рисков^[1].

6. Инвестиции в генеративный ИИ стремительно растут

Несмотря на общее снижение частных инвестиций в ИИ, финансирование генеративного ИИ увеличилось почти в восемь раз по сравнению с 2022 годом, достигнув 25,2 млрд долларов. Крупные раунды привлечения средств провели OpenAI, Anthropic, Hugging Face и Inflection^[3].

7. ИИ повышает производительность и качество труда

Многочисленные исследования 2023 года показали, что ИИ помогает работникам выполнять задачи быстрее и с более высоким качеством, а также сокращает разрыв между низко- и высококвалифицированными специалистами. Вместе с тем ряд работ предупреждает, что использование ИИ без надлежащего контроля может привести к снижению производительности^[1].

8. Научный прогресс ускоряется благодаря ИИ

В 2023 году были представлены значительные научные приложения ИИ: AlphaDev (ускорение алгоритмов сортировки), GNoME (открытие новых материалов), GraphCast (прогнозирование погоды) и другие^[1].

9. Число нормативных актов об ИИ в США резко возросло

В 2023 году было принято 25 нормативных актов, связанных с ИИ, — рост на 56,3% по сравнению с предыдущим годом. Для сравнения: в 2016 году был принят лишь один такой акт^[1].

10. Люди всё больше осведомлены о влиянии ИИ — и всё больше обеспокоены

По данным Ipsos, доля респондентов, считающих, что ИИ существенно повлияет на их жизнь в ближайшие 3–5 лет, выросла с 60% до 66%. Причём 52% выражают нервозность в отношении продуктов и сервисов ИИ — рост на 13 п.п. с 2022 года. В США, по данным Pew Research, 52% американцев сообщают о большей обеспокоенности, чем воодушевлении в связи с ИИ (37% в 2022 году)^[4]^[5].

Глава 1. Исследования и разработки

Глава анализирует тренды в публикациях, патентах, передовых ИИ-системах, базовых моделях (foundation models), конференциях и открытых программных проектах^[1].

Публикации

Общее число публикаций по ИИ продолжает расти: с примерно 88 000 в 2010 году до более чем 240 000 в 2022 году (рост почти втрое). Прирост за последний год составил 1,1%^[1].

Патенты

Число предоставленных патентов в сфере ИИ в мире резко увеличилось: с 2021 по 2022 год рост составил 62,7%, а с 2010 года — более чем в 31 раз. Китай доминирует в патентовании ИИ: в 2022 году на его долю пришлось 61,1% патентных заявок, тогда как доля США составила 20,9% (снижение с 54,1% в 2010 году)^[1].

Передовые модели

В 2023 году индустрия продолжила доминировать в создании передовых моделей. Было выпущено 149 базовых моделей — вдвое больше, чем в 2022 году. Из них 65,7% были с открытым исходным кодом (по сравнению с 44,4% в 2022 году и 33,3% в 2021 году)^[1].

Стоимость обучения. Сотрудничество AI Index с Epoch AI позволило получить уточнённые оценки стоимости обучения моделей. Рост расходов наглядно иллюстрирует следующая динамика^[2]:

Модель	Год	Оценка стоимости обучения (USD)
Transformer	2017	~930
BERT-Large	2018	~3 300
RoBERTa Large	2019	~160 000
GPT-3 175B	2020	~4,3 млн
PaLM 540B	2022	~12,4 млн
Llama 2 70B	2023	~3,9 млн
GPT-4	2023	~78 млн
Gemini Ultra	2023	~191 млн

Национальная принадлежность. В 2023 году 61 значимая модель была создана организациями США, 21 — ЕС, 15 — Китая. Это подтверждает ведущую роль США в разработке передовых систем ИИ^[1].

Открытое программное обеспечение

Число ИИ-проектов на GitHub неуклонно растёт: с 845 в 2011 году до примерно 1,8 млн в 2023 году. В 2023 году был зафиксирован рост на 59,3%. Общее число звёзд для ИИ-проектов утроилось: с 4,0 млн в 2022 году до 12,2 млн в 2023 году^[1].

Конференции

Посещаемость ведущих ИИ-конференций (NeurIPS, ICML, ICLR и др.) продолжала расти, отражая растущий интерес к области^[1].

Глава 2. Техническая производительность

Глава анализирует прогресс систем ИИ в задачах обработки языка, генерации изображений, рассуждения, кодирования и агентного поведения^[1].

Состояние производительности ИИ

По состоянию на 2023 год ИИ превосходит человеческий уровень в нескольких категориях задач: классификация изображений (с 2015 года), базовое понимание текста (с 2017 года), визуальное рассуждение (с 2020 года), логический вывод на естественном языке (с 2021 года). Однако в таких задачах, как олимпиадная математика (MATH) и планирование, ИИ пока уступает людям^[1].

Языковые модели

HELM. Бенчмарк Holistic Evaluation of Language Models (HELM), разработанный в Стэнфорде, оценивает LLM по десяти сценариям, включая понимание текста, математику и юридические рассуждения. По состоянию на январь 2024 года GPT-4 лидирует с показателем mean win rate 0,96^[6].

MMLU. Бенчмарк Massive Multitask Language Understanding (MMLU) оценивает модели по 57 предметным областям. Gemini Ultra от Google первым превысил человеческий базовый уровень (89,8%), набрав 90,0% — улучшение на 14,8 п.п. по сравнению с 2022 годом и на 57,6 п.п. с момента создания бенчмарка в 2019 году^[7].

Chatbot Arena. Запущенная в 2023 году платформа позволяет пользователям сравнивать генерации анонимных моделей. По состоянию на начало 2024 года GPT-4 Turbo признан наиболее предпочтительной моделью по итогам более 200 000 голосов^[1].

Мультимодальность

Традиционно системы ИИ были ограничены одной модальностью. Однако в 2023 году появились мощные мультимодальные модели — Google Gemini и OpenAI GPT-4, способные обрабатывать текст, изображения, а в ряде случаев и аудио. Бенчмарк MMMU (Massive Multi-discipline Multimodal Understanding) показал, что Gemini Ultra лидирует с 59,4%, но это существенно ниже уровня человека-эксперта (82,6%)^[8].

Рассуждение

GPQA. Бенчмарк Graduate-Level Google-Proof Q&A включает 448 сложных вопросов по биологии, физике и химии, на которые нельзя ответить простым поиском в Google. GPT-4 с поиском набрал 41,0%, что ниже уровня экспертов (72,5%), но выше не-экспертов (30,5%)^[9].

Теория сознания (BigToM). Тестирование способности LLM к моделированию убеждений других людей показало, что GPT-4 приближается к человеческому уровню в задачах прямого вывода убеждений и действий, хотя всё ещё уступает в задачах обратного вывода убеждений^[10].

Кодирование

Бенчмарк HumanEval оценивает генерацию кода. В 2023 году модели продолжили улучшать показатели, а SWE-bench — новый бенчмарк для оценки решения реальных задач программной инженерии — показал, что даже лучшие модели решают лишь малую долю задач, демонстрируя значительный потенциал для дальнейшего прогресса^[1].

Агентное поведение

Системы ИИ всё чаще тестируются в агентных сценариях. Voyager (Microsoft) продемонстрировал способность к автономному обучению в динамичной среде Minecraft, собирая в 3,3 раза больше уникальных предметов, перемещаясь в 2,3 раза дальше и достигая ключевых этапов в 15,3 раза быстрее по сравнению с предшествующими моделями^[11]. MLAgentBench показал, что ИИ-агенты для научных исследований обещают потенциал, но результаты существенно варьируются между задачами^[1].

Свойства LLM

Эмерджентное поведение. Исследование 2023 года поставило под сомнение представление о неизбежности появления непредсказуемых «эмерджентных» способностей при масштабировании моделей. При использовании линейных и непрерывных метрик такие способности в значительной мере исчезают^[12].

Деградация производительности. Исследование Стэнфорда и Беркли показало, что производительность GPT-4 может существенно изменяться между обновлениями: версия от июня 2023 года оказалась на 42 п.п. хуже версии от марта в генерации кода и на 33 п.п. хуже в математических задачах^[13].

Самокоррекция. Исследователи из DeepMind и Университета Иллинойса показали, что LLM плохо справляются с самостоятельной коррекцией своих рассуждений без внешнего руководства: производительность GPT-4 снижалась на всех протестированных бенчмарках при попытке самокоррекции^[1].

Глава 3. Ответственный ИИ

Глава посвящена ключевым измерениям ответственного ИИ: конфиденциальности, прозрачности, безопасности и справедливости^[1].

Инциденты в сфере ИИ

База данных AI Incident Database зафиксировала 123 инцидента в 2023 году — рост на 32,3% по сравнению с 2022 годом. С 2013 года число инцидентов увеличилось более чем в двадцать раз. Рост обусловлен как расширением применения ИИ, так и повышением осведомлённости о его этических рисках^[14].

Стандартизация бенчмарков ответственного ИИ

Анализ пяти ведущих разработчиков (OpenAI, Meta, Anthropic, Google, Mistral AI) выявил отсутствие единого набора бенчмарков для оценки ответственного ИИ. Хотя общие бенчмарки возможностей (MMLU, HellaSwag, ARC Challenge, HumanEval, GSM8K) используются широко, бенчмарки ответственного ИИ (TruthfulQA, RealToxicityPrompts, ToxiGen, BOLD, BBQ) применяются разрозненно: TruthfulQA используют не более трёх из пяти разработчиков, а один разработчик вообще не сообщает о тестировании по бенчмаркам ответственного ИИ^[1].

ИИ и выборы

Исследования 2023 года показали, что люди правильно идентифицируют аудиодипфейки лишь в 73% случаев. Ожидается, что с развитием технологий генерации звука точность распознавания будет снижаться. Это создаёт риски манипулирования политическими кампаниями и даёт политикам возможность отвергать компрометирующие аудиозаписи как подделки (так называемый «дивиденд лжеца»)^[15].

Исследования LLM на предмет политической предвзятости выявили корреляцию между ответами ChatGPT по умолчанию и позициями Демократической партии и отрицательную корреляцию с позициями Республиканской партии^[16].

Глава 4. Экономика

Глава исследует тренды в инвестициях, занятости, корпоративном внедрении ИИ и роботизации^[1].

Инвестиции

Общие тренды. Совокупные корпоративные инвестиции в ИИ снизились до 189,2 млрд долларов в 2023 году (падение ~20% к 2022 году). Однако за десятилетие объём инвестиций увеличился в тринадцать раз. Частные инвестиции снижались второй год подряд, хотя падение было менее выраженным, чем в 2021–2022 годах^[3].

Генеративный ИИ. Инвестиции в генеративный ИИ составили 25,2 млрд долларов — почти девятикратный рост по сравнению с 2022 годом и тридцатикратный по сравнению с 2019 годом. Генеративный ИИ обеспечил более четверти всех частных инвестиций в ИИ^[3].

Региональное распределение. США с инвестициями в 67,2 млрд долларов опередили Китай (7,8 млрд) в 8,7 раза и Великобританию (3,8 млрд) в 17,8 раза. При этом частные инвестиции в Китае сократились на 44,2%, в ЕС и Великобритании — на 14,1%, тогда как в США выросли на 22,1%^[3].

Стартапы. Число новых ИИ-компаний, получивших финансирование, выросло до 1 812 (рост на 40,6%). В сфере генеративного ИИ финансирование получили 99 новых стартапов (против 56 в 2022 году)^[3].

Рынок труда

Доля вакансий, связанных с ИИ, в США снизилась с 2,0% в 2022 году до 1,6% в 2023 году. Аналогичная тенденция наблюдается глобально. Снижение объясняется сокращением найма со стороны крупных ИИ-компаний и уменьшением доли технических вакансий^[1].

Миграция ИИ-специалистов из академии в индустрию продолжает ускоряться: в 2022 году 70,7% новых обладателей докторских степеней в ИИ устроились в промышленность (против 40,9% в 2011 году), и лишь 20,0% — в академию (против 41,6%)^[1].

Корпоративное внедрение

По данным McKinsey, 55% организаций используют ИИ (включая генеративный ИИ) хотя бы в одном бизнес-подразделении — рост с 50% в 2022 году и 20% в 2017 году. При этом 42% организаций сообщают о снижении затрат, а 59% — о росте выручки благодаря ИИ^[17].

Упоминания ИИ в отчётах о прибылях компаний Fortune 500 достигли 394 (почти 80% всех компаний) — заметный рост с 266 в 2022 году. Наиболее часто упоминаемой темой (19,7% всех звонков) стал генеративный ИИ^[1].

Робототехника

В 2022 году было установлено 553 000 промышленных роботов — рост на 5,1% к 2021 году и более чем втрое с 2012 года. Китай доминирует: с 2013 года, когда он обогнал Японию, доля Китая выросла с 20,8% до 52,4% мировых установок в 2022 году. Доля коллаборативных роботов увеличилась с 2,8% в 2017 году до 9,9% в 2022 году^[18].

Глава 5. Наука и медицина

Впервые включённая в отчёт глава освещает роль ИИ в научных открытиях и медицинских инновациях^[1].

Научные достижения 2023 года

AlphaDev (DeepMind) — система обучения с подкреплением, обнаружившая алгоритмы сортировки с меньшим числом инструкций, чем у существующих человеческих эталонов. Некоторые из найденных алгоритмов были включены в стандартную библиотеку сортировки C++ (LLVM) — первое обновление этой части библиотеки за более чем десять лет^[19].

GraphCast (DeepMind) — система прогнозирования погоды на основе графовых нейронных сетей, обеспечивающая 10-дневный прогноз менее чем за минуту с точностью, превышающей ведущую систему моделирования HRES (Европейский центр среднесрочных прогнозов погоды)^[20].

GNoME (Google DeepMind) — модель, использующая графовые сети для ускоренного поиска новых функциональных материалов, что критически важно для прогресса в робототехнике и полупроводниковой индустрии^[21].

Synbot — ИИ-управляемый робот-химик для автономного синтеза органических молекул, достигший выхода реакции, сопоставимого с референсными значениями или превышающего их^[22].

FlexiCubes (NVIDIA) — метод оптимизации 3D-мешей с использованием ИИ для улучшения качества генерации 3D-объектов в компьютерной графике^[23].

ИИ в медицине

Клинические знания. На бенчмарке MedQA (оценка клинических знаний ИИ) модель GPT-4 Medprompt достигла точности 90,2% — рост на 22,6 п.п. по сравнению с лучшим результатом 2022 года. С момента создания бенчмарка в 2019 году производительность ИИ на MedQA почти утроилась. Примечательно, что GPT-4 Medprompt использовал инженерию промптов вместо тонкой настройки, превзойдя специализированные медицинские модели^[24].

MediTron-70B — открытая медицинская LLM, показавшая 70,2% на MedQA — лучший результат среди моделей с открытым кодом, хотя и ниже показателей закрытых моделей GPT-4 Medprompt и Med-PaLM 2^[25].

Медицинские инновации. Среди значимых систем 2023 года: SynthSR (улучшение визуализации структур мозга из низкокачественных МРТ-сканов), ImmunoSEIRA (ИИ-инфракрасные сенсоры для диагностики нейродегенеративных заболеваний), EVEscape (прогнозирование эволюции вирусов для предотвращения пандемий), AlphaMissense (классификация миссенс-мутаций)^[1].

Одобрение FDA. В 2022 году FDA одобрило 139 медицинских устройств на базе ИИ — рост на 12,1% к 2021 году. С 2012 года число таких одобрений увеличилось более чем в 45 раз^[26].

Глава 6. Образование

Глава рассматривает тенденции в образовании в области информатики и ИИ^[1].

Высшее образование

Число выпускников бакалавриата по информатике в США и Канаде продолжает расти. Число магистров остаётся относительно стабильным, а число докторов скромно увеличивается. С 2018 года число магистров и докторов информатики несколько снизилось^[1].

Доля международных студентов уменьшилась на всех уровнях образования, особенно заметно — в магистратуре. В мировом масштабе число англоязычных образовательных программ, связанных с ИИ, утроилось с 2017 года^[1].

ChatGPT в образовании

По данным опроса Walton Foundation, 88% учителей и 79% студентов считают, что ChatGPT оказывает положительное влияние на образовательный процесс. 76% учителей и 65% студентов полагают, что ChatGPT важно интегрировать в обучение^[27].

Глава 7. Политика и управление

Глава анализирует законодательную и регуляторную активность в сфере ИИ на глобальном, американском и европейском уровнях^[1].

Глобальные тенденции

Упоминания ИИ в законодательных процессах по всему миру достигли рекордного уровня. Наблюдается сдвиг от чисто стимулирующих мер к ограничительному законодательству, что свидетельствует о растущем внимании регуляторов к потенциальным рискам ИИ^[1].

Тематика принятых законов в 2023 году значительно расширилась, охватив вооружённые силы и национальную безопасность, гражданские права, торговлю, образование, трудовые отношения, науку и технологии^[1].

Регулирование в США

Число нормативных актов, связанных с ИИ, достигло 25 в 2023 году (рост на 56,3% к 2022 году). Наиболее распространённой тематикой стали внешняя торговля и международные финансы. Доля нормативных актов с высокой и средней степенью релевантности к ИИ выросла по сравнению с предыдущими годами^[1].

Знаковым событием 2023 года стал Указ Президента Байдена об ИИ (Executive Order on AI), направленный, в частности, на создание Национального ресурса исследований ИИ (National AI Research Resource) для обеспечения равных возможностей между индустрией и академией^[28].

Регулирование в ЕС

В Европейском Союзе наблюдается аналогичная тенденция к увеличению числа нормативных актов, связанных с ИИ. Значимым достижением 2023 года стало продвижение AI Act — первого комплексного закона об ИИ в мире^[1].

Глава 8. Разнообразие

Глава исследует гендерное и этническое разнообразие среди ИИ-специалистов. Несмотря на некоторый прогресс, женщины и представители меньшинств по-прежнему значительно недопредставлены в сфере ИИ как в индустрии, так и в академии^[1].

Глава 9. Общественное мнение

Глава анализирует общественное восприятие ИИ на основе международных опросов и данных социальных сетей^[1].

Международные опросы

Осведомлённость и обеспокоенность. По данным Ipsos, 66% респондентов (рост с 60%) считают, что ИИ существенно повлияет на их жизнь в ближайшие 3–5 лет. При этом 52% выражают нервозность по отношению к продуктам ИИ (рост на 13 п.п. с 2022 года)^[4].

Экономические ожидания. Лишь 37% респондентов считают, что ИИ улучшит их работу, 34% — что он улучшит экономику, и 32% — что он положительно повлияет на рынок труда^[4].

Демографические различия. Молодые поколения значительно более оптимистичны: 59% представителей поколения Z считают, что ИИ улучшит развлечения, против 40% бэби-бумеров. Люди с более высоким уровнем дохода и образования также более оптимистичны^[1].

Узнаваемость ChatGPT. По данным международного опроса Университета Торонто, 63% респондентов знают о ChatGPT, из них примерно половина пользуется им не реже раза в неделю^[29].

Данные социальных сетей

Анализ Quid более 7 млн постов в социальных сетях за 2023 год выявил, что модели GraphCast и Claude 2.1 получили наиболее высокий показатель положительного настроения (net sentiment score). GPT-4 привлёк наибольшую долю внимания в первом квартале, тогда как к концу года фокус сместился на Gemini и Grok^[1].

Значимые модели ИИ 2023 года

Отчёт фиксирует появление ряда ключевых моделей^[1]:

Модель	Разработчик	Тип	Дата	Значимость
GPT-4	OpenAI	LLM, мультимодальная	Март 2023	Одна из наиболее мощных LLM; лидер HELM
PaLM 2	Google	LLM	Май 2023	Расширенные мультиязычные возможности
Llama 2	Meta	LLM (открытая)	Июль 2023	Ведущая открытая модель; версии 7B/13B/70B
Claude 2 / 2.1	Anthropic	LLM	Июль / Ноябрь 2023	Контекстное окно до 200K токенов
Mistral 7B	Mistral AI	LLM (открытая)	Сентябрь 2023	Компактная высокопроизводительная модель
DALL-E 3	OpenAI	Генерация изображений	Октябрь 2023	Улучшенное качество и следование промптам
Gemini / Gemini Ultra	Google	LLM, мультимодальная	Декабрь 2023	Первая LLM, превзошедшая человека на MMLU
Mixtral 8×7B	Mistral AI	LLM (MoE, открытая)	Декабрь 2023	Архитектура Mixture-of-Experts
Midjourney v6	Midjourney	Генерация изображений	Декабрь 2023	Улучшенное качество и интуитивные промпты
Whisper v3	OpenAI	Распознавание речи	Ноябрь 2023	Повышенная точность, расширенная языковая поддержка

Методология

Отчёт использует данные из множества источников^[1]:

Публикации и патенты: OpenAlex, WIPO, USPTO, данные Epoch AI.
Бенчмарки: Papers With Code, CRFM (HELM), специализированные лидерборды.
Инвестиции: Quid (Capital IQ, Crunchbase), данные по более чем 8 млн компаний.
Рынок труда: Lightcast, LinkedIn, Stack Overflow.
Корпоративная активность: McKinsey & Company, Seeking Alpha (earnings calls).
Робототехника: International Federation of Robotics (IFR).
Регулирование: Federal Register (США), EUR-Lex (ЕС), Govini.
Общественное мнение: Ipsos, Pew Research Center, University of Toronto (GPO-AI), Quid (социальные медиа).
Образование: CRA Taulbee Survey, Informatics Europe, Studyportals, Code.org, Walton Foundation.
Медицина: FDA, Papers With Code (MedQA).

Оценки стоимости обучения моделей были подготовлены совместно с Epoch AI на основе анализа типа и количества аппаратного обеспечения, продолжительности обучения и облачных цен аренды^[2].

Авторский коллектив

Отчёт подготовлен под руководством содиректоров Рэя Перро (Ray Perrault) и Джека Кларка (Jack Clark) при участии широкого круга исследователей и организаций-партнёров. AI Index является проектом Стэнфордского института HAI (Human-Centered Artificial Intelligence)^[1].

Ссылки

Stanford HAI — AI Index Report 2024 (полный текст): https://aiindex.stanford.edu/report/
Epoch AI — данные о стоимости обучения и вычислительных трендах: https://epochai.org/
Papers With Code — бенчмарки и лидерборды: https://paperswithcode.com/
CRFM HELM — Holistic Evaluation of Language Models: https://crfm.stanford.edu/helm/
AI Incident Database: https://incidentdatabase.ai/
International Federation of Robotics: https://ifr.org/
McKinsey Global Survey on AI: https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai

Литература

Stanford HAI (2024). Artificial Intelligence Index Report 2024. https://aiindex.stanford.edu/report/
Epoch AI (2023). AI Training Cost Estimates and Compute Trends. https://epochai.org/
Liang, P. et al. (2022). Holistic Evaluation of Language Models. https://arxiv.org/abs/2211.09110
Hendrycks, D. et al. (2021). Measuring Massive Multitask Language Understanding. https://arxiv.org/abs/2009.03300
Yue, X. et al. (2023). MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark. https://arxiv.org/abs/2311.16502
Rein, D. et al. (2023). GPQA: A Graduate-Level Google-Proof Q&A Benchmark. https://arxiv.org/abs/2311.12022
Gandhi, K. et al. (2023). Understanding Social Reasoning in Language Models with Language Models. https://arxiv.org/abs/2306.15448
Schaeffer, R. et al. (2023). Are Emergent Abilities of Large Language Models a Mirage? https://arxiv.org/abs/2304.15004
Chen, L. et al. (2023). How Is ChatGPT's Behavior Changing over Time? https://arxiv.org/abs/2307.09009
Wang, G. et al. (2023). Voyager: An Open-Ended Embodied Agent with Large Language Models. https://arxiv.org/abs/2305.16291
Mankowitz, D. J. et al. (2023). Faster sorting algorithms discovered using deep reinforcement learning. Nature. https://doi.org/10.1038/s41586-023-06004-9
Lam, R. et al. (2023). Learning skillful medium-range global weather forecasting. Science. https://doi.org/10.1126/science.adi2336
Merchant, A. et al. (2023). Scaling deep learning for materials discovery. Nature. https://doi.org/10.1038/s41586-023-06735-9
Ha, T. et al. (2023). AI-driven robotic chemist for autonomous synthesis of organic molecules. Science Advances. https://doi.org/10.1126/sciadv.adj0461
Shen, T. et al. (2023). Flexible Isosurface Extraction for Gradient-Based Mesh Optimization. ACM Transactions on Graphics. https://doi.org/10.1145/3592430
Nori, H. et al. (2023). Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine. https://arxiv.org/abs/2311.16452
Chen, Z. et al. (2023). MEDITRON-70B: Scaling Medical Pretraining for Large Language Models. https://arxiv.org/abs/2311.16079
Mai, K. T. et al. (2023). Warning: Humans Cannot Reliably Detect Speech Deepfakes. https://arxiv.org/abs/2301.07829
Motoki, F. et al. (2023). More Human than Human: Measuring ChatGPT Political Bias. https://doi.org/10.1007/s11127-023-01097-2
McKinsey & Company (2023). The State of AI in 2023: Generative AI's Breakout Year. https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai
International Federation of Robotics (2023). World Robotics Report 2023. https://ifr.org/worldrobotics/
The White House (2023). Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence. https://www.whitehouse.gov/briefing-room/presidential-actions/2023/10/30/executive-order-on-the-safe-secure-and-trustworthy-development-and-use-of-artificial-intelligence/
Fleming, S. L. et al. (2023). MedAlign: A Clinician-Generated Dataset for Instruction Following With Electronic Medical Records. https://arxiv.org/abs/2308.14089
Iglesias, J. E. et al. (2023). SynthSR: A public AI tool to turn heterogeneous clinical brain scans into high-resolution T1-weighted images for 3D morphometry. Science Advances. https://doi.org/10.1126/sciadv.add3607
Cheng, J. et al. (2023). Accurate Proteome-Wide Missense Variant Effect Prediction With AlphaMissense. Science. https://doi.org/10.1126/science.adg7492

Примечания

↑ ^1,00 ^1,01 ^1,02 ^1,03 ^1,04 ^1,05 ^1,06 ^1,07 ^1,08 ^1,09 ^1,10 ^1,11 ^1,12 ^1,13 ^1,14 ^1,15 ^1,16 ^1,17 ^1,18 ^1,19 ^1,20 ^1,21 ^1,22 ^1,23 ^1,24 ^1,25 ^1,26 ^1,27 ^1,28 ^1,29 ^1,30 ^1,31 ^1,32 ^1,33 ^1,34 ^1,35 ^1,36 ^1,37 ^1,38 ^1,39 ^1,40 ^1,41 ^1,42 ^1,43 ^1,44 ^1,45 ^1,46 Stanford HAI (2024). Artificial Intelligence Index Report 2024. https://aiindex.stanford.edu/report/
↑ ^2,0 ^2,1 ^2,2 Epoch AI (2023). AI Training Cost Estimates. https://epochai.org/
↑ ^3,0 ^3,1 ^3,2 ^3,3 ^3,4 Quid (2023). AI Investment Data. https://quid.com/
↑ ^4,0 ^4,1 ^4,2 Ipsos (2023). Global Perceptions of AI Survey. https://www.ipsos.com/
↑ Pew Research Center (2023). Public Views on AI. https://www.pewresearch.org/
↑ Liang, P. et al. (2022). Holistic Evaluation of Language Models. https://arxiv.org/abs/2211.09110
↑ Hendrycks, D. et al. (2021). Measuring Massive Multitask Language Understanding. https://arxiv.org/abs/2009.03300
↑ Yue, X. et al. (2023). MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark. https://arxiv.org/abs/2311.16502
↑ Rein, D. et al. (2023). GPQA: A Graduate-Level Google-Proof Q&A Benchmark. https://arxiv.org/abs/2311.12022
↑ Gandhi, K. et al. (2023). Understanding Social Reasoning in Language Models with Language Models. https://arxiv.org/abs/2306.15448
↑ Wang, G. et al. (2023). Voyager: An Open-Ended Embodied Agent with Large Language Models. https://arxiv.org/abs/2305.16291
↑ Schaeffer, R. et al. (2023). Are Emergent Abilities of Large Language Models a Mirage? https://arxiv.org/abs/2304.15004
↑ Chen, L. et al. (2023). How Is ChatGPT's Behavior Changing over Time? https://arxiv.org/abs/2307.09009
↑ AI Incident Database (2023). https://incidentdatabase.ai/
↑ Mai, K. T. et al. (2023). Warning: Humans Cannot Reliably Detect Speech Deepfakes. https://arxiv.org/abs/2301.07829
↑ Motoki, F. et al. (2023). More Human than Human: Measuring ChatGPT Political Bias. https://doi.org/10.1007/s11127-023-01097-2
↑ McKinsey & Company (2023). The State of AI in 2023: Generative AI's Breakout Year. https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai
↑ International Federation of Robotics (2023). World Robotics Report 2023. https://ifr.org/worldrobotics/
↑ Mankowitz, D. J. et al. (2023). Faster sorting algorithms discovered using deep reinforcement learning. Nature. https://doi.org/10.1038/s41586-023-06004-9
↑ Lam, R. et al. (2023). Learning skillful medium-range global weather forecasting. Science. https://doi.org/10.1126/science.adi2336
↑ Merchant, A. et al. (2023). Scaling deep learning for materials discovery. Nature. https://doi.org/10.1038/s41586-023-06735-9
↑ Ha, T. et al. (2023). AI-driven robotic chemist for autonomous synthesis of organic molecules. Science Advances. https://doi.org/10.1126/sciadv.adj0461
↑ Shen, T. et al. (2023). Flexible Isosurface Extraction for Gradient-Based Mesh Optimization. ACM Transactions on Graphics. https://doi.org/10.1145/3592430
↑ Nori, H. et al. (2023). Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine. https://arxiv.org/abs/2311.16452
↑ Chen, Z. et al. (2023). MEDITRON-70B: Scaling Medical Pretraining for Large Language Models. https://arxiv.org/abs/2311.16079
↑ U.S. Food and Drug Administration (2023). Artificial Intelligence and Machine Learning (AI/ML)-Enabled Medical Devices. https://www.fda.gov/medical-devices/software-medical-device-samd/artificial-intelligence-and-machine-learning-aiml-enabled-medical-devices
↑ Impact Research / Walton Family Foundation (2023). ChatGPT and Education Survey. https://www.waltonfamilyfoundation.org/
↑ The White House (2023). Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence. https://www.whitehouse.gov/briefing-room/presidential-actions/2023/10/30/executive-order-on-the-safe-secure-and-trustworthy-development-and-use-of-artificial-intelligence/
↑ Global Public Opinion on AI Survey, University of Toronto (2023). https://www.mediatechdemocracy.com/

[AIIndex2024-1] 1,00 ^1,01 ^1,02 ^1,03 ^1,04 ^1,05 ^1,06 ^1,07 ^1,08 ^1,09 ^1,10 ^1,11 ^1,12 ^1,13 ^1,14 ^1,15 ^1,16 ^1,17 ^1,18 ^1,19 ^1,20 ^1,21 ^1,22 ^1,23 ^1,24 ^1,25 ^1,26 ^1,27 ^1,28 ^1,29 ^1,30 ^1,31 ^1,32 ^1,33 ^1,34 ^1,35 ^1,36 ^1,37 ^1,38 ^1,39 ^1,40 ^1,41 ^1,42 ^1,43 ^1,44 ^1,45 ^1,46 Stanford HAI (2024). Artificial Intelligence Index Report 2024. https://aiindex.stanford.edu/report/

[Epoch2023-2] 2,0 ^2,1 ^2,2 Epoch AI (2023). AI Training Cost Estimates. https://epochai.org/

[Quid2023-3] 3,0 ^3,1 ^3,2 ^3,3 ^3,4 Quid (2023). AI Investment Data. https://quid.com/

[Ipsos2023-4] 4,0 ^4,1 ^4,2 Ipsos (2023). Global Perceptions of AI Survey. https://www.ipsos.com/

[Pew2023-5] Pew Research Center (2023). Public Views on AI. https://www.pewresearch.org/

[HELM2022-6] Liang, P. et al. (2022). Holistic Evaluation of Language Models. https://arxiv.org/abs/2211.09110

[MMLU2021-7] Hendrycks, D. et al. (2021). Measuring Massive Multitask Language Understanding. https://arxiv.org/abs/2009.03300

[MMMU2023-8] Yue, X. et al. (2023). MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark. https://arxiv.org/abs/2311.16502

[GPQA2023-9] Rein, D. et al. (2023). GPQA: A Graduate-Level Google-Proof Q&A Benchmark. https://arxiv.org/abs/2311.12022

[BigToM2023-10] Gandhi, K. et al. (2023). Understanding Social Reasoning in Language Models with Language Models. https://arxiv.org/abs/2306.15448

[Voyager2023-11] Wang, G. et al. (2023). Voyager: An Open-Ended Embodied Agent with Large Language Models. https://arxiv.org/abs/2305.16291

[Schaeffer2023-12] Schaeffer, R. et al. (2023). Are Emergent Abilities of Large Language Models a Mirage? https://arxiv.org/abs/2304.15004

[Chen2023LLMDrift-13] Chen, L. et al. (2023). How Is ChatGPT's Behavior Changing over Time? https://arxiv.org/abs/2307.09009

[AIID2023-14] AI Incident Database (2023). https://incidentdatabase.ai/

[Mai2023-15] Mai, K. T. et al. (2023). Warning: Humans Cannot Reliably Detect Speech Deepfakes. https://arxiv.org/abs/2301.07829

[Motoki2023-16] Motoki, F. et al. (2023). More Human than Human: Measuring ChatGPT Political Bias. https://doi.org/10.1007/s11127-023-01097-2

[McKinsey2023-17] McKinsey & Company (2023). The State of AI in 2023: Generative AI's Breakout Year. https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai

[IFR2023-18] International Federation of Robotics (2023). World Robotics Report 2023. https://ifr.org/worldrobotics/

[AlphaDev2023-19] Mankowitz, D. J. et al. (2023). Faster sorting algorithms discovered using deep reinforcement learning. Nature. https://doi.org/10.1038/s41586-023-06004-9

[GraphCast2023-20] Lam, R. et al. (2023). Learning skillful medium-range global weather forecasting. Science. https://doi.org/10.1126/science.adi2336

[GNoME2023-21] Merchant, A. et al. (2023). Scaling deep learning for materials discovery. Nature. https://doi.org/10.1038/s41586-023-06735-9

[Synbot2023-22] Ha, T. et al. (2023). AI-driven robotic chemist for autonomous synthesis of organic molecules. Science Advances. https://doi.org/10.1126/sciadv.adj0461

[FlexiCubes2023-23] Shen, T. et al. (2023). Flexible Isosurface Extraction for Gradient-Based Mesh Optimization. ACM Transactions on Graphics. https://doi.org/10.1145/3592430

[Medprompt2023-24] Nori, H. et al. (2023). Can Generalist Foundation Models Outcompete Special-Purpose Tuning? Case Study in Medicine. https://arxiv.org/abs/2311.16452

[Meditron2023-25] Chen, Z. et al. (2023). MEDITRON-70B: Scaling Medical Pretraining for Large Language Models. https://arxiv.org/abs/2311.16079

[FDA2023-26] U.S. Food and Drug Administration (2023). Artificial Intelligence and Machine Learning (AI/ML)-Enabled Medical Devices. https://www.fda.gov/medical-devices/software-medical-device-samd/artificial-intelligence-and-machine-learning-aiml-enabled-medical-devices

[WaltonFoundation2023-27] Impact Research / Walton Family Foundation (2023). ChatGPT and Education Survey. https://www.waltonfamilyfoundation.org/

[BidenEO2023-28] The White House (2023). Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence. https://www.whitehouse.gov/briefing-room/presidential-actions/2023/10/30/executive-order-on-the-safe-secure-and-trustworthy-development-and-use-of-artificial-intelligence/

[GPO-AI2023-29] Global Public Opinion on AI Survey, University of Toronto (2023). https://www.mediatechdemocracy.com/

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]