The 2021 AI Index Report

AI Index Report 2021 — четвёртое ежегодное издание отчёта AI Index, подготовленное Стэнфордским институтом искусственного интеллекта, ориентированного на человека (Stanford HAI)^[1]. Отчёт 2021 года существенно расширяет объём данных по сравнению с предыдущими изданиями, включает работу с более широким кругом внешних организаций-партнёров и углубляет связи со Стэнфордским институтом HAI. Издание отслеживает, систематизирует, обобщает и визуализирует данные, связанные с искусственным интеллектом, предоставляя объективную, тщательно верифицированную и глобально собранную информацию для политиков, исследователей, руководителей, журналистов и широкой общественности. Отчёт охватывает период, в значительной степени определённый пандемией COVID-19, которая повлияла на множество аспектов развития ИИ — от ускорения разработки лекарств до перевода конференций в виртуальный формат.

Контекст: влияние COVID-19

Пандемия COVID-19 оказала заметное, но неоднозначное влияние на развитие ИИ в 2020 году^[1]. В сфере технической производительности ИИ-стартап PostEra применил методы машинного обучения для ускорения открытия лекарств, связанных с COVID-19^[2]. Глава об экономике указывает, что наём специалистов в области ИИ и частные инвестиции не претерпели существенного негативного влияния со стороны пандемии — оба показателя росли в 2020 году. Перевод конференций в виртуальный формат привёл к значительному скачку посещаемости: число участников девяти крупных конференций почти удвоилось.

Структура отчёта

Отчёт 2021 года состоит из семи тематических глав^[1]:

Исследования и разработки (Research and Development) — тренды в публикациях, патентах, конференциях и открытом программном обеспечении.
Техническая производительность (Technical Performance) — прогресс в компьютерном зрении, обработке естественного языка, распознавании речи, рассуждении, здравоохранении и биологии.
Экономика (The Economy) — рынок труда, инвестиции и корпоративная активность в сфере ИИ.
Образование в области ИИ (AI Education) — тренды в подготовке кадров, курсы и программы.
Этические вызовы приложений ИИ (Ethical Challenges of AI Applications) — принципы, медиаосвещение, этика на конференциях.
Разнообразие в ИИ (Diversity in AI) — гендерное, расовое и этническое разнообразие.
Политика и национальные стратегии в области ИИ (AI Policy and National Strategies) — законодательство, межправительственное сотрудничество, государственные инвестиции.

Ключевые выводы отчёта (Top 9)

Авторы отчёта выделили девять главных тезисов 2021 года^[1]:

1. Резкий рост инвестиций в разработку ИИ-лекарств

Направление «Лекарства, онкология, молекулы, открытие лекарств» (Drugs, Cancer, Molecular, Drug Discovery) получило наибольший объём частных инвестиций в ИИ в 2020 году — более 13,8 млрд долларов США, что в 4,5 раза превышает показатель 2019 года^[1]^[3].

2. Продолжение сдвига кадров в сторону индустрии

В 2019 году 65% выпускников аспирантуры по ИИ в Северной Америке выбрали работу в индустрии — по сравнению с 44,4% в 2010 году, что подчёркивает растущую роль промышленности в развитии ИИ^[1]^[4].

3. Генеративные модели — «генеративное всё»

Системы ИИ научились генерировать текст, аудио и изображения на таком уровне качества, что людям становится сложно отличить синтетические выходные данные от настоящих в ряде ограниченных приложений технологии^[1].

4. Проблема разнообразия в ИИ

Среди новых резидентов — обладателей степени PhD в области ИИ в США за 2019 год — 45% были белыми, 2,4% — афроамериканцами и 3,2% — латиноамериканцами^[1]^[4].

5. Китай обгоняет США по цитированию журнальных статей об ИИ

Обогнав США по общему числу журнальных публикаций по ИИ несколькими годами ранее, Китай в 2020 году впервые также вышел вперёд по числу цитирований журнальных статей. Однако США по-прежнему стабильно и значительно опережают Китай по числу конференционных статей по ИИ (которые также цитируются чаще) на протяжении последнего десятилетия^[1]^[5].

6. Большинство аспирантов по ИИ в США — иностранцы, и они остаются

Доля иностранных студентов среди новых аспирантов по ИИ в Северной Америке продолжила расти в 2019 году, достигнув 64,3% — рост на 4,3 п.п. по сравнению с 2018 годом. Среди иностранных выпускников 81,8% остались в США и 8,6% устроились на работу за пределами Соединённых Штатов^[1]^[4].

7. Технологии наблюдения — быстрые, дешёвые и повсеместные

Технологии, необходимые для масштабного наблюдения, стремительно совершенствуются: методы классификации изображений, распознавания лиц, анализа видео и идентификации голоса продемонстрировали значительный прогресс в 2020 году^[1].

8. Этика ИИ не имеет бенчмарков и консенсуса

Несмотря на то что ряд организаций выпускает качественные и нормативные документы в области этики ИИ, в данной сфере в целом отсутствуют бенчмарки, которые можно использовать для измерения или оценки связи между общественными дискуссиями о развитии технологий и самим процессом разработки^[1].

9. ИИ привлёк внимание Конгресса США

116-й Конгресс стал наиболее ориентированным на ИИ за всю историю: число упоминаний ИИ в его протоколах более чем втрое превысило показатель 115-го Конгресса^[1]^[6].

Глава 1. Исследования и разработки

Глава анализирует тренды в публикациях (рецензируемых, журнальных, конференционных, патентных), в активности на arXiv, на конференциях и в открытом программном обеспечении^[1].

Рецензируемые публикации

Общее число рецензируемых публикаций по ИИ выросло почти в 12 раз между 2000 и 2019 годами. Доля публикаций по ИИ среди всех рецензируемых публикаций мира увеличилась с 0,82% в 2000 году до 3,8% в 2019 году^[1]^[7].

Региональное распределение. Восточная Азия и Тихоокеанский регион удерживают наибольшую долю рецензируемых публикаций по ИИ с 2004 года (36,9% в 2019), за ними следуют Европа и Центральная Азия (25,1%) и Северная Америка (17,0%). Между 2009 и 2019 годами Южная Азия и Африка к югу от Сахары продемонстрировали наибольший рост — в восемь и семь раз соответственно^[1]^[5].

Сравнение по географическим зонам. К 2019 году Китай занял первое место по доле рецензируемых публикаций по ИИ в мире (22,4%), обогнав ЕС (16,4%) в 2017 году. США на третьем месте (14,6%). Китай опубликовал в 3,5 раза больше рецензируемых статей по ИИ в 2019 году, чем в 2014^[1]^[7].

Институциональная аффилиация. В каждом крупном регионе наибольшая доля рецензируемых публикаций принадлежит академическим институтам. Однако вторые по значимости источники различаются: в США корпоративные исследования составляют 19,2% от общего числа, тогда как в Китае и ЕС на втором месте государственные учреждения (15,6% и 17,2% соответственно)^[1]^[7].

Академически-корпоративное сотрудничество. Между 2015 и 2019 годами США произвели наибольшее число совместных академически-корпоративных рецензируемых публикаций по ИИ — более чем вдвое превысив ЕС, занявший второе место, за которым следует Китай^[1].

Журнальные публикации

Число журнальных публикаций по ИИ в 2020 году было в 5,4 раза выше, чем в 2000 году. Рост составил 34,5% с 2019 по 2020 год — значительно более высокий процентный рост, чем с 2018 по 2019 (19,6%). Доля журнальных публикаций по ИИ среди всех журнальных публикаций в мире составила 2,2% в 2020 году^[1]^[5].

Цитирование. В 2020 году Китай (20,7%) впервые обогнал США (19,8%) по доле цитирований журнальных статей по ИИ в мире. ЕС продолжил терять общую долю (11,0%)^[1]^[5].

Конференционные публикации

Число конференционных публикаций по ИИ выросло в четыре раза между 2000 и 2019 годами. Китай обогнал США по доле конференционных публикаций по ИИ в 2019 году^[1]^[5].

Цитирование. В отличие от журнальных публикаций, США удерживали стабильное и значительное лидерство по цитированию конференционных статей по ИИ на протяжении последнего десятилетия (40,1% в 2020 году), значительно опережая Китай (11,8%) и ЕС (10,9%)^[1]^[5].

Публикации на arXiv

За шесть лет число публикаций, связанных с ИИ, на arXiv выросло более чем в шесть раз: с 5 478 в 2015 году до 34 736 в 2020^[1]^[8]. Среди областей исследований наибольший рост за 2015–2020 годы продемонстрировали робототехника (cs.RO, рост в 11 раз) и машинное обучение (cs.LG, рост в 10 раз). В 2020 году лидерами по числу публикаций были cs.LG (32,0%) и компьютерное зрение cs.CV (31,7%)^[1].

Северная Америка по-прежнему лидировала по доле публикаций на arXiv (36,3% в 2020), однако эта доля снижалась (с 41,6% в 2017). Доля Восточной Азии и Тихоокеанского региона стабильно росла: с 17,3% в 2015 до 26,5% в 2020^[1].

Патенты

Данные из Microsoft Academic Graph демонстрируют устойчивый рост числа патентов, связанных с ИИ, на протяжении двух десятилетий^[1]^[5].

Глубокое обучение

Исследователи из Nesta использовали алгоритмы тематического моделирования для идентификации публикаций по глубокому обучению на arXiv. За последние пять лет число публикаций по глубокому обучению на arXiv выросло почти в шесть раз^[1]^[9].

Конференции

В 2020 году большинство крупных конференций по ИИ прошли в виртуальном формате в связи с COVID-19, что привело к резкому увеличению посещаемости. Число участников девяти конференций почти удвоилось^[1]. Среди крупных конференций: NeurIPS (22 011 участников), IROS (25 719 — виртуальный формат с расширенным доступом на три месяца), ICML (10 800), CVPR (7 500). Среди небольших конференций отмечены ICLR (5 600), ACL (3 972), AAMAS (3 726)^[1].

Корпоративное присутствие. Исследование показало, что крупные технологические фирмы увеличивают своё присутствие на ведущих конференциях по ИИ. Все 10 крупных конференций продемонстрировали восходящий тренд корпоративного представительства. Авторы статьи «The De-Democratization of AI» указывают, что неравное распределение вычислительных ресурсов между академией и индустрией — так называемый «разрыв вычислений» (compute divide) — усугубляет неравенство в эпоху глубокого обучения^[10].

Открытое программное обеспечение

TensorFlow (разработанный Google, публично выпущенный в 2017) оставался самой популярной ИИ-библиотекой с открытым кодом на GitHub (153 тыс. звёзд к 2020 году). Второй по популярности библиотекой стал Keras (51 тыс. звёзд), третьей — PyTorch от Facebook (46 тыс. звёзд). Среди прочих библиотек заметны Scikit-learn (45 тыс.), BVLC/Caffe (31 тыс.), MXNet (19 тыс.) и CNTK (17 тыс.)^[1]^[11].

Глава 2. Техническая производительность

Глава охватывает прогресс в компьютерном зрении (изображения и видео), обработке естественного языка, рассуждениях о языке и зрении, распознавании речи, символьном рассуждении, а также в здравоохранении и биологии^[1].

Компьютерное зрение — изображения

ImageNet. Компьютерное зрение пережило колоссальный прогресс за последнее десятилетие. Производительность на ряде крупнейших бенчмарков стала выравниваться, что указывает на необходимость создания более сложных тестов. Отчёт представляет данные по точности Top-1 и Top-5 на ImageNet, а также по времени и стоимости обучения^[1]^[12].

Новые сложные тесты. Поскольку прогресс на стандартном ImageNet замедляется, отчёт представляет более сложные бенчмарки: ImageNet-Adversarial (содержит естественные затрудняющие факторы и систематически неправильно классифицируемые изображения), ImageNet-C (75 типов визуальных искажений: изменение яркости, контраста, пикселизация, эффекты тумана) и ImageNet-Rendition (30 000 иллюстраций 200 классов ImageNet, проверяющих обобщение)^[1].

Генерация изображений. Прогресс измеряется показателем Fréchet Inception Distance (FID) на датасете STL-10 — к 2020 году лучший показатель составил 25,4 (чем ниже, тем лучше). Качественные примеры генерации лиц показывают стремительный прогресс GAN: к 2018 году производительность достигла уровня, при котором людям сложно выявить подделку^[1]^[13].

Обнаружение дипфейков. Deepfake Detection Challenge (DFDC), созданный Facebook в сентябре 2019 года, показал снижение показателя log loss примерно на 0,5 за период с декабря 2019 по март 2020 года, до значения 0,19^[1]^[14].

Оценка позы человека. На бенчмарке COCO Keypoint Detection точность алгоритмов улучшилась примерно на 33% за четыре года, достигнув 80,8% средней точности (AP)^[1].

Семантическая сегментация. Прогресс на бенчмарке Cityscapes и других задачах сегментации продолжался^[1].

Компьютерное зрение — видео

ActivityNet. Бенчмарк для распознавания действий продемонстрировал дальнейшее совершенствование алгоритмов в задачах временной локализации действий^[1].

YOLO (You Only Look Once). Системы обнаружения объектов для анализа кадров из видеопотоков стремительно созревают, что указывает на расширение возможностей для развёртывания ИИ^[1].

Распознавание лиц (NIST FRVT). Отчёт включает данные от Национального института стандартов и технологий (NIST) по тестированию систем распознавания лиц. Технологии для масштабного наблюдения быстро развиваются^[1]^[15].

Обработка естественного языка (NLP)

SuperGLUE. Быстрый прогресс в NLP привёл к тому, что системы ИИ начали достигать человеческого уровня на бенчмарке SuperGLUE, разработанном в ответ на то, что более ранний бенчмарк GLUE оказался преодолён слишком быстро. Прогресс в NLP опережает метрики для его оценки^[1]^[16].

SQuAD. Бенчмарк Stanford Question Answering Dataset также продемонстрировал устойчивый рост производительности моделей^[1].

Коммерческий машинный перевод. Число коммерчески доступных независимых облачных систем машинного перевода с предварительно обученными моделями выросло с 8 в 2017 году до 28 в 2020 году^[1]^[17].

GPT-3. В июле 2020 года OpenAI представила GPT-3 — крупнейшую на тот момент известную плотную языковую модель с 175 млрд параметров, обученную на 570 ГБ текста. Для сравнения: её предшественник GPT-2 был более чем в 100 раз меньше (1,5 млрд параметров). Масштаб привёл к удивительному поведению: GPT-3 способна выполнять задачи, на которых она не была явно обучена, при нулевом или минимальном числе обучающих примеров (zero-shot и few-shot learning). При усреднении по 42 бенчмаркам точности: zero-shot — 42,6%, one-shot — 51,0%, few-shot — 57,4%^[1]^[18].

Несмотря на впечатляющие возможности, GPT-3 имеет серьёзные недостатки: может генерировать расистский, сексистский и иной предвзятый текст, порождать фактически неточные утверждения, а также чрезвычайно дорога в обучении. Исследования по управлению и «направлению» таких выходных данных находятся на начальном этапе, но являются перспективными^[1]^[18].

Рассуждения о языке и зрении

VQA. На бенчмарке Visual Question Answering точность выросла почти на 40% с момента его создания в 2015 году, достигнув 76,4% в 2020 году (человеческий базовый уровень — 80,8%)^[1]^[19].

VCR. На задаче Visual Commonsense Reasoning (требующей обоснования ответа) лучшая машина улучшила показатель Q→AR с 44 в 2018 до 70,5 в 2020 году (рост на 60,2%), при человеческом уровне 85^[1].

Распознавание речи

LibriSpeech. Прогресс в автоматическом распознавании речи продолжался, во многом благодаря гибкости и предсказательной мощи глубоких нейронных сетей^[1].

VoxCeleb. Датасет, состоящий из коротких клипов человеческой речи, извлечённых из видеоинтервью на YouTube, включающий более 7 000 спикеров и более миллиона высказываний. Используется для оценки идентификации говорящего^[1]^[20].

Расовой разрыв в распознавании речи. Отчёт отмечает существование значительного расового разрыва в технологиях распознавания речи^[1].

Символьное рассуждение

Задача выполнимости булевых формул (SAT). Отчёт представляет новый анализ с использованием временнóго значения Шепли (temporal Shapley value), позволяющий атрибутировать вклад индивидуальных систем в общую производительность. Победитель 2020 года — Kissat — продемонстрировал наивысшее временнóе значение Шепли среди всех солверов (за исключением первого года), в основном за счёт более эффективных структур данных и алгоритмов^[1]^[21].

Автоматическое доказательство теорем (ATP). Анализ TPTP-библиотеки (более 23 000 задач) показывает последовательный рост доли решаемых задач с 1997 по 2020 год. Заметный прогресс наблюдался в 2008–2013 годах, а с 2015 года прогресс продолжился, но замедлился. Растущее использование машинного обучения (в системах MaLARea, Enigma) рассматривается как потенциальный революционный фактор для ATP^[1]^[22].

Здравоохранение и биология

Молекулярный синтез. Модели машинного обучения используются для обучения представлениям химических молекул с целью более эффективного планирования химического синтеза^[1].

COVID-19 и открытие лекарств. Стартап PostEra применил методы машинного обучения для ускорения процесса открытия лекарств, связанных с COVID-19, в рамках проекта COVID Moonshot^[1]^[2].

AlphaFold и фолдинг белков. Прорыв DeepMind в области предсказания структуры белков стал одним из наиболее значимых достижений года. AlphaFold 2 на конкурсе CASP14 (2020) достиг медианного показателя GDT_TS, сопоставимого с экспериментальными методами для задач свободного моделирования, существенно превзойдя все предыдущие результаты. Это имеет широкий спектр применений — от лучшего понимания клеточных основ жизни до ускорения разработки лекарств^[1]^[23].

Мнение экспертов

Опрос экспертов по ИИ, проведённый AI Index, выявил следующие выводы^[1]:

Наиболее впечатляющими достижениями 2020 года были признаны AlphaFold (DeepMind) и GPT-3 (OpenAI) — с большим отрывом от остальных.
Ключевой тренд 2021 года — дальнейшее развитие предварительно обученных моделей и их тонкая настройка для узких задач.
Перси Лян (Стэнфорд) отметил доминирование архитектуры Transformers, первоначально созданной для машинного перевода, но ставшей де-факто стандартной архитектурой нейронных сетей.

Глава 3. Экономика

Глава рассматривает всё более тесную взаимосвязь между ИИ и мировой экономикой через призму рынка труда, инвестиций и корпоративной активности^[1].

Рынок труда

Наём ИИ-специалистов. Бразилия, Индия, Канада, Сингапур и ЮАР продемонстрировали наибольший рост найма ИИ-специалистов в период с 2016 по 2020 год. Несмотря на пандемию, наём продолжал расти во всех изученных странах в 2020 году^[1]^[24].

Спрос на ИИ-специалистов в США. Число вакансий в области ИИ в США сократилось на 8,2% с 2019 по 2020 год (с 325 724 до 300 999). Это первое снижение доли ИИ-вакансий за шесть лет^[1]^[25].

Проникновение ИИ-навыков. Среди изученных стран Индия имеет наиболее высокий относительный показатель проникновения ИИ-навыков (2,83 от среднемирового уровня), за ней следуют США (1,99), Китай (1,40), Германия (1,27) и Канада (1,13). По отраслям Индия лидирует во всех пяти ведущих секторах: образование, финансы, оборудование и сети, производство, программное обеспечение и ИТ-услуги^[1]^[24].

Инвестиции

Корпоративные инвестиции. Общий объём мировых инвестиций в ИИ (частные инвестиции, IPO, слияния и поглощения, миноритарные доли) вырос на 40% в 2020 году по сравнению с 2019, достигнув 67,9 млрд долларов. Слияния и поглощения составили основную часть, увеличившись на 121,7%. Среди крупных сделок — приобретение NVIDIA компании Mellanox Technologies и Capgemini компании Altran Technologies^[1]^[3].

Стартапы. Объём частных инвестиций в ИИ продолжает расти, но концентрируется в меньшем числе стартапов. В 2020 году частные инвестиции выросли на 9,3% (рекордные 40+ млрд долларов), однако число профинансированных компаний сокращалось третий год подряд^[1]^[3].

Фокусные области. Направление «Лекарства, онкология, молекулы, открытие лекарств» получило наибольший объём частных инвестиций — более 13,8 млрд долларов, что в 4,5 раза превышает показатель 2019 года^[1].

Корпоративная активность

Внедрение ИИ (данные McKinsey). Несмотря на экономический спад, вызванный пандемией, половина респондентов опроса McKinsey заявили, что коронавирус не повлиял на их инвестиции в ИИ, а 27% фактически увеличили вложения. Менее четверти компаний сократили инвестиции^[1]^[26].

Этические риски. Несмотря на растущие призывы к устранению этических проблем, связанных с использованием ИИ, усилия в индустрии остаются ограниченными. Такие вопросы, как справедливость и равенство в ИИ, получают сравнительно мало внимания от компаний. Меньше компаний в 2020 году считают риски, связанные с конфиденциальностью, актуальными по сравнению с 2019 годом^[1]^[26].

Промышленные роботы. Глава включает данные Международной федерации робототехники (IFR) о глобальных тенденциях установки промышленных роботов и региональных сравнениях^[1]^[27].

Упоминания ИИ в отчётах о прибылях. Анализ данных показывает рост числа упоминаний ИИ в отчётах о прибылях корпораций^[1].

Глава 4. Образование в области ИИ

Глава рассматривает тренды в подготовке кадров через призму высших учебных заведений и различных образовательных платформ^[1].

Высшее образование

Курсы. Опрос AI Index 2020 года показал, что ведущие мировые университеты увеличили вложения в образование в области ИИ за последние четыре года. Число курсов бакалавриата, обучающих практическим навыкам построения и развёртывания моделей ИИ, выросло на 102,9% (с 102 в 2016–17 до 207 в 2019–20), а на уровне магистратуры — на 41,7% (с 151 до 214). Число студентов, записавшихся или попытавшихся записаться на вводные курсы по ИИ и ML, выросло почти на 60% за четыре учебных года^[1].

В ЕС рост числа записавшихся на вводные курсы составил 165%, тогда как в США наблюдался спад в последнем учебном году, отчасти вызванный пандемией и структурными изменениями в предложении курсов^[1].

Аспирантура. За последние 10 лет доля PhD по ИИ среди всех PhD по информатике в США выросла с 14,2% до примерно 23% к 2019 году. В то же время другие популярные ранее специализации (сетевые технологии, программная инженерия, языки программирования) теряли популярность^[1]^[4].

Уход преподавателей в индустрию. После двухлетнего роста число уходов ИИ-преподавателей из университетов в индустрию в Северной Америке снизилось с 42 в 2018 до 33 в 2019 году. Карнеги-Меллон имел наибольшее число уходов за 2004–2019 годы (16), за ним следуют Georgia Tech (14) и Вашингтонский университет (12)^[1].

Иностранные аспиранты. Доля иностранных студентов среди новых аспирантов по ИИ достигла 64,3% в 2019 году. Из них 81,8% остались в США^[1]^[4].

Образование в ЕС. В ЕС подавляющее большинство специализированных академических предложений по ИИ преподаётся на уровне магистратуры; робототехника и автоматизация — наиболее часто преподаваемый курс в специализированных бакалавриатских и магистерских программах, тогда как машинное обучение доминирует в коротких специализированных курсах^[1]^[28].

Глава 5. Этические вызовы приложений ИИ

Глава рассматривает усилия по решению этических проблем, возникающих с развитием ИИ^[1].

Принципы и фреймворки ИИ

С 2015 по 2020 год было опубликовано 117 документов, посвящённых принципам ИИ. Частные компании выпустили наибольшее число таких документов среди всех типов организаций. Европа и Центральная Азия лидируют по числу публикаций (52), за ними — Северная Америка (41) и Восточная Азия и Тихоокеанский регион (14). Пик публикационной активности пришёлся на 2018 год, особенно со стороны технологических компаний — IBM, Google, Facebook — и государственных структур Великобритании, ЕС и Австралии^[1]^[29].

Критики указывают, что публикация этических принципов зачастую не сопровождается институциональными рамками и является необязательной. Расплывчатый и абстрактный характер многих принципов не даёт чётких указаний по их реализации^[1].

Этика в СМИ

Пять наиболее обсуждаемых тем 2020 года, связанных с этическим использованием ИИ: публикация Белой книги Европейской комиссии по ИИ, увольнение Google исследователя этики Тимнит Гебру, комитет ООН по этике ИИ, план Ватикана по этике ИИ и выход IBM из бизнеса распознавания лиц^[1].

Этика на конференциях

Число статей с ключевыми словами, связанными с этикой, в названиях, поданных на конференции по ИИ, выросло с 2015 года, хотя среднее число таких названий на крупных конференциях остаётся невысоким^[1].

Этика в образовании

Данные опроса AI Index показали, что курсы по этике ИИ становятся всё более распространёнными в компьютерных департаментах ведущих университетов мира^[1].

Глава 6. Разнообразие в ИИ

Глава анализирует гендерное, расовое, этническое разнообразие и представленность ЛГБТ+ в сфере ИИ^[1].

Гендерное разнообразие

По данным CRA, женщины составляют лишь 16% штатных преподавателей информатики в нескольких ведущих университетах мира^[1]^[4].

Расовое и этническое разнообразие

Среди новых резидентов — обладателей PhD по ИИ в США за 2019 год: 45% — белые, 22,4% — азиаты, 3,2% — латиноамериканцы, 2,4% — афроамериканцы. Доля белых (неиспаноязычных) среди новых PhD по информатике практически не менялась за последние 10 лет, составляя в среднем 62,7%^[1]^[4].

Расовый состав профессуры. Среди 15 университетов, ответивших на вопрос о расовом составе: 67,0% штатных преподавателей — белые, 14,3% — азиаты, 0,8% — латиноамериканцы, 0,6% — темнокожие или африканцы^[1].

Black in AI. Организация Black in AI, основанная в 2017 году Тимнит Гебру и Редиет Абебе, насчитывала к 2020 году около 3 000 членов. Участие в семинарах BAI при NeurIPS значительно выросло: числа участников и поданных статей в 2019 году в 2,6 раза превысили показатели 2017 года^[1].

Гендерная идентичность и сексуальная ориентация

По данным опроса Queer in AI (QAI) 2020 года, почти половина респондентов считают недостаточную инклюзивность в сфере ИИ препятствием для своей карьеры. Более 40% членов QAI сообщили о дискриминации или домогательствах на работе или в учёбе. 81,4% назвали отсутствие ролевых моделей главным препятствием^[1]^[30].

Глава 7. Политика и национальные стратегии в области ИИ

Глава охватывает ландшафт регулирования ИИ на локальном, национальном и международном уровнях^[1].

Национальные стратегии

С момента публикации Канадой первой в мире национальной стратегии по ИИ в 2017 году более 30 стран и регионов опубликовали аналогичные документы к декабрю 2020 года. Ещё 22 страны находились в процессе разработки стратегий^[1].

Год	Стратегии
2017	Канада, Китай, Япония, Финляндия, ОАЭ
2018	ЕС, Франция, Германия, Южная Корея, Великобритания, Индия, Мексика, Австралия и др.
2019	США (обновлённая), Россия, Нидерланды, Чехия, Сингапур и др.
2020	Испания, Бразилия, Польша, Турция и др.

Канада (2017): Pan-Canadian AI Strategy, бюджет 125 млн CAD (97 млн USD), акцент на подготовку кадров и этические аспекты^[1].

Китай (2017): одна из наиболее комплексных стратегий, охватывающая НИОКР, образование, этические нормы и национальную безопасность. Цели: достичь мирового уровня к 2020, стать мировым лидером к 2025, главным центром инноваций к 2030 году^[1].

ЕС (2018): Coordinated Plan on Artificial Intelligence, минимум 1 млрд EUR в год на исследования ИИ и 4,9 млрд EUR на другие аспекты стратегии^[1].

Франция (2018): AI for Humanity, бюджет 1,5 млрд EUR до 2022 года, стратегические секторы: здравоохранение, окружающая среда, транспорт и оборона^[1].

Международное сотрудничество

Запуск Глобального партнёрства по ИИ (GPAI) и Обсерватории по политике в области ИИ при ОЭСР в 2020 году активизировал межправительственные усилия по поддержке развития ИИ^[1]^[31]^[32].

Государственные инвестиции США

Федеральный бюджет. Отчёт анализирует данные о федеральном бюджете США на невоенные НИОКР в области ИИ^[1].

Бюджет Министерства обороны. Включены данные о запросе бюджета Министерства обороны США на ИИ^[1].

Государственные контракты. Анализ общих расходов на контракты и их распределения по ведомствам^[1]^[6].

Законодательная активность

Конгресс США. 116-й Конгресс стал наиболее ориентированным на ИИ за всю историю. Число упоминаний ИИ в законодательных актах, отчётах комитетов и отчётах Исследовательской службы Конгресса (CRS) более чем утроилось по сравнению со 115-м Конгрессом^[1]^[6].

Центральные банки. Отчёт включает данные об упоминаниях ИИ и ML в материалах центральных банков^[1].

Методология и источники данных

Отчёт основывается на данных из множества источников^[1]:

Публикации: Elsevier/Scopus (70 млн рецензируемых исследовательских работ), Microsoft Academic Graph (MAG, 225+ млн публикаций), arXiv, Nesta.
Бенчмарки: Papers With Code, SuperGLUE, VQA, VCR, COCO, ImageNet, NIST FRVT, LibriSpeech, VoxCeleb, TPTP, CASP и др.
Рынок труда: LinkedIn Economic Graph, Burning Glass Technologies.
Инвестиции: S&P Capital IQ (CapIQ), Crunchbase, NetBase Quid.
Корпоративная активность: McKinsey & Company (Global Survey on AI), International Federation of Robotics (IFR), Prattle (earnings calls).
Образование: CRA Taulbee Survey, Joint Research Centre (European Commission), собственный опрос AI Index (18 университетов из 9 стран).
Этика: AI Ethics Lab (Boston), медиа-анализ.
Разнообразие: CRA, Black in AI, Queer in AI.
Политика: Bloomberg Government, OECD AI Policy Observatory.

В MAG каждая статья учитывается один раз; при наличии нескольких авторов из разных стран кредит распределяется равномерно между уникальными регионами^[1]^[5].

Авторский коллектив

Отчёт подготовлен под руководством содиректоров Рэймонда Перро (Raymond Perrault, SRI International) и Джека Кларка (Jack Clark, OECD/GPAI). Менеджер исследований и главный редактор — Дэниел Чжан (Daniel Zhang, Stanford University). В состав управляющего комитета также входили: Эрик Бриньолфссон (Stanford), Джон Этчеменди (Stanford), Дип Гангули (Stanford), Барбара Грос (Harvard), Тера Лайонс (Partnership on AI), Джеймс Маньика (McKinsey Global Institute), Хуан Карлос Ниблес (Stanford), Майкл Селлитто (Stanford), Йоав Шохам (Stanford / AI21 Labs, основатель-директор)^[1].

Инструменты и открытые данные

Отчёт сопровождается следующими ресурсами^[1]:

Сырые данные и графики: публичные данные и изображения высокого разрешения доступны на Google Drive.
Global AI Vibrancy Tool: обновлённый инструмент интерактивной визуализации, позволяющий сравнивать до 26 стран по 22 индикаторам.
Публикация «Measurement in AI Policy: Opportunities and Challenges» (осень 2020): обзор проблем измерения в политике ИИ.

Ссылки

Stanford HAI — AI Index Report 2021 (полный текст): https://aiindex.stanford.edu/report/
Stanford HAI — Human-Centered Artificial Intelligence: https://hai.stanford.edu/
Microsoft Academic Graph: https://www.microsoft.com/en-us/research/project/microsoft-academic-graph/
Elsevier/Scopus: https://www.scopus.com/
arXiv: https://arxiv.org/
Papers With Code: https://paperswithcode.com/
OECD AI Policy Observatory: https://oecd.ai/
Global Partnership on AI (GPAI): https://gpai.ai/
CRA Taulbee Survey: https://cra.org/resources/taulbee-survey/
McKinsey Global Survey on AI: https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai
International Federation of Robotics: https://ifr.org/
LinkedIn Economic Graph: https://economicgraph.linkedin.com/
NIST Face Recognition Vendor Test: https://www.nist.gov/programs-projects/face-recognition-vendor-test-frvt
DeepMind AlphaFold: https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
OpenAI GPT-3: https://arxiv.org/abs/2005.14165
SuperGLUE Benchmark: https://super.gluebenchmark.com/
VQA Challenge: https://visualqa.org/challenge.html
CASP (Protein Folding): https://predictioncenter.org/
AI Ethics Lab: https://aiethicslab.com/
Black in AI: https://blackinai.github.io/
Queer in AI: https://sites.google.com/view/queer-in-ai/

Литература

Zhang, D. et al. (2021). The AI Index 2021 Annual Report. AI Index Steering Committee, Human-Centered AI Institute, Stanford University. https://aiindex.stanford.edu/report/
Brown, T.B. et al. (2020). Language Models are Few-Shot Learners. https://arxiv.org/abs/2005.14165
Jumper, J. et al. (2020). AlphaFold 2. DeepMind. https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
Wang, A. et al. (2019). SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems. https://arxiv.org/abs/1905.00537
Ahmed, N. & Wahed, M. (2020). The De-Democratization of AI: Deep Learning and the Compute Divide in Artificial Intelligence Research. https://arxiv.org/abs/2010.15581
Karras, T. et al. (2020). Analyzing and Improving the Image Quality of StyleGAN. https://arxiv.org/abs/1912.04958
Dolhansky, B. et al. (2020). The DeepFake Detection Challenge (DFDC) Dataset. https://arxiv.org/abs/2006.07397
Bender, E.M. & Gebru, T. et al. (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big?. Proceedings of FAccT 2021. https://doi.org/10.1145/3442188.3445922

Примечания

↑ ^1,000 ^1,001 ^1,002 ^1,003 ^1,004 ^1,005 ^1,006 ^1,007 ^1,008 ^1,009 ^1,010 ^1,011 ^1,012 ^1,013 ^1,014 ^1,015 ^1,016 ^1,017 ^1,018 ^1,019 ^1,020 ^1,021 ^1,022 ^1,023 ^1,024 ^1,025 ^1,026 ^1,027 ^1,028 ^1,029 ^1,030 ^1,031 ^1,032 ^1,033 ^1,034 ^1,035 ^1,036 ^1,037 ^1,038 ^1,039 ^1,040 ^1,041 ^1,042 ^1,043 ^1,044 ^1,045 ^1,046 ^1,047 ^1,048 ^1,049 ^1,050 ^1,051 ^1,052 ^1,053 ^1,054 ^1,055 ^1,056 ^1,057 ^1,058 ^1,059 ^1,060 ^1,061 ^1,062 ^1,063 ^1,064 ^1,065 ^1,066 ^1,067 ^1,068 ^1,069 ^1,070 ^1,071 ^1,072 ^1,073 ^1,074 ^1,075 ^1,076 ^1,077 ^1,078 ^1,079 ^1,080 ^1,081 ^1,082 ^1,083 ^1,084 ^1,085 ^1,086 ^1,087 ^1,088 ^1,089 ^1,090 ^1,091 ^1,092 ^1,093 ^1,094 ^1,095 ^1,096 ^1,097 ^1,098 ^1,099 ^1,100 ^1,101 ^1,102 Zhang, D., Mishra, S., Brynjolfsson, E., Etchemendy, J., Ganguli, D., Grosz, B., Lyons, T., Manyika, J., Niebles, J.C., Sellitto, M., Shoham, Y., Clark, J., Perrault, R. (2021). The AI Index 2021 Annual Report. AI Index Steering Committee, Human-Centered AI Institute, Stanford University. https://aiindex.stanford.edu/report/
↑ ^2,0 ^2,1 PostEra (2021). COVID Moonshot: AI-driven Drug Discovery. https://postera.ai/moonshot
↑ ^3,0 ^3,1 ^3,2 NetBase Quid (2021). AI Investment Data (CapIQ, Crunchbase). https://quid.com/
↑ ^4,0 ^4,1 ^4,2 ^4,3 ^4,4 ^4,5 ^4,6 Computing Research Association (2021). CRA Taulbee Survey. https://cra.org/resources/taulbee-survey/
↑ ^5,0 ^5,1 ^5,2 ^5,3 ^5,4 ^5,5 ^5,6 ^5,7 Microsoft Academic Graph (2020). https://www.microsoft.com/en-us/research/project/microsoft-academic-graph/
↑ ^6,0 ^6,1 ^6,2 Bloomberg Government (2021). AI Mentions in Congressional Record. https://about.bgov.com/
↑ ^7,0 ^7,1 ^7,2 Elsevier/Scopus (2020). AI Publications Data. https://www.scopus.com/
↑ arXiv (2020). AI-Related Publications Data. https://arxiv.org/
↑ Nesta (2020). Deep Learning Papers Analysis. https://www.nesta.org.uk/
↑ Ahmed, N. & Wahed, M. (2020). The De-Democratization of AI: Deep Learning and the Compute Divide in Artificial Intelligence Research. https://arxiv.org/abs/2010.15581
↑ GitHub (2020). AI Library Stars Data. https://github.com/
↑ Beyer, L., Dosovitskiy, A., Houlsby, N. (Google). ImageNet analysis for AI Index 2021.
↑ Karras, T. et al. (2020). Analyzing and Improving the Image Quality of StyleGAN. https://arxiv.org/abs/1912.04958
↑ Dolhansky, B. et al. (2020). The DeepFake Detection Challenge (DFDC) Dataset. https://arxiv.org/abs/2006.07397
↑ Grother, P. et al. (2021). NIST Face Recognition Vendor Test (FRVT). https://www.nist.gov/programs-projects/face-recognition-vendor-test-frvt
↑ Wang, A. et al. (2019). SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems. https://arxiv.org/abs/1905.00537
↑ Intento (2021). Machine Translation Report. https://inten.to/
↑ ^18,0 ^18,1 Brown, T.B. et al. (2020). Language Models are Few-Shot Learners. https://arxiv.org/abs/2005.14165
↑ VQA Challenge (2020). https://visualqa.org/challenge.html
↑ VoxCeleb (2020). Audio-Visual Dataset. https://www.robots.ox.ac.uk/~vgg/data/voxceleb/
↑ Kotthoff, L. (2020). SAT Competition Analysis. University of Wyoming.
↑ Sutcliffe, G. & Suttner, C. (2020). TPTP Problem Library and ATP Evaluation. University of Miami.
↑ Jumper, J. et al. (2020). AlphaFold 2. DeepMind. https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology
↑ ^24,0 ^24,1 LinkedIn (2020). Economic Graph: AI Hiring and Skills Data. https://economicgraph.linkedin.com/
↑ Burning Glass Technologies (2021). AI Labor Demand Data. https://www.burning-glass.com/
↑ ^26,0 ^26,1 McKinsey & Company (2021). Global Survey on AI. https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai
↑ International Federation of Robotics (2021). World Robotics Report. https://ifr.org/
↑ Joint Research Centre, European Commission (2021). AI Education in Europe. https://ai-watch.ec.europa.eu/
↑ AI Ethics Lab (2021). AI Principles ToolBox. https://aiethicslab.com/
↑ Queer in AI (2020). Membership Survey. https://sites.google.com/view/queer-in-ai/
↑ Global Partnership on AI (2020). https://gpai.ai/
↑ OECD AI Policy Observatory (2020). https://oecd.ai/

[AIIndex2021-1] 1,000 ^1,001 ^1,002 ^1,003 ^1,004 ^1,005 ^1,006 ^1,007 ^1,008 ^1,009 ^1,010 ^1,011 ^1,012 ^1,013 ^1,014 ^1,015 ^1,016 ^1,017 ^1,018 ^1,019 ^1,020 ^1,021 ^1,022 ^1,023 ^1,024 ^1,025 ^1,026 ^1,027 ^1,028 ^1,029 ^1,030 ^1,031 ^1,032 ^1,033 ^1,034 ^1,035 ^1,036 ^1,037 ^1,038 ^1,039 ^1,040 ^1,041 ^1,042 ^1,043 ^1,044 ^1,045 ^1,046 ^1,047 ^1,048 ^1,049 ^1,050 ^1,051 ^1,052 ^1,053 ^1,054 ^1,055 ^1,056 ^1,057 ^1,058 ^1,059 ^1,060 ^1,061 ^1,062 ^1,063 ^1,064 ^1,065 ^1,066 ^1,067 ^1,068 ^1,069 ^1,070 ^1,071 ^1,072 ^1,073 ^1,074 ^1,075 ^1,076 ^1,077 ^1,078 ^1,079 ^1,080 ^1,081 ^1,082 ^1,083 ^1,084 ^1,085 ^1,086 ^1,087 ^1,088 ^1,089 ^1,090 ^1,091 ^1,092 ^1,093 ^1,094 ^1,095 ^1,096 ^1,097 ^1,098 ^1,099 ^1,100 ^1,101 ^1,102 Zhang, D., Mishra, S., Brynjolfsson, E., Etchemendy, J., Ganguli, D., Grosz, B., Lyons, T., Manyika, J., Niebles, J.C., Sellitto, M., Shoham, Y., Clark, J., Perrault, R. (2021). The AI Index 2021 Annual Report. AI Index Steering Committee, Human-Centered AI Institute, Stanford University. https://aiindex.stanford.edu/report/

[PostEra2021-2] 2,0 ^2,1 PostEra (2021). COVID Moonshot: AI-driven Drug Discovery. https://postera.ai/moonshot

[Quid2021-3] 3,0 ^3,1 ^3,2 NetBase Quid (2021). AI Investment Data (CapIQ, Crunchbase). https://quid.com/

[CRA2021-4] 4,0 ^4,1 ^4,2 ^4,3 ^4,4 ^4,5 ^4,6 Computing Research Association (2021). CRA Taulbee Survey. https://cra.org/resources/taulbee-survey/

[MAG2021-5] 5,0 ^5,1 ^5,2 ^5,3 ^5,4 ^5,5 ^5,6 ^5,7 Microsoft Academic Graph (2020). https://www.microsoft.com/en-us/research/project/microsoft-academic-graph/

[Bloomberg2021-6] 6,0 ^6,1 ^6,2 Bloomberg Government (2021). AI Mentions in Congressional Record. https://about.bgov.com/

[Scopus2021-7] 7,0 ^7,1 ^7,2 Elsevier/Scopus (2020). AI Publications Data. https://www.scopus.com/

[arXiv2021-8] rXiv (2020). AI-Related Publications Data. https://arxiv.org/

[Nesta2021-9] Nesta (2020). Deep Learning Papers Analysis. https://www.nesta.org.uk/

[Ahmed2020-10] Ahmed, N. & Wahed, M. (2020). The De-Democratization of AI: Deep Learning and the Compute Divide in Artificial Intelligence Research. https://arxiv.org/abs/2010.15581

[GitHub2021-11] GitHub (2020). AI Library Stars Data. https://github.com/

[ImageNet2021-12] Beyer, L., Dosovitskiy, A., Houlsby, N. (Google). ImageNet analysis for AI Index 2021.

[Karras2020-13] Karras, T. et al. (2020). Analyzing and Improving the Image Quality of StyleGAN. https://arxiv.org/abs/1912.04958

[DFDC2020-14] Dolhansky, B. et al. (2020). The DeepFake Detection Challenge (DFDC) Dataset. https://arxiv.org/abs/2006.07397

[NIST2021-15] Grother, P. et al. (2021). NIST Face Recognition Vendor Test (FRVT). https://www.nist.gov/programs-projects/face-recognition-vendor-test-frvt

[SuperGLUE2019-16] Wang, A. et al. (2019). SuperGLUE: A Stickier Benchmark for General-Purpose Language Understanding Systems. https://arxiv.org/abs/1905.00537

[Intento2021-17] Intento (2021). Machine Translation Report. https://inten.to/

[GPT3-18] 18,0 ^18,1 Brown, T.B. et al. (2020). Language Models are Few-Shot Learners. https://arxiv.org/abs/2005.14165

[VQA2020-19] VQA Challenge (2020). https://visualqa.org/challenge.html

[VoxCeleb2021-20] VoxCeleb (2020). Audio-Visual Dataset. https://www.robots.ox.ac.uk/~vgg/data/voxceleb/

[Kotthoff2020-21] Kotthoff, L. (2020). SAT Competition Analysis. University of Wyoming.

[Sutcliffe2020-22] Sutcliffe, G. & Suttner, C. (2020). TPTP Problem Library and ATP Evaluation. University of Miami.

[AlphaFold2020-23] Jumper, J. et al. (2020). AlphaFold 2. DeepMind. https://deepmind.com/blog/article/alphafold-a-solution-to-a-50-year-old-grand-challenge-in-biology

[LinkedIn2021-24] 24,0 ^24,1 LinkedIn (2020). Economic Graph: AI Hiring and Skills Data. https://economicgraph.linkedin.com/

[BurningGlass2021-25] Burning Glass Technologies (2021). AI Labor Demand Data. https://www.burning-glass.com/

[McKinsey2021-26] 26,0 ^26,1 McKinsey & Company (2021). Global Survey on AI. https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai

[IFR2021-27] International Federation of Robotics (2021). World Robotics Report. https://ifr.org/

[JRC2021-28] Joint Research Centre, European Commission (2021). AI Education in Europe. https://ai-watch.ec.europa.eu/

[AIEthicsLab2021-29] AI Ethics Lab (2021). AI Principles ToolBox. https://aiethicslab.com/

[QAI2021-30] Queer in AI (2020). Membership Survey. https://sites.google.com/view/queer-in-ai/

[GPAI2020-31] Global Partnership on AI (2020). https://gpai.ai/

[OECD2020-32] OECD AI Policy Observatory (2020). https://oecd.ai/

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]