The 2017 AI Index Report
AI Index Report 2017 — первый (инаугурационный) ежегодный отчёт проекта AI Index, опубликованный в ноябре 2017 года[1]. Проект был создан в рамках инициативы One Hundred Year Study on AI (AI100) при Стэнфордском университете и представляет собой открытый некоммерческий проект по отслеживанию активности и прогресса в области искусственного интеллекта. Отчёт 2017 года стал первой попыткой систематически агрегировать и визуализировать данные о состоянии ИИ, охватив объёмы деятельности в академии и индустрии, техническую производительность систем ИИ, производные метрики и прогресс в направлении человеческого уровня. Авторы подчёркивают, что без релевантных данных о состоянии технологий ИИ общество «летит вслепую» в дискуссиях и принятии решений, связанных с искусственным интеллектом[1].
Предпосылки и цели
К 2017 году искусственный интеллект вышел на передний план глобального дискурса, привлекая внимание практиков, лидеров индустрии, политиков и широкой общественности. Область ИИ развивалась столь стремительно, что даже эксперты испытывали затруднения в понимании и отслеживании прогресса. AI Index был задуман как инструмент для информированного разговора об ИИ, основанного на данных, а не на домыслах или анекдотических свидетельствах[1].
Идея проекта возникла в ходе дискуссий Постоянного комитета AI100 в 2015 году[2]. Отчёт агрегирует как свободно доступные данные из интернета, так и оригинальные данные, а также извлекает новые метрики из комбинаций существующих рядов. Все данные, использованные для генерации отчёта, публикуются в открытом доступе на сайте aiindex.org[1].
Структура отчёта
Отчёт 2017 года состоит из четырёх основных разделов данных и нескольких дискуссионных секций[1]:
- Объём деятельности (Volume of Activity) — метрики «сколько»: публикации, приём на курсы, посещаемость конференций, стартапы, финансирование, вакансии, импорт роботов, программное обеспечение с открытым кодом, общественный интерес.
- Техническая производительность (Technical Performance) — метрики «насколько хорошо»: компьютерное зрение, обработка естественного языка, распознавание речи, доказательство теорем, решение SAT-задач.
- Производные метрики (Derivative Measures) — взаимосвязи между трендами, динамика «академия — индустрия», индекс жизнеспособности ИИ (AI Vibrancy Index).
- На пути к человеческому уровню? (Towards Human-Level Performance?) — каталог достижений, в которых ИИ приблизился к человеческому уровню или превзошёл его.
- Что отсутствует? (What's Missing?) — признание ограничений отчёта и направления будущей работы.
- Экспертный форум (Expert Forum) — комментарии ведущих экспертов в области ИИ.
Объём деятельности
Академические публикации
Число научных статей по ИИ, опубликованных и индексированных в базе данных Scopus (издательство Elsevier) с ключевым словом «Artificial Intelligence» в предметной области «Computer Science», выросло более чем в 9 раз с 1996 года[3]. Для сравнения: общее число публикаций в области компьютерных наук за тот же период увеличилось примерно в 6 раз, что свидетельствует о том, что рост публикаций по ИИ обусловлен не просто расширением интереса к информатике в целом, а именно возрастающим вниманием к искусственному интеллекту[1].
На момент составления отчёта база Scopus содержала более 200 000 статей в области информатики с ключевым словом «Artificial Intelligence» и почти 5 миллионов статей по информатике в целом из общего объёма около 70 миллионов индексированных документов[3].
Приём на учебные курсы
Набор студентов на вводные курсы по искусственному интеллекту и машинному обучению демонстрировал стремительный рост. В Стэнфордском университете набор на вводный курс по ИИ увеличился в 11 раз с 1996 года[1]. Машинное обучение (ML) как подобласть ИИ было выделено отдельно из-за особенно быстрого роста набора и критической роли ML-техник в недавних достижениях ИИ.
Аналогичные тенденции наблюдались и в других ведущих университетах: Калифорнийском университете в Беркли, Университете Карнеги-Меллона, Технологическом институте Джорджии, Университете Иллинойса в Урбана-Шампейн, Массачусетском технологическом институте и Университете Вашингтона[1]. Авторы отчёта отмечают, что эти данные представляют лишь узкий срез ландшафта высшего образования и не обязательно репрезентативны для более широкого круга учебных заведений.
Посещаемость конференций
Данные о посещаемости ведущих ИИ-конференций (AAAI, AAMAS, ACL, CP, CVPR, ECAI, ICAPS, ICRA, ICLR, ICML, IJCAI, IROS, KR, NIPS, UAI) подтвердили сдвиг исследовательского фокуса от символьного рассуждения к машинному обучению и глубокому обучению[1]. Конференции по машинному обучению (NIPS, ICML, ICLR) демонстрировали наиболее значительный рост посещаемости, в то время как конференции по символьным методам (KR, CP, ICAPS) сохраняли стабильное, но более скромное сообщество, продолжающее добиваться устойчивого прогресса[1].
Стартапы в сфере ИИ
Число активных американских стартапов, разрабатывающих системы ИИ с венчурным финансированием, увеличилось в 14 раз с 2000 года[4][5]. Для идентификации ИИ-компаний использовались категории Crunchbase (Artificial Intelligence, Machine Learning, Natural Language Processing, Computer Vision, Facial Recognition, Image Recognition, Speech Recognition, Semantic Search, Semantic Web, Text Analytics, Virtual Assistant, Visual Search, Predictive Analytics, Intelligent System) с последующей перекрёстной проверкой по базе VentureSource[1].
Венчурное финансирование
Объём ежегодных венчурных инвестиций в американские стартапы в области ИИ вырос в 6 раз с 2000 года[5]. Данные охватывают все стадии финансирования и были агрегированы компанией Sand Hill Econometrics на основе базы VentureSource[1].
Рынок труда
Данные двух крупнейших платформ онлайн-вакансий — Indeed.com и Monster.com — показали значительный рост спроса на специалистов в области ИИ[6][7].
Indeed.com: Доля вакансий, требующих навыков в области ИИ, на платформе в США выросла в 4,5 раза с 2013 года[6]. Аналогичный быстрый рост наблюдался в Канаде и Великобритании, хотя по абсолютному размеру их рынки составляли соответственно 5% и 27% от американского[1].
Monster.com: Анализ абсолютного числа ИИ-вакансий в разбивке по требуемым навыкам (машинное обучение, компьютерное зрение, обработка естественного языка и др.) также подтвердил устойчивый рост. Одна вакансия могла одновременно требовать нескольких навыков[7].
Импорт роботов
Данные ежегодного отчёта World Robotics Report, подготовленного Международной федерацией робототехники (IFR), показали устойчивый рост импорта промышленных роботов как в Северную Америку, так и в мировом масштабе[8]. Авторы отчёта отмечают, что не существует простого способа определить, какой процент роботов использует программное обеспечение, квалифицируемое как «ИИ», и в какой степени разработки в области ИИ способствуют росту использования промышленных роботов[1].
Открытое программное обеспечение
Интерес разработчиков к ИИ-фреймворкам на платформе GitHub показал значительный рост. Число звёзд (Stars) для основных пакетов машинного обучения и глубокого обучения — TensorFlow, Scikit-Learn, Keras, PyTorch, Caffe, MXNet, CNTK и Theano — стремительно увеличивалось[9]. TensorFlow от Google и Scikit-Learn были выделены как наиболее популярные пакеты, при этом тренды по количеству звёзд и форков (Forks) были практически идентичными[1].
Общественный интерес: тональность медиа
Анализ тональности публикаций в популярных СМИ, содержащих термин «Artificial Intelligence», на основе данных сервиса TrendKite показал динамику соотношения позитивных и негативных статей[10]. Классификатор TrendKite распределял англоязычные статьи (за вычетом пресс-релизов, финансовых новостей и некрологов) на категории «позитивные», «негативные» и «нейтральные»[1].
Техническая производительность
Раздел технической производительности отслеживает прогресс ИИ-систем в задачах компьютерного зрения, обработки естественного языка, распознавания речи, доказательства теорем и решения SAT-задач[1].
Компьютерное зрение
Обнаружение объектов (Object Detection)
На соревновании Large Scale Visual Recognition Challenge (LSVRC) на основе набора данных ImageNet частота ошибок в распознавании изображений снизилась с 28,5% до менее 2,5% в период с 2010 по 2017 год[11]. Для сравнения: уровень человеческой ошибки оценивается примерно в 5%[12], то есть к 2017 году ИИ-системы уже существенно превзошли человеческий уровень на данном бенчмарке. Соревнование ImageNet завершилось в 2017 году[1].
Визуальный вопрос-ответ (Visual Question Answering)
На наборе данных VQA 1.0 — задаче формирования открытых ответов на вопросы об изображениях — ИИ-системы демонстрировали устойчивый прогресс[13]. Авторы отмечали, что набор данных VQA 1.0 уже был вытеснен VQA 2.0, и было неясно, насколько дальнейшее внимание будет уделяться исходной версии[1].
Обработка естественного языка
Синтаксический разбор (Parsing)
На стандартном тестовом наборе — секции 23 корпуса Wall Street Journal из Penn Treebank — автоматические парсеры показывали устойчивый рост метрики F1[14]. Результаты фиксировались как для предложений длиной менее 40 слов, так и для полного набора предложений[1].
Машинный перевод (Machine Translation)
На ежегодном соревновании Workshop on Machine Translation (WMT) по задаче перевода новостей между английским и немецким языками лучшие системы показывали общий восходящий тренд по метрике BLEU[15]. Метрика BLEU — автоматический метод сравнения машинного перевода с несколькими переводами, выполненными людьми, — представляет собой модифицированную версию точности (precision) со значениями от 0 до 1. Хотя BLEU коррелирует с экспертными оценками качества перевода, её нельзя использовать для сравнения между корпусами, а сравнение между системами может быть обманчивым[1].
В 2017 году баллы BLEU заметно снизились по сравнению с 2016 годом (хотя оставались выше уровня 2015 года), что, вероятно, объясняется особенностями тестового набора, а не реальным снижением качества систем машинного перевода[15].
Вопрос-ответ (Question Answering)
На наборе данных Stanford Question Answering Dataset (SQuAD) — более 500 статей и 100 000 пар «вопрос-ответ» — ИИ-системы показывали быстрый рост метрики Exact Match (EM), измеряющей процент ответов, точно совпадающих с эталонными[16]. Уровень человеческой производительности на SQuAD составлял 82,3%[1]. Баллы на SQuAD стремительно росли с момента создания набора в июне 2016 года.
Распознавание речи
На стандартном наборе данных Switchboard Hub5'00 — задаче распознавания речи из телефонных разговоров — Microsoft и IBM в 2017 году достигли производительности, близкой к «человеческому паритету»[17]. Метрика Word Error Rate (WER) — число ошибок (замен, удалений и вставок слов), нормализованное по длине предложения, — снижалась на протяжении многих лет. Существовали разногласия относительно точного уровня человеческой ошибки: назывались значения 5,1% и 5,9%, и даже ниже 5%. В отчёте использовался порог 5,1%[1].
Авторы отмечали озабоченность тем, что длительное использование набора Switchboard может привести к значительному переобучению ИИ-систем на конкретных данных[1].
Доказательство теорем
На наборе задач Thousands of Problems for Theorem Provers (TPTP) отслеживалась средняя «трактабильность» (tractability) — доля современных автоматических доказателей теорем (ATP), способных решить задачу[18]. Анализировался подмножество задач, не обновлявшихся с версии TPTP v5.0.0 (2010 год). Метрика имеет особенность: появление новых мощных ATP-систем, хорошо решающих новые задачи, но плохо справляющихся с задачами, которые решают другие системы, может привести к снижению средней трактабильности[1].
Решение SAT-задач
На промышленных экземплярах задач из соревнования SAT Competition фиксировался рост процента решённых задач[19]. Исследователи Холгер Хоос и Кевин Лейтон-Браун протестировали 69 решателей на 1076 экземплярах задач, представленных на соревновании с 2007 года, запустив все решатели на одном и том же оборудовании для корректного сравнения[1]. Авторы отмечали, что часть улучшений может отражать инженерные достижения, а не алгоритмические прорывы[1].
Производные метрики
Динамика «академия — индустрия»
Для исследования взаимосвязи между ИИ-активностью в академии и индустрии были выбраны три репрезентативные метрики: число публикаций по ИИ, суммарный набор на вводные курсы по ИИ и ML в Стэнфорде, а также объём венчурных инвестиций в ИИ-стартапы. Все метрики были нормализованы относительно 2000 года[1].
Анализ показал, что изначально академическая активность (публикации и набор на курсы) обеспечивала устойчивый прогресс. Примерно с 2010 года инвесторы начали обращать внимание на область, а к 2013 году стали движущей силой резкого увеличения общей активности. После этого академия догнала «энтузиазм» индустрии[1].
Индекс жизнеспособности ИИ (AI Vibrancy Index)
AI Vibrancy Index — экспериментальная составная метрика, агрегирующая нормализованные показатели публикаций, набора на курсы и венчурных инвестиций для количественной оценки «жизнеспособности» ИИ как области[1]. Индекс вычислялся как среднее нормализованных метрик по времени и демонстрировал резкий рост, отражающий одновременное увеличение всех трёх составляющих. Авторы выразили надежду, что подобные производные метрики вызовут интерес к дальнейшему анализу данных AI Index[1].
На пути к человеческому уровню
Отчёт каталогизировал заслуживающие доверия случаи, в которых компьютерные системы достигли или превзошли человеческий уровень производительности, сопроводив их рядом важных оговорок[1].
Ключевые ограничения сравнения: машины часто превосходят людей в узкоспециализированных задачах, но производительность может резко падать при малейшей модификации условий. Например, человек, читающий китайские иероглифы, вероятно, понимает и китайскую речь, знает кое-что о китайской культуре и может рекомендовать блюда в китайском ресторане. Для ИИ каждая из этих задач потребовала бы совершенно отдельной системы[1].
Вехи достижений
| Достижение | Год | Описание |
|---|---|---|
| Отелло | 1980-е / 1997 | В 1989 году программа BILL (Кай-Фу Ли, Санджой Махаджан) победила сильнейшего американского игрока Брайана Роуза (56–8). В 1997 году программа Logistello выиграла все партии матча из шести игр у действующего чемпиона мира[1]. |
| Шашки | 1995 | Программа Chinook победила действующего чемпиона мира. Первые программы для игры в шашки с самообучением создавались Артуром Сэмюэлом с 1952 года[1]. |
| Шахматы | 1997 | IBM Deep Blue победил чемпиона мира Гарри Каспарова. Некоторые учёные в 1950-х годах предсказывали, что компьютер обыграет чемпиона мира к 1967 году[20]. К 2017 году шахматные программы на смартфонах играли на уровне гроссмейстера[1]. |
| Jeopardy! | 2011 | Система IBM Watson победила бывших победителей телешоу Брэда Раттера и Кена Дженнингса, выиграв главный приз в 1 млн долларов[1]. |
| Игры Atari | 2015 | Команда Google DeepMind использовала систему обучения с подкреплением для обучения игре в 49 игр Atari, достигнув человеческого уровня в большинстве из них (например, Breakout), хотя некоторые игры (например, Montezuma's Revenge) оставались вне досягаемости[21]. |
| Обнаружение объектов (ImageNet) | 2016 | Частота ошибок автоматической классификации изображений ImageNet снизилась с 28% (2010) до менее 3% при человеческом уровне около 5%[12]. |
| Го | 2016–2017 | AlphaGo (Google DeepMind) победил Ли Седоля 4–1 в марте 2016 года, затем AlphaGo Master победил Кэ Цзе в марте 2017 года. В октябре 2017 года AlphaGo Zero победил оригинальный AlphaGo со счётом 100–0[22][23]. |
| Классификация рака кожи | 2017 | ИИ-система, обученная на 129 450 клинических изображениях 2 032 заболеваний, продемонстрировала уровень компетенции в классификации рака кожи, сопоставимый с 21 сертифицированным дерматологом[24]. |
| Распознавание речи (Switchboard) | 2017 | Microsoft и IBM достигли производительности, близкой к «человеческому паритету», в задаче распознавания речи на наборе Switchboard[17]. |
| Покер | 2017 | Программа Libratus (CMU) победила четырёх топ-игроков в турнире из 120 000 партий Texas Hold'em с неограниченными ставками. Программа DeepStack (Университет Альберты) доказала статистическую значимость своего превосходства над 11 профессионалами в более чем 3 000 партиях каждый[25]. |
| Ms. Pac-Man | 2017 | Команда Maluuba (приобретённая Microsoft) создала ИИ-систему, достигшую максимального результата 999 900 очков на Atari 2600[1]. |
Что отсутствует в отчёте
Авторы откровенно признали ряд существенных ограничений инаугурационного отчёта[1]:
Техническая производительность
Не были охвачены многие важные технические области: диалоговые системы (для которых отсутствовали стандартизированные бенчмарки), планирование, непрерывное управление в робототехнике, обыденное рассуждение (common sense reasoning), рекомендательные системы, стандартизированное тестирование. Авторы предупреждали, что отслеживание прогресса обычно ведётся в областях с хорошими результатами, что создаёт оптимистический сдвиг в оценке состояния ИИ[1].
Международный охват
Отчёт признан чрезмерно американоцентричным, несмотря на значительную ИИ-активность в других странах. Уровень инвестиций и активности в Китае назван «поразительным», но выходящим за рамки инаугурационного отчёта[1].
Разнообразие и инклюзивность
Отчёт не содержал разбивки данных по полу, расе, гендеру, этнической принадлежности, сексуальной ориентации или иным характеристикам. Авторы признали, что вопросы о том, кто участвует в разговорах об ИИ и кто обладает властью влиять на будущие исследования и развёртывание ИИ, тесно связаны с динамикой власти в технологической и венчурной индустриях, а также с более широкими системными силами дискриминации[1].
Государственные и корпоративные инвестиции
Данные о венчурном финансировании охватывали лишь США и представляли очень малую часть общих инвестиций в исследования и разработки в области ИИ. Данные о государственных и корпоративных вложениях отсутствовали[1].
Влияние на конкретные отрасли
Метрики влияния ИИ на здравоохранение, автомобильную промышленность, финансы, образование и другие вертикали не были представлены[1].
Снижение социальных рисков
Вопросы безопасности ИИ, предсказуемости, справедливости алгоритмов, конфиденциальности и этических последствий автоматизации не были освещены[1].
Экспертный форум
Отчёт включал комментарии ведущих экспертов, представляющих академию, индустрию, правительство и медиа[1].
Барбара Грош (Гарвард)
Барбара Грош подчеркнула важность разработки метрик, учитывающих не только производительность ИИ-систем в вакууме, но и качество взаимодействия ИИ с людьми и влияние ИИ-систем на людей как индивидуально, так и в обществе. Она обратила внимание на разрыв в отчёте: раздел об обработке естественного языка охватывал парсинг, машинный перевод и поиск ответов, но не включал диалоговые системы, которые требуют учёта ментального состояния собеседника. Грош также призвала отслеживать долю курсов по ИИ, включающих этические аспекты, и число компаний, задающихся вопросом, следует ли вообще создавать ту или иную ИИ-систему[1].
Эрик Хорвиц (Microsoft)
Эрик Хорвиц назвал публикацию инаугурационного отчёта критическим шагом в вовлечении более широкого сообщества в диалог. Он отметил ценность раздела производных метрик и AI Vibrancy Index, предложив валидировать их путём сопоставления с данными о найме, составе и компенсации ИИ-талантов в корпорациях. Хорвиц особо подчеркнул важность отслеживания прогресса в области обыденного рассуждения (common sense reasoning), «который демонстрирует даже малыш», но остаётся за пределами досягаемости современных ИИ-технологий[2].
Кай-Фу Ли (Sinovation Ventures)
Кай-Фу Ли восполнил пробел отчёта в международном охвате, представив обзор состояния ИИ в Китае. Он отметил, что Китай имеет втрое больше мобильных телефонов и пользователей интернета, чем США или Индия, а разрыв в объёмах генерируемых данных значительно превышает фактор три: китайцы совершают мобильные платежи в 50 раз чаще американцев, объём доставки еды в 10 раз больше, а компания Didi уже начала интегрировать данные с системами управления трафиком. Ли привёл в пример китайский стартап Face++, занявший первое место в трёх соревнованиях по компьютерному зрению, опередив Google, Microsoft, Facebook и CMU. Он указал на план Государственного совета КНР от июля 2017 года стать мировым центром инноваций в ИИ к 2030 году и предсказал, что американо-китайская дуополия в ИИ не только неизбежна, но уже наступила[1].
Эндрю Ын (Coursera, Стэнфорд)
Эндрю Ын охарактеризовал ИИ как «новое электричество», трансформирующее множество отраслей. Он описал последовательность трансформации подобластей ИИ глубоким обучением: сначала распознавание речи, затем компьютерное зрение, затем NLP (что ведёт к расцвету чат-ботов), и далее робототехника (новые производственные возможности). Ын подчеркнул, что страны с более разумной политикой в области ИИ будут прогрессировать быстрее, а страны с плохо продуманными мерами рискуют отстать[1].
Даниэла Рус (MIT)
Даниэла Рус представила оптимистический взгляд на ИИ как вектор позитивных изменений: от борьбы с изменением климата и демократизации образования до автономных автомобилей и персонализированного здравоохранения. Она подчеркнула, что вопреки распространённому мнению, ИИ приведёт к более удовлетворительным, а не менее многочисленным рабочим местам, поскольку рост производительности от ИИ и робототехники освободит людей от монотонных задач[1].
Себастьян Трун (Стэнфорд, Udacity)
Себастьян Трун провёл историческую параллель: до изобретения парового двигателя большинство людей были фермерами, определяемыми физической силой. Машины превратили фермеров в «сверхлюдей» — один американский фермер кормит 155 человек, и менее 2% населения США работает в сельском хозяйстве. Аналогично, ИИ способен научиться паттернам нашей повторяющейся работы и помочь нам стать «сверхлюдьми». Трун предсказал наступление эры беспрецедентного человеческого творчества, но предупредил о необходимости стать «учениками на всю жизнь» и адаптироваться к изменениям[1].
Майкл Вулдридж (Оксфорд)
Майкл Вулдридж поставил центральный вопрос: существует ли «пузырь ИИ» и лопнет ли он (подобно пузырю доткомов 1996–2001 годов) или мягко сдуется? Его главным опасением был новый «ИИ-зима», спровоцированная разочарованием после массовых спекулятивных инвестиций. Однако он выразил осторожный оптимизм: в отличие от предыдущих циклов, под нынешним пузырем существует реальная субстанция — ИИ-системы демонстрируют устойчивый прогресс, а крупные компании научились продуктивно использовать ИИ-техники. Вулдридж также поднял вопрос об измерении прогресса в направлении общего ИИ (General AI), отметив, что ни он, ни кто-либо другой не знает, как это измерить[1].
Мэган Смит и Сьюзан Альцнер
Бывший технический директор США Мэган Смит и Сьюзан Альцнер (Служба связи с НПО при ООН) подчеркнули первостепенную важность разнообразия и инклюзивности. Они указали, что из разговора и проектных команд исключено большинство человечества вследствие «массового сознательного и бессознательного предубеждения, значительных дискриминационных культурных паттернов и усвоенного поведения системного исключения». Авторы сослались на ряд ключевых инициатив: Algorithmic Justice League, петицию в ООН об оружейном ИИ, движение CS for All, инициативу AI4All[1].
Методология
Отчёт использовал данные из множества источников[1]:
- Публикации: Elsevier Scopus — база данных из почти 70 миллионов документов; запросы по ключевому слову «Artificial Intelligence» в предметной области «Computer Science» для периода с 1996 года[3].
- Набор на курсы: Записи университетов — UC Berkeley, Carnegie Mellon, Georgia Tech, UIUC, MIT, Stanford, University of Washington[1].
- Посещаемость конференций: Данные от организаторов 15 конференций (AAAI, AAMAS, ACL, CP, CVPR, ECAI, ICAPS, ICRA, ICLR, ICML, IJCAI, IROS, KR, NIPS, UAI)[1].
- Стартапы и финансирование: Crunchbase (API для идентификации компаний по категориям), VentureSource (данные о венчурном финансировании), Sand Hill Econometrics (агрегация)[4][5].
- Рынок труда: Indeed.com (доля ИИ-вакансий по странам), Monster.com / CEB TalentNeuron (абсолютное число вакансий по навыкам)[6][7].
- Импорт роботов: International Federation of Robotics, World Robotics Report[8].
- GitHub: GitHub Archive через Google BigQuery — подсчёт событий WatchEvent для репозиториев ИИ-фреймворков[9].
- Тональность медиа: TrendKite — классификация англоязычных статей с фильтрацией пресс-релизов, финансовых новостей и некрологов[10].
- Бенчмарки: LSVRC ImageNet, VQA 1.0, Penn Treebank, WMT / EuroMatrix, SQuAD, Switchboard Hub5'00, TPTP, SAT Competition[1].
Руководство и авторский коллектив
Проект AI Index 2017 был подготовлен под руководством управляющего комитета[1]:
- Ёав Шохам (Yoav Shoham, Стэнфордский университет) — председатель
- Рэймонд Перро (Raymond Perrault, SRI International)
- Эрик Бриньолфссон (Erik Brynjolfsson, MIT)
- Джек Кларк (Jack Clark, OpenAI)
- Кэлвин Легассик (Calvin LeGassick) — менеджер проекта
Консультативный комитет включал Майкла Боулинга, Эрни Дэвиса, Джулию Хиршберг, Эрика Хорвица, Карен Леви, Алана Макворта, Тома Митчелла, Сэнди Пентланда, Криса Ре, Даниэлу Рус, Себастьяна Труна, Хэла Вэриана и Тоби Уолша[1].
Среди организаций-партнёров: Allen Institute for Artificial Intelligence, Crunchbase, Electronic Frontier Foundation, Elsevier, EuroMatrix, Google Brain, Indeed.com, Monster.com, Sand Hill Econometrics, Sinovation Ventures, TrendKite, VentureSource. Стартовое финансирование предоставили Google, Microsoft и Bytedance (Toutiao), однако AI Index подчёркивает свою независимость и отмечает, что не обязательно отражает мнения этих организаций[1].
Историческое значение
Инаугурационный отчёт AI Index 2017 года заложил основу для последующей серии ежегодных отчётов, которые со временем значительно расширили охват — от начальных четырёх разделов до девяти тематических глав в отчёте 2024 года. Многие пробелы, честно признанные в секции «What's Missing» отчёта 2017 года, были последовательно адресованы: международный охват (начиная с отчёта 2018 года), данные о разнообразии, государственных инвестициях, влиянии на вертикали, а также ответственный ИИ и регулирование[26]. Проект AI Index впоследствии перешёл под эгиду Стэнфордского института HAI (Human-Centered Artificial Intelligence), созданного в 2019 году[1].
Ссылки
- AI Index 2017 Annual Report (полный текст): https://aiindex.stanford.edu/2017-report/
- One Hundred Year Study on AI (AI100): https://ai100.stanford.edu/
- Stanford HAI — Human-Centered Artificial Intelligence: https://hai.stanford.edu/
- Elsevier Scopus: https://www.scopus.com/
- ImageNet / LSVRC: http://www.image-net.org/challenges/LSVRC/
- SQuAD — Stanford Question Answering Dataset: https://rajpurkar.github.io/SQuAD-explorer/
- TPTP — Thousands of Problems for Theorem Provers: http://www.tptp.org/
- SAT Competition: http://www.satcompetition.org/
- EFF AI Progress Metrics: https://www.eff.org/ai/metrics
- International Federation of Robotics: https://ifr.org/
- GitHub Archive: https://www.gharchive.org/
- Crunchbase: https://www.crunchbase.com/
Литература
- AI Index Steering Committee (2017). AI Index 2017 Annual Report. https://aiindex.stanford.edu/2017-report/
- Russakovsky, O. et al. (2015). ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision. https://arxiv.org/abs/1409.0575
- Rajpurkar, P. et al. (2016). SQuAD: 100,000+ Questions for Machine Comprehension of Text. https://arxiv.org/abs/1606.05250
- Silver, D. et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529. https://doi.org/10.1038/nature16961
- Silver, D. et al. (2017). Mastering the game of Go without human knowledge. Nature, 550. https://doi.org/10.1038/nature24270
- Mnih, V. et al. (2015). Human-level control through deep reinforcement learning. Nature, 518. https://doi.org/10.1038/nature14236
- Esteva, A. et al. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542. https://doi.org/10.1038/nature21056
- Brown, N. & Sandholm, T. (2017). Superhuman AI for heads-up no-limit poker: Libratus beats top professionals. Science, 359(6374). https://doi.org/10.1126/science.aao1733
- Campbell, M. et al. (2002). Deep Blue. Artificial Intelligence, 134(1–2). https://doi.org/10.1016/S0004-3702(01)00129-1
- Marcus, M. et al. (1993). Building a Large Annotated Corpus of English: The Penn Treebank. Computational Linguistics, 19(2).
- International Federation of Robotics (2017). World Robotics Report. https://ifr.org/worldrobotics/
Примечания
- ↑ 1,00 1,01 1,02 1,03 1,04 1,05 1,06 1,07 1,08 1,09 1,10 1,11 1,12 1,13 1,14 1,15 1,16 1,17 1,18 1,19 1,20 1,21 1,22 1,23 1,24 1,25 1,26 1,27 1,28 1,29 1,30 1,31 1,32 1,33 1,34 1,35 1,36 1,37 1,38 1,39 1,40 1,41 1,42 1,43 1,44 1,45 1,46 1,47 1,48 1,49 1,50 1,51 1,52 1,53 1,54 1,55 1,56 1,57 1,58 1,59 1,60 AI Index Steering Committee (2017). AI Index 2017 Annual Report. https://aiindex.stanford.edu/2017-report/
- ↑ 2,0 2,1 Horvitz, E. (2017). Commentary in AI Index 2017 Annual Report. https://aiindex.stanford.edu/2017-report/
- ↑ 3,0 3,1 3,2 Elsevier Scopus Database (2017). https://www.scopus.com/
- ↑ 4,0 4,1 Crunchbase (2017). AI-related startup data. https://www.crunchbase.com/
- ↑ 5,0 5,1 5,2 VentureSource / Sand Hill Econometrics (2017). Venture-backed AI company data.
- ↑ 6,0 6,1 6,2 Indeed.com (2017). AI job growth data. https://www.indeed.com/
- ↑ 7,0 7,1 7,2 Monster.com / CEB TalentNeuron (2017). AI job openings data. https://www.monster.com/
- ↑ 8,0 8,1 International Federation of Robotics (2017). World Robotics Report. https://ifr.org/worldrobotics/
- ↑ 9,0 9,1 GitHub Archive / Google BigQuery (2017). GitHub AI project statistics. https://www.gharchive.org/
- ↑ 10,0 10,1 TrendKite (2017). Media sentiment analysis data. https://www.trendkite.com/
- ↑ LSVRC ImageNet Competition (2010–2017). http://www.image-net.org/challenges/LSVRC/
- ↑ 12,0 12,1 Russakovsky, O. et al. (2015). ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision. https://arxiv.org/abs/1409.0575
- ↑ VQA Dataset (2017). http://www.visualqa.org/
- ↑ Marcus, M. et al. (1993). Building a Large Annotated Corpus of English: The Penn Treebank. Computational Linguistics, 19(2). https://catalog.ldc.upenn.edu/LDC99T42
- ↑ 15,0 15,1 Conference on Machine Translation / EuroMatrix (2017). WMT News Translation Task. http://www.statmt.org/wmt17/
- ↑ Rajpurkar, P. et al. (2016). SQuAD: 100,000+ Questions for Machine Comprehension of Text. https://arxiv.org/abs/1606.05250
- ↑ 17,0 17,1 Electronic Frontier Foundation (2017). AI Progress Metrics. https://www.eff.org/ai/metrics
- ↑ Sutcliffe, G. (2017). The TPTP Problem Library. http://www.tptp.org/
- ↑ SAT Competition (2017). http://www.satcompetition.org/
- ↑ Campbell, M. et al. (2002). Deep Blue. Artificial Intelligence, 134(1–2). https://doi.org/10.1016/S0004-3702(01)00129-1
- ↑ Mnih, V. et al. (2015). Human-level control through deep reinforcement learning. Nature, 518. https://doi.org/10.1038/nature14236
- ↑ Silver, D. et al. (2016). Mastering the game of Go with deep neural networks and tree search. Nature, 529. https://doi.org/10.1038/nature16961
- ↑ Silver, D. et al. (2017). Mastering the game of Go without human knowledge. Nature, 550. https://doi.org/10.1038/nature24270
- ↑ Esteva, A. et al. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542. https://doi.org/10.1038/nature21056
- ↑ Brown, N. & Sandholm, T. (2017). Superhuman AI for heads-up no-limit poker: Libratus beats top professionals. Science, 359(6374). https://doi.org/10.1126/science.aao1733
- ↑ Stanford HAI (2024). Artificial Intelligence Index Report 2024. https://aiindex.stanford.edu/report/