English
Русский
Українська
Голубая
Фиолетовая
Cветлая
Терминал
Norton
Войти
Нам 10 лет! Тот же вайб, тот же Coursehunter. Спасибо, что вы с нами! 💜 Скидки!

Новая когнитивная система оценки ИИ от Google DeepMind

Новая когнитивная система оценки ИИ от Google DeepMind

Google DeepMind представила новый подход к измерению прогресса в сторону общей искусственной интеллигентности (AGI), предложив когнитивную систему оценки, более похожую на тест IQ для машин. Исследователи утверждают, что такой метод позволит впервые сравнивать способности ИИ напрямую с человеческими показателями по широкому спектру когнитивных навыков.

Почему Google меняет подход к определению AGI

Сегодня крупнейшие ИИ‑лаборатории — OpenAI, Google DeepMind и Anthropic — заявляют, что стремятся создать AGI, однако так и не пришли к единому определению. OpenAI связывает AGI с превосходством над людьми в экономически значимой работе, Шейн Легг из DeepMind — со способностью выполнять характерные для человека когнитивные действия, а Франсуа Шолле говорит о скорости приобретения навыков.

Google предлагает отказаться от поисков «единственного числа» и вместо этого анализировать интеллект как совокупность отдельных способности, как это уже десятилетиями делают когнитивные науки.

10 когнитивных способностей, предложенных DeepMind

Авторы исследования выделяют десять ключевых когнитивных факультетов, соответствующих структурам, изученным психологией и нейронауками.

  • Восприятие. Способность видеть, слышать, читать и понимать содержание, а не просто обрабатывать пиксели.
  • Генерация. Создание текста, речи, движений или компьютерных действий.
  • Внимание. Умение выделять важную информацию и игнорировать шум.
  • Обучение. Приобретение новых знаний после развертывания, а не только в ходе тренировки.
  • Память. Хранение, извлечение и забывание информации.
  • Рассуждение. Логические, дедуктивные, индуктивные, аналоговые и математические выводы.
  • Метапознание. Осознание собственных знаний и неопределённости.
  • Исполнительные функции. Планирование, контроль импульсов, смена стратегий.
  • Решение задач. Комплексное применение восприятия, обучения, планирования и рассуждений.
  • Социальное познание. Интерпретация социальных сигналов, кооперация, переговоры.

Как Google хочет тестировать ИИ

Исследование предлагает трёхэтапный протокол оценки.

Этап 1: когнитивная оценка

Каждая способность тестируется отдельным набором задач. Важно, чтобы задачи были закрытыми (не входили в обучающие данные) и проверялись независимыми экспертами — это снижает риск «загрязнения данных».

Этап 2: сбор человеческих эталонов

Те же тесты проходят люди из репрезентативной выборки. Это формирует полномасштабное распределение человеческой производительности для дальнейшего сравнения.

Этап 3: когнитивные профили

Результаты визуализируются в виде радиальных диаграмм, показывающих, насколько ИИ соответствует человеческому уровню по каждому из 10 параметров. Например:

  • Система ниже медианы человека в ряде областей.
  • Система на уровне или выше медианы по всем 10 способностям.
  • Система на уровне 99-го перцентиля — выше почти всех участников‑людей.

Даже такой высокий результат формально не доказывает наличие AGI, но стал бы важной вехой.

Ограничения метода

Исследователи отмечают несколько ключевых слабых мест:

  • Скорость. Таксономия оценивает способности, но не быстроту реакции. В реальных задачах задержки могут сделать ИИ бесполезным.
  • Поведенческие склонности. Система может быть склонна к риску, излишней самоуверенности или следованию определённым ценностям — это не оценивается напрямую.
  • Креативность. Её сложно объективно измерить; предполагается, что она проявляется через другие когнитивные процессы.
  • Модель против системы. Современные ИИ состоят не только из модели, но и инструментов, подсказок, внешних сервисов. Разделить их влияние непросто.

Google запускает глобальный хакатон для разработки тестов

Вместе с публикацией компании объявила хакатон Kaggle с призовым фондом 200 тысяч долларов. Участникам предлагается создать реальные тесты для пяти наиболее проблемных областей:

  • обучение,
  • метапознание,
  • внимание,
  • исполнительные функции,
  • социальное познание.

Победителей объявят 1 июня.

Почему это важно для дискуссии об AGI

Обсуждение AGI сегодня фрагментировано: одни считают, что минимальный AGI появится через два года, другие — что через двадцать. Тем временем новые сложные тесты, такие как ARC AGI 3, показывают крайне низкие результаты современных моделей.

«ARC AGI 3 — единственный несатурированный тест агентных ИИ. Результаты ниже 1% показывают, насколько далеко мы ещё от цели», — отмечает Франсуа Шолле.

Что это означает для будущего ИИ

Google предлагает оценивать ИИ так же, как мы оцениваем человеческий интеллект: глубоко, структурно и многопараметрично. Это должно заменить «впечатления» и демонстрации реальными научными измерениями.

Авторы указывают, что современный ИИ остаётся «зазубренным» — его способности развиты крайне неравномерно. Он может свободно говорить на 150 языках, но при этом проигрывает ребёнку в простейших задачах счёта или визуального анализа.

Пока мы не увидим полную когнитивную картину, человечество движется вслепую к одному из самых значимых технологических рубежей. Вопрос никогда не сводился к тому, можем ли мы построить AGI — ключевой всегда был в том, как это измерить.

На основе Google Just Changed the Definition of AGI

Читайте также

Комментарии
 logo