21 июн 2021
0

ИИ начнёт понимать мир на уровне человека. GLOM — открытие учёного, опередившего время

Учёный Джеффри Хинтон нашёл способ имитировать интуицию в нейросетях. Рассказываем, как будет работать ИИ будущего.

Михаил Вербицкий

Журналист и редактор. Пишет о бизнесе, технологиях и лайфстайле. Любит рассказывать о небольших историях, которые вырастают во что-то значимое.

Искусственный интеллект сегодня крайне примитивен и уязвим. Британский учёный-информатик, специалист в области глубинных нейронных сетей Джеффри Хинтон придумал, что нужно сделать, чтобы всё изменилось
Новая теория базируется на концепции человеческой интуиции. Как научить этому машину?
Система работает как креативный брейншторм. Но в более практичном поле
Проект Хинтона может стать прорывом и помочь ИИ решать человеческие проблемы

Инженер Google и соучредитель научно-исследовательского центра «Векторный институт» Джеффри Хинтон — новатор, опережающий время: он работал с искусственными нейронными сетями с 1970-х годов. Его футуристической идее потребовалось 26 лет: в 1986 году Хинтон и его коллеги разработали методику для более глубоких связей искусственных нейронов, и только в 2012 году вычислительные мощности позволили воплотить её в жизнь. Хинтон создал многослойную нейронную сеть, которая могла распознавать объекты в массивных наборах данных. Машина научилась лучше классифицировать и идентифицировать объекты — по виду, подвиду и классу. Открытия Хинтона лежат в основе многих современных нейросетей.

Сегодня ИИ несовершенен и уязвим: у машины нет человеческого понимания картины мира и глубокого восприятия различных ситуаций. Проблемами ИИ называют культивацию расизма из-за стереотипных алгоритмов прогнозирования (так, чат-бот Microsoft за сутки стал расистом и матершинником), манипуляции тонкими изменениями цвета для сокрытия деталей местности, отсутствие этических рамок и многое другое. У машин нет понимания общей картины мира.

В феврале 2021 года Хинтон опубликовал новую 44-страничную статью о возможном будущем искусственного интеллекта. Учёный придумал технику восприятия действительности, которая научит машины понимать окружающий мир на уровне людей, повторяя логику работы человеческого мозга.

Skillbox Media пересказывает статью американского журнала MIT Technology Review о новом революционном проекте Хинтона, который может привести человечество к следующему поколению искусственных нейронных сетей и более надёжному ИИ, заслуживающему доверия.

Оригинал статьи можно прочитать тут.

Как научить компьютер интуиции

«Эта идея не описывает работающую систему, а скорее представляет собой „воображаемую систему“», — так начинается статья Джеффри Хинтона о теории GLOM (слово GLOM происходит от сленгового выражения glom together. Также можно расшифровать как «гигабитная локальная сеть на материнской плате». — Прим. ред.).

44-страничный труд Хинтона, который описывает теорию GLOM

С помощью GLOM учёный планирует воспроизводить человеческое восприятие в компьютере. ИИ будет иначе обрабатывать и видеть визуальную информацию, которая попадает в него. Хинтон убеждён: то, что происходит в человеческом мозге, содержит «большие векторы нейронной активности». На техническом уровне в GLOM сливаются похожие векторы — векторы массивов чисел, кодирующих информацию (они фундаментальны для нейронных сетей).

По Джеффри Хинтону, человеческое мышление от искусственного отличает интуитивность, а сама интуиция — это способность легко проводить аналогии. С детства и на протяжении всей жизни люди осмысляют мир, сопоставляя сходства разных объектов и формируя набор ассоциаций.

GLOM способен моделировать искусственную интуицию, которая наиболее значима для восприятия. Благодаря этому ИИ сможет понимать окружающий мир таким, каким его видят люди. На сегодня ни один учёный не пришёл к подобному результату.

Плюс ко всему современные теории ИИ исходят из того, что во время восприятия мозг обрабатывает либо изображения, либо символы. GLOM же утверждает, что оба подхода неверны: мозг оперирует не изображениями и не символами, a большими векторами нейронной активности.

Новая теория GLOM решает две самые сложные проблемы ИИ:

понимание мира с точки зрения объектов и их естественных частей;
распознавание объектов при взгляде с разных ракурсов.

Как GLOM будет видеть мир

Лицо Джеффри Хинтона состоит из глаз, рта, ушей, носа. Смотря на нос, учёного легко узнать даже с первого взгляда в профиль. Два фактора — соотношение «часть-целое» и ракурс, по версии Хинтона, имеют решающее значение для восприятия. «Если GLOM когда-нибудь заработает, он сделает восприятие более похожим на человеческое, чем нынешние нейронные сети», — говорит Хинтон.

Первое поколение систем зрения искусственного интеллекта пыталось распознавать объекты, полагаясь в основном на соотношение «часть-целое». Второе поколение перешло на глубокое обучение с помощью больших объёмов данных. В GLOM Хинтон сочетает лучшие аспекты обоих подходов.

Тестовая модель GLOM училась на десяти эллипсах, визуально образующих абстрактное лицо или овцу

Создавая GLOM, учёный попытался смоделировать ментальные ярлыки, которые люди используют для осмысления мира. Если есть глаза, значит, где-то должно быть и лицо. При визуальном восприятии одна из стратегий GLOM — анализ частей объекта, например различных черт лица. Так ИИ сможет понять целое: если человек видит определённый нос, то сможет узнать его как часть лица конкретного человека.

По мнению Хинтона, человеческий мозг понимает соотношение «часть — целое» и создаёт при этом «дерево синтаксического анализа». Это разветвлённая диаграмма, которая показывает иерархические отношения между целым, его частями и подразделами. Само лицо находится на вершине дерева, а его составляющие — глаза, нос, уши и рот — образуют ветви. Одна из главных целей Хинтона с GLOM — воспроизвести дерево синтаксического анализа в нейронной сети.

Острова одинаковых векторов (стрелки одного цвета) на разных уровнях представляют собой дерево синтаксического анализа

Как работает система

Архитектура GLOM выглядит следующим образом: изображение (скажем, фотография лица) делится сеткой на области. Каждая область — это место на изображении: первое может демонстрировать радужную оболочку глаза, второе — кончик носа. Для каждого местоположения на сетке есть около пяти слоёв. Слой за слоем система делает прогноз с вектором, отвечающим за содержание или информацию. К примеру, вектор, который представляет положение кончика носа, может предугадывать: «Я часть носа!» На следующем уровне вектор предсказывает: «Я — часть лица в боковом ракурсе!»

Ник Фрост, работавший с Хинтоном в Google Brains, визуализировал работу искусственных нейронов с помощью человеческого примера. Представьте себе комнату с группой людей, выкрикивающих небольшие вариации одной и той же идеи. А теперь представьте этих людей векторами, указывающими в близких вариациях одного и того же направления. Через некоторое время люди сойдутся на одной идее и почувствуют её ещё более правильной, потому что получили подтверждение других участников. Именно так векторы GLOM усиливают коллективные представления об изображении.

Взлетит ли GLOM

Джеффри Хинтон надеется, что GLOM станет прорывом. По мнению учёного, прогресс необходим для того, чтобы ИИ смог по-настоящему быстро решать человеческие проблемы. Система сможет понимать вещи, с которыми никогда раньше не сталкивалась, извлекать сходства из прошлого опыта, экспериментировать с идеями, обобщать и экстраполировать. При этом Хинтон признаёт, что сейчас GLOM — это скорее философские размышления.

Крис Уильямс, профессор машинного обучения в Школе информатики Эдинбургского университета, ожидает, что GLOM может стать прорывом, но до конца в этом не уверен. «Я не думаю, что у нас достаточно доказательств, чтобы оценить реальную значимость этой идеи сейчас. Но я считаю, что она многообещающая», — резюмирует он.