Вы находитесь здесь: итоги 2023 года в сфере ИИ

Вспоминаем всё, что случилось в мире нейросетей за последние 12 месяцев, и пытаемся понять, чего от них ждать в ближайшем будущем.

Кадр: мультфильм «Следующее поколение» / Tangent Animation / Baozou

Александр Цуриков

Автор статей про IT-технологии. Преподаватель, доцент. Инженер по первому образованию, по второму — журналист. Кандидат технических наук.

Согласно данным авторитетного британского словаря Collins и отечественного Института русского языка имени А. С. Пушкина, «искусственный интеллект» и «нейросеть» стали словами 2023 года.

Именно в уходящем году ИИ стал по-настоящему популярен. Каждый день СМИ, новостные паблики и телеграм-каналы (в том числе и наш) пишут о нейросетях; программисты, дизайнеры, менеджеры и другие специалисты осваивают ИИ, чтобы ускорить свою работу; а крупные компании, такие как Microsoft и Google, борются за первенство на рынке AI-продуктов.

В этой статье мы собрали исчерпывающий обзор основных событий и трендов 2023 года в мире ИИ, а также попросили экспертов отрасли дать прогнозы на следующий год.

Содержание

Появление новых языковых моделей и совершенствование уже существующих
Развитие опенсорсных моделей и демократизация ИИ
Рост мультимодальных возможностей нейросетей
Интеграция ИИ-ассистентов в приложения и устройства
Создание роботов с ИИ, способных понимать человеческую речь и выполнять команды
Регулирование разработок в области искусственного интеллекта

Появление новых языковых моделей и совершенствование уже существующих

Что случилось за год

Выход чат-бота ChatGPT на базе модели GPT-3.5 в ноябре 2022 года произвёл настоящую революцию в отрасли ИИ: он проходил тесты на знание языков, сдавал экзамен на адвокатскую лицензию и помогал студентам писать дипломные работы. Всё это привлекло к продукту OpenAI много новых пользователей и побудило крупные IT-компании выпускать собственные языковые модели, способные конкурировать с ChatGPT.

В 2023 году почти все IT-гиганты представили свои LLM и чат-ботов, основанных на них:

Claude и Claude 2 от Anthropic;
Bard и модель PaLM 2 от Google;
GigaChat от «Сбера» и модель YaGPT 2 от «Яндекса»;
ERNIE Bot, работающий на моделях ERNIE 3.5 и ERNIE 4 от Baidu;
Q от Amazon;
Grok от компании Илона Маска xAI;
Gemini от британско-американской Google DeepMind.

Но и команда OpenAI не стала почивать на лаврах. Уже в марте 2023 года они презентовали GPT-4, доступ к которой теперь есть у пользователей ChatGPT Plus. Новая модель оказалась настолько лучше конкурентов, что даже спустя девять месяцев после её выхода оставалась в лидерах по многим типам задач.

В течение года инженеры и учёные из OpenAI продолжали совершенствовать GPT-4 и ChatGPT. В систему добавили плагины, позволяющие им искать актуальную информацию в интернете и использовать внешние сервисы, и значительно увеличили контекстное окно — до 128 тысяч токенов. Это примерно 100 тысяч английских слов.

GPT-4 также задала тренд на засекречивание информации о внутреннем устройстве проприетарных LLM — OpenAI даже не рассказала о количестве параметров новой модели. Лишь в июле 2023 года в Сети появились неподтверждённые пока данные о том, что GPT-4 построена по особой архитектуре, называемой Mixture of Experts (MoE, «модель смешанных экспертов»). Она состоит из 16 нейросетей-экспертов с размером по 111 миллиардов параметров каждая.

Таким образом, GPT-4 содержит примерно 1,8 триллиона параметров, что в 10 раз больше, чем у GPT-3.5. За счёт архитектуры MoE элементы системы работают параллельно и в каждый момент времени ответы даёт лишь один виртуальный «эксперт», снижая вычислительные затраты и увеличивая скорость работы.

Основные тренды

Можно выделить несколько направлений в развитии языковых моделей, которые сохранятся в ближайшем будущем:

Инженеры разрабатывают новые подходы к архитектуре нейросетей для замены Transformer. Например, GPT-4 использует модель смешанных экспертов, а отечественный проект Fractal GPT — симбиоз графовых моделей и многоагентных систем.
Google и другие компании работают над повышением точности ответов LLM, при одновременном снижении их размерности. Так, новая модель PaLM 2, по сообщениям разработчиков, меньше, чем исходная PaLM, но лучше и быстрее справляется с задачами из разных областей.
Разработчики языковых моделей ищут новые методы обучения LLM, которые смогли бы уменьшить объём необходимых тренировочных данных и снизить трудоёмкость их разметки. Например, обучают модели на синтетических данных, созданных другой нейросетью.
Нейросети учатся искать актуальную информацию в интернете и обращаться к внешним сервисам. Чаще всего для этого используют систему плагинов, по аналогии с решением, используемым в ChatGPT.
Компании увеличивают длину контекстного окна для повышения точности ответов. GPT-4 и Claude 100K способны воспринимать более 100 тысяч токенов за раз. На подходе технологии с ещё более внушительными параметрами — до 1–2 миллионов токенов.
Инженеры работают над уменьшением числа галлюцинаций и токсичного вывода в моделях. Например, GPT-4 на 82% реже реагирует на запросы о запрещённом контенте и на 40% чаще даёт фактически верные ответы, чем GPT-3.5.
Нейросети учатся понимать промпты на локальных языках и отвечать на них. Сегодня существующие модели охватывают лишь сотню языков из более чем 7000 известных. В 2023 году для формирования набора данных для 1100 неохваченных ранее языков запущен проект Massively Multilingual Speech (MMS).
IT-гиганты повышают секретность в отношении своих проприетарных моделей. Теперь отчёты о выходе новых версий нейросетей больше похожи на рекламные брошюры с описанием возможностей, а не на техническую документацию.
Китай становится альтернативным центром развития генеративного ИИ, способным бросить вызов американским компаниям. К 2023 году в этой стране разработали более 130 LLM.

Чего ждать в 2024 году

Лидеры IT-индустрии продолжат скрывать подробности о внутреннем устройстве и параметрах обучения своих моделей. Связано это с тем, что именно они, а не только внушительный размер LLM, теперь являются конкурентными преимуществами.

Самое ожидаемое событие 2024 года — выход языковой модели следующего поколения от компании OpenAI. Ходят слухи, что GPT-5 сможет достичь уровня AGI по ряду ключевых показателей, что может привести к непредсказуемым последствиям для отрасли ИИ и всего человечества.

Возможно, угрозы, которые сулит новый ИИ от OpenAI, стали причиной увольнения и возвращения генерального директора Сэма Альтмана. Как раз за пару дней до этого совет директоров получил письмо от сотрудников компании, в котором они сообщили о достижении проектом Q* (Q-Star) невероятных результатов, которые «могут угрожать человечеству».

В любом случае нейросети следующего года станут более эффективными, то есть будут работать лучше при тех же или даже меньших размерах. Они смогут за один проход понимать тексты, сопоставимые по объёму с романами Льва Толстого, на лету считывать новости из интернета, решать сложные задачи за счёт обращения к внешним сервисам и быстро учиться на актуальных данных, в том числе синтезированных.

Мы ждём от них умения общаться с пользователями на их родных языках, включая редкие местные наречия.

И конечно, будем следить за нейросетями из Китая, эффективность и качество работы которых продолжат расти, догоняя лучшие западные аналоги.

При этом LLM ближайшего будущего, скорее всего, будут более стабильны, безопасны и, возможно, скучны. Они не станут генерировать бред и обсуждать скользкие темы. А взлом с помощью джейлбрейк-промптов постепенно станет невозможным.

Виктор Носко

генеральный директор компании «Аватар Машина», создатель чат-бота-психолога «Сабина Ai», соавтор проекта FractalGPT

— Думаю, что в больших языковых моделях в мировом масштабе наступила эпоха стагнации: теперь новые эмерджентные свойства не будут возникать с ростом числа параметров. А совершенствование свойств, которые уже проявились, замедлится.

В России лидеры рынка, такие как «Сбер» и «Яндекс», в 2024 году будут пытаться догнать мировых лидеров — OpenAI, Anthropic, Google. Уже сейчас новые версии GigaChat и YaGPT 2 достигли качества ChatGPT (версия GPT-3.5 Turbo) в работе с русским языком.

При этом новая нейросеть от Google — Gemini, анонсированная с помпой как конкурент GPT-4, не показала существенного превосходства над ней и не оправдала ожиданий пользователей. Ситуацию подпортил и их фейл с пиаром в виде смонтированного демонстрационного ролика.

До сих пор российские учёные отставали от зарубежных примерно на один год по мощности моделей и на два года по уровню научных исследований. Однако в 2024-м этот разрыв может сократиться: главным драйвером здесь может стать Fusion Brain от «Сбера», развивающий идею MoE для мультимодальных решений и VisualQA.

Ещё одним драйвером может стать разработка собственной модификации архитектуры «трансформер» — особенно если учесть, что за рубежом даже небольшие компании разрабатывают модификации моделей с механизмом внимания (attention model).

Роман Душкин

генеральный директор ООО «А-Я эксперт», компании — разработчика систем искусственного интеллекта

— LLM продолжат развиваться в сторону мультимодальных моделей и роста числа параметров. Но всё это лишь количественные показатели. Да, они будут расти. Но приведёт ли этот тренд к качественным прорывам? Я сомневаюсь.

Моё мнение: большие языковые модели — это бездумные «обезьянки», которые просто достают из «мешков со словами» каждое следующее слово. Они по своей сути такими и останутся, что бы мы с ними ни делали. Используемая сегодня архитектура нейросетей просто не позволит им совершить качественный скачок.

Поэтому стоит ожидать концентрации усилий разработчиков на создании когнитивных архитектур, которые называют BICA (biologically inspired cognitive architectures). Здесь могут появиться очень интересные решения. Такие модели способны конвергировать с архитектурами, основанными на других принципах. Сейчас есть все предпосылки для развития в этом направлении.