OpenAI провела презентацию, во время которой представила языковую модель GPT-4o. Нейросеть стала быстрее и теперь полностью поддерживает мультимодальность, понимая разные типы команд. Пользователи уже могут попробовать языковую модель в приложении ChatGPT, а разработчикам открыли API.
Быстрее, выше, сильнее
GPT-4o получила контекстное окно в 128 тысяч токенов. Отмечается, что это сравнимо с двумя копиями романа «Великий Гэтсби». Нейросеть генерирует ответы значительно быстрее GPT-4 Turbo и делает это точнее.
Главной фишкой GPT-4o стала мультимодальность. Теперь нейросеть понимает не только текст и картинки, но и голос. Пользователи могут задавать вопросы и получать ответы с разными эмоциональными окрасками. Кроме того, языковую модель можно прервать во время ответа или сразу же задать уточняющие вопросы.
В блоге OpenAI показали различные сценарии использования GPT-4o. К примеру, перевод текста в реальном времени, генерация сказок, колыбельных и поздравлений с праздниками. При этом голос чат-бота похож на настоящий и передаёт эмоции.
В программировании обновлённая модель показала рекордный результат, набрав 1310 баллов. Ранее первое место в рейтинге занимала нейросеть GPT-4 Turbo с показателем в 1253 балла.
Ещё нейросеть научили запоминать внешность персонажей во время генерации изображений. Теперь художники смогут создавать комиксы и повторно использовать образы, а не получать каждый разный новый результат.
Приложение для компьютеров
OpenAI показала приложение для macOS, которое упрощает доступ к нейросети. Пользователи могут общаться с нейросетью на своём компьютере и задавать вопросы во время работы. Инженеры компании добавили специальный визуальный режим. К примеру, на экране можно выделить область и попросить помочь с задачей.
Десктопное приложение будет доступно только пользователям с подпиской ChatGPT Plus. Позже компания выпустит версию для Windows.
Как получить доступ
Языковая модель GPT-4o будет доступна всем пользователям, но подписчики ChatGPT Plus смогут отправлять в пять раз больше запросов. Если превысить лимит, то чат-бот автоматически переключится на GPT-3.5 или GPT-4. Разработчики могут воспользоваться API, доступ к которому стал в два раза дешевле.
Релиз функции общения голосом пока отложили. OpenAI планирует продолжить тестирование на группе доверенных пользователей и выпустит режим через несколько недель.
Больше интересного про код — в нашем телеграм-канале. Подписывайтесь!