Генеративные сети: ChatGPT, LaMDA, виды обучения, нейроны и всякое другое сложное
Подкаст «Люди и код», выпуск №60: Александр Цуриков.

Александр Цуриков
Автор статей про IT-технологии, преподаватель, доцент, инженер и журналист, кандидат технических наук.
Содержание выпуска
- Как воспользоваться ChatGPT из России без регистрации.
 - Что такое обучение вообще и машинное обучение (machine learning) в частности.
 - Когда и кто ввёл термин «машинное обучение».
 - Чем машинное обучение отличается от искусственных нейронных сетей и почему это не одно и то же.
 - В чём заключается парадокс исследований мозга. Имитируют ли искусственные нейросети настоящие нейроны. Как устроен искусственный и естественный нейрон. Зачем отдельные нейроны объединяют в сети. Что означает понятие «скрытый слой» сети.
 - Сколько нейронов в мозге человека и животных. Определяется ли качество работы искусственных нейросетей только их размером.
 - Чем глубокое обучение (deep learning) отличается от обычного.
 - Какие пять типов задач можно решить с помощью нейронных сетей.
 - Как выглядит изнутри процесс обучения искусственных нейросетей.
 - Что такое синаптические веса, обучающие пары, ошибка обучения, шаг коррекции, обратное распространение ошибки (backpropagation).
 - Что такое эпоха обучения. Зачем данные делят на обучающий, проверочный (CV, cross validation) и тестовый наборы.
 - Что такое переобучение (overfitting) и переспециализация (overspecialization) сети.
 - Обучение с учителем (supervised learning) и без учителя (unsupervised learning), обучение с подкреплением (reinforcement learning). Чем различаются эти методы и где они применяются.
 - Как готовят датасеты для машинного обучения: разметка данных, фильтрация, нормирование, извлечение знаний, формализуемые и слабоформализуемые знания.
 - Что такое пространство признаков, решающая граница (decision boundary), линейно сепарабельные и несепарабельные задачи, проклятие размерности.
 - Почему простейшая задача «Исключающее ИЛИ» (XOR) отбросила нейросети на 10 лет назад.
 - Чем машинное обучение принципиально отличается от систем, основанных на правилах.
 - Философские различия понятий «дедукция» и «индукция» в контексте ИИ и нейронных сетей.
 - Где брать обучающие данные, наборы данных. Что даёт процесс аугментации данных.
 - Почему отсутствие открытых датасетов тормозит развитие ИИ в мировом масштабе. LAION-5B как пример важного открытого датасета, появившегося в 2022 году.
 - Как обучали ChatGPT и модель GPT-3.5, на которой основан этот бот. Зачем OpenAI привлекла к обучению людей.
 - Как ChatGPT связан с сетью InstructGPT. Что за метод (RLHF, reinforcement learning from human feedback) применили для её обучения.
 - История и конкуренты ChatGPT.
 - Внедрение ChatGPT в Bing. Защита нейросетей от зловредного обучения пользователями.
 - Авторский метод обучения нейросетей.
 - Как устроена в России охрана интеллектуальной собственности, связанной с IT. В чём различия свидетельства о регистрации программы для ЭВМ, регистрации базы данных, патента на изобретение, на полезную модель. Можно ли запатентовать изобретение в России абсолютно бесплатно.
 - Что такое нейропакеты и можно ли без программирования создать нейросеть.
 
Полезные ссылки
- Статьи Александра Цурикова
 - Официальный сайт ChatGPT
 - Расширение для браузера Merlin (доступ к ChatGPT в России без регистрации)
 - Расширение для браузера WritingMate — доступ к ChatGPT в России без регистрации
 - Как инженер обнаружил «душу» у LaMDA и другие неожиданные фичи ИИ
 - Препринт с описанием LaMDA
 - Статья про российский языковой проект персонального голосового помощника «Иван Павлов»
 - Артур Самуэль, автор термина «машинное обучение»
 - Проект OpenWorm, имитация нервной сети червя-нематоды
 - Как появились и как работают генеративно-состязательные сети (GAN)
 - Александр Галушкин, один из изобретателей метода обратного распространения ошибки
 - Статья о том, как нейросеть дообучали распознавать снежных барсов (ирбисов) с помощью переноса обучения (transfer learning)
 - Статья о том, как компьютеры учились играть в настольные игры
 - Книга «Перцептроны» Марвина Минского
 - Операция «исключающее ИЛИ»
 - Платформа для конкурсов по исследованию данных
 - Сайт для поиска датасетов OpenML
 - Сайт для поиска датасетов UCI Machine Learning Repository
 - Сайт для поиска датасетов Registry of Open Data on AWS
 - Открытый датасет LAION-5B с более чем пятью миллиардами аннотированных изображений
 - Препринт с описанием GPT-3
 - Препринт с описанием InstructGPT
 - Метод обучения с подкреплением на основе отзывов людей — RLHF, reinforcement learning from human feedback
 - IT-проекты Илона Маска, которые изменили мир
 - Препринт с описанием PaLM
 - Bard, новый разговорный ИИ от Google
 - Claude, возможный аналог ChatGPT от компании Anthropic
 - Описание многоязыковой модели BLOOM
 - Сеть OpenAI Codex для генерации программного кода
 - Сеть DeepMind AlphaCode для генерации программного кода
 - Сеть Amazon CodeWhisperer для генерации программного кода
 - Китайская сеть PanGu-Coder для генерации программного кода
 - Опенсорсная сеть CodeGen для генерации программного кода
 - Александр Тюльканов о ChatGPT с точки зрения юриста
 - Языковая модель PaLM управляет роботом (система SayCan)
 - Изобретение Александра Цурикова «Способ обучения искусственной нейронной сети» (патент RU 2504006 C1)
 - Книга «Нейропакеты — современный интеллектуальный инструмент исследователя»
 - Нейропакет NeuroSolutions
 - Разработка нейронных систем без написания кода, сервис Terra AI
 - Веб-сервис Teachable Machine (работа с нейросетями без написания кода)
 - Российская нейросеть «Порфирьевич» для написания текстов в стиле русской классической литературы
 - Сравнение животных и человека по количеству нейронов
 - Препринт с описанием языковой модели BERT
 
Предложить тему, стать гостем подкаста, похвалить или поругать выпуск: code.media@skillbox.ru, t.me/tym83.
Слушать выпуск
Наш подкаст удобно слушать на популярных платформах:
Подписывайтесь, ставьте лайки, делитесь с друзьями и оставляйте комментарии!
Понравилась статья?
                                    Да