18 ноя 2024
0

В НИУ ВШЭ оценили способность генеративных нейросетей выполнять образовательные задачи

ГИИ может быть помощником преподавателя, но пока его работу всё время нужно перепроверять.

Екатерина Ерохина

Обозреватель Skillbox Media. Магистр по научной коммуникации, интересуется социологией науки, историей и будущим образования.

Исследователи из НИУ ВШЭ разработали новый подход к тестированию генеративных нейросетей и проверили его, предложив русскоязычной версии GPT-4 тест педагогических компетенций. Исследование опубликовано в виде препринта, о деталях работы сообщает пресс-служба вуза.

Что нового в тесте для нейросетей

В исследовании авторы из НИУ ВШЭ ответили на вопрос, способен ли генеративный искусственный интеллект (ГИИ) сегодня быть для учителя помощником, на которого можно положиться. Среди способностей нейросети, интересовавших исследователей, — умение составлять индивидуализированные программы обучения и готовить проверочные задания, подбирать или генерировать материал для уроков.

Но на самом деле применение ГИИ в педагогике — только частный пример. А вообще, исследователи создали единую модель для новых бенчмарков (так называют тесты для больших языковых моделей) в различных профессиональных областях:

При создании учли принципы психометрики — науки об анализе данных о поведении и способностях людей. Результаты тестов, созданных в соответствии с психометрическими правилами, позволяют объяснить, почему человек (или нейросеть) успешно решает одни задания и испытывает трудности с другими. Также по ним можно предсказать, как участник тестирования будет в дальнейшем справляться с аналогичными задачами.
Авторы пользовались таксономией Блума, чтобы задания из каждой тематической области охватывали разные уровни компетенций: воспроизведение, понимание, использование на практике. Это важно, потому что многие профессиональные тесты, с которыми ГИИ успешно справляется, учитывают только фактические знания. А понимание реальных процессов и соответствующие навыки при таких экзаменах недооценивают.

Как именно проверяли педагогические знания нейросети

Чтобы разработать бенчмарк для оценки ГИИ для образовательных задач, исследователи собрали группу из 34 экспертов по педагогике и психологии. При составлении заданий учли требования российских профстандартов для учителей, а также использовали предложенное экспертами деление на 16 областей профессионального знания: от традиционных подходов к преподаванию и обучению, психологии развития и управления классом до методов преподавания математики и компьютерных наук. По каждой из областей эксперты подготовили от 240 до 250 вопросов с выбором ответа. Как правило, вопрос представлял собой описание проблемной ситуации в классе или в индивидуальной работе с учеником, а от ГИИ требовалось выбрать способ её разрешения.

Помимо тем и уровней по таксономии Блума (воспроизведение фактов, понимание и применение), вопросы различались ещё и по уровню сложности. Лёгкими считались те, что, по мнению экспертов, решили бы более 70% обычных студентов профильной специальности, трудными — доступные менее чем 30% студентов. Но на студентах вопросы не проверяли: бенчмарк составляли исключительно для тестирования ГИИ, и он не предназначен для прохождения людьми. Всего в тест вошло 3963 вопроса.

Бенчмарк проверили на генеративной нейросети GPT-4: ей предложили пройти экзамен по педагогике в роли профессионального учителя, работающего в России. Нейросеть правильно ответила на 39,2% вопросов, а в разных тематических разделах доля верных ответов составила от 28,2 до 61%.

Исследователи отмечают, что, похоже, у ГИИ недостаточно «знаний» и о педагогических теориях, и о практических сценариях работы с классом. Ожидаемо хуже всего нейросеть справлялась с заданиями на применение знаний (41% верных ответов), а лучше всего ей дались вопросы на понимание (48% правильных ответов). В итоге исследователи сделали вывод, что пока уровень экспертности у изученной нейросети недостаточен, чтобы учителя полагались на неё: введение в образовательный процесс помощников на такой базе приведёт только к дополнительным расходам.

«Мы рассчитываем на такие модели как на помощников преподавателей и тем более учеников. Но помощник, за которым всё необходимо перепроверять — а сейчас это так и есть, — вряд ли вызовет желание его использовать», — прокомментировал результаты один из авторов работы, научный руководитель НИУ ВШЭ Ярослав Кузьминов.

В будущем исследователи планируют разработать на основе нового подхода бенчмарки по другим профессиональным областям, а также описать техники для дообучения ГИИ — чтобы устранить риски галлюцинаций и ошибок в базовых для дисциплины вопросах.

Ранее эксперт американского сообщества специалистов в сфере образовательных технологий EdTech Insiders Алекс Сарлин предложил методику оценки ИИ-инструментов для школьного образования с точки зрения их безопасности.

Больше интересного про образование ― в нашем телеграм-канале. Подписывайтесь!

Читайте также:

Профессия Методист с нуля до PRO

Вы прокачаете навыки в разработке учебных программ для онлайн- и офлайн-курсов. Освоите современные педагогические практики и станете более востребованным специалистом.