1

«Есть доступ к данным, но тяжело с дидактикой»

Максим Скрябин, старший аналитик данных платформы Stepik

Опубликовано: 01.03.2018


Учебная аналитика – набирающая популярность сфера анализа данных. Edutainme поговорили с Максимом Скрябиным, старшим аналитиком данных платформы Stepik, о методах сбора образовательных данных и о том, для чего они могут быть полезны.
Максим Скрябин, старший аналитик платформы Stepik.jpgКажется, что учебная аналитика – горячая тема.

Я бы не сказал, что это недавний ажиотаж. Этой истории как минимум 5 лет. Скорее, это ажиотаж на отечественном пространстве.

Если мы говорим про учебную аналитику в мире, то ее возникновение обычно связывают с 2012 годом, когда появились МООС-платформы. Вместе с ними появилось большое количество данных о пользователях, и хотелось извлечь из этих данных что-то полезное.

Очевидно, что было что-то подобное и до MOOC, и до того, как появился сам термин. Где-то в в 2013 году вышла статья про историю учебной аналитики, где первый раздел назывался: «Учебная аналитика до "учебной аналитики"».

Исследовательская компания Gartner каждый год выпускает отчеты по технологиям. По их данным машинное обучение на пике ожиданий (Hype Cycle – цикл зрелости технологий – ежегодный отчет компании Gartner, который описывает жизненные циклы технологий. – ред.). От него, действительно, очень много ожидают. А учебная аналитика идет просто с небольшим запозданием, как и вообще технологии в образовании. К примеру, социальные сети появились не из образовательных нужд, но потом их стали использовать и в образовании.

Интерес к учебной аналитике будет все больше расти, пока в какой-то момент не наступит некоторое разочарование, связанное с тем, что мы лучше начнем понимать ее ограничения.

Насколько мы сейчас отстаем от мировых практик?

В прошлом году я был на конференции EDM 2017 (Международная конференция по интеллектуальному анализу образовательных данных – ред.). Если раньше много говорили про отслеживание знаний (с англ. – knowledge tracing) в образовательном дата майнинге, то сейчас много докладов было про обработку естественного языка, фокус на лингвистике. План на следующий год – использовать для отслеживания знаний подходы машинного обучения (обширный подраздел искусственного интеллекта, изучающий методы построения алгоритмов, способных обучаться – ред.)

Российская практика в начале этого пути. Пока у нас два разных сообщества, которые занимаются учебной аналитикой. Первое – академическое, больше исследовательское. В прошлом году была конференция eSTARS, где говорили не только про учебную аналитику, но и про технологии в образовании, цифровое неравенство, цифровые гуманитарные науки – вещи, которые задают контекст.

Второе – IT-сообщество, бизнес-сообщество, образовательные стартапы, которые используют аналитические подходы. В первую очередь, они смотрят на продуктовую аналитику, связанную с удержанием и возвращением пользователей. И только после этого переходят к учебной.

До проекта Stepik я больше восьми лет работал в академической среде. Мы считаем себя технологической компанией, потому что больше половина штата – айтишники. У нас есть доступ к данным, но всегда тяжело с дидактикой. А вот в вузовской среде проблем с дидактикой нет, у них есть проблема с доступом к данным. И эта разобщенность – она пока полярная. Пока я не чувствую, что академическое сообщество и EdTech сообщество интегрировались.

У нас есть доступ к данным, но всегда тяжело с дидактикой.

А что может дать объединение?

Первые получат более продвинутые методы анализа данных, а вторые – лучшее понимание учебных процессов, лучшее понимание данных. Аналитик, в принципе, может не знать предметную область, но если он в ней разбирается, это поможет ему в работе: лучше понять данные, лучше оценить результаты с точки зрения поставленной задачи, и сделать это самому, без вмешательства со стороны. В западном опыте учебной аналитики были два ключевых сообщества. Одно – сообщество учебных аналитиков, второе – сообщество educational data mining. Наверное, можно перевести как интеллектуальный анализ образовательных данных.

Data Mining – это процесс обнаружения в «сырых» данных ранее неизвестных нетривиальных практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Интерпретировать данные легче, если знать сам процесс обучения?

Конечно. Важная часть дата майнинга – это создание признаков (с англ. –feature engineering). В каждой модели есть ряд переменных, и мы должны отобрать те, которые лучше подходят для анализа и объяснения модели. К примеру, если надо, чтобы компьютер распознал изображения треугольников, кругов и квадратов, мы можем использовать отношение площадей фигуры и обрамляющего прямоугольника в качестве такого признака. Это очень легко считается компьютером (хоть не совсем так, как считает человек), и очень удобно для классификации. Когда речь идет об аналитических моделях, о человеке, часто используются пол и возраст. А есть признаки, которые не так очевидны, их нужно создавать.

В образовании они будут связанны с тем, как человек учится. Самый простой пример – человек решает сложное задание с нескольких попыток, и его поведение после первой неудачи очень сильно меняется. Это педагогический эффект, и если вы о нем знаете, вы сделаете признаки: поведение до первой неудачи и поведение после первой неудачи. От того, насколько хорошо подобраны признаки, зависят результаты модели, ее прогностичность. Именно для этого надо глубже погружаться в предметную область.

С какими барьерами сталкивается развитие учебной аналитики?

Тема новая, жесткого сопротивления я пока не видел. Барьеры связаны с данными в более широком контексте. Первый, учительский, связан с электронными дневниками – внедрение цифровых сервисов усугубило бумажную работу. Учителям приходится все дублировать, переносить из бумажного журнала в электронный и наоборот, печатать электронные дневники, чтобы поставить там подписи. Лишняя работа, которая снижает мотивацию предоставлять качественные данные об обучении.

Второй – не барьер, а скорее непонимание, связанное с персональными данными и доступом к ним. Пока все боятся, мало кто понимает закон. Основной принцип – говорить, что все данные персональные, и отказываться что-либо предоставлять, даже для исследования. Это сложный вопрос, который требует выработки механизмов: когда, как, в каком объеме и кому данные можно предоставлять. Первый барьер влияет на качество данных – то, что на бумаге не обязательно соответствует действительности. Второй связан с доступом к данным и сдерживает развитие в этой сфере. Даже если появляются инициативы, готовые работать с данными, получить доступ тяжело.

Основной принцип – говорить, что все данные персональные, и отказываться что-либо предоставлять, даже для исследования.

Внутренние аналитические инструменты образовательных платформ позволяют видеть практически все действия студента. Можно ли разделить эти данные на какие-либо категории?

В психометрике есть четыре типа данных о человеке. Они дают разную информацию примерно об одном и том же. Первое – это то, что человек сам говорит о себе. Способ сбора таких данных – различные опросники. Второе – это данные, полученные с помощью наблюдателя. Например, учитель говорит о своих учащихся: как они ведут себя в классе, какие у кого способности. Третье – это тестовые данные. Они считаются наиболее объективными и хороши для исследований. Человека просят в лабораторных условиях пройти специально разработанный тест, и анализируют результаты. Последнее – это результаты деятельности, например, эссе, которые пишут учащиеся. Сюда относят также биографические данные, социально-экономический статус, возраст, пол. Эти четыре типа данных очень разные, и, в зависимости от целей, можно использовать каждый из них.

Все, что вы перечислили, можно оценить как оффлайн, так и онлайн. Как данные, полученные оффлайн, коррелируют с данными, полученными онлайн?

Всегда, когда мы говорим про сбор цифровых данных, есть ограничения. Первое – для проведения исследования, необходимо, чтобы у человека был: а) доступ к интернету и б) навык использования интернета. Но даже если все это есть, остается второе ограничение: онлайн-исследование зачастую слабо представляет субъективные данные. Мы можем сделать онлайн-опросник, но с интервью уже тяжелее. Люди, которые регистрируются на платформе, могут ответить на вопрос «что?», но они редко отвечают на вопрос «почему?». Чтобы узнать что-то более глубокое, требуется задавать человеку дополнительные вопросы. Также нужен анализ его поведения.

Я сторонник смешанных методов. Всё-таки, если мы говорим про онлайн-данные, те, что регистрируют платформы, они отвечают на вопрос «что?», но редко на вопрос «почему?». И обычно необходимо задавать человеку дополнительные вопросы: требуется анализ поведения, взглядов и так далее.

Есть ли что-то, что нельзя оценить оффлайн-методами?

Есть информация, которая может ускользать в офлайне. Простой пример – наблюдение за поведением детей в классе. Если у вас класс из 30 человек, проследить кто и как решает задание довольно тяжело, у вас просто не хватит внимания. Если же вы посадите ваш класс за компьютеры, то, при наличии соответствующей программы, сможете увидеть, как решают задачки все одновременно – неважно, 30 человек или 300.

Что мы получаем в результате анализа образовательных данных? Можно ли с помощью учебной аналитики влиять на методики преподавания, содержание курсов?

В идеале, мы не должны делать аналитику, если потом не будет практического применения. Аналитика всегда для чего-то. Но результаты анализа надо уметь представлять другим. Если аналитик просто даст таблицу с подсчетами, ничего не изменится. Результаты нужно визуализировать, выявлять какие-то инсайты. Другой вариант представления – рекомендации. Если результаты внятно не донести до стейкхолдеров, пользы для изменений процесса обучения преподавания не будет.

В идеале, мы не должны делать аналитику, если потом не будет практического применения.

Если команда учебного заведения решит поменять у себя систему оценивания, с чего стоит начать? С ответа на вопрос «зачем?».

Когда я только начал заниматься учебной аналитикой, многие стали говорить: «У нас есть куча данных, возьми проанализируй». И ты понимаешь, что с такими запросами работать невозможно. Можно проанализировать, но непонятно, что будет в результате, потому что я не знаю, как получены эти данные, в каком они контексте, какой был процесс обучения. Нам никуда не деться от идеи, что в данных содержится очень много всего интересного и полезного, но надо четко понимать зачем это нужно. Другой вопрос – стратегии реагирования. Мы можем в результате анализа получить какие-то результаты, но что дальше с этим делать? Тут нужны так называемые «педагогические дизайнеры», которые, плюс ко всему, могут работать с данными.