1

Большие данные в образовании

Опубликовано: 09.04.2014


Что такое большие данные?

Это всего лишь архив, хранящий накопленную информацию. Очень большой архив с миллионами записей или «датапойнтов» — единиц данных. Это могут быть фамилии учеников, их годовые оценки, пропуски по болезни, количество потерянных учебников или забитых на физкультуре голов. Раньше такие данные никто не собирал, потому что не хватило бы ресурсов на учет, хранение и, тем более, на анализ. Да и использовать их было непросто — школу-то не перестроишь. Вот если бы весь документооборот был в электронном виде, а футбольные ворота оборудованы датчиками, мы имели бы очень богатую статистику. Пока данные проще всего собирать разработчикам электронных учебников, онлайн-курсов или систем смешанного обучения. Они используются тут же, помогая подстраивать систему под ученика «на лету»: чем больше данных — тем точнее.

Анализ больших данных позволяет ускорить решение научных, исследовательских и педагогических проблем. Изучая статистику, можно работать и с индивидуальными траекториями, и с глобальными образовательными системами. Большие данные помогают улучшить педагогический дизайн — там, где ученик заснул от скуки, систему лучше переделать. Они автоматизируют поведение системы и дают подсказки, если студент застревает на одном месте. А если подсказки не помогают — сообщают учителям или родителям, что ученику нужна помощь.

Методы, используемые в анализе больших данных, родом из машинного обучения, распознавания образов, психометрии и статистики. Хотя, справедливости ради, надо сказать, что в образовании большие данные пока не такие уж и большие. Сегодня существуют специальные «даташопы», куда можно складывать данные и прямо там анализировать. В самом популярном репозитории, PSLC Datashop, хранится информация, собранная за 250000 часов, проведенных учениками в образовательных программах — это примерно 30 миллионов действий, ответов и результатов.

Основные модели

Самая интересная модель работы с большими данными — прогноз, где комбинация известных данных позволяет прогнозировать искомое неизвестное.

Известные данные собираются из записей школьных систем, интернет-сервисов, опросов и наблюдений во время экспериментов. Сбор таких данных — большое дело, нужно знать, на что смотреть, и уметь выявлять нужную информацию.

Модель работает для прогнозирования будущего (вычисляем, зная предыдущие оценки, сможет ли ученик решить следующую задачу и с каким результатом) или настоящего (отталкиваясь от статистики за последний час, узнаем, интересно ли сейчас ученику смотреть онлайн-курс).

Прогнозируемое может быть числом: например, это время, потраченное на решение, количество использованных подсказок, процент просмотренного видео или результат теста в баллах. А может быть категорией — бросит/не бросит, попросит пример/попробует решить/попросит подсказку/, запишется на курс А/Б/В/Г. Для таких случаев используют метод классификации и разные алгоритмы, например, дерево решений или кластеризацию.

Дерево решений Kластеризация

Продвинутые алгоритмы принимают в расчет цену ошибки и эффективность правильного вмешательства системы. Например, если в минуту ученик усваивает 0.05% курса, то неправильный прогноз «стоит» ему 1 лишнюю минуту обучения, а правильный добавляет 0.03%.

Прогнозы приходится проверять. Действительно ли есть зависимости в данных или это случайные совпадения? Для проверки данные можно разделить и посмотреть, повторяется ли зависимость, актуальная для одной группы, во всех остальных. Главный вопрос — применима ли найденная зависимость к новым данным? Бывают случаи, когда результаты, полученные в стерильной лаборатории не совпадают с теми, которые ученики показывают в реальной жизни.

Другие модели

В отличие от прогноза, где известно, что нужно определить, метод выявления структуры используется для выявления неизвестных паттернов и последующей кластеризации данных. Другой метод, сетевой анализ, рассматривает всех участников учебного процесса как «узлы», соединенные связями, которые могут быть сильней или слабей в зависимости от интенсивности и частоты общения. Система предполагает разные типы взаимодействия: коллективная работа с одним ресурсом, лидерство, помощь, критика или даже оскорбление. Данные о взаимодействии определяются важными параметрами:

  • Плотность: сколько возможных связей установлено между учениками. Этот параметр показывает, насколько общителен класс в целом. Иногда все общаются со всеми, а иногда во всем классе лишь несколько учеников образуют активное ядро, а остальные предпочитают слушать в стороне.
  • Доступность: есть ли такие ученики, с которыми никто не общается? Бывают ученики, которые не общаются ни с кем, они существуют в системе «сами по себе».
  • Расстояние: через какое количество «узлов»-учеников проходит маршрут от одного ученика до другого. Здесь работает принцип пяти рукопожатий. Чем короче цепочка, тем активнее класс.
  • Поток: сколько существует возможных маршрутов (через разные «узлы») от одного ученика к другому. Чем больше, тем разнообразнее связи.
  • Центричность: насколько важен каждый ученик, кто самый влиятельный в классе. Этот параметр определяется исходя из трех составляющих. Первый — количество связей, ведущих к ученику. Входящие и исходящие связи считаются отдельно: ученик, который хочет дружить со всеми, не всегда похож на того, с кем все хотят дружить. Второй — близость, то есть сумма расстояний до каждого другого ученика. Сильные связи здесь считаются за более близкие. И третий — количество проходящих через ученика маршрутов между другими «узлами».
Сетевой анализ
  • Взаимность: количество двунаправленных связей во всех парах.
  • Собственный вектор: параметр, вычисляемый математически, отталкиваясь от количества и силы связей. Этот алгоритм заодно использует Гугл для формирования PageRank и определения порядка вывода результатов на странице поиска.

Оценка знаний

Оценивать знания ученика нужно для того, чтобы потом их грамотно расширить. Кроме того, по этим данным получится оценить и работу преподавателя. Наконец, отталкиваясь от такой информации, система может сама принимать педагогические решения.

Успеваемость фиксируется постоянно, и на основе этих данных формируются паттерны, по которым можно судить о знаниях в голове ученика. Ведь он может чего-то не знать, но правильно ответить на вопрос (да-да, всегда есть шанс угадать) или, наоборот, случайно ошибиться.

Модели поведения

Большие данные позволяют понять, как ведет себя ученик, когда ему скучно. Система может определить одну из моделей его поведения:

  • пытается «переиграть» систему, то есть добиться успеха безо всякого обучения. Например, перебирает все варианты ответов или вызывает подсказки, пока не появится правильный ответ.
  • отвлекается на другие задачи, например, на разговор с учителем или комментарии в Фейсбуке.
  • отвечает бездумно, наугад, даже не пытаясь подумать.
  • ведет себя черт знает как. Например, в виртуальном мире, где нужно понять, от какой болезни умирают люди, забирается на виртуальное дерево, срывает виртуальный банан, слезает и пытаться спустить его в виртуальный унитаз.
  • Бывают и другие мета-когнитивные проблемы. Часто, например, ученик не использует подсказки и помощь, даже когда долго не может решить задачу. В другом случае после совершения ошибки он надолго задерживается на правильном ответе, пытаясь понять его происхождение, вместо того чтобы двинуться дальше. А иногда он сразу и быстро прощелкивает подсказки, правильно отвечает на вопрос, но потом останавливается и не спеша его анализирует, теряя время.

    Одни и те же данные о поведении можно рассматривать по-разному. Проанализировав модели поведения учеников в течение недели, можно сказать, кто из них пытался «переиграть» систему (и получит дополнительные занятия), какой день недели оказался наименее эффективным, какой урок — самым скучным.

    Для определения модели поведения важно собрать правильные данные. Здесь не подойдут прямые вопросы самому ученику. Не спросишь же у него: «Ты сейчас меня обманываешь? Да/Нет») Для этого нужны наблюдения за его поведением, фиксация действий, анализ последовательности ответов или даже запись экрана.

    Применимость

    Разобраться во всем самому под силу, наверное, только хорошему математику — нужно быть знакомым с Марковым и его цепями, дружить с цифрами и специальными программами для глубинного анализа данных — тут подойдет RapidMiner, хотя можно начать и с Excel. Есть и готовые решения. Очевидный лидер — компания Knewton, которая как раз предоставляет образовательным проектам полноценную систему для накопления данных, их анализа и мгновенного применения. Knewton интегрируется с образовательными приложениями, выдает рекомендации и собирает обратную связь. Сотрудничая с крупнейшими издательствами и университетами США, этот стартап скоро будет знать учеников лучше их родителей. Вот тогда уж точно ни один урок не пройдет мимо.




    Александр Дьяконов

    Александр Дьяконов
    профессор кафедры математических методов прогнозирования факультета ВМК МГУ, директор по науке компании «АлгоМост».

    С точки зрения здравого смысла, ещё не достаточно хорошо решены задачи «с малыми данными». Яркий пример — задачи, связанные с образованием: автоматический анализ успеваемости, выработка индивидуальных программ и рекомендаций, прогнозирование показателей, социологические исследования коллективов учащихся. У нас в стране пока ещё даже нет доступных и удобных массивов информации для решения подобных задач (не говоря уже про «больших»). На западе такие задачи решают достаточно давно, есть и данные, и методы решения. Более того, подобная тематика там достаточно популярна, поскольку повышает качество образования. Очень хочется надеяться, что у нас к этому будут относиться с должным вниманием. Что касается методов, которые здесь используются, то они достаточно стандартные для математика-специалиста в анализе данных. Как ни удивительно, с точки зрения статистики, результаты ответов на вопросы тестов очень похожи, например, на степень удовлетворённости просмотрами фильмов. Поэтому не важно, что рекомендовать: фильмы для просмотра или темы для повторения — механизм рекомендаций одинаков. Если всё в порядке с оборудованием в школах, программами образования, комплектацией школ, можно обсуждать использование big data. Это как, например, с интернет-магазинами. Анализ данных в них, конечно, нужен. Но если у них проблемы с качеством товаров, поставками, то анализ данных тут не поможет.


    Владимир Синельников
    По материалам Райана Бэйкера и Артура Грессера
Тэги:
Big Data