Nelson Mandela said: “Education is the most powerful weapon
which you can use to change the world.”
Волею судеб нам посчастливилось стать одними из участников курса по Data Mining (программа GameChangers, Санкт-Петербург). Цель курса – изучение методов и технологий обработки данных в различных областях IT-индустрии. Лекции у нас читают эксперты из крупнейших IT компаний, а студенты работают над реальными задачами и проектами.
И так получилось, что в рамках данного курса наша рабочая группа занимается разработкой проекта в области Educational Data Mining.
В России пока единицы знают о существовании этого направления, поэтому для начала в общих чертах расскажем про EDM: общие цели, кто может использовать и зачем.
Educational Data Mining
Согласно статье «Educational Data Mining: A Review of the State of the Art», EDM разрабатывает методы исследования данных, использующихся в образовательных целях, для принятия решений в сфере образования.
//например, чтобы понять студентов и те “установки”, по которым они учатся.
Понятно, что и DM, и EDM занимаются нахождением скрытых закономерностей в данных. Но что же отличает EDM от других подобластей Data Mining?
Ну, во-первых, это цели. EDM старается всеми силами улучшить образовательный процесс, направить студентов в нужное русло, дать рекомендации преподавателям и более того вникнуть в саму суть феномена образования — понять каким же образом мы всё-таки усваиваем информацию, приобретаем навыки и умения.
Во-вторых, данные. Те, что используются EDM, обладают довольно сложной внутренней семантикой. Тут и несколько значимых уровней иерархии и связи между разными типами данных.
В онлайн системах для EDM чаще всего используют лог-файлы, в которых содержится вся информация о работе пользователя на сайте (клики, переходы, оценки и многое другое). Стоит заметить, что EDM может применяться не только в онлайн-системах, но и в традиционных школах и университетах. Другое дело, что в данном случае мы обладаем очень разобщенной и недостаточной информацией. В то время как в он-лайн курсе все уже в единном электронном формате и масштаб аудитории на таких ресурсах как Coursera во много раз превышает стандартный класс. Именно для данных таких размерностей и имеет смысл применять распространённые в DM алгоритмы машинного обучения.
А в-третьих, это сами методы. Помимо стандартных методов Data Mining: кластеризации, классификации, регрессии, корреляции, визуализации, статистики, поиска правил связей (англ. association rule mining)..., — в EDM используются и некоторые специфичные, например, из области психометрики. Согласно Википедии, психометрия изучает теорию и методику психологических измерений и является частью статистики. В EDM методы из этой дисциплины помогают разбивать студентов на группы по восприятию информации (см. типология MBTI), что в свою очередь позволяет адаптировать образовательный процесс под студента: подбирать соответствующий тип контента и определённым образом его организовывать.
Предпочтения | Пояснение (на чём акценты) |
---|---|
Экстраверсия — Интроверсия | Ориентация сознания |
Ощущение — Интуиция | Способ ориентировки в ситуации |
Мышление — Чувство | Основа принятия решений |
Суждение — Восприятие | Способ подготовки решений |
А теперь, пожалуй, пару слов о том, для кого и зачем используется EDM.
“Целевая аудитория”
Выделяют несколько основных групп пользователей Educational Data Mining, рассмотрим их на примере всем известного портала Coursera.
Итак, у нас есть студент, который хочет понять как программировать компиляторы.
Студент заходит на Coursera и регистрируется на курс Compilers от преподавателя Стенфордского университета Алекса Айкена.
Давайте посмотрим, что EDM может ему предложить, основываясь на информации об обучении и его личных данных, которые он заполняет в профиле или из ответов на анкеты курсов.
1. Студенты/ученики/обучающиеся
Для того, чтобы студент успешно закончил курс по компиляторам и вернулся за дальнейшим обучением, платформа Coursera может сделать следующее:
Когда студент хочет получить знания в интернете – он использует образовательную онлайн систему. Она взаимодействует со студентом, обеспечивая индивидуализированный контент и адаптированную помощь.
Система собирает детализированную информацию о том, какой контент студент открывает чаще всего (задание, видео, текст), а также скорость, длительность и частоту его просмотра. После сохраняет в базу данных.
Полученная информация обрабатывается и основываясь на полученных моделях обучения, система пытается наилучшим образом адаптировать курс под студента.
Также система может дать рекомендации других курсов. Существует огромное количество рекомендационных алгоритмов, которые можно использовать. Очень хорошо про алгоритмы рекомендательных систем написано в хабраблоге snikolenko.
Если сиcтема видит, что студент очень быстро справляется с квизами и домашними заданиями, быстро проматывает учебный материал, то она может предложить ему “обходные” (сокращённые) пути прохождения курса — более сложные задания, прохождение на более сложную ступень при сдаче экзамена и пр.
В ином случае она поможет сгенерировать адаптированную подсказку. Если у студента возникли проблемы с какой-то частью курса ( это можно понять на основе ошибок в квизах, домашних заданиях и вопросам на форуме), система может дать рекомендацию по дополнительному материалу или перенаправить его на соответствующую главу.
2. Преподаватели/инструкторы
В тоже самое время преподавателям, например Alex Aiken, также необходима информация и инструменты для того, чтобы улучшать курс. Система может дать преподавателю следующую информацию:
При создании курса, основываясь на анализе уже имеющихся курсов, преподаватель сможет заранее предсказывать поведение студента и адаптировать материал под его нужды.
Во время курса очень важно получать фитбек (ответную реакцию) о процессе обучения. Например, это может быть интегральная оценка или динамика работы студентов по курсу (выполненных квизов, домашних заданий и пр.)
Также у преподавателя есть возможность классифицировать обучающихся по группам, например, по успеваемости, активности, полу, возрасту, бекграунду и пр.
Система предоставляет инструменты для частоты и распределения ошибок, которые совершают студенты. С помощью дополнительных параметров, например таких как
просмотренные темы, предыдущие оценки и пр, возможно понять причины ошибок.
3. Разработчики/исследователи
Andrew Ng и Daphne Koller, как создатели платформы, заинтересованы в том, чтобы курсы пользовались спросом, а студенты приобретали новые знания, поэтому совместно с группой исследователей (с направления computer science) они занимаются разработкой инструментов EDM, с помощью которых они пытаются:
Улучшить обучение студентов. Например, по статистике выбранных курсов могут быть даны рекомендации студентам по дальнейшему обучению, составлено расписание + всё то, что описано выше.
Оценить структуру контента курса и его эффективность в процессе обучения. Перед глазами разработчиков полная картина того, что происходит на ресурсе. В их интересах оставлять и улучшать успешные курсы и подбирать лучший способ подачи информации.
Автоматически создавать модели студента и наставника. Основываясь на данных о преподавателях и студентах, здесь как раз помогут психометрики, можно подбирать наилучшие комбинации студент-наставник, что должно повысить усваиваемость материала.
4. Организации: университеты/компании/… | 5. Администраторы образовательного процесса/системные администраторы
Высшим учебным заведениям, таким как Stanford, внедрение EDM поможет:
Предложить группам студентов определенные курсы, которые могут оказаться полезными, тем самым сделав более рентабельным содержание классов.
Повысить качество подготовки студентов. С помощью EDM администратор получает новые инструменты для оценки преподавателей, учебных планов и понять, как эффективнее использовать ограниченные ресурсы (преподавателей, разработчиков и материалы).
Алгоритмы EDM подскажут системным администраторам, когда стоит ожидать пиковые нагрузки на сеть, и как оптимизировать работу web-сервисов, адаптировав их под пользователей.
В заключение об использовании EDM.
Основные направления, по которым ведутся разработки, можно посмотреть на диаграмме. Обратим ваше внимание на то, что данные собраны по 300 работам до 2009 года.
Для более подробного ознакомления с темой рекомендую:
- Статьи:
- Coursera: coursera.org
- Книга раз: C.Romero, S.Ventura et al.Handbook of Educational Data Mining. 2010 (amazon)
- Книга два: C. Romero&S. Ventura. Data Mining in E-learning. 2006 (amazon)
- TED Online Education: Daphne Koller: What we're learning from online education
Если тема интересна, то этот пост может быть первым из цикла постов по EDM. Дайте знать.