Nelson Mandela said: “Education is the most powerful weapon
which you can use to change the world.”
Волею судеб нам посчастливилось стать одними из участников курса по Data Mining (программа GameChangers, Санкт-Петербург). Цель курса – изучение методов и технологий обработки данных в различных областях IT-индустрии. Лекции у нас читают эксперты из крупнейших IT компаний, а студенты работают над реальными задачами и проектами.
И так получилось, что в рамках данного курса наша рабочая группа занимается разработкой проекта в области Educational Data Mining.
В России пока единицы знают о существовании этого направления, поэтому для начала в общих чертах расскажем про EDM: общие цели, кто может использовать и зачем.
Educational Data Mining

Согласно статье «Educational Data Mining: A Review of the State of the Art», EDM разрабатывает методы исследования данных, использующихся в образовательных целях, для принятия решений в сфере образования.
//например, чтобы понять студентов и те “установки”, по которым они учатся.
Понятно, что и DM, и EDM занимаются нахождением скрытых закономерностей в данных. Но что же отличает EDM от других подобластей Data Mining?
Ну, во-первых, это цели. EDM старается всеми силами улучшить образовательный процесс, направить студентов в нужное русло, дать рекомендации преподавателям и более того вникнуть в саму суть феномена образования — понять каким же образом мы всё-таки усваиваем информацию, приобретаем навыки и умения.
Во-вторых, данные. Те, что используются EDM, обладают довольно сложной внутренней семантикой. Тут и несколько значимых уровней иерархии и связи между разными типами данных.
В онлайн системах для EDM чаще всего используют лог-файлы, в которых содержится вся информация о работе пользователя на сайте (клики, переходы, оценки и многое другое). Стоит заметить, что EDM может применяться не только в онлайн-системах, но и в традиционных школах и университетах. Другое дело, что в данном случае мы обладаем очень разобщенной и недостаточной информацией. В то время как в он-лайн курсе все уже в единном электронном формате и масштаб аудитории на таких ресурсах как Coursera во много раз превышает стандартный класс. Именно для данных таких размерностей и имеет смысл применять распространённые в DM алгоритмы машинного обучения.
А в-третьих, это сами методы. Помимо стандартных методов Data Mining: кластеризации, классификации, регрессии, корреляции, визуализации, статистики, поиска правил связей (англ. association rule mining)..., — в EDM используются и некоторые специфичные, например, из области психометрики. Согласно Википедии, психометрия изучает теорию и методику психологических измерений и является частью статистики. В EDM методы из этой дисциплины помогают разбивать студентов на группы по восприятию информации (см. типология MBTI), что в свою очередь позволяет адаптировать образовательный процесс под студента: подбирать соответствующий тип контента и определённым образом его организовывать.
Предпочтения | Пояснение (на чём акценты) |
---|---|
Экстраверсия — Интроверсия | Ориентация сознания |
Ощущение — Интуиция | Способ ориентировки в ситуации |
Мышление — Чувство | Основа принятия решений |
Суждение — Восприятие | Способ подготовки решений |
А теперь, пожалуй, пару слов о том, для кого и зачем используется EDM.
“Целевая аудитория”
Выделяют несколько основных групп пользователей Educational Data Mining, рассмотрим их на примере всем известного портала Coursera.

Итак, у нас есть студент, который хочет понять как программировать компиляторы.
Студент заходит на Coursera и регистрируется на курс Compilers от преподавателя Стенфордского университета Алекса Айкена.
Давайте посмотрим, что EDM может ему предложить, основываясь на информации об обучении и его личных данных, которые он заполняет в профиле или из ответов на анкеты курсов.

1. Студенты/ученики/обучающиеся
Для того, чтобы студент успешно закончил курс по компиляторам и вернулся за дальнейшим обучением, платформа Coursera может сделать следующее:






2. Преподаватели/инструкторы
В тоже самое время преподавателям, например Alex Aiken, также необходима информация и инструменты для того, чтобы улучшать курс. Система может дать преподавателю следующую информацию:




просмотренные темы, предыдущие оценки и пр, возможно понять причины ошибок.
3. Разработчики/исследователи




4. Организации: университеты/компании/… | 5. Администраторы образовательного процесса/системные администраторы
Высшим учебным заведениям, таким как Stanford, внедрение EDM поможет:



В заключение об использовании EDM.
Основные направления, по которым ведутся разработки, можно посмотреть на диаграмме. Обратим ваше внимание на то, что данные собраны по 300 работам до 2009 года.

Для более подробного ознакомления с темой рекомендую:
- Статьи:
- Coursera: coursera.org
- Книга раз: C.Romero, S.Ventura et al.Handbook of Educational Data Mining. 2010 (amazon)
- Книга два: C. Romero&S. Ventura. Data Mining in E-learning. 2006 (amazon)
- TED Online Education: Daphne Koller: What we're learning from online education
Если тема интересна, то этот пост может быть первым из цикла постов по EDM. Дайте знать.