«Вес локальной частотности» — наверху слова, чаще всего встречающиеся в тексте.
«Тематичность» — наверху наиболее «тематические» слова, т.е. те, которые в этом тексте встречаются чаще, чем в усредненном корпусе английских текстов.
«Имена собственные» — можно убирать слова, которые инструмент считает именами.
«Сложнее — проще — ползунок для выбора уровня знания лексики, отсекает простые слова.
Универсального рецепта настройки ползунков нет, нужный список достигается экспериментами (набор перестраивается на лету).
На самом деле, Aword тоже не предлагает заучивание ради заучивания, «от A до Z» (если, конечно, пользователь сам этого не захочет). У учеников школы словарик пополняется после каждого урока (домашнее задание), а внешние пользователи могут выбрать из 545 тематических наборов: это и жизненные ситуации, и профессиональная лексика, и книги-фильмы-игрушки, и экзамены типа TOEFL. На днях опубликуем статью про наш внутренний инструмент для создания таких наборов, ссылка будет.
Она, конечно, не знает — может только предполагать. Но она заранее подготовит предположительный набор, из которого вы сможете выкинуть то, что знаете. Для Анки, думаю, это будет полезно.
Мы на днях опубликуем статью про наш инструмент, создающий списки слов для изучения из произвольных текстов (с настройкой уровня знания языка и тематичности). Надо только подготовить его к хабраэффекту, т.е. перетащить на отдельный сервер. Думаю, эта штука (а ссылка в статье будет) вам понравится, следите за нашими публикациями.
Добавлю, что у нас тоже преподаватель уделяет все время урока ученику и может вести его в любом направлении. Платформа — не рельсы, учителя могут сами выбирать нужные уроки и задания. Мало того, у нас есть небольшое количество учеников, по-прежнему занимающихся по скайпу: они решают свои уникальные задачи, создавать под которые уроки бессмысленно.
Это, впрочем, исключения. В большинстве случаев разработанная, проверенная и протестированная программа представляет собой наиболее эффективный путь к знанию языка (это, кстати, не мы придумали). И здесь как раз можно использовать машинное обучение, поскольку есть достаточно большая статистическая база.
Безусловно, этот способ идеален, если стоит задача овладеть языком. Но он очень долгий (если нет возможности смотаться на полгода в Англию), и требует приверженности. Многим нашим ученикам этого не нужно. Они хотят читать свежие статьи в своей профессиональной области, понимать докладчиков на конференциях, ну или смотреть «Звездные войны» в оригинале, причем хотят они этого здесь и сейчас. Мы не можем предложить им сперва изучить грамматику, поговорить о погоде и питомцах, Лондон из зе кепитал, вот это все, а потом, года через два, дойти до специальной лексики. Нам надо оценить их текущий уровень и подготовить минимальный набор необходимых слов — собственно, для этой задачи и создается связка WordMash — Wordset Generator.
Мы сейчас как раз решаем эту задачу с мобильным приложением (напишем подробно позже). Описанная ситуация — это базовый пассивный навык знания слов. Умение вспомнить английское слово — это уже активный навык. Умение его правильно написать — еще один. Еще два навыка — понимание на слух и произношение. Анки умеет тренировать базовый пассивный навык. Наше мобильное приложение позволит тренировать и все остальные (на выбор ученика).
От себя добавлю, что умение читать и понимать книги — это уже очень хорошо. Дальше осталось прочитать пару сотен, и с лексиконом все будет в порядке. Причем английские слова привяжутся не к русским переводам, а к самим понятиям.
Задача этого инструмента — определить сложность английских слов для русскоговорящих учеников. Если показывать переводы, решить эту задачу не получится.
«Тематичность» — наверху наиболее «тематические» слова, т.е. те, которые в этом тексте встречаются чаще, чем в усредненном корпусе английских текстов.
«Имена собственные» — можно убирать слова, которые инструмент считает именами.
«Сложнее — проще — ползунок для выбора уровня знания лексики, отсекает простые слова.
Универсального рецепта настройки ползунков нет, нужный список достигается экспериментами (набор перестраивается на лету).
Я не очень ясно выразился — разумеется, речь идет именно о лексическом запасе.
Это, впрочем, исключения. В большинстве случаев разработанная, проверенная и протестированная программа представляет собой наиболее эффективный путь к знанию языка (это, кстати, не мы придумали). И здесь как раз можно использовать машинное обучение, поскольку есть достаточно большая статистическая база.
От себя добавлю, что умение читать и понимать книги — это уже очень хорошо. Дальше осталось прочитать пару сотен, и с лексиконом все будет в порядке. Причем английские слова привяжутся не к русским переводам, а к самим понятиям.