Ontaelio Oct 24 2016 at 10:00

Открываем доступ к инструменту для составления списков английских слов из фильмов, книг и статей

6 min

26K

Skyeng corporate blogAlgorithms * Development of mobile applications *

+27

Comments 29

mngr Oct 24 2016 at 10:21

Не могли бы вы более подробно описать настройки генератора и на что они влияют?

Ontaelio Oct 24 2016 at 10:26

«Вес локальной частотности» — наверху слова, чаще всего встречающиеся в тексте.
«Тематичность» — наверху наиболее «тематические» слова, т.е. те, которые в этом тексте встречаются чаще, чем в усредненном корпусе английских текстов.
«Имена собственные» — можно убирать слова, которые инструмент считает именами.
«Сложнее — проще — ползунок для выбора уровня знания лексики, отсекает простые слова.
Универсального рецепта настройки ползунков нет, нужный список достигается экспериментами (набор перестраивается на лету).

pkivalin Oct 24 2016 at 14:49

Сервис лежит? Не реагирует на кнопку «проанализировать текст».
Ну и пока сам не могу проверить, вопрос — умеет убирать лишний мусор из файлов субтитров (.srt)? Таймштампы, цвет и прочую метаинформацию?

EvgeniyKuvshinov Oct 24 2016 at 15:39

У меня тоже не работает сервис. А почистить субтитры можно через текстовый редактор, например sublime, используя замену по вот такой регулярке:

(^[0-9,:\->\s]*\n|<.+?>)

на пустую строку. Может быть не совсем точно, но почти везде сработает.

Ontaelio Oct 24 2016 at 15:44

Да, к сожалению, сервер прилег. Сейчас чиним. Приносим извинения за временные неудобства.
(и просим отнестись с пониманием — все-таки это внутренний инструмент, изначально предназначенный для одного-двух пользователей. Неделю его готовили к открытию для Хабра, но где-то что-то недотестили)
Что касается вопроса — то в рабочем состоянии он лишние символы пропускает, титры должны проходить.

Ontaelio Oct 24 2016 at 15:50

Работает!

Temurson Oct 24 2016 at 18:59

Просто отличный инструмент! Обязательно буду пользоваться, большое вам спасибо. Простите за оффтоп, но не знает ли кто-нибудь что-то подобное для немецкого языка? С английским у меня уже и так все в порядке, учу немецкий, но ужасно надоедает искать незнакомые слова в фильмах и книгах и выписывать их. Заранее спасибо.

molec Oct 25 2016 at 03:44

Вы же понимаете, с немецким просто не будет. Учитывая «крокодилов» — длинные составные слова, сервис под него будет сделать непросто. Регулярная ситуация для немецкого — два корня в слове знаешь, а третий нет.Вероятность того, что это же составное слово встретится еще раз — минимальна. Зато узнать этот злосчастный корешок было бы интересно.

vovka667 Oct 24 2016 at 18:59

Регулярно анонсируемое приложение Aword имеет что-то общее с приложением Words (тоже от skyeng)?

Ontaelio Oct 25 2016 at 07:55

Words — приложение только для студентов школы. Aword — для всех, включая тех, кто никогда не был учеником школы и не планирует им становиться.

vovka667 Oct 25 2016 at 08:16

Я скорее про внутреннее устройства приложения спрашивал. В Words используются те же методики и алгоритмы или это совсем разные приложения?

Ontaelio Oct 25 2016 at 08:56

Сейчас — те же методики и те же алгоритмы. Разница только в доступе.

AIxray Oct 24 2016 at 19:09

Есть ещё более производительный способ изучения языка например Английского, учите идиомы, главное найти максимально корректный сайт.

e1t1 Oct 24 2016 at 19:37

Что можете посоветовать?

xwild Oct 25 2016 at 02:17

Давно ждал когда кто-нибудь сделает нормальный сервис для этого. Сам составлял колоды anki для слов которые надоедало смотреть в словаре, как будет приложение на android обязательно попробую. Кстати, почему до сих пор первым делают приложение для ios? Вроде android это 80% рынка уже.

protasov_a Oct 25 2016 at 03:42

Android опережает iOS по загрузкам в два раза, а iOS почти настолько же обгоняет Android по доходам. (с) По этой причине приложение на iOS зачастую делать просто выгоднее.

iridiumhawk Oct 25 2016 at 03:43

С точки зрения анализа, инструмент интересный. Но с практической позиции, когда нужен результат, то есть общение на английском, то никакие словари не приблизят вас к этому. На себе проверено, выучивание отдельных слов, без контекста их использования, бесполезно, а иногда и вредно. Много глагольных конструкций, и очень много многозначных слов. Кучу разных словарей использовал, и оффлайн и онлайн. Только чуть. Самый лучший результат дает слушание английской речи, например подкастов, или просмотр фильмов/сериалов, с последующим изучением слов, которые были не понятны. Тогда они привязываются к контексту употребления и закрепляются хорошо.

Ontaelio Oct 25 2016 at 06:11

Для последующего изучения слов надо обладать крепкой волей (фильм-то уже отсмотрен, а книга — прочитана). В нашем случае речь идет о предварительном изучении слов, которые во время просмотра кино/чтения книги надо будет вспомнить в контексте. Это хорошая тренировка, к тому же приятная.

iridiumhawk Oct 25 2016 at 07:49

Ну вы согласны, что есть многозначные слова? Есть фразовые глаголы. Вот мы имеем список слов, которые нужно предварительно выучить. Какое значение слова учить?
На практике я использовал Lingualeo.ru, мне очень не понравилось, там в процессе изучения слова используется одно значение, без контекста, ты что-то запоминаешь, а потом когда это слово встречается в английском тексте, ты не можешь понять смысла, потому-что используется другое значение, которое ты не запоминал. И значит время потраченное на запоминание этого слова было потрачено впустую.
Обязательно нужно учить сразу все значения слова, а для этого необходимо при запоминании использовать контекст (примеры), в которых значения слова различны.

Destiner Oct 25 2016 at 03:43

Добрый день. Я недавно делал похожий инструмент для исследования того, насколько изучение таких слов помогает понять текст. И результаты меня не обрадовали: даже 50-100 слов (включая имена собственные, что вообще неправильно, а без них получилось бы ещё меньше) дали в моём локальном корпусе всего лишь 3-5% понимания. Для корпуса брал один сезон сериала.
В связи с этим вопрос: рассчитывали ли вы, сколько примерно процентов понимания текста даёт заучивание слов из генерируемого списка? И ещё, учитывали ли вы различные формы одного и того же слова (например, fight и fought, potato и potatoes)?

Ontaelio Oct 25 2016 at 06:02

Формы — да, разумеется.
Процент понимания — сильно зависит от сферы применения инструмента. Если это профессиональные тексты, где очень высока тематичность слов, то результат отличный. В случае художественной литературы — зависит от уровня ученика, здесь нет универсальной формулы. В любом случае, ясно, что это инструмент для расширения словарного запаса, а не создания его с нуля, т.е. базовая лексика учится не здесь. Если брать не всю книгу, а отдельные главы, то выдача получается довольно полезная.

dnovik01 Oct 25 2016 at 05:26

Хороший инструмент! Думаю, что он будет наиболее полезен для людей уже знающих язык, приницип построения предложений и желающих пополнить словарный запас.

dnovik01 Oct 25 2016 at 05:27

Единственное, чтобы я дополнительно встроил, это перевод на русский язык. Было бы удобно печатать таблицу для заучивания.

Ontaelio Oct 25 2016 at 05:46

Генератор не знает контекста, а следовательно, точного значения слова в конкретном тексте. Его поиск — работа методиста.

zag2art Oct 25 2016 at 09:29

Не работает: «Failed to load resource: the server responded with a status of 408 (Request Timeout)»

Ontaelio Oct 25 2016 at 14:09

Работает!

w1g Oct 25 2016 at 11:23

"… возможность ПОИГРАТЬ..."

SoraMusoka Oct 26 2016 at 10:56

Ontaelio

Отличный инструмент! Можете открыть свой API, для не коммерческих целей? В частности хотелось бы изменить дизайн инструмента и добавить улучшения, такие как:
— интеграция с личным словарем (Google/Abby/etc)
— возможность исключить/скрыть слова, из личного словаря
— сортировку по колонкам таблицы
— загрузку файлов (например субтитров)
и др

Vestalka Sep 29 2021 at 07:52

Очень интересно. но не работает(