Комментарии / Профиль dustalov / Хабр

dustalov 7 окт 2013 в 01:42

Принято. Правильно ли я понимаю, что ожидается неизменное «Папа-Христозопуло»?

dustalov 7 окт 2013 в 01:25

На мой взгляд, такие вещи лучше решать привлечением дополнительных словарей, при обнаружении слова в которых выставлять флаги. Как это сейчас делается для двойных русских фамилий.

dustalov 7 окт 2013 в 01:23

Полная. Особенно если учесть, что имя и фамилия перепутаны местами.

+31

dustalov 7 окт 2013 в 01:19

Безусловно, подобные флаги имели бы ценность и здорово помогали при обработки слов. Однако я не уверен, что их должен задавать конечный пользователь.

dustalov 7 окт 2013 в 01:19

Сейчас мне сложно вспомнить какие-то исключения, спать хочется. Всё зависит от фамилии, происхождения, словоупотребительной практики. Возможно, статья на «Грамоте» поможет пролить свет.

dustalov 7 окт 2013 в 01:16

Спасибо! Буду рад помочь советом или ответом.

dustalov 7 окт 2013 в 01:16

В настоящее время пол определяется по отчеству при помощи очень простой эвристики.

dustalov 7 окт 2013 в 01:04

Верно. Примеры: Синих, Больных.

dustalov 7 окт 2013 в 00:55

В репозитории сейчас имеются какие-то примитивные тесты на RSpec, но я их особо не читал. Процедура автоматической оценки по словарю АОТ открыта и реализована как Rake-задача rake evaluate.

dustalov 7 окт 2013 в 00:47

Спасибо, поправим.

dustalov 7 окт 2013 в 00:46

Веб-интерфейс по ссылке в посте имеет API. В исходниках описано, как с ним работать. Возможно, будет проще подсмотреть параметры AJAX-запросов.

dustalov 7 окт 2013 в 00:35

Да, это было бы полезно.

dustalov 1 окт 2013 в 17:09

Конечно нет, не так. Мы живём в неидеальном мире. Ни в коем случае нельзя забывать о человеческой невнимательности, которая может заключаться и в технической стороне дела. В реальном мире полно примеров, которые я привёл в предыдущем комментарии.

Если совсем интересно, то могу поделиться опытом. У меня есть сервис извлечения ключевых слов. У сервиса есть API, им пользуются люди. Некоторое время назад в Squash начали появляться ошибки, связанные с некорректными байтами в строках. Я начал смотреть дампы параметров. Оказалось, что в некоторых входных текстах наряду с нормальными буквами присутствуют неюникодные символы, которые появились в результате: 1) парсинга Веб-сайтов; 2) какой-то кривой конвертации из офисных форматов. Удаление неправильных байт из текстов решило все подобные проблемы.

dustalov 1 окт 2013 в 13:14

Я могу. Неправильная последовательность байт — это наличие в строке символов, не соответствующих её кодировке. Зачастую данные, приходящие в работающую программу извне могут быть некорректны — как заведомо, так и неосознанно. Лучше отфильтровать некорректные байты сразу, чем потом хвататься за голову при ошибках в боевых условиях.

Например, существует кодировка UTF-8. Строка "vit\xC3\xA6" является корректной записью слова vitæ и не содержит недопустимых символов. В свою очередь, строка "hello\x00\x20\uDC80there" некорректна. Благодаря методу String#scrub она превратится в безобидное hello there.

dustalov 30 сен 2013 в 22:13

Верное замечание. Андрей, вот тебе слайды Toward efficient Ruby 2.1 про RGenGC.

dustalov 30 сен 2013 в 21:42

Сам по себе метод нужный и не кажется мне костылём. Это всего лишь фильтрация данных.

Костыльность заключается в его вынужденной реализации с учётом особенностей JRuby, MRI, и других Ruby. Например, в какой-то версии MRI есть iconv в стандартной библиотеке, в какой-то новой версии его объявили устаревшим; в текущем JRuby 1.7.4 есть баг JRUBY-7007; в Rubinius также регулярно возникают проблемы с Unicode, и так далее.

Стандартизация метода и требуемого поведения — правильное решение.

dustalov 30 сен 2013 в 21:35

В целом, согласен. За последнее время возникает ощущение, что создатели языка Ruby схватились и начали запихивать в себя вещи, которые им приглянулись в дизайне других языков. Чем-то напоминает эволюцию C# от Microsoft, который также набрал в себя слишком многое.

dustalov 30 сен 2013 в 17:45

Для меня лично особенно ценен новый метод String#scrub. В задачах NLP на входе может быть любой мусор и зачастую непросто добиться одинакового поведения на разных реализациях Ruby. Раньше для этого были собственные костыли, теперь есть родное решение.

dustalov 30 сен 2013 в 17:38

Это уже упоминалось здесь в одном из подкастов, но я перевёл эту статью раньше, чем подкаст был анонсирован.

AI своими руками. Вы готовы начать?

dustalov 18 сен 2013 в 15:51

Статья про искусственный интеллект без формул и графиков — статья не про искусственный интеллект.