Comments / Profile of dmitrybugaychenko / Habr

User

Обработка текстов на естественных языках

dmitrybugaychenko May 19 2018 at 06:00

По текстам в основном используем паркет в хадупе + простой самописный in-memory сторадж (на базе github.com/odnoklassniki/one-nio) для потоковой обработки на Apache Samza. Есть неплохая библиотека от фэйсбука для поиска (https://github.com/facebookresearch/faiss).

Редакционное расстояние это концепция, а расстояние Левенштейна и расстояние Дамерау-Левенштейна это частные случаи её реализации. Под разные задачи лучше могут подойти разные варианты — злоумышленники при фишинге и пользователи при вводе поискового запроса по разному «ошибаются».

Ну а тему порядка давно закрыли биртанские исследователи: «По рзеузльаттам илссоевадний одонго анлигсйокго унвиертисета, не иеемт занчнеия, в каокм проякде рсапжоолены бкувы в солве. Галовне, чотбы преавя и пслонедяя бквуы блыи на мсете. осатьлыне бкувы мгоут селдовтаь в плоонм бсепордяке, все-рвано ткест чтаитсея без побрелм» :)

Look

Обработка текстов на естественных языках

dmitrybugaychenko May 18 2018 at 17:26

Ну разница-то принципиальная — в количестве внедрений и полученному эффекту. Корпусная лингвистика это не только теория, а успешно применяемы на практике инструмент. И да, А/Б тестами с другими методами его челенджат регулярно все мэйджоры и не только :).

RDF, кстати ни разу не забыт — LOD вполне живой проект, хотя по количеству внедрений до корпусной лингвистики не дотягивает.

История часто развивается по спирали и, скорее всего, новые интересные формальные модели у нас впереди. Но строить их уже вряд ли будут «руками», большая часть работы уйдет машине.

Look

Обработка текстов на естественных языках

dmitrybugaychenko May 18 2018 at 15:44

Больше классов в соцсетях, больше успешно найденных документов в поисковом движке, больше кликов на рекламные объявления… «Ничего личного, только бизнес» (с)

Look

Обработка текстов на естественных языках

dmitrybugaychenko May 18 2018 at 15:27

В том то и дело, что успех в корпусной лингвистике есть, а в чат ботах и персональных ассистентах так себе. Это харрактерно для МЛ в принципе — решая задачу в массе мы легко получаем ощутимую отдачу, но стоит присмотрется к деталям и сразу понятно насколько часто алгоритм делает ошибки, особенно если попытатся найти в нем лазейку целенаправленно. Ни один «семантический анализатор» не сравнится с человеком, но ни один человек или группа людей не проанализирует десяток миллардов документов за пару минут.

Look

О пользе технологий больших данных в повседневной жизни

dmitrybugaychenko Feb 19 2016 at 11:05

Статья о пользе от технологий "больших" данных для тех кто привык пользоваться технологиями "маленьких" (R, Python). Как типичный студент/аспирант может показать хороший результат на SNA Hackathon 2016 не покидая свой уютный ноутик.

Look

О пользе технологий больших данных в повседневной жизни

dmitrybugaychenko Feb 19 2016 at 10:45

Ну нам то надо всего 1М пользователей ;). На самом деле поскольку процесс итеративный и с фильтрацией, то потенциально даже на одной ноде можно подсчитать общих друзей и на гораздо более крупном графе.

Ну и при наличии кластера подход с одним шаффлом все равно быстрее. А при использовании спарка можно организовать итеративный процесс так, что из памяти на диск будут писаться только итоговые отфильтрованные результаты, а сам граф и данные шаффлов будут идти память-сеть-память, без диска. Работать будет в разы быстрее чем "в лоб", ± сравнимо с графлабом (хотя там, конечно, можно затюнить еще круче, если запариться).

Look

О пользе технологий больших данных в повседневной жизни

dmitrybugaychenko Feb 19 2016 at 10:18

Ну про "совсем не" я бы не говорил — все сильно зависит от задачи. Получалось делать в рамках мапреда весьма интересные вещи с графами малой кровью, а спарк с итеративностью и кешом вообще норм. Выбор и специализированных графовых тулов сечас вполне ничего, но с большими графами проблемы бывают не только у graphx.

И есть еще ньюанс — в данном случае нам на самом деле надо не только посчитать общих друзей, но и потом собрать тренировочное множество, натренировать регрессию и записать результат в нужном виде. И тут "шейцарский нож" спарка подходит в самый раз, позволяя решить все нужный задачи в одном инструменте, да еще и сохранить возможность проделать все на минимальных ресурсах.

Look

О пользе технологий больших данных в повседневной жизни

dmitrybugaychenko Feb 19 2016 at 09:55

Да, на каждый мэппер всего по 20мб. Но каждые 20мб очень быстро превращаются в 2Гб так как "количество узлов, между которыми существуют пути длины 2, на несколько порядков больше, чем количество прямых связей в графе".

Обрабатывать "в лоб" пробовали и на Spark, и на Pig, и на Pig + Tez. Спарк с пигом отработали норм, а тез залажал — начал делать хэш-джойн вместо мерж джойна и получил 3 часа в итоге

Попробуйте ;)

Look

О пользе технологий больших данных в повседневной жизни

dmitrybugaychenko Feb 19 2016 at 09:33

А что делать если вы студент-дипломник и у вас нет кластера? Да и на большом кластере когда работают 20 программистов-неоптимизаторов тоже становиться некомфортно...

Ну а посыл в том что даже на одном ноуте можно получить бенефит используя технологии и методы работы с большими данными.

Look

1 2 3