Comments / Profile of madrugado / Habr

Валентин Малых @madrugado

AI / NLP Researcher

Profile Publications 17Comments 53Bookmarks 5

Чудесный мир Word Embeddings: какие они бывают и зачем нужны?

madrugado Jul 17 2017 at 14:30

к сожалению, это проблема самого Хабра, надо призвать админов

Look

Что такое диалоговые системы, или Кое-что об Элизе

madrugado Jun 6 2017 at 14:36

я бы сделал так: все-таки взял полную базу башорга, нашел там диалоги, сделал некий семантический эмбеддинг и искал по нему входящую реплику

такой подход, наверное, не самый лучший в плане пошутить, но проблема юмора пока не решена, ей, например, занимаются в OpenAI, в России группа Браславского, но на мой взгляд пока до окончательного ее решения далеко

Look

Что такое диалоговые системы, или Кое-что об Элизе

madrugado Jun 5 2017 at 16:41

Вы путаете квалификацию в конкурсе и отбор.

Квалификация в конкурсе совершенно несложная: нужно либо показать какой-то результат (не улучшить state of the art, просто показать результат на уровне) на SQuAD, либо показать диалогового чатбота. А самое главное — написать заявку, в которой рассказать, что вы собираетесь делать. Кажется, это вполне можно успеть за две недели.

Мы хотим, чтобы как можно больше людей попробовало поучаствовать в отборе, поэтому сейчас решили выложить бейзлайнового бота, которого можно использовать для прохождения квалификации.

Так что, если у вас есть желание поучаствовать, мы будем рады вас видеть среди участников.

Look

Метрики в задачах машинного обучения

madrugado May 12 2017 at 17:04

метрик кластеризации существует довольно много, самые известные Adjusted Rand Index (ARI) и silhouette; список можно посмотреть здесь

F1, например, применяется и для классификации, и для кластеризации, можете ее посчитать и нарисовать, соотв.

scikit не предназначен для продакшен разработки, если вам нужно что-то быстрое, то ищите специализированную библиотеку с нужным алгоритмом

Look

Библиотеки для глубокого обучения: Keras

madrugado Apr 20 2017 at 17:48

Sonnet был открыт только на днях, а Keras уже полтора года существует в open-source.
Также стоит сказать, что Sonnet более удобен для своих задач, например, с рекуррентными сетями.

На мой взгляд Google может себе позволить разрабатывать внутри две конкурирующие библиотеки: больше конкуренции, выше качество. Так что все вокруг в плюсе, а для Google затраты несущественные.

Look

Библиотеки для глубокого обучения: Keras

madrugado Apr 20 2017 at 17:39

История достаточно простая, кстати, она упомянута в статье — Google (кажется, в лице DeepMind) предложил Франсуа работу — чтобы он на полную ставку занимался развитием Keras. Из этого непосредственно следует переход на TF, как основной бэкенд.

То, что работает медленнее — это особенности реализации Keras API на TF. В новых версиях Keras и TF код будет более согласованным и, как следствие, быстрым.

Look

Открытый курс машинного обучения. Тема 6. Построение и отбор признаков

madrugado Apr 7 2017 at 11:37

hashing trick неплох

еще вариант перейти к векторному представлению — просуммировать вектора слов, с весами или без

Look

Новый рекорд в распознавании речи: уровень ошибок алгоритма снижен до 5,5%

madrugado Mar 30 2017 at 09:13

Я прошу прощения, но Иешуа — это у Булгакова, Yoshua — это Йошуа.

Look

Открытый курс машинного обучения. Тема 1. Первичный анализ данных с Pandas

madrugado Feb 28 2017 at 14:22

anaconda имеет нехорошую особенность сыпаться — у меня были случаи, когда либы в conda environment конфликтовали, весь environment надо переделывать;

помимо этого, например, на mac она себя прописывает питоном по умолчанию, что, как минимум, несколько раздражает, а как максимум может привести к непредсказуемому поведению системного кода;

стоит также добавить, что городить огород с отдельным механизмом conda environment при наличии рабочего virtualenv на мой взгляд — проявление NIH syndrome.

Look

Почему этой зимой мы снова приглашаем всех поиграть в компьютерные игры при помощи искусственного интеллекта

madrugado Dec 30 2016 at 10:55

к сожалению, статья и так выходила слишком большой, про все рассказать не получается, но спасибо за то, что вы ее упомянули :)

Look

madrugado Dec 29 2016 at 20:14

имеет, лекции предполагаются интересные; да, лекции, как правило, идут всю неделю

P.S. конференция все-таки за рамками нашего формата, т.е. доклады участников не планируются, но можно пообщаться с лекторами в кулуарах

Look

madrugado Dec 29 2016 at 20:12

конкуренция предполагается достаточно сильная; насчет выгорания, конечно, такое случается, но чтобы вся команда сошла с дистанции, такого не было — в этом собственно соль командной работы, когда одни люди уже опустили руки, другие берутся за работу с удвоенной силой; если у вас нет команды, вы можете написать в наш канал (#deephack) в OpenDataScience slack, думаю, там вы без проблем найдете единомышленников

изначально количество в 8 команд было выбрано из-за ресурсных ограничений, сейчас это уже в некотором роде традиция

Look

madrugado Dec 29 2016 at 19:58

в этом плане можно ориентироваться на предыдущий хакатон Game.DeepHack: http://info.deephack.me/?p=104
в программе были лекции и более широкого профиля; хотя мы пока не до конца согласовали список лекторов, можно предположить, что «общеобразовательные» лекции тоже будут

Look

1 2