Как стать автором
Обновить
71
0
Валентин Малых @madrugado

AI / NLP Researcher

Отправить сообщение
я бы сделал так: все-таки взял полную базу башорга, нашел там диалоги, сделал некий семантический эмбеддинг и искал по нему входящую реплику

такой подход, наверное, не самый лучший в плане пошутить, но проблема юмора пока не решена, ей, например, занимаются в OpenAI, в России группа Браславского, но на мой взгляд пока до окончательного ее решения далеко
Вы путаете квалификацию в конкурсе и отбор.

Квалификация в конкурсе совершенно несложная: нужно либо показать какой-то результат (не улучшить state of the art, просто показать результат на уровне) на SQuAD, либо показать диалогового чатбота. А самое главное — написать заявку, в которой рассказать, что вы собираетесь делать. Кажется, это вполне можно успеть за две недели.

Мы хотим, чтобы как можно больше людей попробовало поучаствовать в отборе, поэтому сейчас решили выложить бейзлайнового бота, которого можно использовать для прохождения квалификации.

Так что, если у вас есть желание поучаствовать, мы будем рады вас видеть среди участников.
метрик кластеризации существует довольно много, самые известные Adjusted Rand Index (ARI) и silhouette; список можно посмотреть здесь

F1, например, применяется и для классификации, и для кластеризации, можете ее посчитать и нарисовать, соотв.

scikit не предназначен для продакшен разработки, если вам нужно что-то быстрое, то ищите специализированную библиотеку с нужным алгоритмом
Sonnet был открыт только на днях, а Keras уже полтора года существует в open-source.
Также стоит сказать, что Sonnet более удобен для своих задач, например, с рекуррентными сетями.

На мой взгляд Google может себе позволить разрабатывать внутри две конкурирующие библиотеки: больше конкуренции, выше качество. Так что все вокруг в плюсе, а для Google затраты несущественные.
История достаточно простая, кстати, она упомянута в статье — Google (кажется, в лице DeepMind) предложил Франсуа работу — чтобы он на полную ставку занимался развитием Keras. Из этого непосредственно следует переход на TF, как основной бэкенд.

То, что работает медленнее — это особенности реализации Keras API на TF. В новых версиях Keras и TF код будет более согласованным и, как следствие, быстрым.
hashing trick неплох

еще вариант перейти к векторному представлению — просуммировать вектора слов, с весами или без
Я прошу прощения, но Иешуа — это у Булгакова, Yoshua — это Йошуа.
anaconda имеет нехорошую особенность сыпаться — у меня были случаи, когда либы в conda environment конфликтовали, весь environment надо переделывать;

помимо этого, например, на mac она себя прописывает питоном по умолчанию, что, как минимум, несколько раздражает, а как максимум может привести к непредсказуемому поведению системного кода;

стоит также добавить, что городить огород с отдельным механизмом conda environment при наличии рабочего virtualenv на мой взгляд — проявление NIH syndrome.
к сожалению, статья и так выходила слишком большой, про все рассказать не получается, но спасибо за то, что вы ее упомянули :)
имеет, лекции предполагаются интересные; да, лекции, как правило, идут всю неделю

P.S. конференция все-таки за рамками нашего формата, т.е. доклады участников не планируются, но можно пообщаться с лекторами в кулуарах
конкуренция предполагается достаточно сильная; насчет выгорания, конечно, такое случается, но чтобы вся команда сошла с дистанции, такого не было — в этом собственно соль командной работы, когда одни люди уже опустили руки, другие берутся за работу с удвоенной силой; если у вас нет команды, вы можете написать в наш канал (#deephack) в OpenDataScience slack, думаю, там вы без проблем найдете единомышленников

изначально количество в 8 команд было выбрано из-за ресурсных ограничений, сейчас это уже в некотором роде традиция
в этом плане можно ориентироваться на предыдущий хакатон Game.DeepHack: http://info.deephack.me/?p=104
в программе были лекции и более широкого профиля; хотя мы пока не до конца согласовали список лекторов, можно предположить, что «общеобразовательные» лекции тоже будут

Информация

В рейтинге
Не участвует
Откуда
Москва и Московская обл., Россия
Работает в
Зарегистрирован
Активность