я бы сделал так: все-таки взял полную базу башорга, нашел там диалоги, сделал некий семантический эмбеддинг и искал по нему входящую реплику
такой подход, наверное, не самый лучший в плане пошутить, но проблема юмора пока не решена, ей, например, занимаются в OpenAI, в России группа Браславского, но на мой взгляд пока до окончательного ее решения далеко
Квалификация в конкурсе совершенно несложная: нужно либо показать какой-то результат (не улучшить state of the art, просто показать результат на уровне) на SQuAD, либо показать диалогового чатбота. А самое главное — написать заявку, в которой рассказать, что вы собираетесь делать. Кажется, это вполне можно успеть за две недели.
Мы хотим, чтобы как можно больше людей попробовало поучаствовать в отборе, поэтому сейчас решили выложить бейзлайнового бота, которого можно использовать для прохождения квалификации.
Так что, если у вас есть желание поучаствовать, мы будем рады вас видеть среди участников.
Sonnet был открыт только на днях, а Keras уже полтора года существует в open-source.
Также стоит сказать, что Sonnet более удобен для своих задач, например, с рекуррентными сетями.
На мой взгляд Google может себе позволить разрабатывать внутри две конкурирующие библиотеки: больше конкуренции, выше качество. Так что все вокруг в плюсе, а для Google затраты несущественные.
История достаточно простая, кстати, она упомянута в статье — Google (кажется, в лице DeepMind) предложил Франсуа работу — чтобы он на полную ставку занимался развитием Keras. Из этого непосредственно следует переход на TF, как основной бэкенд.
То, что работает медленнее — это особенности реализации Keras API на TF. В новых версиях Keras и TF код будет более согласованным и, как следствие, быстрым.
anaconda имеет нехорошую особенность сыпаться — у меня были случаи, когда либы в conda environment конфликтовали, весь environment надо переделывать;
помимо этого, например, на mac она себя прописывает питоном по умолчанию, что, как минимум, несколько раздражает, а как максимум может привести к непредсказуемому поведению системного кода;
стоит также добавить, что городить огород с отдельным механизмом conda environment при наличии рабочего virtualenv на мой взгляд — проявление NIH syndrome.
конкуренция предполагается достаточно сильная; насчет выгорания, конечно, такое случается, но чтобы вся команда сошла с дистанции, такого не было — в этом собственно соль командной работы, когда одни люди уже опустили руки, другие берутся за работу с удвоенной силой; если у вас нет команды, вы можете написать в наш канал (#deephack) в OpenDataScience slack, думаю, там вы без проблем найдете единомышленников
изначально количество в 8 команд было выбрано из-за ресурсных ограничений, сейчас это уже в некотором роде традиция
в этом плане можно ориентироваться на предыдущий хакатон Game.DeepHack: http://info.deephack.me/?p=104
в программе были лекции и более широкого профиля; хотя мы пока не до конца согласовали список лекторов, можно предположить, что «общеобразовательные» лекции тоже будут
такой подход, наверное, не самый лучший в плане пошутить, но проблема юмора пока не решена, ей, например, занимаются в OpenAI, в России группа Браславского, но на мой взгляд пока до окончательного ее решения далеко
Квалификация в конкурсе совершенно несложная: нужно либо показать какой-то результат (не улучшить state of the art, просто показать результат на уровне) на SQuAD, либо показать диалогового чатбота. А самое главное — написать заявку, в которой рассказать, что вы собираетесь делать. Кажется, это вполне можно успеть за две недели.
Мы хотим, чтобы как можно больше людей попробовало поучаствовать в отборе, поэтому сейчас решили выложить бейзлайнового бота, которого можно использовать для прохождения квалификации.
Так что, если у вас есть желание поучаствовать, мы будем рады вас видеть среди участников.
F1, например, применяется и для классификации, и для кластеризации, можете ее посчитать и нарисовать, соотв.
scikit не предназначен для продакшен разработки, если вам нужно что-то быстрое, то ищите специализированную библиотеку с нужным алгоритмом
Также стоит сказать, что Sonnet более удобен для своих задач, например, с рекуррентными сетями.
На мой взгляд Google может себе позволить разрабатывать внутри две конкурирующие библиотеки: больше конкуренции, выше качество. Так что все вокруг в плюсе, а для Google затраты несущественные.
То, что работает медленнее — это особенности реализации Keras API на TF. В новых версиях Keras и TF код будет более согласованным и, как следствие, быстрым.
еще вариант перейти к векторному представлению — просуммировать вектора слов, с весами или без
помимо этого, например, на mac она себя прописывает питоном по умолчанию, что, как минимум, несколько раздражает, а как максимум может привести к непредсказуемому поведению системного кода;
стоит также добавить, что городить огород с отдельным механизмом conda environment при наличии рабочего virtualenv на мой взгляд — проявление NIH syndrome.
P.S. конференция все-таки за рамками нашего формата, т.е. доклады участников не планируются, но можно пообщаться с лекторами в кулуарах
изначально количество в 8 команд было выбрано из-за ресурсных ограничений, сейчас это уже в некотором роде традиция
в программе были лекции и более широкого профиля; хотя мы пока не до конца согласовали список лекторов, можно предположить, что «общеобразовательные» лекции тоже будут