Comments / Profile of madrugado / Habr

How to become an author

Валентин Малых @madrugado

AI / NLP Researcher

Profile Publications 16Comments 52Bookmarks 5

Курс Natural Language Processing (обработка естественного языка)

madrugado Mar 2 2020 at 17:42

курс запускается первый раз, поэтому мы решили пока записей не делать; но вместо записей лекций, мы постараемся давать подробные lecture notes; так что в принципе проходить курс без посещения занятий возможно

+2

Огромный открытый датасет русской речи версия 1.0

madrugado Nov 6 2019 at 00:04

для reinforcement learning тоже есть — обучение с подкреплением, confusion matrix — матрица ошибок; для остальных указанных терминов, к сожалению, нет устоявшихся эквивалентов

+1

CQM — другой взгляд в глубоком обучении для оптимизации поиска на естественном языке

madrugado Sep 16 2019 at 12:50

У них прямо на официальном сайте выложена научная статья, хотя к сожалению она мало добавляет к вашему рассказу:
coseer.com/wp-content/uploads/2019/09/NLS-Using-CQM.pdf

0

Новогодний датасет 2018: открытая семантика русского языка

madrugado Dec 25 2018 at 14:54

большое вам спасибо за работу, но на мой взгляд NC в лицензии было сделано зря, есть множество компаний, которые бы хотели использовать этот датасет, но теперь не имеют возможности

+1

Чудесный мир Word Embeddings: какие они бывают и зачем нужны?

madrugado May 10 2018 at 11:26

исправил, спасибо

0

Библиотеки для глубокого обучения: Keras

madrugado Apr 19 2018 at 11:27

спасибо, действительно

0

Применение сверточных нейронных сетей для задач NLP

madrugado Apr 18 2018 at 11:39

Здесь эмбеддинги включены в состав сети и тренируются вместе со всеми остальными весами, сам принцип получается тот же самый — слову сосоставляется вектор, которые тренируется в процессе обучения решению основной задачи; также стоит отметить, что эмбеддинг-матрица этого слоя может быть инициализирована эмбеддингами из word2vec.

Пример кода из одного проекта:

K.set_value(model.get_layer('word_emb').embeddings,
                    emb_reader.get_emb_matrix_given_vocab(vocab, K.get_value(model.get_layer('word_emb').embeddings)))

Дополнительно, можно еще «заморозить» веса этого слоя, чтобы эмбеддинги «не портились» в процессе тренировки (то есть они не будут тренироваться, но тем не менее останутся частью нашей сети):

model.get_layer('word_emb').trainable = False

0

Применение сверточных нейронных сетей для задач NLP

madrugado Apr 17 2018 at 16:44

это не опечатка, это существительное того же корня, что и глагол «смешивать»

+1

Применение сверточных нейронных сетей для задач NLP

madrugado Apr 17 2018 at 16:43

про эмбеддинги есть целая отдельная статья: habrahabr.ru/company/ods/blog/329410
здесь я решил не загромождать не совсем релевантными пояснениями

+1

Применение сверточных нейронных сетей для задач NLP

madrugado Apr 11 2018 at 11:31

как-то я забыл, что существуют люди, которые не в нашей области :)
NLP — это Natural Language Processing, обработка естественного языка, если по-русски

добавил пояснение в начало

+1

Применение сверточных нейронных сетей для задач NLP

madrugado Apr 10 2018 at 18:01

коллега, вы ведете себя некорректно, докажите с цифрами, что это плагиат, по совпадению одного предложения вы делаете далеко идущий вывод

-4

Применение сверточных нейронных сетей для задач NLP

madrugado Apr 10 2018 at 17:35

это не перевод, я ее читал, когда писал, по картинкам у нас частичное пересечение (хотя картинки стенфордские), в остальном статьи разные

0

Применение сверточных нейронных сетей для задач NLP

madrugado Apr 10 2018 at 15:56

Это довольно сложные модели их не так просто рассказать людям, не знакомым с областью. Хотя я согласен, что они очень интересны.

Относительно convolutional seq2seq я бы еще добавил, что lua Torch имплементация устарела, лучше использовать PyTorch: github.com/facebookresearch/fairseq-py

Относительно ASR мое мнение, что даже интереснее TTS в виде более раннего WaveNet от DeepMind. Но тогда надо было бы рассказывать про padding, dilated convolutions и прочие более сложные вещи, которые для вводной статьи слишком сложны.

+1

Применение сверточных нейронных сетей для задач NLP

madrugado Apr 10 2018 at 15:49

Это уже довольно сложный материал, и я не стал его включать в основную статью.

Чтобы ответить вам на вопрос, нужно рассказать несколько дополнительных вещей:

1) Residual connection — это способ проброса гридиентов в глубину, напрямую, когда мы «добавляем ко входу», то есть вход остается неизменным, а наш смысловой блок просто делает какую-то добавку. В сверточных нейронных сетях (типа ResNet) принято делать именно блоки, из которых строится сеть, а не отдельные сверточные слои.

2) Cвертка 1x1 — это специальный вид свертки, кторый интегрирует все каналы в одно значение, оставляя размер матрицы неизменным. Здесь он используется в качестве обработки входа, чтобы можно было совместить разное число каналов на входе и выходе residual-блока.

Авторы в своей сети используют так называемые fully-convolutional сети, т.е. размер матрицы, с которой они работают остается постоянным. Используя трюк с 1x1-conv и residual connection, они добиваются большой глубины, не теряя возможности варьировать обработку по ширине. Тут важно отметить, что они строят сеть так, чтобы нигде не делают изменения ширины матрицы, именно это позвояет им работать с матрицами переменной ширины.

+4

Deep Learning in Natural Language Processing

madrugado Feb 14 2018 at 13:51

мы планируем сделать специализацию на основе этого курса, т.е. конкретно этот курс на Coursera размещать не планируется, но контент из него будет частично использован в курсах для этой площадки

еще стоит отметить, что в текущем варианте этот курс фактически представляет из себя MOOC, т.е. личное присутствие на семинарах поможет, но не является критически необходимым для прохождения курса

0

Главные достижения в области обработки естественного языка в 2017 году

madrugado Jan 27 2018 at 00:08

Я заранее оговорился, что это только моя перспектива, но тем не менее — я постарался выделить именно ключевые идеи, которые могут быть применены потенциально в любой задаче.
И если вы мне подскажете интересные работы по указанным вами темам, я буду вам благодарен, я отслеживаю выходящие работы в нашей области, но тем не менее мог упустить что-то важное.

+1

RAIF-Challenge 2017: онлайн-чемпионат по искусственному интеллекту. Применяем ML/AI на практике

madrugado Sep 21 2017 at 15:15

коллеги, подскажите, а что это за RAIF? а то про него в интернете ничего нет

+1

Чудесный мир Word Embeddings: какие они бывают и зачем нужны?

madrugado Jul 20 2017 at 10:36

demonzheg лучше меня ответит на этот вопрос

0

Чудесный мир Word Embeddings: какие они бывают и зачем нужны?

madrugado Jul 17 2017 at 14:59

спасибо за ваше замечание, действительно это проясняет смысл самого слова, но мое мнение, что в текущем употреблении это не совсем корректно: embedding бывает как из высокоразмерного пространства в низкоразмерное, так и наоборот, так что концепция «вложения» здесь не совсем уместна; мне кажется, что «сопоставление» неплохой перевод, но все уже привыкли к слову «эмбеддинг», поэтому я его и употребил в статье

+3

Чудесный мир Word Embeddings: какие они бывают и зачем нужны?

madrugado Jul 17 2017 at 14:30

к сожалению, это проблема самого Хабра, надо призвать админов

+1

2