Pull to refresh
0
0
Olga Bystrova @ispany

Senior Data Scientist (NLP)

Send message

Хочется отметить, что все языки в SpeechKit работают в рамках единой мультиязычной модели. Это возможно во многом благодаря её трансформерной архитектуре.

При добавлении нового языка при этом переучиваете модель на всех данных? Вы как-то балансируете данные чтобы при добавлении нового языка модель не забывала старые?

И еще вопрос, в Яндекс Переводчике есть функция распознания речи, но для узбекского (и казахского) языка эта функция не поддерживается. Планируется добавление распознавания этих языков в переводчик?

если вам будет интересно, в будущем сделаем серию технических туториалов по тому, как завести систему realtime-матчинга самому (маякните в комментариях :))

интересно!

Вместо классификации получили задачу регрессии, при этом у нас появляются не просто примеры матч/не матч, а матчи разной степени уверенности.

Можете пояснить, как задача классификации трансформировалась в задачу регрессии? Теперь вместо бинарного таргета (матч/не матч) новая модель предсказывает скор предыдущей модели? Или я не совсем поняла?

Мне кажется, тут прямо бросается metric learning на датасете из размеченных данных и результатов-скоров предыдущей модели.

И еще вопрос, используется ли как-то фидбек от пользователя (возможно, от предыдущей модели). Что вот из всего набора матчей он кликнул и перешел на такой-то товар?

И спасибо, было очень интересно прочитать)

Спасибо за пост, очень интересно было почитать! Тоже интересуюсь составлением некоего саммари по набору отзывов.

В ходе чтения возник вопрос по дообучению Берта:

Мы могли взять эту модель и достаточно дёшево по времени её обучить и настроить под свою задачу. А точнее, под две задачи: сделать классификацию по наличию аспекта в тексте отзыва и классификацию по тональности.

Кроме того, мы заметили забавную особенность этой модели (напомню, она обучалась на восьми аспектах). BERT находила аспекты, которые на самом деле не видела в подготовленной разметке.

Как получалось так, что модель обученная на 8 классов, начинала предсказывать девятый класс?

Или модель изначально обучалась как бинарный классификатор, а на вход ей подавался аспект + текст отзыва?

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity