Comments / Profile of ispany / Habr

Olga Bystrova @ispany

Senior Data Scientist (NLP)

Как мы создаём новые языки в Yandex SpeechKit. Рассказываем на примере узбекского

ispany Jun 19 2023 at 12:21

Хочется отметить, что все языки в SpeechKit работают в рамках единой мультиязычной модели. Это возможно во многом благодаря её трансформерной архитектуре.

При добавлении нового языка при этом переучиваете модель на всех данных? Вы как-то балансируете данные чтобы при добавлении нового языка модель не забывала старые?

И еще вопрос, в Яндекс Переводчике есть функция распознания речи, но для узбекского (и казахского) языка эта функция не поддерживается. Планируется добавление распознавания этих языков в переводчик?

Look

Realtime-матчинг: находим матчи за считанные минуты вместо 24 часов

ispany Oct 17 2022 at 08:17

если вам будет интересно, в будущем сделаем серию технических туториалов по тому, как завести систему realtime-матчинга самому (маякните в комментариях :))

интересно!

Вместо классификации получили задачу регрессии, при этом у нас появляются не просто примеры матч/не матч, а матчи разной степени уверенности.

Можете пояснить, как задача классификации трансформировалась в задачу регрессии? Теперь вместо бинарного таргета (матч/не матч) новая модель предсказывает скор предыдущей модели? Или я не совсем поняла?

Мне кажется, тут прямо бросается metric learning на датасете из размеченных данных и результатов-скоров предыдущей модели.

И еще вопрос, используется ли как-то фидбек от пользователя (возможно, от предыдущей модели). Что вот из всего набора матчей он кликнул и перешел на такой-то товар?

И спасибо, было очень интересно прочитать)

Look

Находим главное в отзывах. Опыт разработчиков геопоиска Яндекса

ispany Jun 15 2022 at 06:12

Спасибо за пост, очень интересно было почитать! Тоже интересуюсь составлением некоего саммари по набору отзывов.

В ходе чтения возник вопрос по дообучению Берта:

Мы могли взять эту модель и достаточно дёшево по времени её обучить и настроить под свою задачу. А точнее, под две задачи: сделать классификацию по наличию аспекта в тексте отзыва и классификацию по тональности.

Кроме того, мы заметили забавную особенность этой модели (напомню, она обучалась на восьми аспектах). BERT находила аспекты, которые на самом деле не видела в подготовленной разметке.

Как получалось так, что модель обученная на 8 классов, начинала предсказывать девятый класс?

Или модель изначально обучалась как бинарный классификатор, а на вход ей подавался аспект + текст отзыва?

Look