Хочется отметить, что все языки в SpeechKit работают в рамках единой мультиязычной модели. Это возможно во многом благодаря её трансформерной архитектуре.
При добавлении нового языка при этом переучиваете модель на всех данных? Вы как-то балансируете данные чтобы при добавлении нового языка модель не забывала старые?
И еще вопрос, в Яндекс Переводчике есть функция распознания речи, но для узбекского (и казахского) языка эта функция не поддерживается. Планируется добавление распознавания этих языков в переводчик?
если вам будет интересно, в будущем сделаем серию технических туториалов по тому, как завести систему realtime-матчинга самому (маякните в комментариях :))
интересно!
Вместо классификации получили задачу регрессии, при этом у нас появляются не просто примеры матч/не матч, а матчи разной степени уверенности.
Можете пояснить, как задача классификации трансформировалась в задачу регрессии? Теперь вместо бинарного таргета (матч/не матч) новая модель предсказывает скор предыдущей модели? Или я не совсем поняла?
Мне кажется, тут прямо бросается metric learning на датасете из размеченных данных и результатов-скоров предыдущей модели.
И еще вопрос, используется ли как-то фидбек от пользователя (возможно, от предыдущей модели). Что вот из всего набора матчей он кликнул и перешел на такой-то товар?
Спасибо за пост, очень интересно было почитать! Тоже интересуюсь составлением некоего саммари по набору отзывов.
В ходе чтения возник вопрос по дообучению Берта:
Мы могли взять эту модель и достаточно дёшево по времени её обучить и настроить под свою задачу. А точнее, под две задачи: сделать классификацию по наличию аспекта в тексте отзыва и классификацию по тональности.
Кроме того, мы заметили забавную особенность этой модели (напомню, она обучалась на восьми аспектах). BERT находила аспекты, которые на самом деле не видела в подготовленной разметке.
Как получалось так, что модель обученная на 8 классов, начинала предсказывать девятый класс?
Или модель изначально обучалась как бинарный классификатор, а на вход ей подавался аспект + текст отзыва?
При добавлении нового языка при этом переучиваете модель на всех данных? Вы как-то балансируете данные чтобы при добавлении нового языка модель не забывала старые?
И еще вопрос, в Яндекс Переводчике есть функция распознания речи, но для узбекского (и казахского) языка эта функция не поддерживается. Планируется добавление распознавания этих языков в переводчик?
интересно!
Можете пояснить, как задача классификации трансформировалась в задачу регрессии? Теперь вместо бинарного таргета (матч/не матч) новая модель предсказывает скор предыдущей модели? Или я не совсем поняла?
Мне кажется, тут прямо бросается metric learning на датасете из размеченных данных и результатов-скоров предыдущей модели.
И еще вопрос, используется ли как-то фидбек от пользователя (возможно, от предыдущей модели). Что вот из всего набора матчей он кликнул и перешел на такой-то товар?
И спасибо, было очень интересно прочитать)
Спасибо за пост, очень интересно было почитать! Тоже интересуюсь составлением некоего саммари по набору отзывов.
В ходе чтения возник вопрос по дообучению Берта:
Как получалось так, что модель обученная на 8 классов, начинала предсказывать девятый класс?
Или модель изначально обучалась как бинарный классификатор, а на вход ей подавался аспект + текст отзыва?