Комментарии 15
Воспользовавшись вашим сервисом в Зеленоградске (Калининградская область) в 2020 г., для себя сделал вывод, что сервис Яндекса никуда не годится. Оценки заведений явно были завышены ботоводами (к сожалению обнаружилось только по факту посещения заведения).
2ГИС отображал картину мира "Где поесть" намного честнее.
Имхо, можно бесконечно упражняться с языковыми моделями, клевыми фишками и рюшками, но если сервис ВРЕТ, то зачем он нужен, кроме как реклама невнятных заведений, которые считают, что репутацию можно купить?
Мне почему то казалось, что 2ГИС врет больше. Они до недавнего времени использовали для отзывов площадку flamp, а там можно регистрироваться с одной только электронной почтой. В результате, там почти все положительные отзывы фейковые. Особенно у тех аккаунтов, у которых этот отзыв один-единственный. Хотя бы потому что никто в здравом уме не будет тратить свое время на регистрацию чтобы оставить положительный отзыв. Так может быть только с отрицательными, когда человека разозлили или обидели. И flamp с ботами вообще никак не борется.
Видимо от местных региональных пиарщиков зависит, кому заплатить :) Ключевое: зачем нужен сервис, который врет? Имхо, сначала нужно искать способы значительно уменьшить фейковые отзывы, а потом уже приделывать рюшки.
Согласен. Пока Яндекс в моем маленьком (178к населения) городке уже продолжительное время и накопил много информации, плюс есть как-никак краудсорсинг в виде Народной карты, в 2ГИС много неактуальной информации.
Я перестал оставлять отзывы в ЯКартах. Причин несколько Свои отзывы я вижу только у себя в аккаунте. На устройстве коллеги моего отзыва нет. Причем это касается не всех а каких то определенных заведений. Ну вишенка на торте - на ЯКартах мне никогда не отвечали на мои отзывы
Приблизительно по тем же причинам выкинул лицензионный НАВИТЕЛ который мне от школы до дома прокладывал маршрут через Площадь с фонтаном) Написал в тех поддержку что там дороги нет )
в ответ написали что то типа а где есть дорога вы нам напишите разрисуйте и тд
ну мне же еще за мои деньги предложили сделать их работу)
а системы поиска яндекса это та еще задумка и она явно не ориентирована на то что бы людям было удобно, это очередной повод нагнуть мелкий бизнес)
Не могу вспомнить что мне на запрос лучшая кофейня моего города свалилось что-то кроме мусора
В прошлом году смотрел отзывы на Google-картах по некоторым местам в Европе. Какой-то у них характер другой, что ли. Не заметил какого-то обсирания. Заметил, что люди отмечают какое-то место высшей оценкой не потому что оно хорошее (хорошее - в смысле не плохое, не гадкое, не мерзкое), а потому что оно их чем-то зацепило. Заглянув в профили людей, поставивших оценки, можно найти новые интересные места.
Было бы очень интересно посмотреть на графики распределения значений "градусников" на какой-нибудь статистически значимой выборке. Без этого полезность инструмента под большим вопросом (какой бы он не был хороший, мусор на входе может дать только мусор на выходе).
Удивительно, что ребята рассказывают, как они походили к технической части, а в комментариях - «яндекс» гавно!
Давайте лучше обсудим nlp модели. Меня например волнует сильно, что 3 года назад nlp модели были сложной и интересной нишей, а сейчас большинство задач сводится к «давайте возьмём bert/gpt». Мне кажется, что, при всей своей эффективности, большие языковые модели убивают креативность и прогресс в сфере nlp.
По самой статье: вы брали стандартную мультиязычную модель или отдельно тренировали с нуля свою на русскоязычном «корпусе»?
Привет!
Брали БЕРТ обученный внутри компании на текстах с разных источников (сайты, запросы и тд)
Спасибо за ответ и статью.
Если можно ещё немного деталей или отдельную статью))
Какой был размер тренировочного сета? - для понимания, как сложно собрать с нуля «свой» bert
Сколько часов/дней занимала тренировка базовой модели (без переобучения на конкретные задачи) - для поминания примерной стоимости такого мероприятия.
Думали выложить в открытый доступ русскоязычную базовую модель / словарь / веса?
Мы использовали Yati в качестве предобученной модели, почитать о ней можно тут - https://habr.com/en/company/yandex/blog/529658/
Вкратце по статье - обучить с нуля свой BERT достаточно сложно, надо много мощных видеокарт чтобы процесс имел шансы сойтись
«разварки огонь» — это про работу с дисками, но не про шиномонтаж. Или писали: «Заклеиваюсь уже 5 раз, всегда на высшем уровне», но речь шла не про ремонт резины, а про тонирование стёкол. Такие кейсы толокеры размечали плохо из-за специфики аспекта: не всегда было понятно, что это и с какой тональностью об этом говорится в отзыве.Вот он — вред сленга, во всей красе. Поэтому я стараюсь называть вещи своими именами и реже пользоваться сокращениями. Получается чуть дольше, да, зато всегда можно найти нужную информацию обычным поиском, не говоря уж про обучающиеся алгоритмы.
мы попробовали дообучить BERT и просто посмотреть, что получится. Спойлер: результаты оказались классными.
Спасибо за пост, очень интересно было почитать! Тоже интересуюсь составлением некоего саммари по набору отзывов.
В ходе чтения возник вопрос по дообучению Берта:
Мы могли взять эту модель и достаточно дёшево по времени её обучить и настроить под свою задачу. А точнее, под две задачи: сделать классификацию по наличию аспекта в тексте отзыва и классификацию по тональности.
Кроме того, мы заметили забавную особенность этой модели (напомню, она обучалась на восьми аспектах). BERT находила аспекты, которые на самом деле не видела в подготовленной разметке.
Как получалось так, что модель обученная на 8 классов, начинала предсказывать девятый класс?
Или модель изначально обучалась как бинарный классификатор, а на вход ей подавался аспект + текст отзыва?
Находим главное в отзывах. Опыт разработчиков геопоиска Яндекса