Как стать автором
Обновить

Как Яндекс применил генеративные нейросети для поиска ответов

Время на прочтение11 мин
Количество просмотров69K
Всего голосов 70: ↑68 и ↓2+66
Комментарии18

Комментарии 18

Ввел в поиске Яндекса 'трансформеры'. Как минимум на первых 10 страницах поисковой выдачи — ссылки только про соответствующую франшизу. И никаких запросов на уточнение или указание, что слово несколько смыслов имеет.


У вас упомянутая в статье возможность классификации — точно работает?

НЛО прилетело и опубликовало эту надпись здесь

Ctrl-F и поиск слова 'трансформер' по статье сверху. Поисковик по хорошему должен сказать, что у слова несколько значений, как википедия делает и спросить, какое именно значение ищется.

Когда человек вводит запрос в поисковик, он ищет информацию или способ решения своей задачи. Наша глобальная цель — помогать находить такие ответы, причём сразу в наиболее ёмком виде, чтобы сэкономить людям время.


Судя по тому, что ссылки на пиратские сайты стоят выше ссылок на оргиналы, робот «правильно» понимает что надо людям :)
С учётом любви наших соотечественников к пиратке, слово правильно должно быть без ковычек)

А кстати не всегда. Часто куча левых пиратских сайтов но вот только для данного запроса - правильный ответ для пираток - выдать флибусту/кинопаб/rutracker или хоть на худой конец вк а не всякий хлам.

Когда дошёл до описания распараллеливания начали закрадываться подозрения, что это уже было в Симпсонах я это уже где-то слышал. Ну и точно, я смотрел доклад ребят на DataFest. Может стоить информацию об этом вынести наверх статьи?
Резонно. Перенёс отсылку к докладу из конца в начало поста. На всякий случай: в конце есть и другие наши доклады с ДатаФеста. Рекомендую.
НЛО прилетело и опубликовало эту надпись здесь
В Маркете для генерации отзывов используются другие модели, не YaLM – механизм суммаризации разрабатывался параллельно.

Стоило назвать статью: Колдунщики или как яндекс трафик у сайтов воровал :)

Человек ищет информацию. Человек её получает в наиболее удобном виде прям буквально «не отходя от кассы». С точки зрения потребителя яндекс делает хорошее дело.

И лишь SEO-шники вечно недовольны, у них «трафик воруют»…

Напоминает ситуацию с гуглом и их агрегатором мини-новостей. Тоже ныли, что народ читает выжимки гугла и не идет читать гору воды в полной новости на сайте… И виноват был гугл конечно, а не то что на сайте вода копирайтная.
«Мы хотим, чтобы модель доставала знания не из своих весов, а из этой внешней базы знаний.» Напомнило «хотим чтоб пироги в рот лезли сами». Увы, летать на деревянной лошадке в нашей реальности не получается.

Читают это через всего то пару лет.

Смотрю на анонсы OpenAI'шные про ChatGPT4 со встроенным веб-поиском.

И на гайды как сделать использование function calling с той же gpt4/gpt-3.5.

Потому смотрю на статью - очень крутая модель с 1B параметров у яндекса.

И смотрю на обсуждение реддите почему обычным пользователям наверно не стоит затачиватся с fine tuning моделек с 70B параметров и даже с 30B - не стоит, потому что все равно это на бытовому железе не запустить с нормальной скоростью а вот 13B уже можно и при этом вопрос как обучали - имеет значение, качественная 7B вроде Зефира - может и 13B обогнать и возможно и не только.

Это все очень круто, прочитал с большим интересом. Но может быть, Вы сделаете возможность открывать страницы в стороннем браузере из главного приложения Яндекса?

Всё хорошо, только с грамматикой у Балабобы неважно.
Вот образчик: «Я же в отличии от тебя не в интернете работаю, слава Богу. А где ты работаешь?» Или это уже стало нормой в русском языке, благодаря двоечникам!
Стыдоба: «в отличии»!
А в целом, да: довольно забавно.

А что насчет открытого API балабобы? Хотелось бы его заюзать в своем телеграм-боте.

Пока нет таких планов. Балабоба — это технологическая демка для описанной в статье технологии YaLM. Не сервис.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий