Как стать автором
Обновить

Робот Макс с LLM: история внедрения нейросетей в помощь миллионам пользователей Госуслуг

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров4.8K
Всего голосов 32: ↑25 и ↓7+24
Комментарии21

Комментарии 21

Блин, как бы я хотел, чтобы какого нибудь человека из команды Хабра наконец прорвало и он выложил внутренний прайс на эти нелепые бусты лайками для корпоративных блогов, которые никто не читает и не комментирует. Образцовая мертвечина на корпоративном речекряке собирает 18 лайков и ноль комментариев немедленно после публикации, улыбаемся и машем.

Там вон ниже персонаж отметился. Можно зайти в его комменты, чтобы посмеяться.

Ну что вы, у них вон даже целый главред есть )))

Это нормально, например на Пикабу это называется нативная реклама, когда рекламный пост маскируется под обычный. Ну вот так сейчас, в целом это все понимают и уже кажется не реагируют так эмоционально на очевидный буст корпортивного акк.

Скучаю по своей молодости, когда это называлось джинса и порицалось :)

А теперь милый век фейков и это даже как то лампово

Полностью согласен! То лютое дно, которым пользоваться абсолютно невозможно, преподносится как образцовая дичь.

Очень крутое развитие цифрового ассистента 🔥🔥🔥

Очень круто, спасибо большое за такое оперативное внедрение!

Подскажите, а вы перед подачей текстов в RAG проводили их подготовку (разбиение на чанки, приведение в специальный формат)?

Большое спасибо за обратную связь!

На самом деле, мы провели большое количество исследований в этой области. Пробовали бить на чанки разных размеров, пробовали передавать текст в разных форматах и с разной степенью очистки. 

По итогу выбрали вариант, который шёл вразрез с отраслевыми рекомендациями, но для нас оказался самым оптимальным. Основная цель — исключить (свести к минимуму) галлюцинации.

Текст из HTML переводится в md с удалением некоторых тегов, далее разрезается по абзацам/предложениям до длины в 1500 символов (~350 токенов) и ещё немного очищается от формата md.

Тоже первая мысль была почему не большой мистраль или ллама, они ведь "опенсорс". Вот только опенсорс ли, исходники и данные на которых они обучались ведь не открыты, только готовые модели которые можно дообучать.

Видеокарты для инференса нужны, я полагаю, а тут можно готовым API воспользоваться.

Мне кажется очевидно - с командой Яндекса они могут связаться и уточнить детали обучения, организовать помощь во внедрении и т.п.

Могу сказать, что результаты модели Яндекса действительно улучшились по результату совместной работы наших команд. В процессе промпт-инжинеринга мы перебрали больше 50 промптов, доразмечали десятки тысяч запросов и оперативно обменивались обратной связью о качестве работы моделей/поиска.

Да, вы правы, этот фактор был одним из ключевых. Добавил отдельный развернутый комментарий про это

Добрый день!

Можно сказать, что не остановили. Планируем раскрыть в следующих статьях подробности, но если кратко: мы организовали конкурентную модель выбора лучшего провайдера LLM и на основе обратной связи пользователей (кликовых данных, времени прочтения и оценки ответа) выбираем модель, которая наиболее точно ответит на тематику вопроса. 

Кроме Яндекса есть ещё несколько лидеров рынка России с собственными LLM. Мы разработали бенчмарк Gosuslugi Language Understanding (GuLU), чтобы выяснить как хорошо LLM понимают государственную терминологию. Сравниваем модели по качеству ответов, форматированию, полноте и ряду других параметров.

Стоит отметить, что команда Яндекса на текущий момент показывает опережающие результаты и наиболее вовлечена. Хотя во время тестирования долгое время сохранялся паритет между несколькими моделями. 

Open-source модели рассматривали во время экспериментов, изучали Mixtral, LLaMa и Вихрь 12b. Такие модели показывали себя чуть хуже по результатам разметки, хотя не критично. Выбор в сторону open-source делать не стали по нескольким причинам:

1. Есть риски с контентом, на котором они обучались: большинство LLM обучаются преимущественно на английском языке и собирают контекст из англоязычного сегмента интернета.

2. Высокие требования к производительности и отказоустойчивости. Партнёры-лидеры в области ИИ имеют достаточную экспертизу, опыт масштабирования LLM и грамотное управления мощностями GPU для инференса. Нам пришлось бы потратить намного больше времени для старта, а риски были бы существенно выше, и, конечно, мы получили бы очень большой CAPEX, так как пришлось бы приобретать очень много специфичной вычислительной аппаратуры.

А почему сразу не применили GRAPHRAG?

Здравствуйте! 

1. У нас нет графовой структуры данных, её нужно сначала грамотно организовать. Это хорошо работает с задачми техподдержки и связанными тикетами с документами. В нашем случае связь между документами работает через кластеризацию, можно придумать ещё варианты, но работать будет не очень хорошо.

2. Передавать данные в LLM нужно в правильном виде и сначала определять, когда мы должны найти несколько нод одного графа, а когда и по какому принципу нужен переход к другой ноде по графу. Опять же, в техподдержке можно сделать крутого агента, который будет 10 раз ходить в LLM и решать каждый маленький вопрос, а затем всё суммаризировать. Это займёт пару минут, но у нас нет столько времени.

3. Мы рассматриваем подобную реализацию для ИИ-суфлера оператора первой линии. Если удастся грамотно выстроить структуру данных - расскажем

Одним звонком можно сменить номер от чужого аккаунта госуслуг, двумя смсками можно получить полный контроль и взять десяток кредитов в микрофинансовых организациях. Вот бы у них там тот, кто после чтения хайповых заголовков про ИИ и решивший что им тоже надо, ещё почитал бы про базовую безопасность, а то пока бюджет вложенный в рекламную статью превышает з/п всего отдела безопасности в виде одного индуса на аутсорсе.

Здравствуйте. Одним звонком нельзя сменить номер от чужого аккаунта. Остальные утверждения тоже не соответствуют действительности.

Мы очень много сил и времени уделяем безопасности пользователей, ввели обязательный второй фактор и кроме того, создали антифрод систему. Об ее эфективности недавно рассказывал глава Минцифры Максут Игоревич Шадаев на пленарной сессии форума "Кибербезопасность в финансах".

Порядка 250 тысяч подозрительных учетных записей было "охлаждено" из-за подозрительных действий за 2 месяца. Если один из триггеров срабатывает, то происходит заморозка на 72 часа. Становится невозможным совершать действия по предоставлению выписки 2-НДФЛ, информации из бюро кредитных историй и других услуг.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий