Как стать автором
Поиск
Написать публикацию
Обновить

Прикрутил нейросеть к боту для поиска стран (часть 3 про нейросети)

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров3.4K
Всего голосов 12: ↑11 и ↓1+11
Комментарии22

Комментарии 22

К чёрту парсинг путешествий, ты нам скажи, поиск под миловидную брюнетку дотюнил?)

Пока не женат. Есть предложения?))

Нам бы бота который сам эти каналы искал, летел в тур и писал отзыв с фотками и т.д. :)

Достаточно ли хороши нейросети для того чтобы принимать решения? Обычно конечное решение за человеком

Кажется что тут не такое судьбоносное решение. Самое плохое что может случиться - это вы не поймаете билет, который искали (грустно, но бывает)

Интересный бот получился. Ждём когда модели начнут понимать абстрактные фразы дат, на подобии «на Масленицу», «на майские праздники»

Мне кажется можно сделать fine tuning и наверно начнет понимать. Но для этого нужны размеченные данные и аксессоры. Данные можно вытащить регулярками самому из сообщений и дообучить. Задача интересная!

Но тут мы опять упираемся в то, что это нужна открытая LLM и собственные сервера чтобы ее крутить...

А если попробовать какую-нибудь свою сеть сделать и обучить для определения дат. Может быть tensorflow использовать или что-то подобное.

Все упирается в то, что тогда придется крутить LLM где-то на GPU. А это дорого

Собирается ли статистика по определённым датам? Например в виде полученный текст, удалось определить дату или нет, какую дату определили.

Интересно посмотреть, насколько много сообщений с кривой датой.

Да, есть в статье несколько запросов. И ссылка на гуглдок, с инфой по запросам

Скок часов на эту итерацию ушло?

Интеграция с яндексом как с любой LLM очень простая. На раз-два. А вот биллинг пришлось покрутить - он необычный, так как цена зависит от количества слов (токенов). Я себе облегчил жизнь поставив минимальную цену за запрос в 1 копейку, так как когда сообщение небольшое - цена меньше копейки.

И тогда либо надо было бы биллинг делать в каких-то тысячных или десятитысячных или делать дополнительный шаг аггрегации слов по нескольким запросам...

Черт, в десятысячных выглядит не очень сложной задачей. Надо было так и сделать))

А часов то сколько?)

Ну, пару недель на чтение про LLM / тыканье в докер контейнеры / просмотр туториалов на ютубе и 3 часа на саму интеграцию с yandex gpt

Есть ли уже примеры, когда бот реально кому то помог?

Как минимум я нашел билеты в США и бывший коллега нашел билеты на детский праздник. А так - мне не пишут к сож, что бот помог. Но когда я делаю рассылки с обновлениями - автоматически удаляются юзеры которые удалили или заблокировали бот. Так что можно сказать, что количество пользователей только растет.

Так что косвенно можно сказать, что бот полезен

Как правильно писать запрос, чтобы нейросеть нашла? И где попробовать, среагирует ли запрос на определенное сообщение?

Все таки придется писать faq))

Можно проверить https://alice.yandex.ru/ тут по такому запросу

Соответствует ли запрос сообщению? В ответе только Да или Нет.Запрос: ваша строка для поиска. Сообщение: примерное сообщение которое вы бы хотели получить

P.S. Еще есть хороший справочник телеграм каналов, где можно по категориям найти на что подписаться https://tgstat.ru/

Gemma-3 неплохо читает скриншоты, следует промптам, хорошо говорит по-русски, можно ее приспособить, но нужно железо.

Странно, что Qwen2.5 не прошел проверку, подозреваю, что температуру и промпт надо покрутить для лучшего результата.

Попробуйте подробнее описать задачу, роль, цель, что на входе, что на выходе, посулите денежное вознаграждение/угрозу жизни - это существенно поднимает качество работы сеток.

Qwen2.5 не справился 7b количеством параметров. Я тестировал только то, что потянул мак... А из картинок я просто получаю текст через OCR - не через LLM

Зарегистрируйтесь на Хабре, чтобы оставить комментарий