Как стать автором
Поиск
Написать публикацию
Обновить

Как я создал Text Extract API для RAG за 2 дня с помощью AI и Cursor: подробный кейс

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров5.8K
Всего голосов 6: ↑4 и ↓2+2
Комментарии7

Комментарии 7

Очень подробно изложил, делал подобное в начале года + данные до этого собирал. А если Авито не отдает телефон и пользователь звонит по телефону? Да и во сколько обошлось в целом?

Спасибо за обратную связь, но я не совсем понимаю о чем вы ))) В статье вообще нет упоминания Авито и телефонных звонков.
Что же касается финансового вопроса, то специально не считал. Но я думаю не так много 20$ Cursor и модели где то еще на 50. Это я прям с запасом взял, скорее всего меньше.

Только в RAG всё же не происходит "обучение модели", это важный аспект.

К слову, я делал тоже самое, но кроме .zip и прочего, а для OCR я использовал кроме tesseract ещё simpletex api. Делал по заказу одного ху~.., кхм, "бизнесмена": по знакомству начал с ним работать, а спустя месяц работы он отказался оплачивать хоть сколько-то. Далее я забросил проект: очевидно ничего не скидывал этому существу, но всё равно обидно ведь в целом я пошёл на такое сомнительное рискованное сотрудничество из-за жёсткой нужды в деньгах. Кстати хабром я пользуюсь не особо давно, и уж тем более не пишу посты/комментарии. В общем мне хочется узнать: было бы интересно если бы я выложил полностью историю как меня нагрел недобизнесмен, фаундер одной переводческой компании? Было бы это легитимно? Я имею ввиду в рамках правил хабра. И я бы наверное даже указал конкретные имена, название компании и даже выложил бы переписку чтобы подпортить репутацию данному существу.

Хорошее замечание про обучение. Это действительно моя оговорка. Все выглядит так, что мы модель как будто бы обучили, но это не так. Мы просто подсовываем ей нужный контекст в момент вопроса пользователя. Вот и вся магия.

Что касается вашей ситуации, то тут сложно что-то комментировать.

Такое на Пикабу любят ))

Для перевода файлов в вектор нужно слать их post-ом в API, верно? Не рассматривали вариант, когда есть директория, куда складываем все файлы, данные из которых должны быть в нашей внутренней базе? Т.е. если есть файл в директории, что система сама его добавляет в вектор, если удалили файл, то и данные из вектора удаляются. Таким образом у нас может быть директория с файлами, по которым работает векторный поиск. Т.е. достаточно через ftp закинуть все, что нужно и база знаний готова. Если обновить файл, то данные в базе тоже обновляются сами.

Это первая часть работ, для векторов. Вторая часть - это создание сервиса, который будет осуществлять всю логику. Сейчас работы идут над второй частью, чуть позже появится статья на эту тему. А уже потом можно написать приложение, которое будет работать так, как вы предлагаете.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий