Comments 4
Вот бы не только опенаи и гемини, а дать возможность сделать кастомные варианты, локальные)
Посмотрел, и вот насчёт главного, то есть тэгов: каждая новость может быть протэгана ллмкой, создавая дубли и непонятки уже в самих тэгах. Сейчас приведу пример и из того что увидел и гипотетический:
Есть новости с тэгом "ai-tools", и где то проставлены тэги "ai", а где-то нет.
Допустим куча новостей про Маска, он так же может рандомно поставить "Маск", "Илон Маск", "Musk", "Elon Musk", "глава spaceX" и тд. И выход из этого вижу такой, чтобы или всё же прописывать тэги общего плана, хотя бы, и дать промпт не на простановку тэгов а на классификацию. Звучит не очень. Ну или делать какой-то ещё один запрос со списком тэгов, чтобы навести порядок и перепроставить. Ну я ещё не пользовался особо, может быть это и не проблема, но пока вижу так.
Локальные LLM использовать можно, главное чтобы HTTP API было совместимо с OpenAI. На GitHub есть проекты прокси и разного рода адаптеров для этого.
Подменяете точку входа в API и всё должно заработать.
Конфигурировать работу «процессоров тегов» тоже можно, пример конфига.
С тегами, действительно, ещё много работы предстоит. Их надо нормализировать, унифицировать, убирать дубликаты и всё в этом духе — дело наживное, со временем ситуация улучшится.
Похожую задачу решил на позапрошлой неделе. Нужна была "читалка лидов", которая за меня читала бы специализированные чатики и пересылала мне только сообщения, в которых идёт именно запрос на разработку и именно на интересующем меня стеке. Для реализации взял привычный PHP, нейронку поднял локально, для задачи хватает IlyaGusev/saiga_nemo_12b_gguf. Пробовал более "тяжелую" версию - результат тот же, только над каждым сообщением уже думает не пару секунд, а 5-7 минут, так что пришел к тому, что "мощнее - не значит лучше".
Пока работает чисто в докере и авторизация через терминал, масштабировать до какого-то юзер-фрейндли решения пока мотивации немного... Но вот жена просит запилить ей спам-фильтр для группы на этой основе - наверное, после этой задачки как-то наколеночное решение приобретёт более универсальный вид.
мне подход от Nyan понравился https://github.com/NyanNyanovich/nyan . Объединение новостей достаточно просто происходит. паук сделан для телеграмм каналов, но добавить туда скраппинг старниц или rss потоков, думаю несложно.
в оригинальном Nyan используется OpenAi, но в коде буквально несколько мест нужно подправить и та же Ollama работает прекрасно. я себе сделал форк и заменил на локальную модель. чем ещё проект понравился - аггрегирует все в телеграм, что для меня очень удобно- использую его, как основное окно новостей.
Читалка новостей с тегами от LLM и прозрачным ранжированием