Комментарии 5
Сделать такое можно, показать никому нельзя. Я делал примерно такое же https://moscowi.ru/ и технологии похожие. Проблема в другом - покажешь новость не из аккредитованного источника - статья УК, покажешь что то иностранное - статья УК, покажешь противоречивое - статья УК. Может быть сначала штраф, а уж потом статья ук.
Был у меня довольно умный и продвинутый поиск по архиву - пришлось убрать. Были разные источники по многим странам - пришлось убрать. Добавил цензуру, что бы ненароком чего не по повестке показало. Была сводная аналитика - пошла той же дорогой, куда и предыдущие. Были прогнозы - туда же. Аналитика работал великолепно, конечно на тех масштабах что я мог позволить по ресурсам.
Были нередкие случаи, когда новость проходила по многим средствам массовой информации, а через часы или сутки объявлялась дискредитирующей и ложной. СМИ новость убирали, а у меня она уже закешировалась - что бы меньше сервер дёргать. Добавил ещё фильтров на такие случаи.
Со статьями вообще сложно - авторские нельзя брать по разным причинам, не центральные - нельзя брать, региональные - нельзя брать. И их тоже нужно фильтровать по смыслу - а кого и когда из авторов и источников запишут в нежелательные не угадаешь.
В результате - довольно средненькие результаты.
Знал бы прикуп… Коли так, то судьба одна - закрытый приватный ресурс для личного пользования. Посмотрим, что выйдет. На другом проекте уже приходила от РКН “просьба” убрать страницу на сайте, срок давали 30 дней. Поживем увидим, кнопку выкл всегда нажать можно
не центральные - нельзя брать, региональные - нельзя брать
подскажите, пожалуйста, почему нельзя брать?
Причины есть, их много, есть как смысловые, так и законодательные. И уж слишком часто они публикуют то, что потом объявляется ложным или нарушающим УК.
Были у меня случаи, когда действительно правдивая новость выходила в топ, а потом многие издания убирали их из потока, только потому, что как-то безнадёжно уныло выглядит действительность.
Даже была новость, которая судом была признана правдивой, а журналиста и издание оштрафовали - дискредитация. И это решение вынес один и тот же суд и судья, в рамках одного процесса. Законодательство подправили так наспех / коряво, что оно противоречит самому себе в разных местах.
Интересный проект, спасибо за честный рассказ о процессе. По технической части: выбор RRF поверх BM25 + семантического поиска - правильный, это уже де-факто стандарт для RAG-пайплайнов. Любопытно, насколько хорошо text-embedding-3-small справляется с русскоязычным контентом - в моём опыте у OpenAI-эмбеддингов есть просадки на кириллице по сравнению с, например, E5-multilingual или ruBERT-based моделями. Проводил ли какие-то сравнения или шёл по принципу “работает - не трогай”? MCP-интеграция с Claude - логичный шаг, особенно для агентных сценариев. Сам активно использую похожие подходы в рабочих проектах: когда поиск становится инструментом агента, а не просто API - качество итогового ответа заметно растёт. По поводу масштабирования: при росте индекса за 500k+ документов pgvector начинает заметно проседать на HNSW без тюнинга параметров (ef_construction, m). Планируешь оставаться на pgvector или смотришь в сторону выделенных векторных БД?

Смотрите, я сделал поиск по новостям