Комментарии 6
Хорошо получилось.
Я тоже для себя делал https://info-scope.ru/ проект зародился в как сугубо инженерный, поиграться с векторами, кластеризацией, категоризацией. Но у меня это все на домашнем сервере живет, с локальной LLM работает.
Я покликал по ссылкам и не понял главного - что показывается? По каким замыслам статьи попадают на главную, что публикуется в рубриках?
По rss каждые сутки отдаются 10 - 20 статей одним источником, это составляет примерно 500 новостей в сутки. Где эти новости? Что с ними происходит?
Эти всё я написал не применительно конкретно к вашим сайта (в статье и комментарии), тут многие публикуют подобные агрегаторы, и примерно у всех одинаково - что-то публикуют, только не понятно по каким критериям и куда пропала разница между rrs и опубликованным на агрегаторе.
Постараюсь пояснить, как устроена логика HypeNet:
1. Как новости попадают на главную и в рубрики? На главной отображается «сырой» поток (Live Feed) - это единая очередь всех новостей из 25+ источников, отсортированная строго по времени. У проекта нет ручной модерации, задача - дать объективную картину дня. Распределение по рубрикам (Политика, Экономика, Технологии и т.д.) происходит автоматически на этапе парсинга. Работает классификатор на регулярных выражениях, который ищет ключевые слова в заголовках и описаниях. Если новость не подходит ни под один паттерн, она остается только в общем потоке.
2. Куда пропадает разница между количеством RSS-записей и лентой? Вы верно подметили разрыв в цифрах. Он возникает из-за работы двух фильтров на бэкенде:
Дедупликация: Это главная «киллер-фича». Если 10 СМИ пишут об одном и том же событии с почти одинаковыми заголовками, алгоритм сравнивает их по вхождению ключевых слов и оставляет в базе только одну, самую раннюю запись. Это избавляет пользователя от необходимости читать 10 одинаковых постов про «239 дронов».
Фильтр информационного шума: Чтобы лента не превращалась в свалку, я внедрил систему стоп-слов. Мы автоматически отсекаем рекламные подборки, обзоры из серии «ТОП-10 гаджетов», пошаговые инструкции, гайды и узкоспециализированный контент для разработчиков (патчи, фиксы репозиториев и т.д.). Цель - оставить только чистые новости (Hard News).
3. Где новости за прошлые сутки? Здесь вступает в силу техническое ограничение. Поскольку это пет-проект на бесплатном тарифе Supabase (лимит 500 МБ), я ограничил глубину хранения 3 днями. Каждые 15 минут скрипт удаляет из базы всё, что старше 72 часов. Проект задумывался как «зеркало» текущего момента, а не исторический архив, поэтому данные в базе всегда свежие.
4. Итог. Замысел HypeNet - информационная гигиена. Это попытка собрать повестку в одном чистом интерфейсе без рекламы, трекеров и тяжелых скриптов, которые обычно висят на сайтах крупных СМИ и тормозят браузер.
VPS — только для раздачи статических файлов фронтенда
Это фэйл, использовать все, кроме того, c чего Cloudflare начался - CDN.
Cloudflare Pages и никаких VPS.
Он кстати и билдить сам умеет, и «мгновенная загрузка» (попробуйте PWA)
Зы. У них и картинки можно хостить, и даже видео стримить.
Зы. Зы. Вам возможно хватит D1 + oaurh либа какаянить.
Спасибо за дельные мысли! Про Cloudflare Pages и D1 я как раз думал, когда планировал глобальный апдейт. VPS сейчас стоит скорее по инерции и из-за удобства старой настройки, но на будущее такой переход - отличный вариант, чтобы окончательно уйти в serverless. Обязательно потестирую эту связку в ближайшем обновлении архитектуры

Как я собрал новостной агрегатор HypeNet на Cloudflare Workers + Supabase и что пошло не так