Обновить

Комментарии 6

Хорошо получилось.
Я тоже для себя делал https://info-scope.ru/ проект зародился в как сугубо инженерный, поиграться с векторами, кластеризацией, категоризацией. Но у меня это все на домашнем сервере живет, с локальной LLM работает.

Спасибо! Домашний сервер с локальной LLM это мощно, там совсем другие масштабы для кластеризации. Я как раз хотел пойти по пути serverless на Cloudflare и Supabase, чтобы вообще не думать об архитектуре железа и уложиться в бесплатные лимиты. Интересный проект у тебя!

Я покликал по ссылкам и не понял главного - что показывается? По каким замыслам статьи попадают на главную, что публикуется в рубриках?

По rss каждые сутки отдаются 10 - 20 статей одним источником, это составляет примерно 500 новостей в сутки. Где эти новости? Что с ними происходит?

Эти всё я написал не применительно конкретно к вашим сайта (в статье и комментарии), тут многие публикуют подобные агрегаторы, и примерно у всех одинаково - что-то публикуют, только не понятно по каким критериям и куда пропала разница между rrs и опубликованным на агрегаторе.

Постараюсь пояснить, как устроена логика HypeNet:

1. Как новости попадают на главную и в рубрики? На главной отображается «сырой» поток (Live Feed) - это единая очередь всех новостей из 25+ источников, отсортированная строго по времени. У проекта нет ручной модерации, задача - дать объективную картину дня. Распределение по рубрикам (Политика, Экономика, Технологии и т.д.) происходит автоматически на этапе парсинга. Работает классификатор на регулярных выражениях, который ищет ключевые слова в заголовках и описаниях. Если новость не подходит ни под один паттерн, она остается только в общем потоке.

2. Куда пропадает разница между количеством RSS-записей и лентой? Вы верно подметили разрыв в цифрах. Он возникает из-за работы двух фильтров на бэкенде:

  • Дедупликация: Это главная «киллер-фича». Если 10 СМИ пишут об одном и том же событии с почти одинаковыми заголовками, алгоритм сравнивает их по вхождению ключевых слов и оставляет в базе только одну, самую раннюю запись. Это избавляет пользователя от необходимости читать 10 одинаковых постов про «239 дронов».

  • Фильтр информационного шума: Чтобы лента не превращалась в свалку, я внедрил систему стоп-слов. Мы автоматически отсекаем рекламные подборки, обзоры из серии «ТОП-10 гаджетов», пошаговые инструкции, гайды и узкоспециализированный контент для разработчиков (патчи, фиксы репозиториев и т.д.). Цель - оставить только чистые новости (Hard News).

3. Где новости за прошлые сутки? Здесь вступает в силу техническое ограничение. Поскольку это пет-проект на бесплатном тарифе Supabase (лимит 500 МБ), я ограничил глубину хранения 3 днями. Каждые 15 минут скрипт удаляет из базы всё, что старше 72 часов. Проект задумывался как «зеркало» текущего момента, а не исторический архив, поэтому данные в базе всегда свежие.

4. Итог. Замысел HypeNet - информационная гигиена. Это попытка собрать повестку в одном чистом интерфейсе без рекламы, трекеров и тяжелых скриптов, которые обычно висят на сайтах крупных СМИ и тормозят браузер.

  • VPS — только для раздачи статических файлов фронтенда

Это фэйл, использовать все, кроме того, c чего Cloudflare начался - CDN.

Cloudflare Pages и никаких VPS.

Он кстати и билдить сам умеет, и «мгновенная загрузка» (попробуйте PWA)

Зы. У них и картинки можно хостить, и даже видео стримить.

Зы. Зы. Вам возможно хватит D1 + oaurh либа какаянить.

Спасибо за дельные мысли! Про Cloudflare Pages и D1 я как раз думал, когда планировал глобальный апдейт. VPS сейчас стоит скорее по инерции и из-за удобства старой настройки, но на будущее такой переход - отличный вариант, чтобы окончательно уйти в serverless. Обязательно потестирую эту связку в ближайшем обновлении архитектуры

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации