Обновить
2

Пользователь

3
Рейтинг
Отправить сообщение

Спасибо за дельные мысли! Про Cloudflare Pages и D1 я как раз думал, когда планировал глобальный апдейт. VPS сейчас стоит скорее по инерции и из-за удобства старой настройки, но на будущее такой переход - отличный вариант, чтобы окончательно уйти в serverless. Обязательно потестирую эту связку в ближайшем обновлении архитектуры

Постараюсь пояснить, как устроена логика HypeNet:

1. Как новости попадают на главную и в рубрики? На главной отображается «сырой» поток (Live Feed) - это единая очередь всех новостей из 25+ источников, отсортированная строго по времени. У проекта нет ручной модерации, задача - дать объективную картину дня. Распределение по рубрикам (Политика, Экономика, Технологии и т.д.) происходит автоматически на этапе парсинга. Работает классификатор на регулярных выражениях, который ищет ключевые слова в заголовках и описаниях. Если новость не подходит ни под один паттерн, она остается только в общем потоке.

2. Куда пропадает разница между количеством RSS-записей и лентой? Вы верно подметили разрыв в цифрах. Он возникает из-за работы двух фильтров на бэкенде:

  • Дедупликация: Это главная «киллер-фича». Если 10 СМИ пишут об одном и том же событии с почти одинаковыми заголовками, алгоритм сравнивает их по вхождению ключевых слов и оставляет в базе только одну, самую раннюю запись. Это избавляет пользователя от необходимости читать 10 одинаковых постов про «239 дронов».

  • Фильтр информационного шума: Чтобы лента не превращалась в свалку, я внедрил систему стоп-слов. Мы автоматически отсекаем рекламные подборки, обзоры из серии «ТОП-10 гаджетов», пошаговые инструкции, гайды и узкоспециализированный контент для разработчиков (патчи, фиксы репозиториев и т.д.). Цель - оставить только чистые новости (Hard News).

3. Где новости за прошлые сутки? Здесь вступает в силу техническое ограничение. Поскольку это пет-проект на бесплатном тарифе Supabase (лимит 500 МБ), я ограничил глубину хранения 3 днями. Каждые 15 минут скрипт удаляет из базы всё, что старше 72 часов. Проект задумывался как «зеркало» текущего момента, а не исторический архив, поэтому данные в базе всегда свежие.

4. Итог. Замысел HypeNet - информационная гигиена. Это попытка собрать повестку в одном чистом интерфейсе без рекламы, трекеров и тяжелых скриптов, которые обычно висят на сайтах крупных СМИ и тормозят браузер.

Спасибо! Домашний сервер с локальной LLM это мощно, там совсем другие масштабы для кластеризации. Я как раз хотел пойти по пути serverless на Cloudflare и Supabase, чтобы вообще не думать об архитектуре железа и уложиться в бесплатные лимиты. Интересный проект у тебя!

Информация

В рейтинге
1 685-й
Зарегистрирован
Активность