ActivityPub боты в общем то никак не запрещены, их много в Fediverse.
Awakari работает таким образом, что не его пользователь подписывается, а сам Awakari сервис. Пользователь Awakari может ничего не знать о Fediverse, Awakari дискаверит все за него
Основные претензии в духе "it's a scraper" и "продаёт мои данные за деньги", что говорит о том, что в большинстве своём люди просто не разобрались, на что жалуются.
Я не против бана конкретными пользователями Fediverse, которые не хотят иметь дело с Awakari (хотя есть и другие способы opt-out). Но не стоит угрожать
Честно говоря, в авакари довольно много всяких деталей и я все навскидку не помню. Думаю, такие вопросы легко решаются экспериментально. Отправляете сообщение с произвольными атрибутами и проверяете, совпало ли оно с условиями вашей подписки или нет.
По поводу атрибутов типа width, согласен, схема данных пока приблизительная и её ещё предстоит определить. Сейчас есть "расширения", которые производят сообщения из внешних источников, таких как RSS, Telegram и пр. Они довольно произвольно конвертируют атрибуты.
Я художник я так вижу изначально задумывал интерфейс минималистичным. Если есть более детальные пожелания, где можно сделать более понятным, то они приветствуются
Нет, произвольный нельзя. Можно попытаться добавить в качестве "feed", возможно, по указанному адресу есть микроразметка, JSON-LD или ссылка в head секции на RSD/Atom. Тогда добавится
Столкнувшись с такой же задачей, сделал сервис Awakari. Изначально для себя, но теперь также для всех, бесплатно.
Общий глобальный поток событий из коллекции источников пользователей, таких как RSS, Telegram, Fediverse, прочие сайты. Сейчас в коллекции несколько сотен самых разных источников.
Чтение событий из общего потока по персональному поисковому запросу - только то, что интересно и никакого спама. Можно также иметь одновременно до 10 подписок на разные запросы.
Уведомления о событиях в телеграм с помощью бота. Можно разные подписки подключать к разным чатам.
PS
"4000 непрочитанных за день" - именно поэтому фильтр и нужен. Ключевые слова, численные условия и группировка условий с помощью И и ИЛИ.
NextCloud с RSS-агрегатором и интеграцией в мастодон даёт примерно то же самое.
Не совсем понятно, как Nextcloud помогает читать mastodon через Rss
Можно ли делать кастомные экстракторы для источников на которых не озаботились поддержкой RSS и прочих?
Свои кастомные экстракторы надо будет кодить по аналогии с https://github.com/awakari/int-activitypub
Кроме RSS поддерживаются Атом, различная семантическая разметка, телеграм каналы и пр
Можно ли извлекать весь контент со страницы чтобы не ходить на этот сайтег чтобы с него ходить в другие сайтеги?
Нет, система даёт только некоторые метаданные, заголовок и ссылку на источник
Чем это удобно читать?
Сейчас для этого используется телеграм бот AwakariBot
Есть какие-то готовые клиенты к этому агрегатору для ПК/мобилок или в этой штуке как-то можно настроить вид чтобы оно было близко к Firefox Reader View?
Для управления источниками и подписками - PWA приложение
Чтобы хабру поддерживать activitypub придётся либо писать свой сервер либо использовать готовый, нп мастодон. В последнем случае весь существующий функционал придётся просто выкинуть
Мне кажется проще будет добавить поддержку websub к существующей ленте RSS
Хабр имеет RSS, поэтому его также можно фильтровать и читать с помощью Awakari. Но, как уже писали в комментариях, Хабр скрывает информацию об авторе статьи, поэтому фильтровать по автору пока не получается. Пример статьи из хабра:
Мне нечего особо показывать о своих пользователях, тк авакари не собирает никаких данных своих пользователей. Только численный id
У вас есть пример, как это могло бы выглядеть хотя бы приблизительно?
Посты которые не public игнорируются
Акторы и посты, где явно не указано discoverable=true игнорируются
Акторы и посты, где явно не указано indexable=true игнорируются
Акторы и посты, которые содержат тэг #nobot теперь тоже игнорируются
Меня лично интересуют некоторые авторы, вроде Микко Туоми. Зачастую самые свежие новости сначала появляются в таких вот соцсетях
Не воспроизводится. Надо больше деталей, как этого достичь
ActivityPub боты в общем то никак не запрещены, их много в Fediverse.
Awakari работает таким образом, что не его пользователь подписывается, а сам Awakari сервис. Пользователь Awakari может ничего не знать о Fediverse, Awakari дискаверит все за него
Основные претензии в духе "it's a scraper" и "продаёт мои данные за деньги", что говорит о том, что в большинстве своём люди просто не разобрались, на что жалуются.
Я не против бана конкретными пользователями Fediverse, которые не хотят иметь дело с Awakari (хотя есть и другие способы opt-out). Но не стоит угрожать
А как надо? Mistress?
Плюс некоторые решения, которые были заложены в Авакари изначально
Не собирать и не хранить никаких данных пользователей, ни паролей, ни емейлов. Аутентификация - пусть делают виджеты от гугла и телеграма.
Не показывать контент пользователей или сторонних сервисов на своём домене.
Нет, нет и ещё раз нет.
Я добавил примеры подписок, которые навскидку могу себе представить
Честно говоря, в авакари довольно много всяких деталей и я все навскидку не помню. Думаю, такие вопросы легко решаются экспериментально. Отправляете сообщение с произвольными атрибутами и проверяете, совпало ли оно с условиями вашей подписки или нет.
По поводу атрибутов типа width, согласен, схема данных пока приблизительная и её ещё предстоит определить. Сейчас есть "расширения", которые производят сообщения из внешних источников, таких как RSS, Telegram и пр. Они довольно произвольно конвертируют атрибуты.
Атрибуты это атрибуты сообщения для сопоставления. Если не указывать (пусто), то поиск происходит по всем атрибутам сообщений.
Ключевые слова должны разделяться пробелами. Но запятые стемминг тоже повыбрасывает.
Exact значит точное совпадение текста
Спасибо за взгляд со стороны. Действительно, есть что улучшать.
Какой сервис не работает?
Upd видимо, спот нода уходила
Спасибо за сообщение об ошибке, будет пофиксено.
Я
художник я так вижуизначально задумывал интерфейс минималистичным. Если есть более детальные пожелания, где можно сделать более понятным, то они приветствуютсяUPD: ошибка починена
Я бы добавил вебхуки. Требует публичного адреса получателя, но иногда тоже вариант
Нет, произвольный нельзя. Можно попытаться добавить в качестве "feed", возможно, по указанному адресу есть микроразметка, JSON-LD или ссылка в head секции на RSD/Atom. Тогда добавится
Столкнувшись с такой же задачей, сделал сервис Awakari. Изначально для себя, но теперь также для всех, бесплатно.
Общий глобальный поток событий из коллекции источников пользователей, таких как RSS, Telegram, Fediverse, прочие сайты. Сейчас в коллекции несколько сотен самых разных источников.
Чтение событий из общего потока по персональному поисковому запросу - только то, что интересно и никакого спама. Можно также иметь одновременно до 10 подписок на разные запросы.
Уведомления о событиях в телеграм с помощью бота. Можно разные подписки подключать к разным чатам.
PS
"4000 непрочитанных за день" - именно поэтому фильтр и нужен. Ключевые слова, численные условия и группировка условий с помощью И и ИЛИ.
Так а что конкретно вы хотите? Какую инфу доставать и откуда?
Не совсем понятно, как Nextcloud помогает читать mastodon через Rss
Свои кастомные экстракторы надо будет кодить по аналогии с https://github.com/awakari/int-activitypub
Кроме RSS поддерживаются Атом, различная семантическая разметка, телеграм каналы и пр
Нет, система даёт только некоторые метаданные, заголовок и ссылку на источник
Сейчас для этого используется телеграм бот AwakariBot
Для управления источниками и подписками - PWA приложение
Чтобы хабру поддерживать activitypub придётся либо писать свой сервер либо использовать готовый, нп мастодон. В последнем случае весь существующий функционал придётся просто выкинуть
Мне кажется проще будет добавить поддержку websub к существующей ленте RSS
Хабр имеет RSS, поэтому его также можно фильтровать и читать с помощью Awakari. Но, как уже писали в комментариях, Хабр скрывает информацию об авторе статьи, поэтому фильтровать по автору пока не получается. Пример статьи из хабра:
По крайней мере последние мероприятия достать из фэйсбука легко. И это только навскидку.