Pull to refresh
31
0.2
Андрей @akurilov

Программист

Send message

Сегодня, в международный день космонавтики, Awakari запускает семантический поиск. Поехали!

Новый тип фильтра используется по умолчанию в "простом" режиме создания нового интереса. В продвинутом режиме он назван "Similarity".

Под капотом, Awakari извлекает текстовый сниппет из каждого нового события и конвертирует его в вектор используя языковую модель, которая понимает около 100 языков. Есть выбор из нескольких уровней совпадения:

  • Weak соответствует косинусу угла между векторами ≥ 0,75. Для более слабой фильтрации.

  • Medium: косинус ≥ 0,85. Рекомендуемый уровень по умолчанию, который неплохо работает во многих случаях.

  • Strong: косинус ≥ 0,95. Для получения строго совпадающих результатов.

Tags:
Rating0
Comments0

Awakari запускает автоматический поиск релевантных источников.

Awakari — бесплатный сервис поиска в режиме реального времени из множества источников, таких как Fediverse, ленты RSS, каналы Телеграм. Обычные поисковые системы содержат индекс контента. Awakari идёт обратным путём и содержит индекс запросов пользователей (подписок). Для каждого нового входящего сообщения определяются все заинтересованные пользователи и выполняется доставка (на данный момент в Телеграм).

Новые сообщения поступают из коллекции источников, которая до настоящего момента содержала около 1000 различных адресов. Пользователь также может добавить собственные источники в общую коллекцию. Но для того, чтобы добавить источник, нужно его знать. Поиск вроде гугла работает не так, он ищет везде.

Таким образом, возникла идея использовать обычный поиск для того, чтобы находить интересующие пользователя источники. Теперь, кода пользователь создает (или меняет) подписку, Awakari автоматически, в фоновом режиме, находит потенциально релевантные ленты RSS, каналы Telegram и прочее и добавляет их в коллекцию. То есть теперь система сама подстраивается под нужды пользователей.

Для защиты от эксплуатации есть ограничения на найденные источники (например, минимальное количество подписчиков). Кроме того, если источник не публикует новых сообщений более 90 дней, он автоматически удаляется.

Для уже существующих подписок достаточно просто обновить (даже ничего не меняя), чтобы Awakari начал процесс поиска новых источников.
Для уже существующих подписок достаточно просто обновить (даже ничего не меняя), чтобы Awakari начал процесс поиска новых источников.

Tags:
Total votes 4: ↑4 and ↓0+5
Comments0

Information

Rating
2,807-th
Location
Санкт-Петербург и область, Россия
Registered
Activity