Как стать автором
Обновить
-0.6

Семантические сети *

Веб 3.0

Сначала показывать
Порог рейтинга

Сегодня, в международный день космонавтики, Awakari запускает семантический поиск. Поехали!

Новый тип фильтра используется по умолчанию в "простом" режиме создания нового интереса. В продвинутом режиме он назван "Similarity".

Под капотом, Awakari извлекает текстовый сниппет из каждого нового события и конвертирует его в вектор используя языковую модель, которая понимает около 100 языков. Есть выбор из нескольких уровней совпадения:

  • Weak соответствует косинусу угла между векторами ≥ 0,75. Для более слабой фильтрации.

  • Medium: косинус ≥ 0,85. Рекомендуемый уровень по умолчанию, который неплохо работает во многих случаях.

  • Strong: косинус ≥ 0,95. Для получения строго совпадающих результатов.

Теги:
Рейтинг0
Комментарии0

Principles and Practice of Programming Languages 

Новый зверь среди академических учебников.

Выложен втихую, доступен свободно, нигде не анонсировался.

Теги:
Всего голосов 5: ↑5 и ↓0+7
Комментарии0

Сбор семнтики из Гугла (Гугл Вордстат существует)!

В общем такая ситуация - я писал не так давно пост, про парсинг семантики для Гугла, вот он - https://habr.com/ru/articles/867876/

В конце статьи я уточнил, что главная подлянка этой схемы - необходимость одобрения Гуглом базового доступа вашего аккаунта, иначе вся эта затея окажется просто текстом на экране. И не скрою, на момент написания статьи, у меня этого базового доступа не было, но вся правда в том, что я его наконец-то получил!

В общем, схема, описанная мною в статье полностью работоспособна, можно использовать, но быть аккуратнее при общении с техподдержкой Гугла (мне пришлось с ней переписываться по почте, а сперва и вовсе потребовалось обратить на себя внимание в на их форуме).

Но оно того реально стоит, за 5 дней я обработал 50000 входящих ключевых слов и вытащил около 70к ключей для дальнейшей обработки.

Да, абсолютно бесплатно! Вот в эти моменты становится хорошо!!!

Не превышайте лимиты!!!

Теги:
Всего голосов 1: ↑0 и ↓1-1
Комментарии0

Новое (для меня) представление этимологии слов.

Представляю вашему вниманию результат последних опытов с обработкой данных Викисловаря в наглядном графовом виде. На видео показан обзор построенного графа связей для прото-индоевропейского корня *h₃er-. Граф раскрашен в цвета в зависимости от принадлежности подсемейству ИЕ-языков. Показана фильтрация слов-узлов по разным атрибутам (язык, письменность, семейство). Инструмент, в котором всё это делается, поддерживает разнообразные фильтры, выделение и трансформацию графа. Но были проблемы с отображением разных, в том числе экзотических письменностей. Их я частично победил.

Теги:
Всего голосов 1: ↑1 и ↓0+1
Комментарии0