Telegram объявил конкурс на алгоритм ранжирования новостей с призовым фондом $100 000



    Telegram продолжает традицию проведения «народных» конкурсов для своих пользователей с выплатой крупных денежных вознаграждений. На этот раз задача — создать агрегатор новостей. Раньше такую роль в рунете выполнял сервис «Яндекс.Новости», который теперь подчиняется требованиям властей и индексирует только специально отобранные источники информации.

    В июне 2019 года Павел Дуров пригласил на работу в Telegram разработчиков из «Яндекса»: «Российская интернет-индустрия породила сотни талантливых разработчиков. Однако, в результате описанной выше политики, сегодня они вынуждены играть в поддавки со своими зарубежными коллегами, — написал он. — В своё время мы организовали ”Ноев ковчег” для лучших разработчиков ”Вконтакте”, пригласив их на работу в Telegram. В этом году мы хотим дать такой же шанс разработчикам ”Яндекса”, которые занимаются сервисами рекомендации контента. Устройство таких сервисов, как ”Яндекс.Новости”, впечатляет в техническом отношении, однако ограничено цензурой и русскоязычным рынком».

    Неизвестно, сколько разработчиков ушли из «Яндекса» в Telegram, но Дуров не отказался от идеи разработки агрегатора новостей, свободного от политической цензуры.

    Конкурсантам предлагается пять заданий.

    Задания конкурса


    1. Выделение текстов на русском и английском языках. Алгоритм должен выделить все англо- и русскоязычные тексты.
    2. Отделение новостей от других материалов (энциклопедических, справочных и т. д.)
    3. Группировка новостей по семи тематикам:

      • Society (в том числе Politics, Elections, Legislation, Incidents, Crime)
      • Economy (в том числе Markets, Finance, Business)
      • Technology (в том числе Gadgets, Auto, Apps, Internet services)
      • Sports (в том числе E-Sports)
      • Entertainment (в том числе Movies, Music, Games, Books, Arts)
      • Science (в том числе Health, Biology, Physics, Genetics)
      • Other (новостные статьи, не попавшие в перечисленные выше категории)
    4. Группировка похожих новостей в сюжеты с выбором общего заголовка. Новости внутри сюжета должны быть отсортированы по релеватности.
    5. Ранжирование сюжетов по важности. Кроме того, нужно сформировать отсортированный по релеватности список сюжетов вне зависимости от тематики.

    Работы принимаются в виде standalone-приложения под названием tgnews с CLI-интерфейсом. Приложение запускается со следующими параметрами:

    tgnews languages source_dir
    tgnews news source_dir
    tgnews categories source_dir
    tgnews threads source_dir
    tgnews top source_dir

    где source_dir — путь до директории с HTML-файлами, содержащими тексты статей.

    Приложение не должно использовать сеть, должно иметь высокую скорость работы и использовать минимум внешних зависимостей.

    Для разработки участникам предлагаются два тестовых набора данных в формате HTML: 1, 2. В ходе конкурса будут периодически публиковаться дополнительные наборы данных. Проверка работ пройдёт на других наборах данных, в том числе с других доменов.

    Возможно, объявленный конкурс поможет найти и разработчиков, и кандидатов на позиции Content Recommendation Engineer для будущего агрегатора новостей в Telegram. В прошлый раз Павел Дуров упомянул, что зарплаты в его компании «несопоставимо выше, чем в Яндекс или Google», но это не должно стать главной мотивацией: «У нас есть шанс создать первый в истории интернета эффективный и свободный агрегатор новостей, — написал он. — Технология моментального просмотра новостей Instant View уже позволяет читать новости 6000 изданий по всему миру с любого устройства, а статистика их просмотров в каждой стране позволяет алгоритмически вычислять наиболее релевантный на данный момент контент. Рекомендации статей мы можем начать с блока Recommended Articles после прочтения каждой статьи в Telegram, постепенно выведя их в отдельный сервис с ежечасной подборкой и глобальным поиском по всем новостям мира. Параллельно с рекомендацией текстов мы займёмся и рекомендацией наиболее актуальных видеозаписей».
    AdBlock похитил этот баннер, но баннеры не зубы — отрастут

    Подробнее
    Реклама

    Комментарии 0

    Только полноправные пользователи могут оставлять комментарии. Войдите, пожалуйста.

    Самое читаемое