Python *

Высокоуровневый язык программирования

СтатьиПостыНовостиАвторыКомпании

snakers4 9 окт в 18:34

Мы решили задачу омографов и ударений в русском языке

Средний

10 мин

18K

Машинное обучение * Natural Language Processing * Python * Open source * Data Mining *

Обзор

Мы наконец решили задачу омографов. Конечно, с рядом оговорок, куда без них. Получилось пресловутое приключение на 20 минут.

Несмотря на кажущуюся простоту (задача по сути является бинарной классификацией, число кейсов с тремя валидными вариантами ничтожно мало), задача является просто кладезем различных "мин замедленного действия" и типичных граблей в сфере машинного обучения. Да, задачу "ёфикации" (расстановка буквы ё там, где люди её поленились поставить) мы считаем частным случаем задачи простановки ударений и омографов.

Также мы опубликовали наше продуктовое решение для простановки ударений (в омографах в том числе) в рамках репозитория silero-stress и также напрямую через pypi. В ближайшее время добавим эту модель и обновим наши публичные модели синтеза и раскатим более мощную "большую" (тоже маленькую по современным меркам) версию модели в приватные сервисы и для клиентов. Также мы опубликовали бенчмарки качества и скорости публичных академических решений … и там всё очень неоднозначно.

Наливайте себе чай, садитесь поудобнее. Мы постараемся описать наш путь длиной в вечность без лишних подробностей.

Сели, налили, читаем

+72

enamored_poc 9 окт в 13:36

Телеграмм бот на Python aiogram 3. Часть 2

Средний

10 мин

8.5K

Python *

Туториал

В этом уроке мы делаем нашего бота умнее и организованнее. Сначала наводим порядок в коде: разбираемся, что такое Роутеры, и выносим всю логику в отдельные файлы, как это делают профессионалы. Затем учим бота реагировать не только на текст, но и на фото и стикеры, используя мощные фильтры aiogram.