Pull to refresh
8
0

Пользователь

Send message

Сравнение систем распознавания русского языка 2024

Level of difficultyMedium
Reading time3 min
Views2.4K

После значительной паузы, опять пришло время обновить наше исследование (прошлое, позапрошлое) качества систем распознавания русского языка. Опять же, мы не думали, что добежим до этого момента и были удивлены результатами.

В этот раз ситуация такая:

Какая?
Total votes 14: ↑11 and ↓3+11
Comments15

Особенности фонетики якутского языка для синтеза речи

Level of difficultyMedium
Reading time6 min
Views6K

Недавно мы закончили проект по синтезу якутского языка. Хотя наши договорённости не позволяют выложить нам модели в общий доступ, какими-то соображениями на тему того, как можно делать синтез якутского языка мы поделиться можем.

Под котом катом вы узнаете:

Как звучит синтез на якутском языке;
Чем отличается якутский алфавит от русского и какие "дополнительные" звуки там есть;
Как работать с ударениями на якутском языке, с учетом полного отсутствия каких-либо корпусов или словарей;
И, в качестве бонуса, как якутский синтез речи говорит на русском с якутским акцентом;

Читать далее
Total votes 38: ↑37 and ↓1+45
Comments20

Всё, Телеграм теперь уподобился «плохим» корпорациям?

Level of difficultyEasy
Reading time4 min
Views69K

Вопреки ценностям, которыми бравировал Павел Дуров во время своего интервью Такеру Карлсону, некоторые администраторы крупных телеграм-ботов (~сотни тысяч DAU) буквально только что получили вот такое сообщение:

Читать сообщение
Total votes 54: ↑25 and ↓29+4
Comments213

Играемся с RTX 5000 Ada (AD103): первые впечатления

Level of difficultyMedium
Reading time6 min
Views17K

Майнинг и использование для майнинга в этой статье не обсуждается.

У меня есть пара старых статей (про A100, и про 3090 и A10) и также вот есть тоже старое, но всё еще неплохое и актуальное сравнение карточек для расчетов от Selectel. С тех пор прошло примерно два года и пора написать что-то новенькое и попробовать новые ускорители для расчетов. Да, это всё ещё статья про карточку Nvidia, не AMD и не Intel, и не про китайцев и какие-то модные большие чипы, увы.

С тех пор появились новые карточки уже аж двух новых поколений - Ada Lovelace и Hopper. При этом Hopper вроде как должны были прийти на замену очень удачному поколению Ampere (это древняя традиция Nvidia - за супер успешным поколением следует менее удачное), но не пришли. Но возможно из-за торговых войн с Китаем карточки поколения Hopper стали выдавать только нужным вендорам и в виде собранных систем и при этом запретили экспорт в Китай.

В этой статьей мы разберем первые впечатления от карточки NVIDIA RTX 5000 Ada Generation (AD103), но начнем с небольшой дозы юмора.

Давайте разбираться!
Total votes 8: ↑7 and ↓1+11
Comments11

Что почитать — интеллектуальная твёрдая научная фантастика в нашем культурном поле?

Level of difficultyMedium
Reading time4 min
Views23K

Я люблю научную фантастику, и особенно "твёрдую". На ней можно сказать, я вырос. В течение последних нескольких лет моя хорошая знакомая упоминала, что пишет книгу. Ну пишет и пишет. Дописала, и оказалось, тоже SciFi. Тоже "твердая", но с некоторыми допущениями.

Я боялся, что книга мне не понравится, и придется заниматься вербальной эквилибристикой. Но книга мне очень понравилась и я хочу вам рассказать о ней. Я впоследствии даже приложил к ней руку во время первой вычитки, до передачи на редактуру и корректуру.

На Хабре выходила статья про создание иллюстраций к книге, а эта статья будет про саму книгу.

И почему понравилась?
Total votes 14: ↑8 and ↓6+4
Comments72

Правда ли то, что национальный корпус русского языка «приватизирован» Яндексом?

Level of difficultyEasy
Reading time7 min
Views24K

Где-то неделю назад на Хабре увидел тезис другого автора о том, что мол НКРЯ поддерживается на бюджетные средства, но де-факто контролируется компанией Яндекс, которая ведёт себя как собака на сене и де-факто приватизировала корпус и никому его не даёт. Такое же примерно мнение слышал от людей, обозревающих интернет-тематику, мол национализация убытков, приватизация прибылей.

Статья не очень резонансная (и немного на другую тему) и по сути про неё все бы забыли на следующий день, но есть один нюанс. Почему-то разработчики корпуса даже появились в комментариях этой статьи. Я ответил на комментарий. И потом они появились уже в нашем уютном чатике в Телеграме, но уже с критикой моего комментария. Хм, с чего бы это? Два юзера на Хабре согласились с чем-то в комментариях (эка невидаль!), небожители обычно на такое не реагируют.

У меня сейчас довольно мало понимания, что там вообще происходит, но думаю довольно яркая позиция менеджмента и менеджеров высшего звена Яндекса всем вам известна, не будем ее дублировать, чтобы не нарушать правила Хабра (и прошу быть сдержанным в комментариях). Интерес представляют 3 вопроса. Кто там реально на сене? Кто всё-таки может получить доступ к НКРЯ? И последний, дискуссионный вопрос, а как правильно?

Давайте разберемся!
Total votes 124: ↑117 and ↓7+140
Comments70

Городская фотоохота

Level of difficultyEasy
Reading time10 min
Views17K


Наверное, вы, как и я, узнали о фотоохоте из мультика «Простоквашино». Идея фоторужья вызвала у меня восторг. Эта штука, словно сплав двух несовместимых вещей, соединяет эргономику оружия и несмертоносность фотокамеры.

В этой статье я хочу рассказать о своём опыте съёмки кошек и птиц, обитающих в черте города, и их повадках. О том, как можно снимать на доступное «железо», и об особенностях фототехники, которые помогут вам запечатлеть яркие моменты.

Моя цель — популяризировать городскую фотоохоту как подходящий почти всем способ полезного досуга, задействующий нашу эволюционную черту: потребность в выслеживании добычи. Заранее соглашусь с возразившими — утверждение спорное, но, мне кажется, так можно объяснить популярность рыбалки, командных видов спорта и компьютерных шутеров.

Внимание, в статье внушительное количество фотографий объёмом около 60 мегабайт!
Смотреть котиков!
Total votes 97: ↑93 and ↓4+112
Comments158

Теперь популярный авторский контент на Хабре пишут школьники с соответствующим результатом?

Level of difficultyEasy
Reading time4 min
Views32K

Ни для кого не секрет, что отношение шума к сигналу на Хабре неуклонно растет (в рассылке я лично вижу в основном 3 типа статей - популизм про AI, корпоративная реклама и желтые "жжёные" статьи про рынок IT). Многие "настоящие" авторы уходят с Хабра потому, что просто качественный технический контент может пройти незамеченным, а как показала практика пользователи, создающие уникальный авторский контент, могут быть не всегда или не во всём равны с корпорациями, создающими выручку. Про политику говорить не буду, но и тут есть причины.

Логично, что как и на любом "выжившем" ресурсе создавшийся вакуум заполнят авторы с пониженным уровнем критического мышления или ответственности (мы это кстати ярко видим на Пикабу, после отмены "минусов"). Зачем же я пишу эту статью? Совсем недавно на Хабре вышла статья, и судя ее оценкам, публике она зашла.

В статье сравнивались разные системы синтеза речи, в частности публичная версия нашего синтеза речи и решения гига-корпораций. Мнение автора просуммирую точной цитатой: "Даже на таком небольшом тесте мы видим, как отстает силеро. … Конечно, такое небольшое сравнение не сможет показать всей картины, но мы уже видим примерное качество. …  Я не питаю к Silerо tts никакого негатива, но после слов про 100% решения ударений в этой статье, и убедившись в обратном на основании результатов теста, слегка разочарован."

И вы спросите что с этим не так? Человек бесплатно прорекламировал нас в одном ряду с компаниями, кто проинвестировал в свои решения на 2-3 порядка больше денег. Но есть один нюанс.

И какой же нюанс?
Total votes 130: ↑74 and ↓56+33
Comments158

Раскладываем по полочкам тезисы из видео «Из голоса банка — в фильмы 18+»

Level of difficultyMedium
Reading time10 min
Views19K

Вчера мне в личку несколько десятков раз прислали это видео с просьбой прокомментировать. Чтобы повторно не отвечать всем в чатиках, запилил эту статью. Это видео дальше пошло в спортлото на Пикабу и DTF. На обеих площадках есть интересные комментарии, причем на DTF как мне кажется люди были ближе к истине.

Сначала кратенько адресуем целенаправленно эмоциональную подачу материала. Как правило, это один из стандартных приёмов, когда некая "заряженная" информация подается в максимально популистском информационном ключе "в пользу бедных" (или его вариация, "подумайте о детях"), а на самом деле реальные причины / логика / принципы работы ML-моделей игнорируются. Как правило такие процессы возникают не на пустом месте, а во время неких тектонических сдвигов в технологии и индустрии.

Видео длинное, я выделил из него ключевые тезисы. На каждый тезис я дам свой комментарий, а потом приведу свою гипотезу о реальных первопричинах появления этого видео.

К тезисам!
Total votes 58: ↑45 and ↓13+35
Comments266

Теперь наш синтез на 22 языках с кириллицей и ещё в 4 раза быстрее

Level of difficultyMedium
Reading time4 min
Views6.1K


Источник карты — Проект «Языки России» Институт языкознания РАН, 2021 год

Давненько мы не выпускали новых статей про наш синтез речи! В прошлый раз мы добавили синтез на 9 языках народов Индии, существенно улучшили автоматическую простановку ударений, добавили 1 русский голос и "наследовали" SSML для всех моделей.


В этот раз мы сделали следующее:


  • Ускорили все v4 модели в 3-4 раза;
  • Существенно повысили качество синтеза в 8 kHz;
  • Обновили и пересобрали нашу модель для русского языка;
  • Обновили модель для 9 языков народов Индии с 17 голосами;
  • Добавили единую модель для 22 языков с кириллическим алфавитом с 31 голосом;
  • Прекратили поддержку моделей романо-германских языков (старые модели будут доступны для скачивания без изменений);
  • Обновили модели для языков народов СНГ: узбекского и украинского (татарский и калмыцкий были "поглощены" единой моделью);
Читать дальше →
Total votes 32: ↑32 and ↓0+32
Comments15

Собака лает — ветер носит, или решил ли Bark синтез речи?

Level of difficultyMedium
Reading time6 min
Views6.3K

Время от времени мне в личку присылают посты с телеграм-каналов, специализирующихся на "ИИ" хайпе. Обычно такие посты сопровождаются весьма сомнительного качества журналистикой, мол задача X теперь уже решена и мы были облагодетельствованы.

В этот раз мне прислали ссылку на репозиторий Bark, который является некой интерпретацией статьи VALL-E от известной корпорации добра. В частности их репозиторий обещает:

Синтез на всех популярных языках от английского до китайского;

Возможность GPT-style управления выдаваемым аудио;

Возможность дикторов "говорить" на иностранных языках;

Войс-клонинг "этичненько" залочен;

Всё это в высоком качестве как у современного нейросетевого синтеза и в "риалтайме", с моделями "более 100M параметров";

Давайте разберемся так ли это.

Давайте!
Total votes 23: ↑23 and ↓0+23
Comments7

Асинхронный python без головной боли (часть 2)

Reading time9 min
Views61K

Продолжаем вкусно готовить asyncio

Теперь мы уже знаем достаточно, чтобы написать модный асинхронный микросервис, реализующий паттерн "API-шлюз". И попутно познакомимся с асинхронным логгированием и доступом к базе данных.

Выпей меня
Total votes 11: ↑10 and ↓1+11
Comments17

Асинхронный python без головной боли (часть 1)

Reading time14 min
Views308K

Почему так сложно понять asyncio?

Асинхронное программирование традиционно относят к темам для "продвинутых". Действительно, у новичков часто возникают сложности с практическим освоением асинхронности.

Но будь я автором самого толстого в мире учебника по python, я бы рассказывал читателям про асинхронное программирование уже с первых страниц. Вот только написали "Hello, world!" и тут же приступили к созданию "Hello, asynchronous world!". А уже потом циклы, условия и все такое.

Съешь красную таблетку
Total votes 135: ↑135 and ↓0+135
Comments58

OpenAI решили распознавание речи! Разбираемся так ли это…

Reading time7 min
Views13K

Вчера OpenAI выпустили Whisper. По сути они просто опубликовали веса набора больших (и не очень) рекуррентных трансформеров для распознавания речи и статью (и самое главное, в статье ни слова про compute и ресурсы). И естественно уже вчера и сегодня утром мне в личку начали сыпаться сообщения, мол всё, распознавание речи решено, все идеально классно и быстро работает, расходимся.

Постараемся разобраться под катом. Короткий ответ, если вам лень читать - для языков, кроме английского, скорее всего это далеко от правды (проверил я на русском). На английском наверное стоит сделать отдельный и чуть более подробный разбор, если эта статья наберет хотя бы 50 плюсов.

Итак, поехали!
Total votes 35: ↑27 and ↓8+22
Comments20

Теперь наш синтез на 20 языках

Reading time7 min
Views13K

hero_image


В нашей прошлой статье мы ускорили наши модели в 10 раз, добавили новые высококачественные голоса и управление с помощью SSML, возможность генерировать аудио с разной частотой дискретизации и много других фишек.


В этот раз мы добавили:


  • 1 высококачественный голос на русском языке (eugeny);
  • Синтез на 20 языках, 174 голоса;
  • В список языков входят 5 языков народов СНГ: калмыцкий, русский, татарский, узбекский и украинский;
  • В список языков входят 5 вариаций на тему романо-германских языков: английский, индийский английский, испанский, немецкий, французский;
  • Также в список языков входят 10 языков народов Индии;
  • Новую значительно улучшенную модель для простановки ударений и буквы ё со словарем в 4 миллиона слов и точностью 100% (но естественно с рядом оговорок);
  • Все модели наследуют все "фишки" прошлого релиза, кроме автоматической простановки ударений для языков отличных от русского;

Пока улучшение интерфейсов мы отложили на некоторое время. Ускорить модели еще в 3+ раза мы тоже смогли, но пока с потерей качества, что не позволило нам обновить их прямо в этом релизе.


Попробовать модель как обычно можно в нашем репозитории и в колабе.

Читать дальше →
Total votes 51: ↑49 and ↓2+61
Comments24

Теперь наш публичный синтез в супер-высоком качестве, в 10 раз быстрее и без детских болячек

Reading time8 min
Views51K

hero_image


В нашей прошлой статье про синтез речи мы дали много обещаний: убрать детские болячки, радикально ускорить синтез еще в 10 раз, добавить новые "фишечки", радикально улучшить качество.


Сейчас, вложив огромное количество работы, мы наконец готовы поделиться с сообществом своими успехами:


  • Снизили размер модели в 2 раза;
  • Научили наши модели делать паузы;
  • Добавили один высококачественный голос (и бесконечное число случайных);
  • Ускорили наши модели где-то примерно в 10 раз (!);
  • Упаковали всех спикеров одного языка в одну модель;
  • Наши модели теперь могут принимать на вход даже целые абзацы текста;
  • Добавили функции контроля скорости и высоты речи через SSML;
  • Наш синтез работает сразу в трех частотах дискретизации на выбор — 8, 24 и 48 килогерц;
  • Решили детские проблемы наших моделей: нестабильность и пропуск слов, и добавили флаги для контроля ударения;

Это по-настоящему уникальное и прорывное достижение и мы не собираемся останавливаться. В ближайшее время мы добавим большое количество моделей на разных языках и напишем целый ряд публикаций на эту и смежные темы, а также продолжим делать наши модели лучше (например, еще в 2-5 раз быстрее).


Попробовать модель как обычно можно в нашем репозитории и в колабе.

Читать дальше →
Total votes 130: ↑129 and ↓1+156
Comments101

А ты используешь VAD? Что это такое и зачем он нужен

Reading time5 min
Views14K

Очень часто при работе мы обращаем внимание на то, что все люди знают, что такое распознавание речи, но не знают, что такое Voice Activity Detector (VAD) или детектор речи. А ведь именно VAD на самом деле самый важный алгоритм при работе с речью людей в естественной среде обитания.


Как ни странно, если поискать поддерживаемые и высококачественные решения данной задачи в публичном доступе — найдутся буквально пара проектов достаточного уровня. Но вот незадача — академические решения тяжелы (и иногда работают запретительно долго) и зачастую принимают только целые аудио на вход (нельзя использовать потоково). Решение от Google (WebRTC) очень быстрое но плохо отличает речь от шума (но его можно использовать потоково). А некоторые коммерческие решения "привязаны" к личному кабинету и шлют какую-то телеметрию.


Мы решили исправить это недоразумение и сделать уникальный VAD мирового уровня (судите сами по метрикам), который работает на 1 ядре процессора с задержкой в 1 миллисекунду на кусочках аудио от 30 миллисекунд. В этой статье мы расскажем вам, что такое VAD, покажем на примерах как использовать его и наглядно потестировать на своем голосе.

Читать дальше →
Total votes 22: ↑22 and ↓0+22
Comments6

Telegram-бот Silero бесплатно переводит речь в текст

Reading time3 min
Views161K

header


Мы сделали бесплатного телеграм-бота, который переводит аудио в текст. В отличие от нашего бесплатного публичного решения для транскрибации длинных аудио, этот бот скорее настроен для удобства работы с короткими голосовыми сообщениями, заметками и аудио средней длины (несколько минут).


Боту можно послать аудио как напрямую, так и добавить в группу. В группе бот будет реагировать на все аудиофайлы (но сообщения об ошибках выводиться не будут). Более подробно об ограничениях и особенностях работы можно узнать в методах /help и /faq.


Основная UX фишка работы бота — проработанный и удобный формат чтения и навигации по распознанным сообщениям и заметкам (а не стена текста).

попробовать
Total votes 40: ↑39 and ↓1+49
Comments56

Синтезируем голос бабушки, дедушки и Ленина + новости нашего публичного синтеза

Reading time9 min
Views16K


На Хабре часто висят в топе: политика и очередные запреты, трактор, ну и конечно сенсационные новости про "очередные достижения AI". Также журналисты маркетологи любят перепечатывать нормальные статьи наподобие этой но под максимально кричащими заголовками в духе "AI поработит мир, ваш голос уже украли".


Не секрет, что имея бюджет на вычисления в единицы или десятки миллионов долларов, напоказ достичь можно многого. Но реальность как правило оказывается более сложной и прозаической.


Вопреки этому тренду, в этой статье мы постараемся на пальцах и близко к народу:


  • На реальных примерах показать возможности генерации голоса на малом числе данных или на данных с неидеальным качеством;
  • Немного порассуждать на тему цифровых памятников (это чем-то похоже на интерактивные или трехмерные фотографии), сделанных из голоса человека;
  • Также немного порассуждать на тему того, какую объективную опасность это представляет для общества;

И также мы конечно поделимся новостями нашего публичного синтеза речи.

Читать дальше →
Total votes 19: ↑19 and ↓0+19
Comments21
1

Information

Rating
Does not participate
Registered
Activity