Articles / Bookmarks / Profile of Islanna / Habr

@Islanna

Пользователь

Profile Publications 1Comments 3Bookmarks 27

snakers4 Oct 17 at 07:00

Сравнение систем распознавания русского языка 2024

Medium

3 min

2.4K

Machine learning*Artificial IntelligenceVoice user interfaces*Yandex API*

Analytics

После значительной паузы, опять пришло время обновить наше исследование (прошлое, позапрошлое) качества систем распознавания русского языка. Опять же, мы не думали, что добежим до этого момента и были удивлены результатами.

В этот раз ситуация такая:

Какая?

+11

snakers4 Aug 20 at 19:44

Особенности фонетики якутского языка для синтеза речи

Medium

6 min

Machine learning*Artificial IntelligenceLearning languagesNatural Language Processing*Voice user interfaces*

Case

Недавно мы закончили проект по синтезу якутского языка. Хотя наши договорённости не позволяют выложить нам модели в общий доступ, какими-то соображениями на тему того, как можно делать синтез якутского языка мы поделиться можем.

Под ~~котом~~ катом вы узнаете:

Как звучит синтез на якутском языке;
Чем отличается якутский алфавит от русского и какие "дополнительные" звуки там есть;
Как работать с ударениями на якутском языке, с учетом полного отсутствия каких-либо корпусов или словарей;
И, в качестве бонуса, как якутский синтез речи говорит на русском с якутским акцентом;

+45

snakers4 May 22 at 22:29

Всё, Телеграм теперь уподобился «плохим» корпорациям?

Easy

4 min

69K

Instant Messaging*API*Community management*Product Management*Social networks and communities

Case

Вопреки ценностям, которыми бравировал Павел Дуров во время своего интервью Такеру Карлсону, некоторые администраторы крупных телеграм-ботов (~сотни тысяч DAU) буквально только что получили вот такое сообщение:

Читать сообщение

213

snakers4 Jan 28 at 15:23

Играемся с RTX 5000 Ada (AD103): первые впечатления

Medium

6 min

17K

Machine learning*Computer hardwareArtificial IntelligenceVideo cards

Review

Майнинг и использование для майнинга в этой статье не обсуждается.

У меня есть пара старых статей (про A100, и про 3090 и A10) и также вот есть тоже старое, но всё еще неплохое и актуальное сравнение карточек для расчетов от Selectel. С тех пор прошло примерно два года и пора написать что-то новенькое и попробовать новые ускорители для расчетов. Да, это всё ещё статья про карточку Nvidia, не AMD и не Intel, и не про китайцев и какие-то модные большие чипы, увы.

С тех пор появились новые карточки уже аж двух новых поколений - Ada Lovelace и Hopper. При этом Hopper вроде как должны были прийти на замену очень удачному поколению Ampere (это древняя традиция Nvidia - за супер успешным поколением следует менее удачное), но не пришли. Но возможно из-за торговых войн с Китаем карточки поколения Hopper стали выдавать только нужным вендорам и в виде собранных систем и при этом запретили экспорт в Китай.

В этой статьей мы разберем первые впечатления от карточки NVIDIA RTX 5000 Ada Generation (AD103), но начнем с небольшой дозы юмора.

Давайте разбираться!

+11

snakers4 Dec 19 2023 at 15:31

Что почитать — интеллектуальная твёрдая научная фантастика в нашем культурном поле?

Medium

4 min

23K

Reading roomCyberpunkPopular scienceScience fiction

Review

Я люблю научную фантастику, и особенно "твёрдую". На ней можно сказать, я вырос. В течение последних нескольких лет моя хорошая знакомая упоминала, что пишет книгу. Ну пишет и пишет. Дописала, и оказалось, тоже SciFi. Тоже "твердая", но с некоторыми допущениями.

Я боялся, что книга мне не понравится, и придется заниматься вербальной эквилибристикой. Но книга мне очень понравилась и я хочу вам рассказать о ней. Я впоследствии даже приложил к ней руку во время первой вычитки, до передачи на редактуру и корректуру.

На Хабре выходила статья про создание иллюстраций к книге, а эта статья будет про саму книгу.

И почему понравилась?

snakers4 Oct 20 2023 at 08:55

Правда ли то, что национальный корпус русского языка «приватизирован» Яндексом?

Easy

7 min

24K

Open data*Machine learning*IT-companiesNatural Language Processing*

Где-то неделю назад на Хабре увидел тезис другого автора о том, что мол НКРЯ поддерживается на бюджетные средства, но де-факто контролируется компанией Яндекс, которая ведёт себя как собака на сене и де-факто приватизировала корпус и никому его не даёт. Такое же примерно мнение слышал от людей, обозревающих интернет-тематику, мол национализация убытков, приватизация прибылей.

Статья не очень резонансная (и немного на другую тему) и по сути про неё все бы забыли на следующий день, но есть один нюанс. Почему-то разработчики корпуса даже появились в комментариях этой статьи. Я ответил на комментарий. И потом они появились уже в нашем уютном чатике в Телеграме, но уже с критикой моего комментария. Хм, с чего бы это? Два юзера на Хабре согласились с чем-то в комментариях (эка невидаль!), небожители обычно на такое не реагируют.

У меня сейчас довольно мало понимания, что там вообще происходит, но думаю довольно яркая позиция менеджмента и менеджеров высшего звена Яндекса всем вам известна, не будем ее дублировать, чтобы не нарушать правила Хабра (и прошу быть сдержанным в комментариях). Интерес представляют 3 вопроса. Кто там реально на сене? Кто всё-таки может получить доступ к НКРЯ? И последний, дискуссионный вопрос, а как правильно?

Давайте разберемся!

+140

engine9 Jun 20 2023 at 12:00

Городская фотоохота

Easy

10 min

17K

RUVDS.com corporate blogDIYPhotographic equipment

Opinion

Наверное, вы, как и я, узнали о фотоохоте из мультика «Простоквашино». Идея фоторужья вызвала у меня восторг. Эта штука, словно сплав двух несовместимых вещей, соединяет эргономику оружия и несмертоносность фотокамеры.

В этой статье я хочу рассказать о своём опыте съёмки кошек и птиц, обитающих в черте города, и их повадках. О том, как можно снимать на доступное «железо», и об особенностях фототехники, которые помогут вам запечатлеть яркие моменты.

Моя цель — популяризировать городскую фотоохоту как подходящий почти всем способ полезного досуга, задействующий нашу эволюционную черту: потребность в выслеживании добычи. Заранее соглашусь с возразившими — утверждение спорное, но, мне кажется, так можно объяснить популярность рыбалки, командных видов спорта и компьютерных шутеров.

Внимание, в статье внушительное количество фотографий объёмом около 60 мегабайт!

Смотреть котиков!

+112

158

snakers4 Oct 19 2023 at 06:56

Теперь популярный авторский контент на Хабре пишут школьники с соответствующим результатом?

Easy

4 min

32K

Open source*Machine learning*Community management*Natural Language Processing*

Ни для кого не секрет, что отношение шума к сигналу на Хабре неуклонно растет (в рассылке я лично вижу в основном 3 типа статей - популизм про AI, корпоративная реклама и желтые "жжёные" статьи про рынок IT). Многие "настоящие" авторы уходят с Хабра потому, что просто качественный технический контент может пройти незамеченным, а как показала практика пользователи, создающие уникальный авторский контент, могут быть не всегда или не во всём равны с корпорациями, создающими выручку. Про политику говорить не буду, но и тут есть причины.

Логично, что как и на любом "выжившем" ресурсе создавшийся вакуум заполнят авторы с пониженным уровнем критического мышления или ответственности (мы это кстати ярко видим на Пикабу, после отмены "минусов"). Зачем же я пишу эту статью? Совсем недавно на Хабре вышла статья, и судя ее оценкам, публике она зашла.

В статье сравнивались разные системы синтеза речи, в частности публичная версия нашего синтеза речи и решения гига-корпораций. Мнение автора просуммирую точной цитатой: "Даже на таком небольшом тесте мы видим, как отстает силеро. … Конечно, такое небольшое сравнение не сможет показать всей картины, но мы уже видим примерное качество. … Я не питаю к Silerо tts никакого негатива, но после слов про 100% решения ударений в этой статье, и убедившись в обратном на основании результатов теста, слегка разочарован."

И вы спросите что с этим не так? Человек бесплатно прорекламировал нас в одном ряду с компаниями, кто проинвестировал в свои решения на 2-3 порядка больше денег. Но есть один нюанс.

И какой же нюанс?

+33

158

snakers4 Sep 1 2023 at 11:25

Раскладываем по полочкам тезисы из видео «Из голоса банка — в фильмы 18+»

Medium

10 min

19K

IT-companiesThe future is hereSoundLegislation in ITMachine learning*

Opinion

Вчера мне в личку несколько десятков раз прислали это видео с просьбой прокомментировать. Чтобы повторно не отвечать всем в чатиках, запилил эту статью. Это видео дальше пошло ~~в спортлото~~ на Пикабу и DTF. На обеих площадках есть интересные комментарии, причем на DTF как мне кажется люди были ближе к истине.

Сначала кратенько адресуем целенаправленно эмоциональную подачу материала. Как правило, это один из стандартных приёмов, когда некая "заряженная" информация подается в максимально популистском информационном ключе "в пользу бедных" (или его вариация, "подумайте о детях"), а на самом деле реальные причины / логика / принципы работы ML-моделей игнорируются. Как правило такие процессы возникают не на пустом месте, а во время неких тектонических сдвигов в технологии и индустрии.

Видео длинное, я выделил из него ключевые тезисы. На каждый тезис я дам свой комментарий, а потом приведу свою гипотезу о реальных первопричинах появления этого видео.

К тезисам!

+35

266

snakers4 Aug 17 2023 at 12:38

Теперь наш синтез на 22 языках с кириллицей и ещё в 4 раза быстрее

Medium

4 min

6.1K

Natural Language Processing*Voice user interfaces*SoundMachine learning*

Источник карты — Проект «Языки России» Институт языкознания РАН, 2021 год

Давненько мы не выпускали новых статей про наш синтез речи! В прошлый раз мы добавили синтез на 9 языках народов Индии, существенно улучшили автоматическую простановку ударений, добавили 1 русский голос и "наследовали" SSML для всех моделей.

В этот раз мы сделали следующее:

Ускорили все v4 модели в 3-4 раза;
Существенно повысили качество синтеза в 8 kHz;
Обновили и пересобрали нашу модель для русского языка;
Обновили модель для 9 языков народов Индии с 17 голосами;
Добавили единую модель для 22 языков с кириллическим алфавитом с 31 голосом;
Прекратили поддержку моделей романо-германских языков (старые модели будут доступны для скачивания без изменений);
Обновили модели для языков народов СНГ: узбекского и украинского (татарский и калмыцкий были "поглощены" единой моделью);

Читать дальше →

+32

snakers4 Apr 25 2023 at 11:30

Собака лает — ветер носит, или решил ли Bark синтез речи?

Medium

6 min

6.3K

Artificial IntelligenceVoice user interfaces*Machine learning*

Analytics

Время от времени мне в личку присылают посты с телеграм-каналов, специализирующихся на "ИИ" хайпе. Обычно такие посты сопровождаются весьма сомнительного качества журналистикой, мол задача X теперь уже решена и мы были облагодетельствованы.

В этот раз мне прислали ссылку на репозиторий Bark, который является некой интерпретацией статьи VALL-E от известной корпорации добра. В частности их репозиторий обещает:

• Синтез на всех популярных языках от английского до китайского;

• Возможность GPT-style управления выдаваемым аудио;

• Возможность дикторов "говорить" на иностранных языках;

• Войс-клонинг "этичненько" залочен;

• Всё это в высоком качестве как у современного нейросетевого синтеза и в "риалтайме", с моделями "более 100M параметров";

Давайте разберемся так ли это.

Давайте!

+23

vlakir Jun 16 2022 at 17:34

Асинхронный python без головной боли (часть 2)

9 min

61K

Python*Programming*

Tutorial

Продолжаем вкусно готовить asyncio

Теперь мы уже знаем достаточно, чтобы написать модный асинхронный микросервис, реализующий паттерн "API-шлюз". И попутно познакомимся с асинхронным логгированием и доступом к базе данных.

Выпей меня

+11

vlakir May 24 2022 at 22:59

Асинхронный python без головной боли (часть 1)

14 min

308K

Python*Programming*

Tutorial

Почему так сложно понять asyncio?

Асинхронное программирование традиционно относят к темам для "продвинутых". Действительно, у новичков часто возникают сложности с практическим освоением асинхронности.

Но будь я автором самого толстого в мире учебника по python, я бы рассказывал читателям про асинхронное программирование уже с первых страниц. Вот только написали "Hello, world!" и тут же приступили к созданию "Hello, asynchronous world!". А уже потом циклы, условия и все такое.

Съешь красную таблетку

+135

snakers4 Sep 22 2022 at 11:54

OpenAI решили распознавание речи! Разбираемся так ли это…

7 min

13K

Machine learning*Artificial IntelligenceNatural Language Processing*

Вчера OpenAI выпустили Whisper. По сути они просто опубликовали веса набора больших (и не очень) рекуррентных трансформеров для распознавания речи и статью (и самое главное, в статье ни слова про compute и ресурсы). И естественно уже вчера и сегодня утром мне в личку начали сыпаться сообщения, мол всё, распознавание речи решено, все идеально классно и быстро работает, расходимся.

Постараемся разобраться под катом. Короткий ответ, если вам лень читать - для языков, кроме английского, скорее всего это далеко от правды (проверил я на русском). На английском наверное стоит сделать отдельный и чуть более подробный разбор, если эта статья наберет хотя бы 50 плюсов.

Итак, поехали!

+22

snakers4 Jun 6 2022 at 20:35

Теперь наш синтез на 20 языках

7 min

13K

Machine learning*SoundVoice user interfaces*Natural Language Processing*DIY

Technotext Winner 2022

hero_image

В нашей прошлой статье мы ускорили наши модели в 10 раз, добавили новые высококачественные голоса и управление с помощью SSML, возможность генерировать аудио с разной частотой дискретизации и много других фишек.

В этот раз мы добавили:

1 высококачественный голос на русском языке (eugeny);
Синтез на 20 языках, 174 голоса;
В список языков входят 5 языков народов СНГ: калмыцкий, русский, татарский, узбекский и украинский;
В список языков входят 5 вариаций на тему романо-германских языков: английский, индийский английский, испанский, немецкий, французский;
Также в список языков входят 10 языков народов Индии;
Новую значительно улучшенную модель для простановки ударений и буквы ё со словарем в 4 миллиона слов и точностью 100% (но естественно с рядом оговорок);
Все модели наследуют все "фишки" прошлого релиза, кроме автоматической простановки ударений для языков отличных от русского;

Пока улучшение интерфейсов мы отложили на некоторое время. Ускорить модели еще в 3+ раза мы тоже смогли, но пока с потерей качества, что не позволило нам обновить их прямо в этом релизе.

Попробовать модель как обычно можно в нашем репозитории и в колабе.

Читать дальше →

+61

snakers4 Apr 12 2022 at 20:58

Теперь наш публичный синтез в супер-высоком качестве, в 10 раз быстрее и без детских болячек

8 min

51K

Machine learning*SoundVoice user interfaces*Natural Language Processing*DIY

hero_image

В нашей прошлой статье про синтез речи мы дали много обещаний: убрать детские болячки, радикально ускорить синтез еще в 10 раз, добавить новые "фишечки", радикально улучшить качество.

Сейчас, вложив огромное количество работы, мы наконец готовы поделиться с сообществом своими успехами:

Снизили размер модели в 2 раза;
Научили наши модели делать паузы;
Добавили один высококачественный голос (и бесконечное число случайных);
Ускорили наши модели где-то примерно в 10 раз (!);
Упаковали всех спикеров одного языка в одну модель;
Наши модели теперь могут принимать на вход даже целые абзацы текста;
Добавили функции контроля скорости и высоты речи через SSML;
Наш синтез работает сразу в трех частотах дискретизации на выбор — 8, 24 и 48 килогерц;
Решили детские проблемы наших моделей: нестабильность и пропуск слов, и добавили флаги для контроля ударения;

Это по-настоящему уникальное и прорывное достижение и мы не собираемся останавливаться. В ближайшее время мы добавим большое количество моделей на разных языках и напишем целый ряд публикаций на эту и смежные темы, а также продолжим делать наши модели лучше (например, еще в 2-5 раз быстрее).

Попробовать модель как обычно можно в нашем репозитории и в колабе.

Читать дальше →

+156

101

adamnsandle Dec 10 2021 at 15:32

А ты используешь VAD? Что это такое и зачем он нужен

5 min

14K

Python*Voice user interfaces*Artificial IntelligenceMachine learning*

Очень часто при работе мы обращаем внимание на то, что все люди знают, что такое распознавание речи, но не знают, что такое Voice Activity Detector (VAD) или детектор речи. А ведь именно VAD на самом деле самый важный алгоритм при работе с речью людей в естественной среде обитания.

Как ни странно, если поискать поддерживаемые и высококачественные решения данной задачи в публичном доступе — найдутся буквально пара проектов достаточного уровня. Но вот незадача — академические решения тяжелы (и иногда работают запретительно долго) и зачастую принимают только целые аудио на вход (нельзя использовать потоково). Решение от Google (WebRTC) очень быстрое но плохо отличает речь от шума (но его можно использовать потоково). А некоторые коммерческие решения "привязаны" к личному кабинету и шлют какую-то телеметрию.

Мы решили исправить это недоразумение и сделать уникальный VAD мирового уровня (судите сами по метрикам), который работает на 1 ядре процессора с задержкой в 1 миллисекунду на кусочках аудио от 30 миллисекунд. В этой статье мы расскажем вам, что такое VAD, покажем на примерах как использовать его и наглядно потестировать на своем голосе.

Читать дальше →

+22

snakers4 Nov 25 2021 at 15:40

Telegram-бот Silero бесплатно переводит речь в текст

3 min

161K

Voice user interfaces*Artificial IntelligenceMachine learning*Instant Messaging*Start-up development

header

Мы сделали бесплатного телеграм-бота, который переводит аудио в текст. В отличие от нашего бесплатного публичного решения для транскрибации длинных аудио, этот бот скорее настроен для удобства работы с короткими голосовыми сообщениями, заметками и аудио средней длины (несколько минут).

Боту можно послать аудио как напрямую, так и добавить в группу. В группе бот будет реагировать на все аудиофайлы (но сообщения об ошибках выводиться не будут). Более подробно об ограничениях и особенностях работы можно узнать в методах /help и /faq.

Основная UX фишка работы бота — проработанный и удобный формат чтения и навигации по распознанным сообщениям и заметкам (а не стена текста).

попробовать

+49

nurtdinovadf Nov 5 2021 at 16:50

Бесплатное распознавание речи для всех желающих

3 min

18K

Start-up developmentMachine learning*SoundVoice user interfaces*Natural Language Processing*

Читать дальше →

+20

snakers4 Oct 21 2021 at 13:55

Синтезируем голос бабушки, дедушки и Ленина + новости нашего публичного синтеза

9 min

16K

Natural Language Processing*SoundMachine learning*Start-up development

На Хабре часто висят в топе: политика и очередные запреты, трактор, ну и конечно сенсационные новости про "очередные достижения AI". Также ~~журналисты~~ маркетологи любят перепечатывать нормальные статьи наподобие этой но под максимально кричащими заголовками в духе "AI поработит мир, ваш голос уже украли".

Не секрет, что имея бюджет на вычисления в единицы или десятки миллионов долларов, напоказ достичь можно многого. Но реальность как правило оказывается более сложной и прозаической.

Вопреки этому тренду, в этой статье мы постараемся на пальцах и близко к народу:

На реальных примерах показать возможности генерации голоса на малом числе данных или на данных с неидеальным качеством;
Немного порассуждать на тему цифровых памятников (это чем-то похоже на интерактивные или трехмерные фотографии), сделанных из голоса человека;
Также немного порассуждать на тему того, какую объективную опасность это представляет для общества;

И также мы конечно поделимся новостями нашего публичного синтеза речи.

Читать дальше →

+19