Pull to refresh
336
40
Alexander Veysov@snakers4

Machine Learning / Data Science

Send message

Как изучать китайский язык / 怎样学习汉语? Пошаговая инструкция

Level of difficultyEasy
Reading time2 min
Reach and readers171K

Не секрет, что китайский язык считается сложным для носителей европейских языков. Но сам язык как ни странно не очень сложный. В нем, например, существительные и прилагательные не изменяются по родам, числам и падежам, а глаголы не спрягаются. Сложность составляют письменность и определенный уровень культурной изоляции.

В этой короткой статье я опишу алгоритм буквально на 1 тетрадную страничку, как реально и без особых проблем систематически изучать китайский язык. Единственное, что надо будет приложить - это свои усилия.

И как же?

Правда ли то, что национальный корпус русского языка «приватизирован» Яндексом?

Level of difficultyEasy
Reading time7 min
Reach and readers27K

Где-то неделю назад на Хабре увидел тезис другого автора о том, что мол НКРЯ поддерживается на бюджетные средства, но де-факто контролируется компанией Яндекс, которая ведёт себя как собака на сене и де-факто приватизировала корпус и никому его не даёт. Такое же примерно мнение слышал от людей, обозревающих интернет-тематику, мол национализация убытков, приватизация прибылей.

Статья не очень резонансная (и немного на другую тему) и по сути про неё все бы забыли на следующий день, но есть один нюанс. Почему-то разработчики корпуса даже появились в комментариях этой статьи. Я ответил на комментарий. И потом они появились уже в нашем уютном чатике в Телеграме, но уже с критикой моего комментария. Хм, с чего бы это? Два юзера на Хабре согласились с чем-то в комментариях (эка невидаль!), небожители обычно на такое не реагируют.

У меня сейчас довольно мало понимания, что там вообще происходит, но думаю довольно яркая позиция менеджмента и менеджеров высшего звена Яндекса всем вам известна, не будем ее дублировать, чтобы не нарушать правила Хабра (и прошу быть сдержанным в комментариях). Интерес представляют 3 вопроса. Кто там реально на сене? Кто всё-таки может получить доступ к НКРЯ? И последний, дискуссионный вопрос, а как правильно?

Давайте разберемся!

Теперь популярный авторский контент на Хабре пишут школьники с соответствующим результатом?

Level of difficultyEasy
Reading time4 min
Reach and readers32K

Ни для кого не секрет, что отношение шума к сигналу на Хабре неуклонно растет (в рассылке я лично вижу в основном 3 типа статей - популизм про AI, корпоративная реклама и желтые "жжёные" статьи про рынок IT). Многие "настоящие" авторы уходят с Хабра потому, что просто качественный технический контент может пройти незамеченным, а как показала практика пользователи, создающие уникальный авторский контент, могут быть не всегда или не во всём равны с корпорациями, создающими выручку. Про политику говорить не буду, но и тут есть причины.

Логично, что как и на любом "выжившем" ресурсе создавшийся вакуум заполнят авторы с пониженным уровнем критического мышления или ответственности (мы это кстати ярко видим на Пикабу, после отмены "минусов"). Зачем же я пишу эту статью? Совсем недавно на Хабре вышла статья, и судя ее оценкам, публике она зашла.

В статье сравнивались разные системы синтеза речи, в частности публичная версия нашего синтеза речи и решения гига-корпораций. Мнение автора просуммирую точной цитатой: "Даже на таком небольшом тесте мы видим, как отстает силеро. … Конечно, такое небольшое сравнение не сможет показать всей картины, но мы уже видим примерное качество. …  Я не питаю к Silerо tts никакого негатива, но после слов про 100% решения ударений в этой статье, и убедившись в обратном на основании результатов теста, слегка разочарован."

И вы спросите что с этим не так? Человек бесплатно прорекламировал нас в одном ряду с компаниями, кто проинвестировал в свои решения на 2-3 порядка больше денег. Но есть один нюанс.

И какой же нюанс?

Раскладываем по полочкам тезисы из видео «Из голоса банка — в фильмы 18+»

Level of difficultyMedium
Reading time10 min
Reach and readers19K

Вчера мне в личку несколько десятков раз прислали это видео с просьбой прокомментировать. Чтобы повторно не отвечать всем в чатиках, запилил эту статью. Это видео дальше пошло в спортлото на Пикабу и DTF. На обеих площадках есть интересные комментарии, причем на DTF как мне кажется люди были ближе к истине.

Сначала кратенько адресуем целенаправленно эмоциональную подачу материала. Как правило, это один из стандартных приёмов, когда некая "заряженная" информация подается в максимально популистском информационном ключе "в пользу бедных" (или его вариация, "подумайте о детях"), а на самом деле реальные причины / логика / принципы работы ML-моделей игнорируются. Как правило такие процессы возникают не на пустом месте, а во время неких тектонических сдвигов в технологии и индустрии.

Видео длинное, я выделил из него ключевые тезисы. На каждый тезис я дам свой комментарий, а потом приведу свою гипотезу о реальных первопричинах появления этого видео.

К тезисам!

Теперь наш синтез на 22 языках с кириллицей и ещё в 4 раза быстрее

Level of difficultyMedium
Reading time4 min
Reach and readers7.6K


Источник карты — Проект «Языки России» Институт языкознания РАН, 2021 год

Давненько мы не выпускали новых статей про наш синтез речи! В прошлый раз мы добавили синтез на 9 языках народов Индии, существенно улучшили автоматическую простановку ударений, добавили 1 русский голос и "наследовали" SSML для всех моделей.


В этот раз мы сделали следующее:


  • Ускорили все v4 модели в 3-4 раза;
  • Существенно повысили качество синтеза в 8 kHz;
  • Обновили и пересобрали нашу модель для русского языка;
  • Обновили модель для 9 языков народов Индии с 17 голосами;
  • Добавили единую модель для 22 языков с кириллическим алфавитом с 31 голосом;
  • Прекратили поддержку моделей романо-германских языков (старые модели будут доступны для скачивания без изменений);
  • Обновили модели для языков народов СНГ: узбекского и украинского (татарский и калмыцкий были "поглощены" единой моделью);
Читать дальше →

Реально ли привлечь РЖД за нарушение лицензии модели синтеза из репозитория silero-models?

Level of difficultyEasy
Reading time1 min
Reach and readers34K

Увидел новость про виртуального помощника "Валеру", которого только что презентовала РЖД. Судя по голосу, взят наш голос aidar из репозитория silero-models … опубликованный под некоммерческой под лицензией CC BY-NC-SA.

Обсудить

Собака лает — ветер носит, или решил ли Bark синтез речи?

Level of difficultyMedium
Reading time6 min
Reach and readers7.9K

Время от времени мне в личку присылают посты с телеграм-каналов, специализирующихся на "ИИ" хайпе. Обычно такие посты сопровождаются весьма сомнительного качества журналистикой, мол задача X теперь уже решена и мы были облагодетельствованы.

В этот раз мне прислали ссылку на репозиторий Bark, который является некой интерпретацией статьи VALL-E от известной корпорации добра. В частности их репозиторий обещает:

Синтез на всех популярных языках от английского до китайского;

Возможность GPT-style управления выдаваемым аудио;

Возможность дикторов "говорить" на иностранных языках;

Войс-клонинг "этичненько" залочен;

Всё это в высоком качестве как у современного нейросетевого синтеза и в "риалтайме", с моделями "более 100M параметров";

Давайте разберемся так ли это.

Давайте!

Обновляем сравнение систем распознавания русского языка

Reading time2 min
Reach and readers7.1K

Наконец-то пришло время обновить наше исследование качества систем распознавания русского языка. Лучше поздно, чем никогда! С момента прошлого исследования утекло много воды … и мы думали, что мы не добежим до обновления, но таки добежали.

По сравнению с предыдущим исследованием изменилось следующее:

Посмотреть результаты

Небольшая ретроспектива по статистике статей Хабра

Reading time2 min
Reach and readers3.3K

Хабр недавно написал статью про итоги ушедшего 2022 года. В комментариях у меня и нескольких пользователей возник вопрос, что мол статистика как-то странно подана, мол люди перемешаны с конями, почему так? Мне стало интересно.

По идее, чтобы дать нормальную статистику, достаточно просто спарсить Хабр, и скорее всего задача не из самых сложных, но мне не очень хотелось этим заниматься в последних числах декабря. Я пошел другим путем - вооружился поиском, и постарался найти все статьи с похожим содержанием за последние лет 5. Пальма первенства по "итогам года" только недавно перешла к редакции, раньше "итоги" публиковали в том числе обычные пользователи.

Меня интересуют следующие гипотезы, которые зачастую блуждают у меня в голове и секции комментариев:

Читать далее

Наш публичный детектор голоса стал лучше

Reading time1 min
Reach and readers5.4K

Мы очень подробно рассказывали про наш детектор голоса на Хабре тут и тут. Не вижу смысла повторяться, просто очень кратко опишу, что стало лучше.

И что же?

Перед правилами Хабра все равны … или кто-то «более равен»?

Reading time2 min
Reach and readers30K

Обратил внимание на статью от модератора Хабра @Exosphere. Цитата:

Пользователя может слить компания … , пользователя могут слить участники каких-то таинственных масонских кружков хабрачатов, пользователя могут слить группы авторов, конкурента может слить конкурент. Могу сказать совершенно точно: ещё ни один такой «слив» не прошёл мимо нас. У нас есть отработанная схема быстрого определения таких нарушителей — все они банятся и/или лишаются кармы, и их жизнь на Хабре начинается с чистого листа. Причём совершенно неважно, идёт речь о частном или корпоративном аккаунте — перед правилами Хабра все равны.

Правда ли все равны, или кто-то является "более равным"?

Давайте разберемся!

OpenAI решили распознавание речи! Разбираемся так ли это…

Reading time7 min
Reach and readers17K

Вчера OpenAI выпустили Whisper. По сути они просто опубликовали веса набора больших (и не очень) рекуррентных трансформеров для распознавания речи и статью (и самое главное, в статье ни слова про compute и ресурсы). И естественно уже вчера и сегодня утром мне в личку начали сыпаться сообщения, мол всё, распознавание речи решено, все идеально классно и быстро работает, расходимся.

Постараемся разобраться под катом. Короткий ответ, если вам лень читать - для языков, кроме английского, скорее всего это далеко от правды (проверил я на русском). На английском наверное стоит сделать отдельный и чуть более подробный разбор, если эта статья наберет хотя бы 50 плюсов.

Итак, поехали!

Теперь наш синтез также доступен в виде бота в Телеграме

Reading time2 min
Reach and readers14K

Пользователи жаловались, что демку наших моделей синтеза тяжело запускать в колабе. Поэтому мы сделали бесплатного телеграм-бота, который основан на наших последних моделях синтеза речи.

С ботом можно общаться только напрямую. Бот содержит весь основной функционал последних моделей (работает мгновенно, имеет максимально высокое качество, есть автоматическая простановка ударений и буквы ё). Более подробно об ограничениях и особенностях работы можно узнать в методах /help и /faq.

Также в ближайшем будущем мы раскатим небольшое "полу-праздничное" обновление, которое как нам кажется порадует многих пользователей.

Попробовать

Multilingual Text-to-Speech Models for Indic Languages

Reading time5 min
Reach and readers3.3K

In this article, we shall provide some background on how multilingual multi-speaker models work and test an Indic TTS model that supports 9 languages and 17 speakers (Hindi, Malayalam, Manipuri, Bengali, Rajasthani, Tamil, Telugu, Gujarati, Kannada).

It seems a bit counter-intuitive at first that one model can support so many languages and speakers provided that each Indic language has its own alphabet, but we shall see how it was implemented.

Also, we shall list the specs of these models like supported sampling rates and try something cool – making speakers of different Indic languages speak Hindi. Please, if you are a native speaker of any of these languages, share your opinion on how these voices sound, both in their respective language and in Hindi.

Read more

Может ли синтез речи обмануть систему биометрической идентификации?

Reading time3 min
Reach and readers5.5K

Под одной из наших недавних статей на Хабре я упомянул исследование, подробно рассматривающее вопрос "обмана" коммерческих систем биометрической идентификации с помощью открытых инструментов по клонированию голоса. Завязалась дискуссия на тему "стоит ли бояться, что ваш голос украдут".

Естественно, исследование четкого однозначного ответа не дает, но скорее говорит, что на пути злоумышленников в первую очередь встает несовершенство систем клонирования голоса, количество и качество записей полученных мошенниками, акценты и прочие несовершенства мира. Проценты "обмана" при наличии ряда таких затруднений там не впечатляющие.

Так уж получилось, что один из наших заказчиков, заказывал у нас голос для синтеза … как раз с целью сделать пен-тест коммерческой системы биометрической идентификации. Не могу назвать (и даже не знаю) вендора этой системы, но заказчик это довольно крупная и известная фирма (они попросили не упоминать какие-либо названия).

Короткий ответ на вопрос из заголовка - да, причем весьма успешно. Длинный ответ - скорее всего вам этого бояться не следует. Постараюсь объяснить почему. Поехали.

И почему?

Telegram Premium отправляет голосовые сообщения клиентов в сервисы Google

Reading time2 min
Reach and readers24K

Буду краток. На днях Телеграм выкатил премиум-подписку и Дуров высказался за все хорошее, мол цитата: "This will herald a new, user-centric era in the history of social media services".

Сейчас я случайно натолкнулся на пункт 7.4 Terms of Service Телеграма, согласно которому ваши голосовые сообщения отправляются в "Google LLC, subsidiary of Alphabet Inc.".

Личную оценку этому давать я не буду, но постараюсь собрать какие-то интересные факты на эту тему, которые проскакивали в публичном поле. Было бы интересно послушать какие-то инсайды в комментариях.

Обсудить

Теперь наш синтез на 20 языках

Reading time7 min
Reach and readers16K

hero_image


В нашей прошлой статье мы ускорили наши модели в 10 раз, добавили новые высококачественные голоса и управление с помощью SSML, возможность генерировать аудио с разной частотой дискретизации и много других фишек.


В этот раз мы добавили:


  • 1 высококачественный голос на русском языке (eugeny);
  • Синтез на 20 языках, 174 голоса;
  • В список языков входят 5 языков народов СНГ: калмыцкий, русский, татарский, узбекский и украинский;
  • В список языков входят 5 вариаций на тему романо-германских языков: английский, индийский английский, испанский, немецкий, французский;
  • Также в список языков входят 10 языков народов Индии;
  • Новую значительно улучшенную модель для простановки ударений и буквы ё со словарем в 4 миллиона слов и точностью 100% (но естественно с рядом оговорок);
  • Все модели наследуют все "фишки" прошлого релиза, кроме автоматической простановки ударений для языков отличных от русского;

Пока улучшение интерфейсов мы отложили на некоторое время. Ускорить модели еще в 3+ раза мы тоже смогли, но пока с потерей качества, что не позволило нам обновить их прямо в этом релизе.


Попробовать модель как обычно можно в нашем репозитории и в колабе.

Читать дальше →

Реально ли привлечь Home Credit Bank за нарушение лицензии открытого проекта?

Reading time2 min
Reach and readers27K

Недавно натолкнулся на статью в корпоративном блоге Home Credit Bank на Хабре.

Там есть ссылка на нашу статью на Хабре, статья в свою очередь ведет на наш проект, который опубликован под лицензией GNU Affero General Public License v3.0:

Вероятно вы уже поняли, куда это все идет. Данная лицензия подразумевает публикацию кода проекта, который использует наши модели. Но банк естественно этого делать не будет, потому что это банк. А значит лицензия де факто означает некоммерческое использование.

Но Home Credit Bank естественно не обращался к нам за коммерческой версией или лицензией для данной модели.

Поделиться опытом

Our new public speech synthesis in super-high quality, 10x faster and more stable

Reading time3 min
Reach and readers5.9K

hero_image


In our last article we made a bunch of promises about our speech synthesis.


After a lot of hard work we finally have delivered upon these promises:


  • Model size reduced 2x;
  • New models are 10x faster;
  • We added flags to control stress;
  • Now the models can make proper pauses;
  • High quality voice added (and unlimited "random" voices);
  • All speakers squeezed into the same model;
  • Input length limitations lifted, now models can work with paragraphs of text;
  • Pauses, speed and pitch can be controlled via SSML;
  • Sampling rates of 8, 24 or 48 kHz are supported;
  • Models are much more stable — they do not omit words anymore;

This is a truly break-through achievement for us and we are not planning to stop anytime soon. We will be adding as many languages as possible shortly (the CIS languages, English, European languages, Hindic languages). Also we are still planning to make our models additional 2-5x faster.


We are also planning to add phonemes and a new model for stress, as well as to reduce the minimum amount of audio required to train a high-quality voice to 5 — 15 minutes.


As usual you can try our model in our repo or in colab.

Read more →

Теперь наш публичный синтез в супер-высоком качестве, в 10 раз быстрее и без детских болячек

Reading time8 min
Reach and readers68K

hero_image


В нашей прошлой статье про синтез речи мы дали много обещаний: убрать детские болячки, радикально ускорить синтез еще в 10 раз, добавить новые "фишечки", радикально улучшить качество.


Сейчас, вложив огромное количество работы, мы наконец готовы поделиться с сообществом своими успехами:


  • Снизили размер модели в 2 раза;
  • Научили наши модели делать паузы;
  • Добавили один высококачественный голос (и бесконечное число случайных);
  • Ускорили наши модели где-то примерно в 10 раз (!);
  • Упаковали всех спикеров одного языка в одну модель;
  • Наши модели теперь могут принимать на вход даже целые абзацы текста;
  • Добавили функции контроля скорости и высоты речи через SSML;
  • Наш синтез работает сразу в трех частотах дискретизации на выбор — 8, 24 и 48 килогерц;
  • Решили детские проблемы наших моделей: нестабильность и пропуск слов, и добавили флаги для контроля ударения;

Это по-настоящему уникальное и прорывное достижение и мы не собираемся останавливаться. В ближайшее время мы добавим большое количество моделей на разных языках и напишем целый ряд публикаций на эту и смежные темы, а также продолжим делать наши модели лучше (например, еще в 2-5 раз быстрее).


Попробовать модель как обычно можно в нашем репозитории и в колабе.

Читать дальше →

Information

Rating
177-th
Registered
Activity