Как стать автором
Обновить
306
-9
Alexander Veysov @snakers4

Machine Learning / Data Science

Отправить сообщение

Мы опубликовали датасет для детекции речи размером более 150 тысяч часов на 6000+ языках

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров2.3K

Мы выложили в публичный доступ гигантский датасет для детекции речи (voice activity detection).

Датасет содержит порядка 150 тысяч часов аудио более чем на 6,000 языках. Количество уникальных ISO-кодов данного датасета не совпадает с фактическим количеством языков, так как близкие языки могут кодироваться одним и тем же кодом.

Данные были размечены для задачи детекции голоса при временной дискретизации примерно в 30 миллисекунд (или 512 семплов при частоте дискретизации 16 килогерц).

Данный датасет распространяется под лицензией CC BY-NC-SA 4.0.

Давайте смотреть датасет
Всего голосов 17: ↑17.5 и ↓-0.5+18
Комментарии13

Всё /var/lib/docker пожрал … docker

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров4.8K

Небольшая юмористическая заметка на тему того, что делать, если докер всё пожрал всё место на диске, от для человека, который каждый день работает с докером не шарит за докер.

Заметку написала моя коллега, орфография и пунктуация по возможности сохранены. В какой-то момент ей надоело вспоминать или гуглить как чистить мусор, который оставляет докер, его билды, образы и вольюмы, и она свела всё в одну заметку.

Как мне кажется, получилось довольно смешно. Всё написанное в статье выдумка, любые совпадения с реальным миром случайны, если вы вводите в консоль sudo или его аналог - вы делаете это на свой страх и риск. Слова, замененные на другие для соблюдения правил Хабра, выделил курсивом, но думаю всё поймут, что было в оригинале написано.

Читать далее
Всего голосов 12: ↑12 и ↓0+12
Комментарии9

Играемся с RTX 5000 Ada (AD103): первые впечатления

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров15K

Майнинг и использование для майнинга в этой статье не обсуждается.

У меня есть пара старых статей (про A100, и про 3090 и A10) и также вот есть тоже старое, но всё еще неплохое и актуальное сравнение карточек для расчетов от Selectel. С тех пор прошло примерно два года и пора написать что-то новенькое и попробовать новые ускорители для расчетов. Да, это всё ещё статья про карточку Nvidia, не AMD и не Intel, и не про китайцев и какие-то модные большие чипы, увы.

С тех пор появились новые карточки уже аж двух новых поколений - Ada Lovelace и Hopper. При этом Hopper вроде как должны были прийти на замену очень удачному поколению Ampere (это древняя традиция Nvidia - за супер успешным поколением следует менее удачное), но не пришли. Но возможно из-за торговых войн с Китаем карточки поколения Hopper стали выдавать только нужным вендорам и в виде собранных систем и при этом запретили экспорт в Китай.

В этой статьей мы разберем первые впечатления от карточки NVIDIA RTX 5000 Ada Generation (AD103), но начнем с небольшой дозы юмора.

Давайте разбираться!
Всего голосов 13: ↑12 и ↓1+11
Комментарии11

Для Героев III вышло долгожданное полномасштабное обновление — Фабрика. Почему это по-настоящему уникальное явление?

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров94K

Если судить по группе ВК, дополнение вышло где-то 31 декабря в 7:38 минут по Москве. Новость дошла до меня где-то за час-два до нового года. Если вы в курсе, то думаю вы уже или без меня ознакомились или вот, прочитав новость, побежите прямо сейчас и статья для вас тут по сути заканчивается). Сначала Doom порадовал ... а сейчас Герои.

Если вы не в теме, то в остатке заметки попробую рассказать пару слов о том, почему: это дополнение важно, почему люди ждали его пять лет и почему это абсолютно уникальное явление для "игровой индустрии" (и да, там есть и кампания, и мультиплеерное обновление, и редактор карт новый, и музыка и новый замок).

Я с трудом удержал себя от того, чтобы не засесть на пару суток проходить кампанию залпом, но конце расскажу своё мнение про первые две карты (я специально не спешу). Итак, обо всём по порядку.

И почему же HotA так уникальна?
Всего голосов 133: ↑128 и ↓5+123
Комментарии165

Хабр всё еще … менее токсичный, но это заслуга авторов и комьюнити

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров6.3K

Когда-то давно я написал вот такую статью на Хабре, суть которой вкратце сводилась к тому, что его модель модерации всё ещё самая адекватная на фоне остальных глобальных user generated content (UGC) платформ. Мол всё стремительно деградирует, а Хабр делает это в меньшей степени, чем остальной Интернет. Также я анализировал как устроена система модерации и "кармы" у разных площадок.

Тогда я по сути пытался суммировать свой успешный и неуспешный опыт "писателя" на Хабре и всяких разных UGC-платформах. В этот раз хочу вам вкратце рассказать про текущее состояние отечественных UGC платформ на фоне своего разного по успешности опыта "фарминга" этих платформ и недавнего небольшого социального эксперимента.

Уже предчувствую боль ...
Всего голосов 70: ↑63 и ↓7+56
Комментарии131

Что почитать — интеллектуальная твёрдая научная фантастика в нашем культурном поле?

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров23K

Я люблю научную фантастику, и особенно "твёрдую". На ней можно сказать, я вырос. В течение последних нескольких лет моя хорошая знакомая упоминала, что пишет книгу. Ну пишет и пишет. Дописала, и оказалось, тоже SciFi. Тоже "твердая", но с некоторыми допущениями.

Я боялся, что книга мне не понравится, и придется заниматься вербальной эквилибристикой. Но книга мне очень понравилась и я хочу вам рассказать о ней. Я впоследствии даже приложил к ней руку во время первой вычитки, до передачи на редактуру и корректуру.

На Хабре выходила статья про создание иллюстраций к книге, а эта статья будет про саму книгу.

И почему понравилась?
Всего голосов 16: ↑10 и ↓6+4
Комментарии72

Как изучать китайский язык / 怎样学习汉语? Пошаговая инструкция

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров39K

Не секрет, что китайский язык считается сложным для носителей европейских языков. Но сам язык как ни странно не очень сложный. В нем, например, существительные и прилагательные не изменяются по родам, числам и падежам, а глаголы не спрягаются. Сложность составляют письменность и определенный уровень культурной изоляции.

В этой короткой статье я опишу алгоритм буквально на 1 тетрадную страничку, как реально и без особых проблем систематически изучать китайский язык. Единственное, что надо будет приложить - это свои усилия.

И как же?
Всего голосов 26: ↑17 и ↓9+8
Комментарии39

Правда ли то, что национальный корпус русского языка «приватизирован» Яндексом?

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров24K

Где-то неделю назад на Хабре увидел тезис другого автора о том, что мол НКРЯ поддерживается на бюджетные средства, но де-факто контролируется компанией Яндекс, которая ведёт себя как собака на сене и де-факто приватизировала корпус и никому его не даёт. Такое же примерно мнение слышал от людей, обозревающих интернет-тематику, мол национализация убытков, приватизация прибылей.

Статья не очень резонансная (и немного на другую тему) и по сути про неё все бы забыли на следующий день, но есть один нюанс. Почему-то разработчики корпуса даже появились в комментариях этой статьи. Я ответил на комментарий. И потом они появились уже в нашем уютном чатике в Телеграме, но уже с критикой моего комментария. Хм, с чего бы это? Два юзера на Хабре согласились с чем-то в комментариях (эка невидаль!), небожители обычно на такое не реагируют.

У меня сейчас довольно мало понимания, что там вообще происходит, но думаю довольно яркая позиция менеджмента и менеджеров высшего звена Яндекса всем вам известна, не будем ее дублировать, чтобы не нарушать правила Хабра (и прошу быть сдержанным в комментариях). Интерес представляют 3 вопроса. Кто там реально на сене? Кто всё-таки может получить доступ к НКРЯ? И последний, дискуссионный вопрос, а как правильно?

Давайте разберемся!
Всего голосов 154: ↑147 и ↓7+140
Комментарии70

Теперь популярный авторский контент на Хабре пишут школьники с соответствующим результатом?

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров31K

Ни для кого не секрет, что отношение шума к сигналу на Хабре неуклонно растет (в рассылке я лично вижу в основном 3 типа статей - популизм про AI, корпоративная реклама и желтые "жжёные" статьи про рынок IT). Многие "настоящие" авторы уходят с Хабра потому, что просто качественный технический контент может пройти незамеченным, а как показала практика пользователи, создающие уникальный авторский контент, могут быть не всегда или не во всём равны с корпорациями, создающими выручку. Про политику говорить не буду, но и тут есть причины.

Логично, что как и на любом "выжившем" ресурсе создавшийся вакуум заполнят авторы с пониженным уровнем критического мышления или ответственности (мы это кстати ярко видим на Пикабу, после отмены "минусов"). Зачем же я пишу эту статью? Совсем недавно на Хабре вышла статья, и судя ее оценкам, публике она зашла.

В статье сравнивались разные системы синтеза речи, в частности публичная версия нашего синтеза речи и решения гига-корпораций. Мнение автора просуммирую точной цитатой: "Даже на таком небольшом тесте мы видим, как отстает силеро. … Конечно, такое небольшое сравнение не сможет показать всей картины, но мы уже видим примерное качество. …  Я не питаю к Silerо tts никакого негатива, но после слов про 100% решения ударений в этой статье, и убедившись в обратном на основании результатов теста, слегка разочарован."

И вы спросите что с этим не так? Человек бесплатно прорекламировал нас в одном ряду с компаниями, кто проинвестировал в свои решения на 2-3 порядка больше денег. Но есть один нюанс.

И какой же нюанс?
Всего голосов 146: ↑89 и ↓57+32
Комментарии158

Раскладываем по полочкам тезисы из видео «Из голоса банка — в фильмы 18+»

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров18K

Вчера мне в личку несколько десятков раз прислали это видео с просьбой прокомментировать. Чтобы повторно не отвечать всем в чатиках, запилил эту статью. Это видео дальше пошло в спортлото на Пикабу и DTF. На обеих площадках есть интересные комментарии, причем на DTF как мне кажется люди были ближе к истине.

Сначала кратенько адресуем целенаправленно эмоциональную подачу материала. Как правило, это один из стандартных приёмов, когда некая "заряженная" информация подается в максимально популистском информационном ключе "в пользу бедных" (или его вариация, "подумайте о детях"), а на самом деле реальные причины / логика / принципы работы ML-моделей игнорируются. Как правило такие процессы возникают не на пустом месте, а во время неких тектонических сдвигов в технологии и индустрии.

Видео длинное, я выделил из него ключевые тезисы. На каждый тезис я дам свой комментарий, а потом приведу свою гипотезу о реальных первопричинах появления этого видео.

К тезисам!
Всего голосов 61: ↑48 и ↓13+35
Комментарии266

Теперь наш синтез на 22 языках с кириллицей и ещё в 4 раза быстрее

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров5.6K


Источник карты — Проект «Языки России» Институт языкознания РАН, 2021 год

Давненько мы не выпускали новых статей про наш синтез речи! В прошлый раз мы добавили синтез на 9 языках народов Индии, существенно улучшили автоматическую простановку ударений, добавили 1 русский голос и "наследовали" SSML для всех моделей.


В этот раз мы сделали следующее:


  • Ускорили все v4 модели в 3-4 раза;
  • Существенно повысили качество синтеза в 8 kHz;
  • Обновили и пересобрали нашу модель для русского языка;
  • Обновили модель для 9 языков народов Индии с 17 голосами;
  • Добавили единую модель для 22 языков с кириллическим алфавитом с 31 голосом;
  • Прекратили поддержку моделей романо-германских языков (старые модели будут доступны для скачивания без изменений);
  • Обновили модели для языков народов СНГ: узбекского и украинского (татарский и калмыцкий были "поглощены" единой моделью);
Читать дальше →
Всего голосов 32: ↑32 и ↓0+32
Комментарии15

Реально ли привлечь РЖД за нарушение лицензии модели синтеза из репозитория silero-models?

Уровень сложностиПростой
Время на прочтение1 мин
Количество просмотров33K

Увидел новость про виртуального помощника "Валеру", которого только что презентовала РЖД. Судя по голосу, взят наш голос aidar из репозитория silero-models … опубликованный под некоммерческой под лицензией CC BY-NC-SA.

Обсудить
Всего голосов 224: ↑206 и ↓18+188
Комментарии198

Собака лает — ветер носит, или решил ли Bark синтез речи?

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров5.8K

Время от времени мне в личку присылают посты с телеграм-каналов, специализирующихся на "ИИ" хайпе. Обычно такие посты сопровождаются весьма сомнительного качества журналистикой, мол задача X теперь уже решена и мы были облагодетельствованы.

В этот раз мне прислали ссылку на репозиторий Bark, который является некой интерпретацией статьи VALL-E от известной корпорации добра. В частности их репозиторий обещает:

Синтез на всех популярных языках от английского до китайского;

Возможность GPT-style управления выдаваемым аудио;

Возможность дикторов "говорить" на иностранных языках;

Войс-клонинг "этичненько" залочен;

Всё это в высоком качестве как у современного нейросетевого синтеза и в "риалтайме", с моделями "более 100M параметров";

Давайте разберемся так ли это.

Давайте!
Всего голосов 23: ↑23 и ↓0+23
Комментарии7

Обновляем сравнение систем распознавания русского языка

Время на прочтение2 мин
Количество просмотров5.7K

Наконец-то пришло время обновить наше исследование качества систем распознавания русского языка. Лучше поздно, чем никогда! С момента прошлого исследования утекло много воды … и мы думали, что мы не добежим до обновления, но таки добежали.

По сравнению с предыдущим исследованием изменилось следующее:

Посмотреть результаты
Всего голосов 17: ↑16 и ↓1+15
Комментарии13

Небольшая ретроспектива по статистике статей Хабра

Время на прочтение2 мин
Количество просмотров2.9K

Хабр недавно написал статью про итоги ушедшего 2022 года. В комментариях у меня и нескольких пользователей возник вопрос, что мол статистика как-то странно подана, мол люди перемешаны с конями, почему так? Мне стало интересно.

По идее, чтобы дать нормальную статистику, достаточно просто спарсить Хабр, и скорее всего задача не из самых сложных, но мне не очень хотелось этим заниматься в последних числах декабря. Я пошел другим путем - вооружился поиском, и постарался найти все статьи с похожим содержанием за последние лет 5. Пальма первенства по "итогам года" только недавно перешла к редакции, раньше "итоги" публиковали в том числе обычные пользователи.

Меня интересуют следующие гипотезы, которые зачастую блуждают у меня в голове и секции комментариев:

Читать далее
Всего голосов 24: ↑21 и ↓3+18
Комментарии2

Наш публичный детектор голоса стал лучше

Время на прочтение1 мин
Количество просмотров3.3K

Мы очень подробно рассказывали про наш детектор голоса на Хабре тут и тут. Не вижу смысла повторяться, просто очень кратко опишу, что стало лучше.

И что же?
Всего голосов 18: ↑17 и ↓1+16
Комментарии8

Перед правилами Хабра все равны … или кто-то «более равен»?

Время на прочтение2 мин
Количество просмотров29K

Обратил внимание на статью от модератора Хабра @Exosphere. Цитата:

Пользователя может слить компания … , пользователя могут слить участники каких-то таинственных масонских кружков хабрачатов, пользователя могут слить группы авторов, конкурента может слить конкурент. Могу сказать совершенно точно: ещё ни один такой «слив» не прошёл мимо нас. У нас есть отработанная схема быстрого определения таких нарушителей — все они банятся и/или лишаются кармы, и их жизнь на Хабре начинается с чистого листа. Причём совершенно неважно, идёт речь о частном или корпоративном аккаунте — перед правилами Хабра все равны.

Правда ли все равны, или кто-то является "более равным"?

Давайте разберемся!
Всего голосов 279: ↑263 и ↓16+247
Комментарии373

OpenAI решили распознавание речи! Разбираемся так ли это…

Время на прочтение7 мин
Количество просмотров12K

Вчера OpenAI выпустили Whisper. По сути они просто опубликовали веса набора больших (и не очень) рекуррентных трансформеров для распознавания речи и статью (и самое главное, в статье ни слова про compute и ресурсы). И естественно уже вчера и сегодня утром мне в личку начали сыпаться сообщения, мол всё, распознавание речи решено, все идеально классно и быстро работает, расходимся.

Постараемся разобраться под катом. Короткий ответ, если вам лень читать - для языков, кроме английского, скорее всего это далеко от правды (проверил я на русском). На английском наверное стоит сделать отдельный и чуть более подробный разбор, если эта статья наберет хотя бы 50 плюсов.

Итак, поехали!
Всего голосов 38: ↑30 и ↓8+22
Комментарии20

Теперь наш синтез также доступен в виде бота в Телеграме

Время на прочтение2 мин
Количество просмотров9.8K

Пользователи жаловались, что демку наших моделей синтеза тяжело запускать в колабе. Поэтому мы сделали бесплатного телеграм-бота, который основан на наших последних моделях синтеза речи.

С ботом можно общаться только напрямую. Бот содержит весь основной функционал последних моделей (работает мгновенно, имеет максимально высокое качество, есть автоматическая простановка ударений и буквы ё). Более подробно об ограничениях и особенностях работы можно узнать в методах /help и /faq.

Также в ближайшем будущем мы раскатим небольшое "полу-праздничное" обновление, которое как нам кажется порадует многих пользователей.

Попробовать
Всего голосов 21: ↑20 и ↓1+19
Комментарии14

Multilingual Text-to-Speech Models for Indic Languages

Время на прочтение5 мин
Количество просмотров2.4K

In this article, we shall provide some background on how multilingual multi-speaker models work and test an Indic TTS model that supports 9 languages and 17 speakers (Hindi, Malayalam, Manipuri, Bengali, Rajasthani, Tamil, Telugu, Gujarati, Kannada).

It seems a bit counter-intuitive at first that one model can support so many languages and speakers provided that each Indic language has its own alphabet, but we shall see how it was implemented.

Also, we shall list the specs of these models like supported sampling rates and try something cool – making speakers of different Indic languages speak Hindi. Please, if you are a native speaker of any of these languages, share your opinion on how these voices sound, both in their respective language and in Hindi.

Read more
Всего голосов 2: ↑2 и ↓0+2
Комментарии0

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность