Как стать автором
Обновить

Как превратить «столетний» usb-хаб в «умный» управляемый и сэкономить при этом 300$

Настройка Linux *Гаджеты Старое железо Периферия DIY или Сделай сам

Как-то давно понадобился мне хаб, желательно с большим количеством портов и c достаточно удобной формой, пригодной для встраивания вместо флоппи-дисковода в отсек 3,5''. Беглый просмотр барахолки подкинул модель D-link DUB-H7, да еще и в комбинации «2 по цене 1». Внешний осмотр ничего особенного не дал, хаб как хаб, сделан добротно, капитальный «принтерный» USB AM-BM на оборотной стороне и 3 А блок питания. Как всегда первым делом разобрал, порадовался малому количеству пустых мест вместо элементов вкупе с качественной пайкой и успокоился. Правда на всякий случай зашел в интернет посмотреть, а что это за хаб и есть ли интересные проекты с его участием. Проектов не оказалось, отзывы пользователей 50/50, в общем, никакой динамики. Хаб на протяжении 5-7 лет довольно сносно работал и выполнял свою задачу, потом плавно переместился в коробку для электронного хлама и вполне возможно сгинул бы в итоге вместе с безызвестными переходниками, адаптерами и т. п. Но произошло у меня в жизни событие, которое заставило-таки меня покопаться в мешках со старым барахлом, найти этот, как оказалось уникальный D-link, и стряхнув пыль извлечь его на божий свет. Если интересно послушать зачем — добро пожаловать под cut.


миг-миг-миг
Читать дальше →
Всего голосов 57: ↑55 и ↓2 +53
Просмотры 71K
Комментарии 34

Огромный открытый датасет русской речи

Open source *Открытые данные *Машинное обучение *Звук
image

Специалистам по распознаванию речи давно не хватало большого открытого корпуса устной русской речи, поэтому только крупные компании могли позволить себе заниматься этой задачей, но они не спешили делиться своими наработками.

Мы торопимся исправить это годами длящееся недоразумение.

Итак, мы предлагаем вашему вниманию набор данных из 4000 часов аннотированной устной речи, собранный из различных интернет-источников.

Подробности под катом.
Читать дальше →
Всего голосов 101: ↑96 и ↓5 +91
Просмотры 32K
Комментарии 50

TJBOT как иллюстрация IBM Watson services

Блог компании IBM API *Машинное обучение *Облачные сервисы *Искусственный интеллект
Туториал
Привет, Хабр! Весной 2019 года прошел очередной Think Developers Workshop, на котором все желающие могли собрать картонного робота TJBota под управлением IBM Watson Services. Под катом находится подробная инструкция, из чего и как собрать такого робота, полезные ссылки и простейшие рецепты, демонстрирующие некоторые когнитивные возможности сервисов Watson, а также небольшой анонс двух июльских семинаров о Watson Services в московском офисе IBM.

image

Читать дальше →
Всего голосов 13: ↑13 и ↓0 +13
Просмотры 2.8K
Комментарии 5

Огромный открытый датасет русской речи версия 1.0

Open source *Открытые данные *Машинное обучение *Звук

image


В начале этого года по ряду причин мы загорелись идеей создать самый большой открытый датасет русской речи. Подробнее о нашей мотивации и о том, как всё начиналось,
можно прочитать в этой статье — Огромный открытый датасет русской речи. С тех пор наш проект прошел через ряд масштабных изменений, мы в три раза увеличили количество данных, повысили их качество, добавили лейблы для спикеров и сейчас мы наконец готовы представить вам версию 1.0.


Также мы не готовы останавливаться на достигнутом и планируем продолжать делать интесивную работу над ошибками в последующих версиях и улучшать качество уже опубликованных данных. Версию 1.1 мы планируем посвятить масштабной работе над ошибками.

Читать дальше →
Всего голосов 46: ↑41 и ↓5 +36
Просмотры 16K
Комментарии 18

Modern Google-level STT Models Released

Big Data *Машинное обучение *Развитие стартапа Звук


We are proud to announce that we have built from ground up and released our high-quality (i.e. on par with premium Google models) speech-to-text Models for the following languages:


  • English;
  • German;
  • Spanish;

You can find all of our models in our repository together with examples, quality and performance benchmarks. Also we invested some time into making our models as accessible as possible — you can try our examples as well as PyTorch, ONNX, TensorFlow checkpoints. You can also load our model via TorchHub.


PyTorch ONNX TensorFlow Quality Colab
English (en_v1) link Open In Colab
German (de_v1) link Open In Colab
Spanish (es_v1) link Open In Colab
Read more →
Всего голосов 9: ↑9 и ↓0 +9
Просмотры 4.1K
Комментарии 1

Мы опубликовали современные STT модели сравнимые по качеству с Google

Big Data *Машинное обучение *Развитие стартапа Звук
🔥 Технотекст 2020


Мы наконец опубликовали наш набор высококачественных пре-тренированных моделей для распознавания речи (т.е. сравнимых по качеству с премиум-моделями Google) для следующих языков:


  • Английский;
  • Немецкий;
  • Испанский;

Вы можете найти наши модели в нашем репозитории вместе с примерами и метриками качества и скорости. Мы также постарались сделать начало работы с нашими моделями как можно более простым — выложили примеры на Collab и чекпойнты для PyTorch, ONNX и TensorFlow. Модели также можно загружать через TorchHub.


PyTorch ONNX TensorFlow Качество Colab
Английский (en_v1) ссылка Открыть в Colab
Немецкий (de_v1) ссылка Открыть в Colab
Испанский (es_v1) ссылка Открыть в Colab
Читать дальше →
Всего голосов 38: ↑37 и ↓1 +36
Просмотры 7.4K
Комментарии 24

Насколько Быстрой Можно Сделать Систему STT?

Анализ и проектирование систем *Big Data *Машинное обучение *Natural Language Processing *


Нам приходилось слышать абсолютно разные оценки скорости (ну или наоборот — оценки потребности в железе) систем распознавания речи, отличающиеся даже на порядок. Особенно радует, когда указаны системные требования из которых следует, что метрики сильно лучше, чем лучшие state-of-the-art системы из bleeding edge статей, а на практике иногда оказывается, что метрики рассчитаны в надежде, что "покупают для галочки и никто пользоваться не будет и так сойдет". Также не помогает то, что некоторые системы работают на GPU, а некоторые нет, равно как и то, что ядра процессоров могут отличаться в разы по производительности (например старые серверные процессора с тактовой частотой 2 — 2.5 GHz против современных решений от AMD с 4+ GHz на ядро имеющие до 64 ядер). Давайте в этом вместе разберемся, на самом деле, все не так уж и сложно!


Как правило люди начинают задумываться о скорости в 3 случаях:


  • Когда ее не хватает или когда она является узким горлышком;
  • Когда со скоростью нет проблем, но есть проблемы с ценой железа;
  • Когда есть жесткое SLA по качеству сервиса от конечного заказчика;
  • Когда есть жесткие требования по скорости "первого ответа" от конечного заказчика;

В этой статье мы постараемся ответить на несколько вопросов:


  • Что вообще значит скорость?
  • Какой скорости можно добиться в теории?
  • Какой скорости можно добиться на практике и желательно без потери качества?
Читать дальше →
Всего голосов 8: ↑7 и ↓1 +6
Просмотры 3.1K
Комментарии 1

Мы опубликовали современный Voice Activity Detector и не только

Open source *Python *Data Mining *Машинное обучение *Звук

image


Всегда при работе с речью встает несколько очень "простых" вопросов, для решения которых нет большого количества удобных, открытых и простых инструментов: детекция наличия голоса (или музыки), детекция наличия цифр и классификация языков.


Для решения задачи детекции голоса (Voice Activity Detector, VAD) существует довольно популярный инструмент от Google — webRTC VAD. Он нетребовательный по ресурсам и компактный, но его основной минус состоит в неустойчивости к шуму, большом числе ложноположительных срабатываний и невозможности тонкой настройки. Понятно, что если переформулировать задачу не в детекцию голоса, а в детекцию тишины (тишина — это отсутствие и голоса и шума), то она решается весьма тривиальными способами (порогом по энергии, например), но с теми же минусами и ограничениями. Что самое неприятное — зачастую такие решения являются хрупкими и какие-то хардкодные пороги не переносятся на другие домены.


Изначально мы хотели сделать простой и быстрый внутренний инструмент для себя и наших партнеров для детекции произнесенных чисел без привлечения полноценного STT (фишка изначально была именно в портативности засчет использования современных фреймворков типа PyTorch и ONNX), но в итоге оказалось, что можно сделать не только детектор чисел, но и качественный, быстрый и портативный VAD и классификатор языков, который и опубликовали бесплатно для всех желающих тут под лицензией MIT. За подробностями прошу под кат.

Читать дальше →
Всего голосов 16: ↑16 и ↓0 +16
Просмотры 7K
Комментарии 8

Modern Portable Voice Activity Detector Released

Open source *Машинное обучение *Звук

image


Currently, there are hardly any high quality / modern / free / public voice activity detectors except for WebRTC Voice Activity Detector (link). WebRTC though starts to show its age and it suffers from many false positives.


Also in some cases it is crucial to be able to anonymize large-scale spoken corpora (i.e. remove personal data). Typically personal data is considered to be private / sensitive if it contains (i) a name (ii) some private ID. Name recognition is a highly subjective matter and it depends on locale and business case, but Voice Activity and Number Detection are quite general tasks.


Key features:


  • Modern, portable;
  • Low memory footprint;
  • Superior metrics to WebRTC;
  • Trained on huge spoken corpora and noise / sound libraries;
  • Slower than WebRTC, but fast enough for IOT / edge / mobile applications;
  • Unlike WebRTC (which mostly tells silence from voice), our VAD can tell voice from noise / music / silence;
  • PyTorch (JIT) and ONNX checkpoints;

Typical use cases:


  • Spoken corpora anonymization;
  • Can be used together with WebRTC;
  • Voice activity detection for IOT / edge / mobile use cases;
  • Data cleaning and preparation, number and voice detection in general;
  • PyTorch and ONNX can be used with a wide variety of deployment options and backends in mind;
Read more →
Рейтинг 0
Просмотры 3K
Комментарии 0

Ультимативное сравнение систем распознавания речи: Ashmanov, Google, Sber, Silero, Tinkoff, Yandex

Машинное обучение *Искусственный интеллект Звук Голосовые интерфейсы *

sandwich_fake


Какое-то время назад мы писали цикл статей про то, как правильно измерять качество систем распознавания речи, и собственно снимали метрики с доступных решений (цикл статей — 1, 2, 3) (на тот момент и коммерческих и некоммерческих решений). На Хабре была выжимка из этого цикла в рамках этой статьи, но до масштабного обновления исследования, достойного публикации на Хабре, руки никак не доходили (это требует как минимум большого количества усилий и подготовки).


Прошло некоторое время и пора обновить наше исследование, сделав его по-настоящему ультимативным. По сравнению с прошлыми исследованиями изменилось или добавилось следующее:


  • Добавилось много валидационных сетов из разных реальных доменов;
  • На рынок вышел Сбер, в первую очередь интересно протестировать именно его;
  • Для чистоты эксперимента, мы не предупреждали разработчиков систем о доменах и факте проведения тестов;
  • Мы также попробовали немного протестировать пропускную способность сервисов (понятно, что мы не знаем какое железо и ограничения стоят в облаке);
  • Мы рассматриваем только коммерческие системы, к которым у нас получилось получить доступ и которые показали хоть какой-то намек на "всеядность", работу с холодного старта и "энтерпрайзность";
Читать дальше →
Всего голосов 26: ↑23 и ↓3 +20
Просмотры 16K
Комментарии 34

Последние обновления моделей распознавания речи из Silero Models

Big Data *Машинное обучение *Развитие стартапа Natural Language Processing *Голосовые интерфейсы *

quality_growth


Мы опубликовали уже пятую версию наших моделей для распознавания английского языка и четвертую — для немецкого. На картинке выше — прогресс роста качества для английского языка.


В этот раз мы можем порадовать вас:


  • Как большими, так и маленькими моделями;
  • Постоянным ростом качества на всех доменах аудио, снижением размера и ускорением моделей;
  • Как обычно — качество на уровне премиум моделей Google (причем в этот раз к премиум моделями 2020 года подобрались уже даже маленькие Community Edition модели);
  • Супер компактными моделями (small и скоро ожидается xsmall) и их квантизованными версиями;
Читать дальше →
Всего голосов 11: ↑11 и ↓0 +11
Просмотры 3.3K
Комментарии 0

Распознаем речь в Авроре

Блог компании Открытая мобильная платформа Разработка под Linux *Natural Language Processing *

Аврора, созданная во многом с прицелом на корпоративное использование, часто используется в не совсем привычных для нормального человека условиях. Когда мобильное устройство — корпоративное, а передаваемая информация имеет не только ту ценность, которую охраняет закон о персональных данных №152-ФЗ, но и коммерческую составляющую, — на передний план выходит конфиденциальность и возможность обрабатывать данные, не отходя от кассы.

Пример, о котором мы говорим сегодня, — распознавание речи — сам по себе имеет несколько приложений. Их можно условно разделить на две группы: где важна только суть, а сам текст не столь важен (например, команды для переключения режимов работы устройства), и где важен именно текст как таковой (транскрибирование аудио).

Читать далее
Всего голосов 10: ↑9 и ↓1 +8
Просмотры 2.3K
Комментарии 3

We have published a model for text repunctuation and recapitalization for four languages

Python *Big Data *Машинное обучение *Natural Language Processing *


Open In Colab


Working with speech recognition models we often encounter misconceptions among potential customers and users (mostly related to the fact that people have a hard time distinguishing substance over form). People also tend to believe that punctuation marks and spaces are somehow obviously present in spoken speech, when in fact real spoken speech and written speech are entirely different beasts.


Of course you can just start each sentence with a capital letter and put a full stop at the end. But it is preferable to have some relatively simple and universal solution for "restoring" punctuation marks and capital letters in sentences that our speech recognition system generates. And it would be really nice if such a system worked with any texts in general.


For this reason, we would like to share a system that:


  • Inserts capital letters and basic punctuation marks (dot, comma, hyphen, question mark, exclamation mark, dash for Russian);
  • Works for 4 languages (Russian, English, German, Spanish) and can be extended;
  • By design is domain agnostic and is not based on any hard-coded rules;
  • Has non-trivial metrics and succeeds in the task of improving text readability;

To reiterate — the purpose of such a system is only to improve the readability of the text. It does not add information to the text that did not originally exist.

Read more →
Всего голосов 4: ↑3 и ↓1 +2
Просмотры 3.8K
Комментарии 0

Как работают системы распознавания речи

Блог компании Amvera Программирование *Машинное обучение *Читальный зал Искусственный интеллект

В этой статье мы расскажем, как устроены технологии распознавания речи, и опишем архитектуру собственного решения. В конце статьи – бесплатный телеграм-бот для теста системы распознавания речи, описанной в статье.

Читать далее
Всего голосов 7: ↑6 и ↓1 +5
Просмотры 4.3K
Комментарии 6

Чем гибридные системы распознавания речи лучше End-to-End решений

Блог компании Amvera Машинное обучение *Читальный зал Облачные сервисы *Искусственный интеллект

На хайпе нейронных сетей особую популярность приобрели end-to-end системы распознавания речи. И это неудивительно, ведь можно «просто» взять нейронную сеть известной архитектуры, скормить ей обучающий датасет и ждать результата. Но на практике все оказывается не так просто.

В этой статье мы попробуем рассказать, почему несмотря на эксперименты с нейронными end-to-end сетями, мы продолжаем использовать гибридную архитектуру, состоящую из акустической и лингвистической модели, работающих независимо и в чем заключаются достоинства и недостатки разных архитектур распознавания речи.

Читать далее
Всего голосов 9: ↑8 и ↓1 +7
Просмотры 1.9K
Комментарии 3

Обновляем сравнение систем распознавания русского языка

Машинное обучение *Искусственный интеллект Голосовые интерфейсы *
Аналитика

Наконец-то пришло время обновить наше исследование качества систем распознавания русского языка. Лучше поздно, чем никогда! С момента прошлого исследования утекло много воды … и мы думали, что мы не добежим до обновления, но таки добежали.

По сравнению с предыдущим исследованием изменилось следующее:

Посмотреть результаты
Всего голосов 17: ↑16 и ↓1 +15
Просмотры 3K
Комментарии 9