Комментарии / Профиль mbrdancer / Хабр

Пользователь

Подписчики

ПрофильСтатьи4ПостыНовостиКомментарии138

GigaAM: класс открытых моделей для обработки звучащей речи

mbrdancer 17 апр 2024 в 12:43

Да, я знаю области или виды деятельности, в которых люди делают что-то не ради сиюминутных гор прибыли. Я не говорю о том, что нужно пилить свой ChatGPT pro bono. Я о том, что есть альтернатива тому, чтобы выкатить неконкурентное за деньги - выкатить неконкурентное с предложением вместе отловить ошибки, найти способ повысить качество, поработать над ошибками. Иногда за такое контрибьюторов даже вознаграждают. Вопрос только в желании выбрать - "срубить бабла" или таки доделать до хорошего и продвинуть классную нейросеть.

Бестолковость критики - понятие субъективное понятие до тех пор, пока не приведены конкретные резоны. В моем-то случае критика обоснована. Я же специально во введении описал контекст - чтобы было понятно, что излагаю не на пустом месте.

Деньги считать все умеют, представьте себе.

Вот тут смысла претензии не понял, если честно.

GigaAM: класс открытых моделей для обработки звучащей речи

mbrdancer 11 апр 2024 в 18:07

GigaAM-CTC уже выкатили на SaluteSpeech API? Вернее, уточню вопрос: повысилось ли качество распознавания в SaluteSpeech API по сравнению с началом этого года?

Активно использую расшифровку аудиозаписей: лекции, семинары, совещания, встречи. Раньше пользовался SaluteSpeech API. Сейчас перешел на модели от OpenAI. Использую Whisper‑large‑v3. В среднем за месяц расшифровке подвергаю порядка 36ч записей, так что дальше буду говорить о сравнении не на пустом месте.

пожалуйста начните честно упоминать о том, что использование распознавания голоса через SaluteSpeech API - не бесплатное. Эти жалкие 100 бесплатных минут распознавания в месяц для физлиц - ни о чем. А дальше приходится платить за то, чтобы расшифровывать текст с аудиозаписей. И это не две копейки (хотя честно упомяну, нельзя сказать, что прям неприлично дорого). Ну или приходится ждать следующего месяца для возобновления бесплатного использования, снова на 100 минут аудио...
По субъективным ощущениям модель, функционировавшая до недавнего времени по SaluteSpeech API была по качеству перевода из голоса в текст наааамного, ну просто драматически хуже, чем Whisper‑large‑v3. При этом "плюшки" типа встроенной диаризации спикеров или порождения нескольких вариантов расшифровки все равно или нормально не работают или не имеют вменяемого сценария использования, поэтому плюшками не считаю.
Работа с ограниченным составом форматов аудио, да еще не с любым вариантом какого-нибудь ogg vorbis, который, скажем, не в тот контейнер запакован, - это тоже не привлекает к использованию решений под SaluteSpeech API. Я в свое время потратил не один день на то, чтобы разобраться, какой формат аудио "можно" скормить в Сбер, а на каком он молча сломается и будет в цикле пытаться распознать. А я буду сидеть ждать на своем конце API, пока там статус задачи изменится... На этом фоне в библиотеку whisper просто встроено требование (или автоматическая установка) ffmpeg, который под капотом просто конвертирует аудио в нужный формат.

Так вот, Whisper‑large‑v3, все другие модели семейства whisper - полностью бесплатны. Их можно легко поднять на своем железе, для чего существует отдельная бесплатная open-source библиотека, которую может использовать любой начинающий. И в результате эту модель можно гонять на любом объеме записей, лишь бы позволяло время. Модели Сбера бесплатны очень-очень условно (см. п.1). При условии катастрофического отставания по качеству не понимаю, почему мне следует их выбирать.

Я всеми силами приветствую развитие российских нейросетей, болею за наш прогресс в этом направлении всей душой! Но, елки-палки, почему же это должно происходить так неконкурентно дорого и одновременно некачественно по сравнению с существующими альтернативами?! Может, раз уж у нас похуже работает (а переубедить меня в этом будет оооочень сложно!), сделать истинно открыто, по-настоящему бесплатно? Собрать нормальный опыт и обратную связь, хорошенько проработать ошибки, добиться лучшего решения на русском языке - и только тогда продавать? Причем, не модель и вычисления, а сервис и адаптацию? Кажется, это более емкий подход в смысле потенциального достижения технологического превосходства на основе пользовательского опыта, чем прямые продажи "здесь-и-сейчас" в условиях отсутствия конкурентных преимуществ.

Примечание: понимаю, что основной фон критики в этом комменте - субъективно оцениваемое отставание одной модели по отношению к другой в то время, как по бенчмаркам вроде бы это не так. Предложу в этом месте задуматься, что важно мне как пользователю - цифра модели на бенчмарке или время, потраченное на корректировку расшифровки (или наоборот, как сейчас при использовании моделей OpenAI, не потраченное).

Polar H10: что нового

mbrdancer 24 фев 2018 в 16:01

А «сам такое разрабатываю» — есть чем похвастаться?

Карта самоорганизации (Self-orginizing map) на TensorFlow

mbrdancer 22 авг 2017 в 15:28

Вопрос, может быть, ламерский… Но как дальше в этой схеме использовать обученную сеть?
Вот, скажем, у меня тестовые данные размерности 500. И хочу я, скажем, heatmap по своим данным нарисовать на карте 10х10. Это после обучения надо на всех сэмплах прогнать сеть — как?

Яндекс открывает технологию машинного обучения CatBoost

mbrdancer 18 июл 2017 в 19:26

Где можно посмотреть, кто у вас работает над этой моделью? И кто в консультантах? Конечно, если это не секрет.
Вообще серьезная заявка на победу — потягаться с lgbm и xgb.
Очень вдохновляет.

Метод безытеративного обучения однослойной сети прямого распространения с линейной активационной функцией

mbrdancer 13 июл 2017 в 09:49

Независимо от того, что СЛАУ решено катастрофически неоптимально (ну и пусть, можно же решение заменить потом, это техническая деталь), я все-таки принципиально не вижу потенциала для реализации безытеративного обучения.
Вот взята задача, эквивалентная линейной регрессии с квадратичной функцией потерь. Известно, что с точки зрения оптимизации она выпуклая, поэтому мы и можем применить решение СЛАУ и «обучить» такую модель в один проход.

Проблема-то в том, что принципиально подавляющее большинство современных моделей невыпуклые для оптимизации. За пределами технических подробностей, как мне кажется, не освещена главная деталь: где в описываемом методе ресурс для безытеративной оптимизации (многомерных, но это не слишком важно) невыпуклых задач? Машинное обучение тут ни при чем — это вопрос из методов оптимизации. Намек: итеративные методы существуют не от хорошей жизни…

Впрочем, если на этот вопрос у автора есть ответ, — пожалуй, я буду с нетерпением следить за его публикациями. Нобелевки по математике нет, но есть куча других не менее достойных премий.

Скрытое состояние вещества ускорит работу компьютера в 10 раз

mbrdancer 13 июл 2016 в 14:39

Ну вообще в высокопроизводительных вычислениях, например, сейчас главный ограничивающий фактор — именно латентность памяти (сейчас имею в виду задачи, которые могут крутиться без MPI).
Все оптимизации, которые нам буквально пару недель назад демонстрировали и которым обучали, — направлены на сокращение количества обращений к памяти как таковой. Ускорение за счет оптимизации такого рода даже в моих неумелых руках на некоторых задачах достигало 30x.
У других слушателей на тестовой задаче было и 100x, и больше.

+12

Microsoft критикуют за новый трюк с принудительной установкой Windows 10

mbrdancer 26 мая 2016 в 06:49

Первым абзацем каждой такой статьи надо ставить описание деинсталляции обновления KB3035583

Кстати, тут каждый раз такой срач на тему «а в чем проблема обновиться»? Я объясню, в чем проблема.
Вот вышла 10ка. У нас корпоративный антивирь, купленный в свое время в целях экономии средств сразу на 5 лет — на нее как не ставился, так и не ставится. И производитель даже не чешется, чтобы его подпилить под 10ку. Какое решение этой проблемы? В нашем случае — как первая заповедь программиста: «РАБОТАЕТ — НЕ ТРОГАЙ».

Дальше. Вот вышла 10-ка. Я, как разработчик ПО, первым делом куда смотрю? На совместимость с моими средствами разработки и используемыми библиотеками. И вот даже при условии, что я очень люблю все новое и неизведанное, кровью из ануса мной написана вторая заповедь: «РАБОТАЕТ — НЕ ТРОГАЙ».

Рефакторинг кода, новые мажорные билды и прочие радости жизни — это не для слабаков. А порой так хочется просто посидеть спокойно и допилить одно из стапиццот оставшихся TODO, запланированных еще полгода назад. Запланированных, смею заметить, с расчетом на текущую архитектуру проекта и используемый стек технологий и библиотек.

Приведу простой пример пути наименьшего зла. Вот у меня по одному из долгов службы на обслуживании находятся четыре вычислительных кластера (область применения — научные расчеты). Не «Ломоносов», но хороших, дорогих. Очень дорогих, я бы сказал. Так вот отвечая на вопрос, как часто на них обновляется операционка или хотя бы накатываются обновления на пакеты, могу сказать — НИКОГДА. И это общепринятая практика в такой среде. Самый крайний шаг — это обновление в районе самых-самых критичных дыр в безопасности. Это правило написано тем же, что и вторая заповедь. Это эволюционно выработанный за недолгую историю существования больших вычислительных систем _самый_разумный_ компромисс между новыми технологиями и универсальностью.

Я, конечно, понимаю, что человек, гордо называющий себя разработчиком, — справится с вопросами противодействия приемам, честно скажем, нечистоплотным. Такого кала вообще вокруг немало происходит. Но ждать от уважаемой транснациональной корпорации такой подставы я не был готов. «Ложечки-то нашлись, но осадочек остался».

И — да, подтверждаю, это мое личное мнение. Мне не 20 лет уже, и у меня в приоритетах не то же самое, что было десять лет назад. Разумного и доброго хочется уже сильнее, чем «СЧАСТЬЕ ДЛЯ ВСЕХ ДАРОМ, И ПУСТЬ НИКТО НЕ УЙДЁТ ОБИЖЕННЫЙ!» (с).

C#, PVS-Studio, ReSharper

mbrdancer 4 фев 2016 в 20:31

Вы малость расходитесь в этом утверждении с подачей своей статьи. Но, пожалуй, не мне учить вас жить.

Передам от вас потом привет Blackberry, Kodak и прочим, не успевшим перестроиться.
До тех пор — удачи и только удачи! Любой продукт, упрощающий и ускоряющий разработку и отладку, — достоен пожеланий прогресса.

C#, PVS-Studio, ReSharper

mbrdancer 4 фев 2016 в 19:05

Статья пишется в стиле «вы еще не уверены, что оно вам надо? уверяем Вас, — надо»

ОК, пытаюсь оценить вклад в мою разработку и оправданность покупки. И что вижу? Нет возможности оценить. Отсутствие цены на сайте — плохой тон. Никто так не делает, — даже 1С, у которых цены найти не так просто, в частности, по причине особенностей схемы распространения.

Думаете, начну проверять функциональность, смотреть — надо оно мне это или нет в моих проектах на C#? Может, решусь?
Да ни фига. Время — деньги, и на такие игры я его тратить не готов. Предположение, что у программеров много свободного времени, — необоснованно. И если у вас работают реальные программеры, — вы должны это понимать.

Заметка о калибровке датчиков положения в домашних условиях

mbrdancer 5 окт 2015 в 13:53

Как представитель той самой когорты «разработчиков» смею уверить, что смещение нуля датчика — данные совершенно несущественные (за исключением откровенно лажовых случаев, когда масштаб бедствия намекает на какие-то конкретные ошибки в сборке). Значение для ориентации устройства в пространстве имеет только отклонение от «нормы» по трем осям. Норма должна фиксироваться в собранном виде, ибо никакая сборка в настоящее время не даст точную установку датчика и отсутствие его деформаций.
Вопросов должно быть только два: линейность и изотропность показаний в зависимости от смещений, и «нормальное» положение.

Заметка о калибровке датчиков положения в домашних условиях

mbrdancer 20 сен 2015 в 11:17

Вместо жесткой фиксации 10%-ного трешхолда на выбросы я бы использовал кластеризацию. Например, даже с евклидовой метрикой расстояний. При корректной организации измерений нибольший кластер должен оказаться искомым.
Вопрос использования алгоритма K-means при этом осложняется необходимостью задания K — количества кластеров. Но это вполне можно обойти многократным прогоном с возрастающими K. В определенный момент искомый кластер начнет дробиться на более мелкие — это можно отследить.

Заметка о калибровке датчиков положения в домашних условиях

mbrdancer 20 сен 2015 в 10:59

Да какая разница где земля? Контроллер должен зафиксировать значения в положении, в котором точно известно, что он должен показывать (=g=), — и дальше корректировать свои показания по этим значениям. Ему не надо знать, почему. Ему надо показать в таком же положении ровно такое же =g=. Если его показания линейны, то при отклонении на 0.5g по оси он получит значения, смещенные от «калибровочных» на 0.5g по этой оси. Что, собственно, и нужно.

Про соль с точки зрения химика

mbrdancer 31 авг 2015 в 14:26

Википедия, конечно, не абсолютный авторитет в естествознании, технике, антропологии, лингвистике, культурологии, обществоведению и т.д. Но там выложены как бы многократно, в течение десятилетий проверенные и перепроверенные, уточнённые наблюдательные и экспериментальные факты. Мне этого достаточно.

Напомню, с чего начался весь сыр-бор:

«Рекламщик не знает того, что учёные доказали еще 250 лет назад — вещества не исчезают и не появляются ниоткуда».
Это утверждение — догма. Верная только для грубых оценок количества и элементного состава вещества.

Я не специалист в софистике, но тут налицо двойной стандарт по отношению к Википедии. Доктор, вы уж определитесь, вы туда или сюда.

Про соль с точки зрения химика

mbrdancer 26 авг 2015 в 15:24

Вообще-то на судах сейчас так и делают. Во всяком случае, на наших.
Если запас пресной воды заканчивается (нечасто, но бывает) — включают дистиллятор забортной воды. Дистиллированную воду затем минерализуют для употребления в пищу и для запуска в систему водоснабжения (мыться и стирать в морской воде — не каждый сможет.)

Про соль с точки зрения химика

mbrdancer 12 авг 2015 в 14:21

Я тоже думал, что «писать простыми предложениями — будет выглядеть слишком примитивно». Поверьте, это как раз намного сложнее, чем наворачивать кучу причастных и деепричастных оборотов, встраивая их в сложносочиненные предложения, соблюдая при этом, по возможности, читабельность текста. (приведено как пример :) )
За ссылку спасибо!

Про соль с точки зрения химика

mbrdancer 12 авг 2015 в 11:06

Спасибо за статью!
Пунктуация почти на уровне чистой стохастики, построение некоторых предложений предлагает выйти и продышаться.
Но все равно был рад продраться через эти проблемы и дочитать до конца! Как заметили выше, — шикарный пост без единой формулы.

Очень жду текст про сахара/углеводы.

Что такое Jamstik+

mbrdancer 10 авг 2015 в 14:18

Ну я-то всю жизнь на скрипке и ф-но играю, то есть, вообще ни разу не проф в смысле гитары :) Почему-то гитара мне не далась уже три раза, хотя говорят, что скрипачам должно быть легко. Ни фига не легко.
А на этой «палочке» прям одно удовольствие начинать. Не знаю, что из этого выйдет, но я в восторге!
Гироскоп для эффектов — это еще более круто! Буду исследовать этот вопрос, спасибо за ссылку!!!

Что такое Jamstik+

mbrdancer 9 авг 2015 в 17:48

Ну вообще вроде пишут, что в какой-то из прошивок заработала возможность «string bend, vibrato, and more».

Политик попробовал воспользоваться законом о «праве на забвение», который еще не вступил в силу

mbrdancer 29 июл 2015 в 13:21

Оруэлл это описал еще вона когда.
«Кто управляет прошлым — тот управляет будущим. Кто управляет настоящим, — тот управляет прошлым.»
Министерство Правды в действии.

2 3 ...

6 7