Информация
- В рейтинге
- 4 934-й
- Откуда
- Красноярск, Красноярский край, Россия
- Дата рождения
- Зарегистрирован
- Активность
Специализация
Администратор серверов, Администратор баз данных
Старший
От 1 ₽
Linux
Высоконагруженные системы
Elasticsearch
ClickHouse
Базы данных
Сударь. Вам еще в чатике распознавания речи написали, что реппозиторий https://github.com/borisovai/voice‑input отдает 404, оценить код никто не сможет...
Также есть отдельные настройки по шумодаву и в некоторых ситуациях, может вести себя не так как ожидается - например если говорить очень громко, может заигнорить и пропустить.
На каких данных сверяли wer?
Хотел уточнить по цифрам. Например wer 0.5496 по вашей таблице - выходит, что модель ошиблась в половине случаев если считать по общей сумме? Сам замеряю качество и бывают например случае где одни модели "слышат", то что не надо "слышать", другие же наоборот.
Можете ли вы выложить полученные тексты в архиве, могут быть неточности в том числе на стороне "золотого датасета" - т.е. какая нибудь модель распознала лучше, чем предлагаемые субтитры (например написано "идет музыка", "песня") - тестируемая модель пропустила т.к. посчитала шумом, а вы при проверке добавляете ошибку wer.
Согласен.
Маркетологи компании, отдайте обратно аккаунт Андрею. В дополнение можно почитать доку https://docs.kernel.org/virt/kvm/api.html
И другие "уменьшаторы" накладных расходов описаны на популярном ресурсе.
Печально, что от обычной нормальной базы пытаются уйти в другие абстракции - которые на более высоком уровне якобы решат проблемы лежащие ниже.
В статье не хватает картинок, где llm вместо alter использует drop т.к. это быстрее...
Вы ответили на удобный вопрос. Будут ли техническое описание, вроде как хабр это про технологии, а не про маркетинговый мусор. Расскажите что ваше решение - это не "Болдженос". Удачи, надеюсь мои предположения ошибочны.
Ясно что ссылки на гитхаб не будут. Но хотя бы схему взаимодействия и принцип работы можно нарисовать. А так смотрится как очередной супер проект с целью нагнать аудиторию в телеграм....
И работает и есть проблемы. Не все модели будут корректно работать если купите самый дорогой mac studio. Оставлю это https://github.com/pytorch/pytorch/issues/141287 - некоторые модели и в том числе для дообучения - будут работать через процессор, что вызывает печаль. Не стал бы на данный момент инвестировать в яблоки, если цель запускать модели и остальные вещи связанные с ML
Считаю статью неполной т.к. нет отдельного пункта про "нескучные обои". Требую на уровне законодательства ввести обязательное требование обозревать обои во всех новых дистрибутивах!
Во многих статьях под словом "домены" - чаще всего подразумевали другие языки, в рамках вашей статьи насколько понял, используется только русский язык, а домены - это наборы данных разного качества и содержимого.
Еще хотел уточнить, делали ли вы гибридную модель, где есть 2 головы - CTC (на быстрое распознавание) и RNNT (на более точное) и как такую модель используете в своих проектах?
И на вопрос, который вы обычно не отвечаете на своих докладах и выступления, ну или говорите фразу типа "бесплатного google colab для этого не хватит" - так все таки, сколько времени и на каких мощностях вы обучили модель которую выложили и с какой попытки получилось? Спасибо.
О, интересно. А можно подушнить? Пишу по факту, давно брали компанией у вас достаточно много серверов и пару штук были глючные, настолько что при после установки дистрибутива были проблемы во время работы - конечно винил только свои кривые руки, а не сервер или неисправный процессор, что также сообщала ваша техническая поддержка, потеряв пару дней, нам заменили сервер и компенсировали 2 дня для данных серверов. С тех пор приходится быть с провайдером связи очень прямолинейным - не работает железка, просто возьмите и замените, зачем мне терять время, которое мне никто не компенсирует. Надеюсь с новыми серверами в случае глюков, вы не заставляете клиентов проводить дебаг за свой счет. Спасибо.
Жизненный цикл ПО у AMD короче в 2 раза чем у NVIDIA - эта ситуация многим надоела.
В это время nvidia поддерживает свои старые карты 9-10 лет, а тут amd дала подарок и стала на карты 4х летней давности "продлила" поддержку...
Нужно больше статей про контейнеры..... Но пока лучшая https://habr.com/ru/articles/935178/
Возможно люди просто не желают читать контент сгенерированный нейросетью....
Все описано в доке https://clickhouse.com/docs/ru/guides/sre/keeper/clickhouse-keeper
Акцент на линейность чтения и записи и конечно по ресурсам кипер в отношении памяти менее прожорлив в отличие от zookeeper.
По статье - надеюсь тут говорится про тестовый стенд, а не реализацию в production.
Интересно, а админы clickhouse знают что вы вставляете в distributed table? Помню на старой работе такое не приветствовалось т.к. кластер зукипера чувствовал себя не очень при таких нагрузках?
Странно, почему так мало причин по уходу постгреса в кубернетесь на bare metal или укажите по ресурсам в кубере и какие железяки стали целевыми. Графики по latency до и после будут?
Это получается rsync в кроне. Проверяли ли состояние гонки, когда большой файл не успевает провести синхронизацию за интервал задания? Где система хранит индексы и как справится с условным миллиардом мелких файликов? Думаю что делали тесты и знаете какие есть ограничения.
Отдохните и пишите достойные технические интересные статьи. Удачи!
Господа. Когда делал тесты и решил попробовать ваш дистрибутив SelectOS, то по неизвестной мне причине postgresql и clickhouse показал худший результат по сравнению с Debian11 и Ubuntu22. Может, если выпустили свой дистрибутив сделайте сравнение с другими - будет интересно.