Information
- Rating
- Does not participate
- Location
- Москва, Москва и Московская обл., Россия
- Registered
- Activity
Specialization
Chief Technology Officer (CTO), Software Architect
Lead
Git
Linux
Docker
Database
High-loaded systems
SQL
English
Software development
Algorithms and data structures
Development of integration solutions
У опенсорса есть другое преимущество: когда в сообществе пользователей наберется критическая масса недовольных фичей ХХ, её с большой долей вероятностью кто-то поправит. А если не поправят в апстриме, то сделают форк и поправят в форке. Вон @Areso на это же намекнул
Лламу насколько я понимаю учили на корпусе текстов 20 языков (не 3х). Можно почитать карточку модели (https://github.com/facebookresearch/llama/blob/main/MODEL_CARD.md), whitepaper (https://arxiv.org/pdf/2302.13971.pdf) или поиграть с моделью самому, понять есть там условно язык А или нет.
Всё остальное верно, с одним маленьким ньюансом - тренировка LLM чтобы дообучить её языку, который она не знает, имхо задача не из простых в техническом смысле. По сути вам придётся проделать всё то же, что сделали ребята из Meta AI, пусть и в меньшем объеме
Посмотрите на проект Rhasspy. Там на выбор с пяток легких вариантов wake word detection.
Согласен полностью. Вообще эта тема и интересная, и зыбкая одновременно. Примерно как истоки русской революции. Сойдёмся на том, что причин шкалящей энтропии много, и в каждом случае они могут быть свои. А если поближе присмотреться, то это, возможно, и неплохо даже, т.к. даёт пользователю больше вариантов выбора. А что в итоге приживётся - решит естественный отбор и эволюция.
Лично для меня, пока у Леона единственный клиент - браузер, проект выглядит очень хрупким. Оставлять браузер запущенным на много недель/месяцев, надеясь, что ничего не утечет? Городить к нему какой-то watchdog? Или посмотреть в сторону других решений, которым этот бразуер не нужен? Скорее, последнее.
Scratch your own itch победило и это абсолютно нормально, это подход человека-практика. Люди с таким майндсетом способны что-то делать руками, а не просто рисовать архитектурные диаграммы.
Спасибо за ваше мнение. Отвечу на пару вопросов.
Устройство может иметь опциональный доступ к интернету, но только когда об этом попросит пользователь. Без интернета устройство не должно глупеть до состояния кирпича.
Это не так. Да, у Яндекса самая лучша СТТ модель. Как и, условно, Ламборгини - самое лучшее авто. Но у большинства-то как раз не Ламборгини. Я приводил в одном из комментариев список СТТ решений, с которыми я игрался. Среди них есть очень хорошие.
Нет, совершенно. В хозмаге продаются ножи. Ими можно убивать людей или резать колбасу. Я собираюсь резать колбасу. Что собираются делать другие - их личное дело. Если я могу зайти посмотреть на ютубе музыкальное видео, это пиратство?
Нет. Краткий пересказ такой: сейчас продаются электрочайники, которые не работают без сторонних облаков, интернета, подписки, требуют своего особенного блока питания и воду умеют кипятить только до 40 градусов. И вы, как и некоторые другие, пытаетесь меня тут убедить, что вот это и есть норма и по-другому быть не может.
А у меня, как и у многих других энтузиастов, это работает дома именно так, как я хочу.
Уже присутствует. Погуглите на тему synesthesiam joins nabu casa. И до него тоже было, но не так хорошо
Все верно. Это как разница между умным домом и домом с дистанционно управляемыми выключателями/приборами и кое-какой автоматизацией. Идеал недостижим. Но это не значит, что надо прекратить пытаться
Ниже ответил
Не хотел обидеть, а видимо так и вышло. Простите меня. Из моего текста выходит, что я как-то свысока высказался о вашем проекте. Поверьте, это не так. Я искренне ценю ваш энтузиазм, стремление сделать что-то полезное и крутое и отдать это в сообщество. Я с большим вниманием и удовольствием прочитал ваши обе статьи тут, даже оставлял какие-то вопросы. Я помню вашу фрустрацию на тему того, что ничего из существующих решений не поддерживает русский из коробки в достаточном объеме и особенно мне понравился ваш анализ навыков Leon.
Мой пассаж по поводу "велосипеда" относится не к вашему проекту, а к тому, как в целом случается разработка в опенсорс. Сам факт того, что вы сами решили пилить свой проект, а не например форкнуть какой-нибудь из 100 существующих Жарвисов, который поживее и который пулл реквесты принимает, и добавить к нему i8n, предварительно обсудив это с разработчиками. Этим все грешат, и я в том числе. Видимо из-за природной тяги сделать чего-то собственными руками, а не разбираться в чужом г...не.
К сожалению трактат о постоянно увеличивающейся энтропии и ее вреде обычному обывателю я не осилю, но если вкратце мое мнение таково - человечество в целом выиграло, если бы разработчики умели коммуницировать друг с другом и проявлять интерес не только к своей собственной работе, но и чужой
У музыки будут бекапы. Организуем фидонет снова. Не пропадем
Нет, мне определенно нужно продавать курсы гугления. Whisper.cpp погуглите. Погуглите тот же Воск. Покрутите его локально на своем железе. А потом поговорим.
Они уже и сами путаются в показаниях. Я читал вот это:
https://mycroft.ai/blog/grokotron-stt-on-the-edge/
Да, и не только там.
При изначальной MRSP в 35 кажется, и принимая во внимание текущий ценник за 2Гб модель 4B в ~150 для меня это выглядит как большая ошибка с их стороны, продолжать их использовать. Ну или безвыходность / упрямство. Ну не суть.
Касаемо работы с сообществом, очень интересно, спасибо. Пытались что-то законтрибьютить? Владеете железкой?
Вы чего хотите-то? Чтобы я свой анализ сравнительный всех доступных open source ASR решений на рынке вам зашарил? или рассказал, как заставить А работать на бюджетном железе класса Б? или убедить меня в том что ни у кого ничего не получится, все смерть тлен и порчая? Ну честно, а?
Люди не готовы платить 20 кр за Я.Станцию? Люди не готовы платить ~10 кр за миниПц и еще пару тыщ сверху за микрофон и колонки? Камон. Кому надо будет экран, купят его за копейки с Алиэкспресса
У виспера есть русский, но по тону ваших ответов я понял, что этот диалог в никуда.
Из первых десятков - DeepSpeech, Whisper (+.cpp), Kaldi, Flashlight ASR (formely wav2letter), PaddleSpeech (Formerly DeepSpeech2), OpenSeq2Seq, SpeechBrain, Vosk, Coqui, HTK, Julius, OpenVokaturi, Athena, ESPnet, Picovoice.
Русского где-то нет, но прикручивается. Надеюсь вам сравнительный анализ не нужен?
ответил ниже
Хорошо, согласен. С проприетарщиной от яндекса можно только скулить об этой проблеме, а с опенсорс решением, если будет критическая масса желающих или один но разраб, то запилят мобильное приложение-компаньон, которое подобного рода подтверждения сможет показывать текстом вместо (вместе) с озвучкой голосом.
И если мы говорим про тру опенсорс колонку, как я ее вижу, то вы всегда сможете подключить к ней любой монитор - большой или маленький.
У вас дома телевизор есть?
Вот вам экран, если надо.
А домочадцы есть? Вас устраивает, что у вас с ними в общении только голосовой интерфейс?
Я это к тому, что голосовой интерфейс недооценивают только потому, что его реализации пока так себе
В своей заметке рассуждал с точки зрения потребителя, поэтому и отношение такое :) по поводу поддержки продуктов я писал выше. Ее по сути нет и у коммерческих устройств, все на уровне - перезагрузите или привозите поменяем. Разбираться почему ваша Алиса не соединяется с вашим ЗигБи шлюзом никто за вас не будет.
Продажа привазанных устройств изживет себя, когда позврослеет потребитель.