All streams
Search
Write a publication
Pull to refresh
57
0
bugman @bugman

Make software to happen

Send message

У опенсорса есть другое преимущество: когда в сообществе пользователей наберется критическая масса недовольных фичей ХХ, её с большой долей вероятностью кто-то поправит. А если не поправят в апстриме, то сделают форк и поправят в форке. Вон @Areso на это же намекнул

Лламу насколько я понимаю учили на корпусе текстов 20 языков (не 3х). Можно почитать карточку модели (https://github.com/facebookresearch/llama/blob/main/MODEL_CARD.md), whitepaper (https://arxiv.org/pdf/2302.13971.pdf) или поиграть с моделью самому, понять есть там условно язык А или нет.
Всё остальное верно, с одним маленьким ньюансом - тренировка LLM чтобы дообучить её языку, который она не знает, имхо задача не из простых в техническом смысле. По сути вам придётся проделать всё то же, что сделали ребята из Meta AI, пусть и в меньшем объеме

Посмотрите на проект Rhasspy. Там на выбор с пяток легких вариантов wake word detection.

потому что мы по-разному членим реальность на компоненты. Это и есть архитектура; и разное членение нужно потому, что мы разные вещи считаем важными

Согласен полностью. Вообще эта тема и интересная, и зыбкая одновременно. Примерно как истоки русской революции. Сойдёмся на том, что причин шкалящей энтропии много, и в каждом случае они могут быть свои. А если поближе присмотреться, то это, возможно, и неплохо даже, т.к. даёт пользователю больше вариантов выбора. А что в итоге приживётся - решит естественный отбор и эволюция.

Леон

Лично для меня, пока у Леона единственный клиент - браузер, проект выглядит очень хрупким. Оставлять браузер запущенным на много недель/месяцев, надеясь, что ничего не утечет? Городить к нему какой-то watchdog? Или посмотреть в сторону других решений, которым этот бразуер не нужен? Скорее, последнее.

Но был вопрос - а для меня-то это ценность создает?

Scratch your own itch победило и это абсолютно нормально, это подход человека-практика. Люди с таким майндсетом способны что-то делать руками, а не просто рисовать архитектурные диаграммы.

праздник идиотии, глупость, задротов, сидеть в шапочке из фольги, праздник некомпетентности

Спасибо за ваше мнение. Отвечу на пару вопросов.

Зачем колонка без интернета?

Устройство может иметь опциональный доступ к интернету, но только когда об этом попросит пользователь. Без интернета устройство не должно глупеть до состояния кирпича.

так как голос без интернета хорошо не распознаётся

Это не так. Да, у Яндекса самая лучша СТТ модель. Как и, условно, Ламборгини - самое лучшее авто. Но у большинства-то как раз не Ламборгини. Я приводил в одном из комментариев список СТТ решений, с которыми я игрался. Среди них есть очень хорошие.

Модель потребления контента - 100% пиратство?

Нет, совершенно. В хозмаге продаются ножи. Ими можно убивать людей или резать колбасу. Я собираюсь резать колбасу. Что собираются делать другие - их личное дело. Если я могу зайти посмотреть на ютубе музыкальное видео, это пиратство?

Краткий пересказ

Нет. Краткий пересказ такой: сейчас продаются электрочайники, которые не работают без сторонних облаков, интернета, подписки, требуют своего особенного блока питания и воду умеют кипятить только до 40 градусов. И вы, как и некоторые другие, пытаетесь меня тут убедить, что вот это и есть норма и по-другому быть не может.
А у меня, как и у многих других энтузиастов, это работает дома именно так, как я хочу.

голосовое управление отсутствует, хотелось бы но вменяемого способа без облаков и платных сервисов я не нашёл

Уже присутствует. Погуглите на тему synesthesiam joins nabu casa. И до него тоже было, но не так хорошо

Все верно. Это как разница между умным домом и домом с дистанционно управляемыми выключателями/приборами и кое-какой автоматизацией. Идеал недостижим. Но это не значит, что надо прекратить пытаться

Не хотел обидеть, а видимо так и вышло. Простите меня. Из моего текста выходит, что я как-то свысока высказался о вашем проекте. Поверьте, это не так. Я искренне ценю ваш энтузиазм, стремление сделать что-то полезное и крутое и отдать это в сообщество. Я с большим вниманием и удовольствием прочитал ваши обе статьи тут, даже оставлял какие-то вопросы. Я помню вашу фрустрацию на тему того, что ничего из существующих решений не поддерживает русский из коробки в достаточном объеме и особенно мне понравился ваш анализ навыков Leon.

Мой пассаж по поводу "велосипеда" относится не к вашему проекту, а к тому, как в целом случается разработка в опенсорс. Сам факт того, что вы сами решили пилить свой проект, а не например форкнуть какой-нибудь из 100 существующих Жарвисов, который поживее и который пулл реквесты принимает, и добавить к нему i8n, предварительно обсудив это с разработчиками. Этим все грешат, и я в том числе. Видимо из-за природной тяги сделать чего-то собственными руками, а не разбираться в чужом г...не.

К сожалению трактат о постоянно увеличивающейся энтропии и ее вреде обычному обывателю я не осилю, но если вкратце мое мнение таково - человечество в целом выиграло, если бы разработчики умели коммуницировать друг с другом и проявлять интерес не только к своей собственной работе, но и чужой

У музыки будут бекапы. Организуем фидонет снова. Не пропадем

Нет, мне определенно нужно продавать курсы гугления. Whisper.cpp погуглите. Погуглите тот же Воск. Покрутите его локально на своем железе. А потом поговорим.

они скорее объясняют тем, что не знают, как иначе сделать понятную пользователю настройку

Они уже и сами путаются в показаниях. Я читал вот это:

We’ve tried a lot of local STT options over the years, and while there’s been incredible work going into many projects, unfortunately nothing has come close to providing the level of experience we think is required for a general purpose voice assistant.
For this reason, by default Mycroft has used Google’s STT cloud services and layered on some additional privacy protections. We proxy the requests through Mycroft’s servers and delete identifying data related to these requests as soon as possible. (You can read more about that here.) But as much as we try to mitigate the privacy exposure inherent in such a system, this has always been a stop gap solution – a necessary evil in order to provide a quality voice experience.

https://mycroft.ai/blog/grokotron-stt-on-the-edge/

Ну а распознавание для русского (и многих других языков) лучше всего работает на вполне себе локальном Vosk'е.

Да, и не только там.

Имхо нет проблемы непосредственно в RPi. Четвёртая версия на максималках с нужными шилдами обойдётся сотни в две.

При изначальной MRSP в 35 кажется, и принимая во внимание текущий ценник за 2Гб модель 4B в ~150 для меня это выглядит как большая ошибка с их стороны, продолжать их использовать. Ну или безвыходность / упрямство. Ну не суть.

Касаемо работы с сообществом, очень интересно, спасибо. Пытались что-то законтрибьютить? Владеете железкой?

Вы чего хотите-то? Чтобы я свой анализ сравнительный всех доступных open source ASR решений на рынке вам зашарил? или рассказал, как заставить А работать на бюджетном железе класса Б? или убедить меня в том что ни у кого ничего не получится, все смерть тлен и порчая? Ну честно, а?

Люди не готовы платить 20 кр за Я.Станцию? Люди не готовы платить ~10 кр за миниПц и еще пару тыщ сверху за микрофон и колонки? Камон. Кому надо будет экран, купят его за копейки с Алиэкспресса

У виспера есть русский, но по тону ваших ответов я понял, что этот диалог в никуда.

Из первых десятков - DeepSpeech, Whisper (+.cpp), Kaldi, Flashlight ASR (formely wav2letter), PaddleSpeech (Formerly DeepSpeech2), OpenSeq2Seq, SpeechBrain, Vosk, Coqui, HTK, Julius, OpenVokaturi, Athena, ESPnet, Picovoice.
Русского где-то нет, но прикручивается. Надеюсь вам сравнительный анализ не нужен?

Хорошо, согласен. С проприетарщиной от яндекса можно только скулить об этой проблеме, а с опенсорс решением, если будет критическая масса желающих или один но разраб, то запилят мобильное приложение-компаньон, которое подобного рода подтверждения сможет показывать текстом вместо (вместе) с озвучкой голосом.
И если мы говорим про тру опенсорс колонку, как я ее вижу, то вы всегда сможете подключить к ней любой монитор - большой или маленький.

У вас дома телевизор есть?
Вот вам экран, если надо.
А домочадцы есть? Вас устраивает, что у вас с ними в общении только голосовой интерфейс?
Я это к тому, что голосовой интерфейс недооценивают только потому, что его реализации пока так себе

В своей заметке рассуждал с точки зрения потребителя, поэтому и отношение такое :) по поводу поддержки продуктов я писал выше. Ее по сути нет и у коммерческих устройств, все на уровне - перезагрузите или привозите поменяем. Разбираться почему ваша Алиса не соединяется с вашим ЗигБи шлюзом никто за вас не будет.
Продажа привазанных устройств изживет себя, когда позврослеет потребитель.

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity

Specialization

Chief Technology Officer (CTO), Software Architect
Lead
Git
Linux
Docker
Database
High-loaded systems
SQL
English
Software development
Algorithms and data structures
Development of integration solutions