Как стать автором
Обновить

Комментарии 345

Любая колонка из магазина - законченный продукт.

Можно сделать свою колонку, накрутить туда Sphinx, прикрутить туда еще что-то, всем этим движкам в обе стороны 10 лет в обед, так же как и умным домам... но без 3d принтера это будет выглядить как ужасное нечто, ну и поддерживаться будет полутора землекопами, которые поиграются и бросят.

Сфинкс это старовато, мягко говоря.
А так да, решение должно быть конечным продуктом, чтобы "достал - подключил - работает".

Сфинкс это старовато

А что ещё есть кроме Sphinx, что умело бы в русский язык и работало локально?

vosk, можно даже на распберри запускать. Играюсь уже пару недель, делаю субтитры к роликам. Если начитывал профессиональный диктор, то точность распознавания более 95%, если всякое бэканье и проглоченные окончания - все похуже.

Мне кажется вы или автор исходного комментария что-то путаете. Sphinx это полнотекстовый поиск, а не генератор речи TTS.

Не путает. Есть sphinx search и есть sphinx speech recognition tool.

Понял, спасибо за уточнение, не знал о втором.

ответил ниже

Можно сделать свою колонку

С блэкджеком и шлюхами:

С 3D принтером оно будет выглядеть не менее ужасно. Даже скорее более ужасно.

Зависит от модели принтера, материалов и прямизны рук(если первое и/или второе не очень).

Пока не видел ни одного напечатанного корпуса, который смотрелся бы хотя бы не отвратительно. Видимо с руками и моделями у всех, кто пытался, было не очень.

Не знаю что я такого написал, что аж в карму прилетело, но если принтер не совсем дерьмовый, а создатель немного потрудился над его доработкой(и доработкой напечатанного изделия), то от заводского его отличить на первый взгляд сложно. Если рассматривать подробно, то мелкие косяки будут заметны. Чтобы выглядел прям отвратительно, это ещё нужно постараться или у вас слишком завышенные ожидания.
Сегодня на 3d принтерах умеют делать просто шикарные вещи, некоторые из которых даже не изготовить стандартными заводскими методами(литьё под давлением).
Фотополимерные принтеры, даже без особых навыков, могут изготавливать вещи заводского качества, но которые иначе и не сделать. Их к примеру используют для изготовления украшений из драг металла.

Я не знаю, что у вас за принтеры такие, но любой домашний FDM даёт отвратительное качество поверхности по всем граням - на нижней отпечатывается рельеф подложки или зеркало от стекла, на боковых неизбежна гармошка из слоёв, на верхней или сетка, или бугры от разглаживания. На SLA гораздо ниже прочность пластика на истирание и дико плывёт вся геометрия, добиться ровной крайне сложно, особенно на крупных деталях - именно поэтому их чаще используют для украшений и фигурок, где точность геометрии и прочность не важны. И это ещё не говоря про следы от удаления поддержек в обоих случаях. Отличить напечатанный корпус от заводского литья не составляет ни малейшего труда, это просто земля и небо. Чтобы напечатанный корпус смотрелся хоть как-то - его надо зашлифовать, загрунтовать и покрасить, это адовая штучная работа.

Корпуск колонки, которая стоит и никуда не двигается - зачем ей прочность на истирание?

Прочность на истирание у обычных полимеров для SLA такова, что если просто потереть одной деталью о другую, они обе легко начинают стирать друг друга в порошок. Это не ABS, который можно потереть им же самим или ногтём, и ему совершенно ничего не будет, для предметов обихода это не годится. Есть, конечно специальные полимеры сравнимой с пластиками для FDM прочности, но это другая ценовая категория. В общем-то, домашие SLA принтеры вообще не годятся для корпусных деталей - детали выходят очень дорогими и очень непрочными. И типичный размер области печати домашнего SLA в разы меньше, чем у FDM - если на среднем FDM ещё можно напечатать что-то размером с небольшую колонку, на SLA придётся печатать по маленьким кусочкам, у каждого из которых ещё и плывёт геометрия, и они плохо стыкуются. В лучшем случае это технология для изготовления матрицы под литьё в силиконовую форму - напечатать прототип, довести до хорошего качества вручную, шлифовкой-шапклёвкой, снять форму, и потом отливать. И это дорого по материалам и сложно по процессу.

качество печати уже очень сильно шагнуло вперед, как и материалы. Можно делать красивое, особенно если покрасить. Это не сложно, но возможно многие авторы "устают" в процессе разработки устройств и не доводят до конца. Если не видели ни одного корпуса - вполне возможно что сфера печати вне ваших интересов. Так бывает =)

Ну разумеется вне моих интересов. А написанное выше я в интернете прочитал.

Можно сделать свою колонку

Я всю статью ждал когда наступит: "все колонки фигня, поэтому я сделал свою, хорошую и опенсорсную....". Но не дождался. Видимо, это сложно. Примерно как мешки ворочать :)

Одно точно, сделать свою "колонку" было безусловно сложнее, чем писать об этом едкий комментарий :) Да, я сделал, себе. И многие тоже сделали, себе.
Но этих продуктов нет на рынке для массового пользователя.

Купите ли вы по настоящему умную колонку с голосовым ассистентом внутри, которая будет использовать открытое ПО

Я могу сказать и как программист, который в том числе поддерживает открытое ПО, и как пользователь, и мне кажется, мою точку зрения разделяет подавляющее большинство обычных пользователей: нет, не купил бы. Мне по-большому счёту вообще не важно, какое ПО внутри колонки. Мне как пользователю от умной колонки нужна не открытость кода, а чтобы я её воткнул в розетку и начал собственно пользоваться. Чем меньше у неё будет вещей, которые мне нужно будет конфигурировать, обновлять и тем более исправлять, тем лучше. Если опенсурсное решение сможет достичь такого уровня комфорта, ок, отлично, пусть будет опенсурс. Но я не слишком на это рассчитываю, если честно. "Пользовательские" продукты, которые пишут ИТшники для ИТшников, чаще всего так и остаются вечно в полудоделанном состоянии.

"Пользовательские" продукты, которые пишут ИТшники для ИТшников, чаще всего так и остаются вечно в полудоделанном состоянии.
Вот это истинная правда. Но я скажу больше. Этой "полудоделанностью" страдают в разной степени и многие комерческие продукты для широкого рынка.

Страдают, но у коммерческих продуктов есть конкуренты и их могут просто подвинуть с рынка, а опенсорс двигать уже некуда и ему без разницы что там на рынке.

У ОпенСорса тоже бывает конкуренция между проектами:

100 и 1 Linux дистрибутив (на картинке не все)
100 и 1 Linux дистрибутив (на картинке не все)

У опенсорса есть другое преимущество: когда в сообществе пользователей наберется критическая масса недовольных фичей ХХ, её с большой долей вероятностью кто-то поправит. А если не поправят в апстриме, то сделают форк и поправят в форке. Вон @Areso на это же намекнул

А если не поправят в апстриме, то сделают форк и поправят в форке.

Вот это-то одна из главных проблем опенсурса. Разработчики проекта too busy, чтобы принять ваш пулл-реквест, ну или вы или ваш код им просто не нравитесь, вы делаете форк с исправлением важной фичи, комьюнити это одобряет, ваш форк развивается, старый проект развивается, в итоге мы имеем уже две схожие софтины, разбивающие комьюнити надвое, причём у одной чего-то нужного не хватает, у другой это есть, но не хватает фич, реализованных в первой и т.д.

Согласен, такое бывает. Но даже это, на мой взгляд, лучше, чем проприетарщина - потому что у пользователя появляется выбор.
Юзеры вон уже 5 лет долбят прикрутить сраный эквалайзер в Яндекс Станцию (она басит на некотором контенте, как чумная). И производитель на это Х забил.

Уже наверно год как сделали эквалайзер. Вы бы посматривали что вокруг происходит.

Только этот эквалайзер доступен из приложения.

Алиса, не баси! сказать не выйдет.

Как прикольная фича, наверно можно. А чтобы использовать выглядит бесполезно. Группа людей добравшихся до эквалайзера и группа людей которым хватит примерной настройки голосом не пересекаются. Непримерно голосом настраивать слишком неудобно.

Я бы с вами согласился, но только не в случае с Я. Станцией.

У неё какой-то чудовищный пресет по умолчанию, настолько, что это проблема с басом подсвечивается едва ли не каждым втором пользователем; а количество пользователей, которым нужен и которые пользуются эквалайзером на большинстве аудипроигрывающей техники реально невелико.

В новой системе цитирования, надо отделять ентером ответ, чтобы цитата закончилась.

Да, я уже смекнул, спасибо

Умную колонку домой хоть какой степени оперсорсности и продвинутости покупать вряд ли буду. Дома мне проще открыть ноут/смартфон и совершить всё искомое более традиционным и предсказуемым способом :)

А вот то же самое, но в автомобиль, где я за рулём и других вариантов особо нет, - дайте две. Чтобы понимало фразы хотя бы уровня "Перестрой маршрут через "трёшку" и так, чтобы по дороге заскочить в офис на 10 минут, напиши Лене в Вотсап, на сколько я в итоге задерживаюсь, расскажи, что нового пришло в почту по проекту Х, а потом поставь пятую симфонию Малера". Сейчас абсолютно все голосовые помощники, увы, заставляют напрягать мозги "как же это сформулировать, чтобы эта дура поняла" :)

Т.е. вы от опенсорсной поделке-на-коленке ожидаете уровня лучшего, чем от грандов индустрии, у которых многочисленные, оплачиваемые и мотивированные команды годами работали над своими продуктами?

Я в данном случае формулирую свои потребительские ожидания, а уж кто и в какой степени их в итоге сможет реализовать - вопрос второй.

Если это будет опенсорсный проект - совсем прекрасно. Думаю, в части софта появление такого проекта вполне реально. Если это будет приложение под Android / Linux - почему нет? А там уж кто на какую железку сам поставит, кто из вендоров из коробки интегрирует...

Но для начала пусть хотя бы проприетарные решения до этого уровня дойдут. А то реально на фоне последних успехов моделей от OpenAI навыки голосовых помощников кажутся прошлым веком. Но если это будет проприетирное решение - это, конечно, ограничит его применение. Понятно, что условному Яндексу я доступ к своей почте и мессенджерам не дам.

Что вы называете "поделкой-на-коленке"? OpenAI Whisper? Или NextCloud? Или может HomeAssistant и Rhasspy?

OpenAI Whisper

сделана людьми на серьёзной зарплате.

NextCloud

управлением развития продукта занимается коммерческая компания.

Нет.

Опенсорс может быть клёвым.

Но клёвые вещи делают, и, что важнее, развивают люди на зарплате, потому что "интересными проектами" сложно платить за ипотеку.

Поделка-на-коленка - это уровень зрелости производственных процессов, а не proprietary/opensource баттл. Противоречия нет.

А когда в чат Хабр заваливается некто, кто говорит, что текущие колонки говно и не могут работать в оффлайне, и давайте сделаем свою колонку, с блекджеком и девицами оффлайном и опенсорсом, я ожидаю, что будет именно "поделка-на-коленке".

Вот если бы статья начиналась: "я делал колонки в Гугле, Яндекс и Сбербанке, и теперь я хочу изучить спрос на более 'справедливые' исполнения, в том числе работающее на опенсорсе и в оффлайне", ожидания были бы совсем другими.

Где вы прочитали "давайте сделаем свою колонку"?

Ну а если нет, и это даже не CustDev, то зачем всё это?

Почему вы считаете, что если сделать ПО колонки open source, то это будет прибыльно для производителя? Какая может быть профицитная модель монетизации у такой колонки? Что ваш open source есть будет?

А почему например производители андройд телефонов продолжают их делать?

Не понял ваш вопрос. Производители телефонов обычно не выкладывают в open source никаких своих разработок. Вы видели open source драйверы для камеры Samsung Galaxy для Linux?

Google и его ОС Android привязывает пользователя к сервисам Google с последующей прямой и непрямой (показ рекламы) монетизацией через них.

Компании делают коммерчески успешные продукты с применением своих собственных проприетарных наработок в железе, но в качестве сердца используют opensource.
Замените в своем вопросе "колонка" на "телефон" и перечитайте его:

Почему вы считаете, что если сделать ПО колонки open source, то это будет прибыльно для производителя? Какая может быть профицитная модель монетизации у такой колонки? Что ваш open source есть будет?

Разговор не про "какие-то компании", а про модель монетизации конкретно это этой open source колонки. Какой вы её видите?

Ну в теории если эта колонка способна работать standalone без интернета и всяких клаудов, то наверное найдётся относительно много людей, которые будут готовы заплатить за само железо. Я бы наверное заплатил за такую колонку 200-300€. Естественно при условии что она будет более-менее нормально работать.


И честно говоря я бы не сказал что это в принципе какие-то нереалистичные ожидания. Скорее всего рано или поздно такое будет. А как open sourcе или нет это уже отдельный вопрос.

Вот скажите честно кто-нибудь, нужна ли кому-нибудь колонка вообще без соединения с интернетом? А если какое-никакое подключение будет, то нет никакой гарантии, что вашу инфу не сольют и не используют (исключаем единицы людей, способных собственноручно написать или хотя бы проверить весь код).
Видимо поэтому производители вкладываются не в железные локальные решения, а в облачные, что ещё кучу доп. бонусов даёт.
Платить за подписку мне не нравится. Я бы купил универсальное устройство, способное работать с несколькими сервисами [одновременно!] :)

Никто не говорил вообще без интернета. Интернет полезная штука :) но нужна колонка, которая делает всё локально и только когда об этом попросят явно, сходит в интернет

Вот скажите честно кто-нибудь, нужна ли кому-нибудь колонка вообще без соединения с интернетом?

Меня вполне устроит. А что там такого необходимого есть в интернете без чего умная колонка становится не нужна?

Вот скажите честно кто-нибудь, нужна ли кому-нибудь колонка вообще без соединения с интернетом?

У меня такие есть. И еще куплю :)

Я совершенно не понимаю, откуда у вас абсолютная, не поддающаяся логике уверенность, схожая с религиозным убеждением, в том, что если внутрь колонки запихнуть open source, то это будет коммерчески успешный продукт.

И даже боюсь спрашивать об этом, ожидая, что вдруг вы на меня жалобу по 148 УК РФ напишите .

Вы не совсем понимаете модель их "коммерческой успешности". Доход от продаж самих телефонов - минимальный, настоящие деньги зарабатываются рекламой, заворачиванием на свой поиск и продажей аппликаций/контента. То же самое планировали Амазон, Гугл, Эппл, Яндекс - но оказалось что и реклама туда не очень вставляется, и заказать что бы то ни было проще с телефона.

А вы пользовались телефоном без гуглосервисов (например Huawei)? Его даже к автомобилю не подключить, потому что везде проприетарщина и поддержка только Гугла. И половину приложений приходится скачивать в виде apk из сомнительных источников.

И половину приложений приходится скачивать в виде apk из сомнительных источников.
В реалиях 2023 года и так приходится немалую часть приложений скачивать в виде apk из сомнительных источников. Потому что Google в своей бесконечной мудрости решил для жителей РФ отключить возможность скачивания даже уже купленных платных приложений.

А Huawei вообще не очень умно поступили, как по мне. С root был бы совсем другой продукт. Как раз для желающих оторваться от сервисов гугла, но чуть-чуть (microg и прочие).

Да, и я очень рад, что успел до начала 2022 перейти с айфона на андроид. Пригодилось очень неожиданным образом :) Но это лишь подтверждает высочайшую зависимость телефонов от корпораций. Опенсорс там или нет.

у меня microg (для vanced) стоит без рута.

Google и его ОС Android привязывает пользователя к сервисам Google 

Совершенно не обязательно привязываться к гуглу и его сервисам, равно как и к конкурентам типа хуавеев/русторов и прочего.

Купил девайс на чистом андроиде или сразу после распаковки рутанул и зачистился - никто не препятствует и функционал изделий не ограничивается, при подобных шагах.

Купил девайс на чистом андроиде или сразу после распаковки рутанул и зачистился - никто не препятствует

И много ли осталось на рынке устройств с чистым Андроид? Я когда себе новый телефон искал пару лет назад, их можно было по пальцам одной руки пересчитать — пара Моторолл, пара Нокий и Пиксель. А остальные ещё как препятствуют как получению рута, так и разблокировке загрузчика. Это не говоря уже о том, что на кастомных прошивках частенько не работает какой-нибудь датчик, или NFC, или что-то ещё.

остальные ещё как препятствуют… разблокировке загрузчика

Странно. У Xiaomi, например, такой же принцип разблокировки загрузчика, как у Motorola — через связь с производителем. У Samsung, насколько я помню, вообще это локально делается нативными настройками.

У Xiaomi, например, такой же принцип разблокировки загрузчика

Ага, только вот далеко не факт, что та версия приложения MiFalsh Unlock, что доступна на сайте Xiaomi разблокирует загрузчик вашего телефона, и вполне вероятно, что вам придется копаться на всяких XDA и прочих 4pda в поисках рабочей версии. Сомневаюсь, что это так случайно вышло, а не намеренные палки в колеса со стороны Xiaomi. А всякие Honor, Vivo и Oppo, Meizu вообще не дают разблокировать загрузчик. К тому же, как я уже говорил, кастомный Андроид из-за закрытых дров нередко работает довольно криво.

Ага, только вот далеко не факт, что та версия приложения MiFalsh Unlock, что доступна на сайте Xiaomi разблокирует загрузчик вашего телефона, и вполне вероятно, что вам придется копаться на всяких XDA и прочих 4pda в поисках рабочей версии.

Этот аргумент можно вообще ко всему применить. Не факт, что вам в официальном сервисе правильно автомобиль обслужат; не факт, что вам жена суп не пересолит. Давайте всё-таки быть более корректными.


Сомневаюсь, что это так случайно вышло, а не намеренные палки в колеса со стороны Xiaomi

Ну тут уж впору шапочку из фольги одевать. Лично я, например, не вижу логики в связывании одновременного предоставления официального инструмента для разблокировки и "не факт, что заработает".

Лично я, например, не вижу логики в связывании одновременного предоставления официального инструмента для разблокировки и "не факт, что заработает".

А какой еще есть вариант, в ситуации когда инструмент с официального сайта не работает и приходится искать другие его версии на форумах, а производитель эту ситуацию не исправляет? На мой взгляд это связано с тем, что Xiaomi начинали как производители прошивки и не хотят прямо противопоставлять себя старой фан-базе, при этом делая процесс таким, чтобы как можно больше людей решили не связываться с разблокировкой. И это не "шапочка из фольги", это вполне соответствует китайским культурным установкам – по возможности не идти на прямую конфронтацию, а тихо "сливаться". Китаец может постесняться прямо отказать вам, и при этом делать вид, что до него не дошло ваше письмо, или он замотался и совершенно забыл о том, что договаривался о встрече, хотя на самом деле он на нее даже не собирался. Тот же Хуавей, например, не делал громких заявлений об уходе с российского рынка телеком оборудования, они просто перестали отвечать на телефонные звонки и письма.

Ууу, ещё и националистические заговоры. Ясно-понятно.

Вы в порядке? Кто говорит о заговорах? Для любого, кто активно взаимодействовал с китайцами эта культурная особенность не секрет. У них в популярных менеджерах не делают отчет о прочтении, чтобы было непонятно, тебя намеренно игнорят, или человек просто не видел сообщение.

А вы в порядке? По одному тезису из трёх ваших сообщений:


  • Производители телефонов запрещают рут.
  • Xiaomi только делает вид, что позволяет разблокировку.
  • Китайцы всё делают втихую.

При этом — крупные производители позволяют разблокировку загрузчика; загрузчик на Xiaomi разблокируется; что-либо замалчивают все подряд, независимо от национальности.


Вас в детстве китаец ударил, что ли? Откуда такая необъективность?

Xiaomi только делает вид, что позволяет разблокировку.

Где я пишу "делает вид"? Позволяет, но для этого нужно полазить по инету в поисках рабочей версии приложения. То что лежит на сайте производителя при этом скорее всего не сработает. Производитель при этом о ситуации нигде не пишет.

Вас в детстве китаец ударил, что ли? Откуда такая необъективность?

Какая необъективность? Я где-то говорю что это плохо? Я просто говорю, что есть такая вот культурная особенность. Спросите у поставщиков оборудования Хуавей, если мне не верите.

Ещё раз — вы на основании голословного утверждения "скорее всего не сработает" и придуманной вами "культурной особенности" делаете какие-то выводы, удаляющие вас от первоначального тезиса:


пара Моторолл, пара Нокий и Пиксель. А остальные ещё как препятствуют как получению рута, так и разблокировке загрузчика.

При этом запрещает разблокировку только Honor/Huawei. OnePlus, Alcatel, Oppo, ZTE разблокируются простыми командами в режиме отладки. Sony разблокирует аналогично Motorola и Xiaomi. Остальных лень искать.
Иначе говоря, вы сами придумали, сами поверили — и пытаетесь в этом убедить окружающих.

Alcatel, Oppo, ZTE разблокируются простыми командами в режиме отладки

Ну да, ZTE разблокируется простыми командами в режиме отладки, поэтому на XDA в разделе ZTE висит тред тред под названием "BOUNTY thread for ROOT on ZTE Blade A5 2019".

У дешевых китацев кроме Сяоми и Нокии с этим все печально, при этом в случае Сяоми придется побегать по форумам. Меня несколько родственников просили сделать что-нибудь с Vivo, Oppo и ZTE и реальных рабочих вариантов я не нашел.

По производителю больше нельзя просто утверждать "разблокируется" или "не разблокируется". Надо искать по конкретным моделям. В основном, чем новее смартфон, там больше палок в колеса вставляет производитель.

Мой Асус зенфон макс про (м2) на чистом андроиде. Собственно, по этому и купил. При этом цена не как у флагманских самсунгов, а на порядок ниже. По реализации загрузчика и рута не подскажу, извините. Но было бы желание, железку найти можно под любой запрос.

У ROG Phone тоже осталась возможность рута (если железо по мощнее в будущем захотите). APK для разблокировки качается прямо с сайта Asus.
Но с кастомными прошивками беда.

У меня был Max Pro M1, а когда пришло время обновляться Max Pro M2 уже не было в продаже, из телефонов с чистым Андроидом остались только Nokia и Motorola, ну и Pixel за очень много денег.

Прямо сейчас Пиксель стоит 350 евро + маржа перекупов.

Люблю за это и Нокию и Моторолу. Nokia 8 - мой предыдущий телефон. Недавно заменил в нем батарею, чтобы отдать ребенку телефон. Думал туда како-нибудь кастом поставить. Полез на 4пда смотреть инструкцию по разблокировке рута - была оф возможность, а потом нокиа просто выключила сервак и убрала утилиту с сайта. Моторола у меня уже 3я. Первая анлочилась и шилась легко. На прошлую бут анлок покупал за $20. На текущую не искал. Но с разблокировкой загрузчика у мотора как-то не оч складывается, так чтобы легко и просто.

В общем, андроид-то близкий к стоковому, но это никак не влияет на возможность анлока. Ну и как многие написали - в кастомах часто что-то не работает.

Могу подсказать - искать нужно среди бронированных китайцев, с батарейками по 8-12000 махов. Половина из них чистые, даже из продающихся в РФ.

"Настоящих буйных мало". Процент людей, занимающихся этим, по сравнению с количеством покупателей аппликаций и музыки - исчезающе мал.

А почему например производители андройд телефонов продолжают их делать?

Андроид — это такой себе псевдоопенсурс. С одной стороны, сама ОС вроде как опенсурсная, с другой стороны, всё вкусное и важное в части взаимодействия с железом телефонов обмазано проприетарщиной, и фактически толку от того опенсурса весьма немного.

А количество приложений под андроид не является этим самым "толком"?

А каким образом количество приложений связано с опенсорсностью ОС)

Нет, конечно. Количество приложений под андроид обязано тем, что вы
а) можете зарегистрироваться в маркете
б) путём нескольких кликов загрузить туда ваше приложение
в) после этого оно станет доступным всем пользователям и
г) (опционально) вам на счёт начнут автоматически капать деньги от его продажи или от продаж рекламы в нём
Вот эти четыре пункта — причина огромного количества приложений под Андроид, а никак не опенсурсность Андроида.

Какая может быть профицитная модель монетизации у такой колонки?

Продавать железки за цену железок. Как стиральные машины.

Именно!
Мне кажется, первый, кто сделает действительно хороший продукт, "вытащит" с рынка всю эту проприетарную ср..нь. И тогда уже им придётся чесать репу, что же и где они пропустили.

У т.н. "проприетарной срани" в этом плане есть хорошая фора:
а) оно само по себе недорогое
б) оно продаётся не в гордом одиночестве, а как кукла "Барби", с кучей побрякушек, входящих в экосистему. Хотите, чтобы вам условная гуглоколонка управляла климатом в доме? Вот вам гуглохаб, вот вам гуглодатчики/термостаты. Хотите, чтобы следила за безопасностью? Вот вам гуглокамеры.


Т.е. мало сделать просто хороший продукт, его ещё и недорогим надо будет сделать (и скорее всего, какое-то время в убыток попродавать), и ещё и интегрировать "из коробки" с какими-нибудь платформами умных домов надо.

Слава богу тут как раз не надо ничего придумывать. В Home Assistant (и паре подобных проектов, но поменьше) уже все придумали. Главное показать пользователю, что покупать проприетарные датчики и исполнительные устройства, которые работают только через WiFi и чьё-то мутное облако покупать не надо. А надо покупать ZigBee и устройства, с которыми можно взаимодействовать напрямую. Это же так просто :)

Расскажу мои критерии для покупки чего-либо "гиковского":

1) недорого. я могу себе позволить определенный бюджет без ущерба для моих целей и задач на поиграться. Поэтому смартфон с линуксом за 150-200 баксов - ок, смартфон с линуксом за 800 баксов не ок. Приставка под перепрошивку из Китая из 100-200 баксов - ок, приставка за косарь - не ок. Умные часы (привет Пеббле или PineWatch) - за 60 баксов - ок, за 800 баксов - не ок. Умная колонка за 5 тыр - ОК (поэтому у меня целая куча за 5 тыр, о некоторых я писал https://habr.com/ru/post/504928/ ), за 15 тыр - не ок.

2) выглядеть оно может как угодно, но бонусные баллы присуждаются за вид лучший, чем "я-спаял-в-подвале". Даже гиковские вещи могут быть аккуратными.

3) качество кода и качество поддержки. Никто не будет спорить, что сегодня уже поздняк метаться, и все объять невозможно - тут тебе и TTS, STT, и нейросети и т.п. и т.д., всё это знать и уметь невозможно даже айтишнику. Первое, на что я буду смотреть - уровень документации. Если там будет просто портянки кода - ну его нафиг. Уровень документации должен быть таким, чтобы любой интересующийся с минимальными знаниями мог разобраться. Как прошить, как поменять, как запустить. По каждой подсистеме. Очевидно хороший пример форум 4пда - там, в большинстве случаев, выдержан баланс между длиной мануалов и их погружением в детали для среднего интересующегося пользователя, но не фаната (чем страдали едва ли не большинство инструкция с xda-devs). Форум с асинхроной поддержкой, плюс "синхронные" сообщества - в Discord или Телеграме.

У меня и самого примерно схожие критерии. Если вы пользуетесь Linux, поставьте на поиграться пару проектов из списка - https://github.com/topics/voice-assistant а потом представьте себе что это крутится не на вашем ноутбуке / стационарном компе, а на mini pc формата яндекс станции, с хорошей аккустикой и чувствительным микрофоном.

А поводу поддержки. Вы когда-нибудь пробовали обращаться например в Яндекс за поддержкой их продуктов? Например той же колонки? Знаете, у меня много потребительского опыта обращения в поддержку совершенно разных продуктов разных компаний, и в целом у меня складывается впечатление, что большинство компаний делают всё, чтобы у пользователей не было никакого желания туда обращаться.

А поводу поддержки. Вы когда-нибудь пробовали обращаться например в Яндекс за поддержкой их продуктов?

Обращался.

Регулярно отвечают, хотя сроки ответов рандомные - от 3 часов до 3 месяцев.

Все те кто производят подобные устройства естественно заточены на получение прибыли, основной способ получения прибыли подсадить на подписку, а потом еще эту самую подписку начать дробить и то что было раньше в нее включено начать продавать за отдельные деньги. В сети есть видео с "топами" где они рассказывают как их сервисы заточены на получение этой прибыли, как вытесняют конкурентов, как прислушиваются к пользователям и если это для них не принесет этой самой выгоды то можно и не делать. Тоже сильно напрягает полный онлайн, все интересно когда будут первые ласточки и скажут что ваша станция за 20+ килорублей устарела и больше ее поддерживать не выгодно, купите новую. Кроме того можно было же накидать стандартных устройств и сервисов (DLNA, SMB, NFS, USB, HDMI, AUX), это умеют даже роутеры. Что касается навыков, куда интереснее было бы создать некоторое открытое API по взаимодействию с колонкой (онлайн через облако, офлайн напрямую по IP), тогда сообществу было гораздо проще взаимодействовать с устройствами.

Все те кто производят подобные устройства естественно заточены на получение прибыли, основной способ получения прибыли подсадить на подписку, а потом еще эту самую подписку начать дробить и то что было раньше в нее включено начать продавать за отдельные деньги

В самую точку. Я все жду, когда какой-нибудь Minisforum или Beelink, которым не надо повышать продажи своих стриминговых сервисов, запилят свои minipc в новом форм-факторе колонки-с-микрофоном (как Алиса) и будут ставить туда сразу из коробки не Windows а Linux преднастроенный.

Не менее интересен вариант, когда у кого-нибудь доберутся руки до ОС самих станций и их начнут кастомизировать, а крутится она почти наверняка на том же самом Linux, стик если не ошибаюсь на Android. И вот тут уже можно начать в нее пихать приложения офлайн распознавания, поддержку сервисов (а то еще и прикрутят какой-нибудь пиратский плеер) и тот же самый HA, если конечно это будет помещаться.

ITead уже сделали https://sonoff.tech/product-review/sonoff-ihost-smart-home-hub/

Колонка-хаб за $85 с полным фаршем (только wifi 2.4 и lan 100, сэкономили), можно поставить HAOS или HA как докер-аддон. Хотя их ос тоже неплохо выглядит, с DIY и OSS у них всегда все ок было.

О, круто. Спасибо что поделились. Сонофф мне всегда нравились вот этим своим визионерством. Первые ласточки стало быть полетели.

У нее нет голосовых команд, и даже TTS только обещают сделать.

Коммерческие компании делают "устройства, заточенные на получение прибыли". Да ну, вы шутите - как они могли до такого опуститься? Ведь их программисты и электронщики, не говоря об инвесторах - трудятся для души и бесплатно...

Вы представляете себе чайник, который кипятит воду, только если у вас есть платная подписка и интернет соединение? Почему же вас не смущает, что эта поганая модель была применена к вполне себе бытовому устройству "умная колонка" настолько глубоко, что оно без этой подписки и интернета вообще кирпичом становится?

Почему же вас не смущает, что эта поганая модель была применена к вполне себе бытовому устройству "умная колонка" настолько глубоко,

Не смущает, потому что я прекрасно понимаю, что мозги этой баночки находятся не в баночке, а где-то на большом красивом сервере, который никогда не виснет. И что баночка с нужным количеством мозгов была бы пыхтящим бочонком, и стоила бы как бочонок. С другой стороны, в этой баночке практически нет функций, которые в принципе могли бы работать без отсутствия доступа к интернетам, даже если мозги хостить локально. Ну, музычку она из моей фонотеки могла бы сыграть, да. Но для этого я и плейером обойдусь.

Пожимает плечами: Нокия умела в голосовой набор задолго до нейросетей и момента, когда телефоны стали компьютерами.

У меня без малого четверть века назад был Philips Savvy, который тоже умел в голосовой набор. Вот только умел он либо десять цифр, либо выбранные имена после некоторой тренировки. Это другое (с)

который никогда не виснет

Ну это Вы конечно сильно загнули. Та же Алиса, с пол месяца назад, преотличнейше легла с половиной сервисов Яндекса. Настолько, что в тематических тредах поднялось нытье "спаситепомогите, мои 40 устройств не работают, я даже свет не могу дома включить" - это почти прямая цитата. Вопрос о неправильности монтажа без локального дублирования управления оставим за рамками этого обсуждения, но это одна из главных бед проприетарных экосистем - отсутствие возможности использования при падении сервисов производителя. А была бы возможность локальной работы этих колонок, то и проблема эта так остро не стояла.

Ну это Вы конечно сильно загнули.

Это была цитата из старого анекдота :)

По той же самой причине - экономической. Сделать независимую "умную колонку" дорого, функции добавлять постепенно получится плохо - да и нафиг она такая, без интернета, кому-то нужна. А обычных бумбоксов - вагон, покупайте и пользуйтесь.

Меня лично не смущает, что мой чайник не работает в походе, а ислючительно будучи подключенным к розетке. А где-то далеко стоят мощные генераторы, поставляющие ему электронергию.

Я, конечно, могу пользоваться и самоваром, который хоть дома, хоть в походе будет работать. И в этом даже есть некоторый шарм. Но для повседневной эксплуатации дома я предпочту чайник, "зависимый от проводов" и тратящий деньги за каждое включение.

на официальном сайте лады гранты от 678 300 ₽. Если добавить руль с подогревом, электроподъёмник стёкол, зеркал чтоб сворачивались и пр. - то будет на сотню больше.

на сайте какого-то официального дилера мерседес 4 997 450 руб. за CLA 200 Sport белый Купе АКПП

Почему вообще их постоянно сравнивают?

У них же цена различается в 5-6 раз.

Как можно сравнивать ноутбук за 100т.р. и за 20 т.р. например?

Почему вообще их постоянно сравнивают?

потому что "в примитиве" у них одинаковая задача - возить от 1 до 5 поп из точки А в точку Б, плюс багаж этих поп.

Это как дорогой велосипед и дешевый велосипеды (у них тут тоже разница в N раз).

но упорно сравнивают ладу гранта и мерседес который в пять раз дороже.

Компьютеры с такой разницей в цене - не сравнивают

Велосипеды с такой разницей - не сравнивают.

А, сравнивают ещё айфон за сотку с андроидом за десять. Это есть.

А почему "не сравнивают"? Закон какой есть запрещающий? Бывают отличные продукты занедорого (редко). Бывает говно задорого (чаще). Разные ценовые категории еще не повод не сравнивать

Яндекс.Станция стоит что-то около 15000 рублей. Я, допустим, готов заплатить как за мерседес в 5-6 раз дороже, но чтобы она при этом имела всё описанное в статье. В частности, работа с оффлайном и в оффлайне: воспроизведение медиа с флешки, чтение вслух без интернета и прочее подобное.

Как ни банально, но критерием ума можно считать умение играть в шахматы: если на запрос "сыграй со мной в шахматы" колонка (не смартфон, а именно колонка без экрана, т.е. игра возможна только через обозначения ходов, а я у себя могу и доску расставить) зачитывает начало статьи "Шахматы" в Википедии, то она не очень умная, а если начинает, подобно ChatGPT, от балды делать невозможные ходы, то просто тупая. Умная колонка сыграла бы, причём не очень важно, подключилась ли она к Стокфишу, скачала ли весь его исходник на свой сервер или действовала бы локальным умом (последнее, конечно, предпочтительно).

Мне не очень нужна колонка, которая всё знает, потому что я и так всё знаю с помощью интернета. А вот колонка, которая понимала бы, что я ей говорю, и делала бы это (или хотя бы говорила "извини, я этого не умею/это невозможно"), очень даже нужна. Не зачитывала бы то, что ей подсунул колдунщик или объектный ответ, а отвечала бы на вопрос или читала бы то, что я хочу.

-Алиса, зачитай мне заголовки последних новостей на IXBT, а если попрошу - зачитай новость

-В России новый Москвич. В США рост цен на связь. Сони выпустила робота.

-Давай про робота

-[Читаю. Итак, ] сегодня компания Sony представила новую модель робота-собаки...

-Достаточно, спасибо.

-<издаёт пик и замолкает>

Так даже GPT-4 не может, а Вы хотите это всё и в офлайне? Такая колонка будет размером с 40-футовый контейнер и с дизельным генератором. Это ж целый датацеентр надо чтобы такие нейронки крутить.

На Авито есть Яндекс колонка лайт за 2999 руб, раздают за бонусы и их образуется избыток некоторый. Можно хоть в каждую комнату поставить. Навык игр есть, наверное десяток игр, называются навыками, навык с загадками (умеет отгадывать и загадывать), навык "угадай число" и подобные, думаю и шахматы и шашки можно добавить. Но лично мне не нужно, поиграть в шахматы могу и на телефоне. Упор разработчики делают на голосовые навыки, с которыми не нужны дополнительные предметы при игре.

А вот колонка, которая понимала бы, что я ей говорю, и делала бы это

Мне вот такое не нужно. У меня вот Яндекс станция и Яндекс станция лайт, пользуется в основном ребенок, у них забавные беседы получаются, потому что примерно на одинаковом уровне развития. Плюс иногда удобно спросить погоду или включить музыку. Не хватает еще одной, так как в 6 комнатах 2 станций не хватает, иногда приходится бегать переключать из зала в спальню например.

Анализировать же новости на слух мне кажется неудобным и медленным. Глазом я охватываю сразу сотни заголовков, и еще за 5 секунд могу пробежать новость по диагонали. Я на слух это затянется минут на 15.

Не говоря о коде каком-то, таблицах, специфическом формате данных, проверяю разные чаты на таком примере, все выдают разные код, просто пример ответа что на слух не читаем

С новыми моделями типа open-assistant.ai это уже реально. Да, пока они не очень оптимизированы по части требований к ресурсам и для их локального запуска действительно потребуется GPU, который будет стоить как пару Алис. Но ведь есть и промежуточные варианты. Как и новые модели, которые появляются с каждым днём.

Велосипеды с такой разницей — не сравнивают.

Сравнивают конечно. Велосипеды с разницей в цене в 5-10 раз еще проще сравнить, чем ладу с мерседесом.

Да постоянно это всё сравнивают, вы что, на ютюбе не были? :)

А тут мысль автора в том, что мерседес от голосовых помощников ещё никто не сделал, будь он хоть в 5 раз дороже.

По мне так сделать голосовой помощник на основе GPT-4 со всеми нужными API и доступами и мне будет отлично. Никакой оффлайн мне не нужен, просто чтобы не оно не тупило на простейшие вопросы/запросы.

Уже есть плагины, жаль что в закрытой альфе. Как раз позволяют нейронке делать запросы к АПИ. Прикрутить распознавлку туда - это вообще мелочи. Так что скоро будет. Быстрей бы давали АПИ для GPT-4 и режим (или модель, я так и не понял - они просто с промптом подшаманили или таки дообучили модель) для плагинов без вейтлиста.

Я думал я один на шоссе двинутый. Программист - велосипедист...

Мне например "нравится" чекать paired device через bluetoothctl после смены OS в дуалбуте. И если не закрыть gui с настройками, после подключения к колонке звук будет прерываться (ubuntu 22.04 lts, и продолжает кочевать из релиза в релиз)... Но есть вариант допилить , сделать корч и наваливать. Сори за ОффТоп, это все GCN.

Потому что при пятикратной разнице в цене их основной функционал не сильно отличается.

Гранта способна перевозить ~500 кг людей и багажа с максимально допустимой по ПДД скоростью.

Мерседес способен, в зависимости от модели, перевозить ~500-800 кг людей и багажа с максимально допустимой по ПДД скоростью.

Есть предположение, что в городе основное предназначение автомобиля — стоять в пробках и показывать обеспеченность хозяина. Оба автомобиля справляются с первой задачей прекрасно, конечно, в мерсе комфортнее. По второй задаче Гранта проигрывает мерсу как раз те самые 4-5 раз.

И чем комфортнее? У меня был анекдотическия случая. Я вот в дороге как пассажир в телефоне например сижу и как-то не заметил, что сел не в Киа Соренто (дизель), а в Ниву Шевроле (бензиновый), на 3й поезде обратил внимание что вольтметр не встроен в панель приборов, а вставлен в прикуриватель, спросил у водителя зачем он вольтметр прикупил, оказалось это другая машина. По габаритам и цвету они похожи, но за 20 минут поездки в день не заметил разницы. Сел пристегнулся и переписываешься в телефоне.

Уверен, что на коротких поездах по городу, не заметил бы разницы между Мерседесом и Грантой. В гибридном автомобиле не помню комфортно или нет, помню что изучал панель приборов, что мотор выдает 50.0 кВт, жаль доступа к графикам тока и напряжения не было, вот их было бы интересней посмотреть, чем мифический комфорт или статусность еще более виртуальную.

Каюсь, в мерсе не ездил давно. Но в X-Trail как водитель и в гранте как пассажир езжу достаточно регулярно. В "хитром" существенно комфортнее. Не до такой степени, чтобы только из-за этого машину менять, но комфортнее.
А насчёт статусности — какая уж тут виртуальность. Не зря народная мудрость говорит, не езди за бэнтли и перед КАМАЗом.

т.е. два товара одной категории но с пятикратной разницей в цене должны быть похожими по своим потребительским качествам?

Это абсурдное утверждение.

Чем же тогда обусловлена такая огромная разница в цене?

Так можно дойти до того что джуниору и разработчику с 10-летним опытом работы нужно платить одинаковую зарплату. Делают-то одно и то же.

Чем же тогда обусловлена такая огромная разница в цене?

Разницей в дополнительных характеристиках, практически не влияющих на выполнение основной задачи. Типа более мощного мотора, который позволит разгоняться до максимально разрешенной скорости не за 15 секунд, а за 7, и заканчивая отдельным климат-контролем задних пассажиров.

так сравнивают же как раз дополнительные характеристики. Говорят, что едут оба автомобиля, но в дешёвом кнопочек меньше. Или в салоне "никрасива".

Основная цена в мерседесе это значёк мерседеса. Все наворты повышают цену над ладой раза в два максимум. Но мерседес нехило так вкладывался в репутацию уже сто лет как, а ВАЗ ..., короче, не вкладывался.
Так что в контексте статьи сравнение действительно не совсем корректное. Было бы логичнее сравнить что-нибудь менее брендо-зависимое. Например, пред-флагман самсунга (чтоб исключить влияние хайпа) и бабушко-фон от него же.

Основная цена в мерседесе это значёк мерседеса. Все наворты повышают цену над ладой раза в два максимумум.

А как можно посчитать количество раз. Вот был у меня w210. Чудовищно удобная машина! Там был минимум регулировок сиденья и не было регулировки руля. Но! Оно (мне) как бы и не надо было, парадокс, но всё было как будто специально под мою тушку спроектировано. В отличие от ВАЗ-8, где всё или упирается, или надо тянуться, и ноги на весу приходится держать... Как не пытался, так и не смог сесть удобно.

Как оценить что машина едет не куда хочет, а ровно туда куда мне надо? Т.е. я просто повернул руль и она буквально ввинтилась в поворот, даром что заднеприводная. Что это: развесовка, подвеска, я не знаю, просто могу сказать что автомобиль технически очень хорош, а на понты мне было плевать. А пересел я на Мурзика с Ауди А4, тоже считается очень хорошей по управляемости, но сравнивать бессмысленно, Мерс на голову выше.

Я на обеих машинах гонял в Питер, 700 км, что для меня много т.к. обычно езжу очень мало. Но после Ауди я труп, а после Мерса я более чем функционален.

Как это оценить? Во сколько раз?

Как это оценить? Во сколько раз?

Сложно сказать, но могу сказать точно, что если автомобиль без регулировки руля и с минимум регулировок сиденья для вас очень удобен, значит, вам с ним повезло. Наш разброс характеристик таков, что подобрать такое расположение элементов управления, чтобы оно было удобным для всех, невозможно.

Не бывает людей со средней длинной рук и ног, чтобы под них спроектировать машину. Вам просто повезло.
У меня одно время была восьмёрка и мне на ней было удобно ездить. Даже поездки на 300-400км без остановок не напрягали.

Возможно не бывает машин, которые удобны для всех. Но однозначно можно сделать машину, которая будет для всех неудобной :)

А так да, мерсы лучше ауди и лучше лады. Это факт. Оправдывает эта разница в качестве и удобстве разницу в цене? Это уже субъективно и каждый должен решать это для себя.

Для меня машина была всегда не роскошью, а средством передвижения. Главное что от неё всегда требовалось и требуется, надёжность. Восьмёрка в этом плане удивляла. Будучи даже старше меня, в -20 заводилась как часики. Потом год простояла во дворе, чтобы завестись с первого раза и отправится на автосвалку. Возможно мотор с КПП до сих пор где то трудятся.

Для меня машина была всегда не роскошью, а средством передвижения. Главное что от неё всегда требовалось и требуется, надёжность.

Если вам этого достаточно, то я рад за вас. Мне лично хочется ещё и чтобы удобно было :)


Ну и как бы в 20 лет мне в общем-то было всё равно насколько удобная или неудобная машина. А вот сейчас 400км без остановок я на восьмёрке точно не выдержу.

Зависит от кресла/чехла. Заводское там основной источник неудобства.
Вот что мне в ней было постоянно неудобно, так это двери. Не редко их нельзя открыть во всю ширь.

Зависит от кресла/чехла.

Да много от чего зависит. От возможности регулировать кресло/руль под себя. Зимой — ещё от работы печки и от изоляции салона. Летом — от наличия кондиционера/климат-контроля. Тем более что 400 км, это ведь немного. Дальние поездки, это когда ты за рулём весь день, и это километров 800, а кто-то и за 1К едет. Конечно, обычно с пит-стопами, ибо смысла себя заставлять день ехать без еды и туалета в общем случае нет.
А помимо комфорта сидения, на выбор машины влияет ещё расход, динамика, управляемость на трассе и в сложных условиях. Вообще сама необходимость обслуживания.
Надёжная машина — это та, в которую вы вообще не заглядываете, кроме как на регламентном ТО раз в год. И это практически любая современная тачка, но никак не восьмёрка. А заводиться в -20, это не достижение, а маст хэв для любой машины.

До этого вашего "войти в айти" оклады по тарифной сетки инженер-программистов без категории (джунов) и старших программистов (сеньоров) отличались на десятки процентов, а не на сотни :)

А были времена, когда Мерседес был оппонентом Запорожца...

НЛО прилетело и опубликовало эту надпись здесь

Интересно а есть хорошие опенсурсные решения для распознавания голоса? А то что 10 лет назад что сейчас вроде как только весьма топорные штуки, как будто и не видно развития в этой отрасли именно в опенсурсе или хотябы селфхостед.

дофига

звучит неочень, ссылки бы, обзоры, статьи, опыт.

как вопрос сформулировали, так и ответил :)

а всё-таки, хоть пару ссылок можете привести, или дальше в молчанку играть будете?

Да. Тут, на Хабре, не принято давать полезные ответы, увы ))

Ниже ответил

НЛО прилетело и опубликовало эту надпись здесь

Для русского языка, я думаю прямо чтобы "не хуже яндекса" еще нет. У Яндекса очень сильная команда по этой части. Есть только "похуже яндекса" и "сильно похуже яндекса".

НЛО прилетело и опубликовало эту надпись здесь

Видимо качество яндекса не устроило, раз модели уровня "похуже" не интересуют? Всегда есть куда падать в хотелках, пока мы не упали до условного сфинкса?

НЛО прилетело и опубликовало эту надпись здесь

Из первых десятков - DeepSpeech, Whisper (+.cpp), Kaldi, Flashlight ASR (formely wav2letter), PaddleSpeech (Formerly DeepSpeech2), OpenSeq2Seq, SpeechBrain, Vosk, Coqui, HTK, Julius, OpenVokaturi, Athena, ESPnet, Picovoice.
Русского где-то нет, но прикручивается. Надеюсь вам сравнительный анализ не нужен?

А платить за все это кто будет?

Сейчас единственная рабочая модель монетизации колонок это именно подписка. Музыка, фильмы и тому подобное для чего колонки в основном и используют. Другие модели пробовали, ничего не взлетело. Исходя из этого фичи и ограничивают.

Продавать колонки как оффлайн устройства не выходит. Мощностей и мозгов у них маловато чтобы распознавать, записывать, напоминать и тому подобное. А онлайн это сразу подписка. Окупать онлайн сервис иначе как?

Делать оффлайн колонку требующую от пользователя своего сервера с достаточными мощностями для всех распознаваний не будут. Она непродаваема.

"Мощностей и мозгов у них маловато чтобы распознавать, записывать, напоминать и тому подобное"
это не так. Точнее не совсем так. Если мы говорим за совсем дешевые модели, типа 3-5 тр, то да, за эту сумму много вычислительных мощностей не положить. А если мы говорим за сумму от 10 тр, то это уже вполне intel N5095 mini pc

Вы серьезно хотите крутить сетку уровня ChatGPT на intel N5095 mini pc? Или хорошую распознавала голоса + что-то что будет понимать смысл сказанного и разумно отвечать и действовать?

Онлайн колонки всякие фичи оттуда к себе затащат. Подождите, мало времени еле прошло.

Я говорил хоть слово про "сетку уровня ChatGPT"?
А вот "хорошую распознавала голоса + что-то что будет понимать смысл сказанного и разумно отвечать и действовать?" это да, уже кручу. И для этого вам не нужны генеративные предтренированные трансормерные нейронки

У вас половина претензий про то что в колонках нет фич ChatGPT.

Распознавалкой русского языка работающей на уровне Яндекса и влазящей на мини комп не поделитесь? Все что видел между ужас и ужас-ужас. Такое не очень нужно.

Неа. Все эти фичи без чатажпт можно реализовать.
По поводу стт начните с виспера. Для английского языка он на уровне гугл, не то что яндекса. Для русского модели тоже есть, но пока кривоватые, видимо придётся свою тренировать по данным коммонвойса

Неа. Все эти фичи без чатажпт можно реализовать.

И получится на уровне "Я у мамы инженер". Вы прямо ОЧЕНЬ недооцениваете сложность задачи. Ровно так же как с распознаванием речи.

Даже чатгпт далек от того что хочется. Слишком легко попасть в ситуацию когда он не понял и начал фантазировать. А такого хотелось бы избегать с гарантией. Ответ "я не понял что там" на практике лучше произвольной фантазии на тему.

По поводу стт начните с виспера. Для английского языка он на уровне гугл, не то что яндекса

Распознавание английского без русского совсем не интересно. Общаться с колонкой на английском мне просто лениво. А гостям так вообще такое показывать нельзя. Они не все английский на достаточном уровне знают.

У виспера есть русский, но по тону ваших ответов я понял, что этот диалог в никуда.

Продакшен реди решение не бывает в виде "ну вон там еще есть русский", попробуйте как-нибудь. Или еще лучше как вы в другом комментарии вывалили десяток+ чего-то. И что с этим всем делать?

И да у них требования к железу прям нормальные такие. Не самую плохую видеокарту подавай. На колонке не запустить. Да и до риалтайма ей далеко.

Как я и говорил железо колонок не тянет. Ставить монстров с видеокартами нет смысла.

Wisper известен. В шумном окружении (например музыка или кино какое из того же устройства где микрофон стоит или даже фоновый шум кухни на которой что-то готовится) работает прям плохо. Для чистых текстов чистым языком работает нормально на соответствующем железе. Ну наверно для грязной расшифровки записей, если на АПИшку Яндекса денег жалко, пойдет. В остальном для русского языка не очень. Как основа для оффлайн колонки не подходит точно из-за требований к железу и необходимости риалтайм распознавания на колонке.

Вы чего хотите-то? Чтобы я свой анализ сравнительный всех доступных open source ASR решений на рынке вам зашарил? или рассказал, как заставить А работать на бюджетном железе класса Б? или убедить меня в том что ни у кого ничего не получится, все смерть тлен и порчая? Ну честно, а?

Вы говорили что у вас есть продакшен реди решение. Даже уровень железа назвали "intel N5095 mini pc"

Окей у вас нет готового производства, это можно понять. Но готовое решение в любом случае подразумевает четкую инструкцию: берем вот это, то и се, скручиваем изолентой, вставляем неонку и получаем вот такой результат. Вот демонстрация, результаты и все такое. Цель - приблизится к решениям от Яндекса насколько это возможно.

А рассуждения что можно попробовать вот из этих десяти вариантов или взять вон то которому видеокарта нужна (у вас же есть дома сервер с видеокартой?) и может быть что-то выйдет неизвестного качества это просто слова. Так оно не работает. Там подводных камней миллион. Их кто-то должен все собрать и сделать так чтобы другие на них не натыкались.

Нет, мне определенно нужно продавать курсы гугления. Whisper.cpp погуглите. Погуглите тот же Воск. Покрутите его локально на своем железе. А потом поговорим.

Все очень просто. Средний инженер на Западе стоит работодателю от 10 до 20 килобаксов в месяц, в России тоже ненамного меньше (со всеми налогами и расходами).
Кто будет оплачивать проектирование, сертификацию, производство, поддержку в актуальном состоянии сервисов и прочее? Все OS-проекты такого масштаба без участия корпораций - быстро "загнулись".

от 10 до 20 килобаксов в месяц, в России тоже ненамного меньше (со всеми налогами и расходами).

Даже интересно, что там за расходы такие, чтобы инженер в России стоил 10к баксов в месяц.

НЛО прилетело и опубликовало эту надпись здесь

Если на руки платить 350, то со всеми налогами и отчислениями для работодателя одних только чистых месячных расходов выйдет больше чем на полмиллиона

Я не поленился и посчитал на калькуляторе. Если платить на руки 354 000 в месяц, то за год выйдет з/п 4 249 080 + 249 084 взносы в ОМС + 1 270 220 в ПФ, итого за год 5 768 384 или приблизительно 480 700 в месяц, что чуть больше $6к по текущему курсу. Набрать ежемесячных расходов потихоньку еще на 4к долларов ежемесячных расходов на каждого работника это надо постараться. До и 350 на руки не каждый получает, даже в столицах.

А вы посчитайте аренду офиса (если работа не полностью оффлайновая), бухгалтерию, уборку, кормежку, лицензии на софт, компьютер с периферией и т.п.

Вы думаете, что в "инженер на Западе стоит работодателю от 10 до 20 килобаксов в месяц" уже включили аренду офиса (если работа не полностью оффлайновая), бухгалтерию, уборку, кормежку, лицензии на софт, компьютер с периферией и т.п.?

Не совсем понимаю, что вы пытаетесь доказать. Даже если инженер на Западе стоит X, а в России - Y и оба этих числа больше нуля - все равно эти деньги нужно где-то найти, причем помноженные на несколько. Потом вам нужны будут деньги на платы и их пайку, прошивку, тестирование, пресс-формы для корпуса и так далее. Еще дальше - на сертификацию, рекламу, рассылку/развозку, поддержку пользователей и т.п.
А потом вы увидите, что этот девайс нужен только паре десятков гиков в стране...

Тут как раз сложно считать, потому что всегда можно сказать, что дескать нормальный инженер в офис где меньше чем 40 метров на человека работать не пойдет, и к не-макбуку не притронется вообще, а макбук ему нужно менять раз в год минимум, и кормить его надо из ресторана с минимум одной золотой звездой Мишлен. А так, затраты на комп, даже если это макбук, который меняется раз в 2 года – $250 в месяц, 20 квадратов в Москве Сити примерно $1000, хотя мне кажется, что разрешению ходить туда 1-2 дня в неделю будут даже рады да и офис можно снять в месте попроще, и посадить плотнее, чем 20 квадратов на человека. Софт для программистов от бесплатно, до $100 в месяц за полный комплект IDE от JetBrains, кормежка доставочная вполне уложится в $200-250, если у вас не вкалывают по 30 дней в месяц, а те кто половину срока на уделенке, съест еще меньше. Брать бухгалтеров из расчета 1:20 то за $100 c человека легко найдете аутсорс, или даже гораздо дешевле.Ну и как я уже сказал 350 на руки, это не модальная, и не медианная зарплата инженера.

Еще раз - не понимаю, что именно вы пытаетесь доказать. Что рабы будут работать за еду, "плотно посаженные" в какой-нибудь ж.пе "всего двадцать минут до конечной метро"?
Я четыре года занимался разработкой и эксплуатацией электроники с нуля - включая сертификацию на ЭМ совместимость, электробезопасность и т.п. - и знаю, во что это обходится даже если не шиковать. Мы, кстати, начинали в помещении склада - и уперлись в то, что более-менее опытные и знающие люди "пропадали" после первого интервью. Пришлось переезжать в более-менее нормальный офис.

Можно спорить о расходах, налогах и т.п. - но вы так и не обьяснили, откуда возьмутся доходы...

Что рабы будут работать за еду, "плотно посаженные" в какой-нибудь ж.пе "всего двадцать минут до конечной метро"?

Что между "за еду" и "от $10 тыс" очень большое пространство для маневра, и что абсолютное большинство инженеров обходится дешевле $10 тыс в месяц, даже в нормальном офисе, а про доходы я ничего и не говорил, меня именно нижняя граница в $10 тыс. смутила.

Как бы там ни было - по факту в области Edge/IoT есть сотни "конструкторов", хоббийных проектов, и наборов "допили сам" - и единицы коммерчески успешных продуктов. У меня у самого дома лежат двое часов Pebble и совершенно гениальный "зайчик" Nabaztag - компании-производители которых загнулись, не сумев построить экосистему приносящую прибыль.

НЛО прилетело и опубликовало эту надпись здесь

Да, видимо поторопился вычесть, точно помню что считал от 407к, чтобы на руки получалось 354. Тогда первую цифру надо исправить на 4 884 000, а итоговая сумма будет 533 608. В любом случае 354 на руки это не средняя и не медиана, хотя на Хабре конечно все говорят, что за такие деньги они даже Хеллоу Ворлд разрабатывать не возьмутся.

Только проектирование и производство осуществляет не "средний инженер на Западе", а старшеклассник из Индии.

Сетку уровня чатгпт нельзя крутить на n5095, но на нескольких - вполне. Почитайте про bloom. Там идея в том что на каждом устройстве - 1 слой, а данные пересылаются между устройствами. Там где весов много, а hidden state маленький - сработает. А это как раз большинство трансформеров. Проблема только в том что ваши данные идут к другим людям для рассчетов

И сколько времени займет вычисление ответа на простой вопрос?

На n5095 альпака крутится очень медленно из-за отсутствия AVX. На разогрев с полминуты и далее по токену в несколько секунд. Это сейчас асинхронный навык:

  • Мелисса, спроси нейронную сеть, <вопрос>

  • Спросила, но учтите, что ответ будет через пару минут. Я его вам зачитаю.

  • Мелисcа, включи музыку

  • (играет) (делает потише) Пришёл ответ от нейронки на ваш вопрос. слушайте: <ответ>

Если вместо N5095 взять что-то уровня недорого мобильного Ryzen 4000 серий и выше, то будет сильно лучше. Посмотрим как там дела будут с N100, по слухам там есть AVX

Вы имеете в виду вот этот проект - https://petals.ml/ ?

А я музыку храню в mp3 файлах. После апокалипсиса буду продавать за банки тушенки

Здравствуйте, коллега

Отберут люди со стволами. И тушонку, и музыку.

У музыки будут бекапы. Организуем фидонет снова. Не пропадем

Фидонет без связи работает исключительно плохо. А флоппинет для музыки неудобен, коробку дисков на 1 композицию…
Учиться надо самим пиликать, тогда точно не пропадём

CD-RW наше всё.

И УАЗик в качестве канала связи

Главное, генератор на базе велосипеда заранее заготовить.

Даже на Плюке!

Аналогично. Ни один помойный аудиосервис не удовлетворяет моей потребности по количеству доступной музыки и независимости от политики.

Продиджи отложите тоже, пожалуйста, полную дискографию, принесу говяжью 365 дней.

У меня тоже коллекция mp3, mp4. Но последнее обновление где-то в 2008 году. Потом всё перешло в онлайн. А коллекция места много не занимает по современным меркам, так и лежит.

Говорю как человек, который себе такое уже собрал на такой железке.

А мне вот интересны технические подробности собранного решения.
Какое было выбрано железо? Какие на это железо поставлены приложения?
Предполагаю что там всё далеко не так просто было настроить:
и чтобы полностью офлайн с STT-TTS
и проигрывание локальной музыки и книг
и интеграция с умным домом и медиацентром
и какой нибудь контролируемый доступ к сервисам в интернетах
и с закосом на помощника типа надиктовать текст озвучить погоду
и чтобы не сильно шумел а в пределе фанлесс
и чтобы с нормальным звуком и достаточно чувствительным микрофоном
ну а с расширяемостью проблем в таком решении ожидаемо меньше

Приз за самый лучший вопрос уходит зрителю с ником @mm3
Я подробно расскажу о своем сетапе, когда увижу, что тут есть достаточное количество людей, которые этой темой интересуются.
Забегая вперед - никаких чудес и откровений. Обычный мини-пц из относительно свежих мобильных интелов предпоследнего поколения (N5095) с 16 Гб ОЗУ. Сверху Линукс. С микрофоном пришлось повозиться методом проб и ошибок, как и с его бустом и фильтрацией шумов. Да и как с аудиостеком линукса - для меня до недавнего времени ALSA, Pulseaudio, Pipewire, Jack были тарабарщиной. Линукс то я худо бедно знал, но не десктопный.

НЛО прилетело и опубликовало эту надпись здесь

Сейчас у людей набирается некоторое количество андроидных телефонов с 2+ ГБ ОЗУ и производительностью 8+ миллиардов операций в секунду, возможно-ли их использовать для распознавания речи?

Это очень интересная и свежая мысль. Я уверен, что можно. Вопрос какая из существующих моделей будет лучше работать на каждой конкретной железке. Наверное какое-нибудь сателлит приложение тут пригодилось бы, которое бы отбенчмаркала конкретный девайс и дальше само решило, как его использовать - тупо как доп микрофон или оффлоадить на него что-то

у андроидных телефонов есть маленькая проблема: с одной стороны они не могут работать без аккумулятора, с другой стороны аккумулятор вздувается если держать телефон непрерывно на зарядке для непрерывной работы.
и предполагаю что эта проблема есть у всех устройств позиционирующихся как мобильные и имеющих аккумулятор.

Я думаю проблема действительно существует, но она не так широко распространена.

если говорить про телефоны, то я думаю распространённость проблемы с аккумулятором на непрерывной зарядке приближается к ста процентам.


по этой причине пришлось отказаться от андроидного телефона в качестве мобильного домашнего роутера

Флагманские самсунги научились питаться в обход аккумулятора когда подключены к электросети. Осталось подождать лет 5 пока они перейдут в разряд БУ...

не могут работать без аккумулятора

В большинстве телефонов можно выковырять плату защиты из дохлого аккумулятора, подключить блок питания вместо собственно аккумулятора, и телефон не заметит подмены.
Но нужен паяльник, и дыра в корпусе.

А как там сейчас батареи припаяны? Раньше, когда батареи были сменные, там было примерно 3 контакта, к двум можно было вместо аккумулятора подключить блок питания, к третьему резистор вместо термистора и работало

Обычно не паяют, а шлейф на 4-5 контактов. Сейчас и в батареи ноутов и в батареи телефонов повсеместно ставят платы защиты (BMS). И если разобрать аккумулятор и по подключить блок питания на 3.5-4В через оригинальную или совместимую плату защиты, то как правило телефон воспримет это как родной аккумулятор, который почему-то никогда не разряжается :)

А есть какая-нибудь инструкция? У меня для старого телефона рабочий сценарий — навигатор в машине, всегда на шнуре или отключён вообще. Как раз под это

Так он и так и этак будет на шнуре, непонятно зачем заморачиваться. Но если хочется, то:

Купите dc-dc понижающий преобразователь, который на вход может принимать 10-32В. Например на чипе XL4015, около $2 на али.
Настройте выход преобразователя на 4В.
Разберите родную батарейку, достаньте плату защиты.
Дальше надо разобраться какие контакты вход, какие выход, да не перепутать плюс с минусом. Упаковать все в красивую коробочку (тоже есть на али), и обмотать синей изолентой :)

Также можно попробовать не ковырять батарею, а приобрести плату защиты на али. Не факт что она подойдет (попробуйте добавьте в поиск модель телефона для повышения шансов). Стоит она копейки, и у нее в описании будет указано где какой контакт.

Выбирайте откуда берете питание. Прикуриватель скорее всего будет отключаться каждый раз когда заглушите двигатель, телефон нужно будет заново включать и ждать загрузку. Если подключите напрямую к аккумулятору - dc-dc будет постоянно тянуть с него энергию, придется еще выключатель добавить.

Спасибо!
Был прецедент, со вздувшейся батареей не хотел запускаться даже на шнуре, поэтому для подстраховки.

Телефоны без аккумулятора работать могут — в крайнем случае добавить обманку из конденсатора высокой ёмкости или родные контакты с чипом. И во многих моделях есть аппаратное ограничение заряда на 80 или 50% — такие можно никогда не отключать от зарядного.

Давайте вот про Ирину, скажу, по пунктам:

и чтобы полностью офлайн с STT-TTS - есть

и проигрывание локальной музыки и книги - опция проигрывания видео есть, надо поднастроить (играется через MPC-HC). Книги - можно над плагином подумать.

интеграция с умным домом и медиацентром - запилен плагин интеграции с HomeAssistant

какой нибудь контролируемый доступ к сервисам в интернетах - плагин должен задекларировать, будет он использовать интернет или нет; можно перевести полностью в оффлайн-режим

и с закосом на помощника типа надиктовать текст озвучить погоду - погода есть, надиктовать текст кто-то делал (но последнее плохо работает в клиент-серверном варианте)

и чтобы не сильно шумел а в пределе фанлесс - у меня не шумит, зависит от компа.

и чтобы с нормальным звуком и достаточно чувствительным микрофоном - зависит от железяки, тут не могу посоветовать

ну а с расширяемостью проблем в таком решении ожидаемо меньше - плагины есть, желающие допиливают, что им нужно

А это уже интересно. Видимо софтверная часть такого решения доросла до удобного использования. Думаю с железом несколько сложнее найти баланс между необходимой производительностью и допустимым шумом, а так же требуемой чувствительностью микрофона и качеством аудио системы.


Пробежавшись по списку их комментария выше выделил для себя эту Ирину и Васю для детального изучения.

Насчет микрофона - у меня не было к нему особых требований. Могу сказать, что у меня достаточно эффективно работает на встроенном в 8-летнем ноутбуке микрофоне с расстояния метра 2. Звук колонок направлен наружу, и в целом, не мешает.

Также можно прикрутить несколько микрофонов, если нужно (стандартная опция - сервер + несколько клиентов, слушающих разные микрофоны)

Подскажите - а как у Вас решены следующие проблемы:
1. Детекция речевой активности
2. Детекция ключевого слова
3. п.1 и п.2 в то время, когда играет музыка?

Посмотрите на проект Rhasspy. Там на выбор с пяток легких вариантов wake word detection.

1, 2. нет, слушается все

  1. колонка направлена в другую сторону, микрофон по факту нормально слышит

О, про Васю не знал.
Посмотрел, в первом приближении прикрутил в Ирину поддержку плагинов от Васи. В простейших случаях уже работает.

Не хотел обидеть, а видимо так и вышло. Простите меня. Из моего текста выходит, что я как-то свысока высказался о вашем проекте. Поверьте, это не так. Я искренне ценю ваш энтузиазм, стремление сделать что-то полезное и крутое и отдать это в сообщество. Я с большим вниманием и удовольствием прочитал ваши обе статьи тут, даже оставлял какие-то вопросы. Я помню вашу фрустрацию на тему того, что ничего из существующих решений не поддерживает русский из коробки в достаточном объеме и особенно мне понравился ваш анализ навыков Leon.

Мой пассаж по поводу "велосипеда" относится не к вашему проекту, а к тому, как в целом случается разработка в опенсорс. Сам факт того, что вы сами решили пилить свой проект, а не например форкнуть какой-нибудь из 100 существующих Жарвисов, который поживее и который пулл реквесты принимает, и добавить к нему i8n, предварительно обсудив это с разработчиками. Этим все грешат, и я в том числе. Видимо из-за природной тяги сделать чего-то собственными руками, а не разбираться в чужом г...не.

К сожалению трактат о постоянно увеличивающейся энтропии и ее вреде обычному обывателю я не осилю, но если вкратце мое мнение таково - человечество в целом выиграло, если бы разработчики умели коммуницировать друг с другом и проявлять интерес не только к своей собственной работе, но и чужой

Спасибо! Вижу, что просто так получилось. Очень приятно, что вы об этом мне сейчас написали - это очень круто, что вы можете вести диалог, несмотря на напряженное взаимодействие, это редкость!

Можно я все-таки скажу по поводу увеличивающейся энтропии? Дело в том, что Ирина мой не первый опенсорс проект с коммуникацией с разработчиками (другие, правда не выстрелили особо).

И у меня тоже была постоянно мысль - почему же люди не могут договориться об архитектуре и пилить один проект, а не форкать существующие, и не писать велосипеды? Почему есть интуитивная потребность сделать "своё"?

Я достаточно долго искал ответ, и у меня это вылилось в теорию метафорических систем (вот на Хабре фрагмент). Если применять эти тезисы к архитектуре ПО, то мы получим интересную штуку - мы не может договориться о "стандартах" (помните эту картинку с 15 стандартами?) потому, что мы по-разному членим реальность на компоненты. Это и есть архитектура; и разное членение нужно потому, что мы разные вещи считаем важными. А дальше уже эти "системы" конкурируют друг с другом, и разные люди выбирают разные подходы - те, которые им ближе.

Например, можно взять чужой проект и прикрутить туда i8n. Я об этом думал; я читал, как можно внедрить что-то в Леон. Но был вопрос - а для меня-то это ценность создает? Нужны ли мне эти навыки (Леона), или их можно быстро копировать? Нужен ли мне Spotify? Хочу ли я разбираться в деталях реализации i8n и распознавания голоса в нескольких языках (нужно для адекватной совместной разработки)? Плюс там еще многое шло через сервер, что мне не нравилось.

Я вот решил что рискну, и попробую сделать только русскоязычный проект, который будет простым за счет отсутствия необходимости учитывать разные языки (это особенно важно в парсинге команд). Как результат - оказывается, такой проект востребован! Не универсальная система, а очень локальная.

Коммуникация - очень сложное дело, на самом деле. Я думаю, создание собственных систем - это декларация каких-то ценностей и каких-то возможностей - поэтому мы и делаем "велосипеды". Я вижу в этом много эволюционного смысла в плане систем.

потому что мы по-разному членим реальность на компоненты. Это и есть архитектура; и разное членение нужно потому, что мы разные вещи считаем важными

Согласен полностью. Вообще эта тема и интересная, и зыбкая одновременно. Примерно как истоки русской революции. Сойдёмся на том, что причин шкалящей энтропии много, и в каждом случае они могут быть свои. А если поближе присмотреться, то это, возможно, и неплохо даже, т.к. даёт пользователю больше вариантов выбора. А что в итоге приживётся - решит естественный отбор и эволюция.

Леон

Лично для меня, пока у Леона единственный клиент - браузер, проект выглядит очень хрупким. Оставлять браузер запущенным на много недель/месяцев, надеясь, что ничего не утечет? Городить к нему какой-то watchdog? Или посмотреть в сторону других решений, которым этот бразуер не нужен? Скорее, последнее.

Но был вопрос - а для меня-то это ценность создает?

Scratch your own itch победило и это абсолютно нормально, это подход человека-практика. Люди с таким майндсетом способны что-то делать руками, а не просто рисовать архитектурные диаграммы.

От создателя велосипеда под название Ирина:

Не в обиду автору, но его отношение к опенсорсу и созданию железных продуктов скорее потребительское, чем авторское.

Чтобы в опенсорсе что-то появилось, нужно, чтобы это что-то кто-то написал, а затем поддерживал. Если все будут только искать в интернете что-бы такое "потырить", никаких новых проектов не будет.

Второе. Пожелания опенсорсной колонки, это, конечно, хорошо... но вот экономику автор пробовал считать? А вот ко мне уже приходили с такой идеей, да. Экономика там очень "веселая" - собственно, поэтому все подписку на сервисы и продают; никакой выгоды продать колонку за 7000, а потом отвечать на вопросы пользователя "почему у меня не работает эта штука, когда я себе поставил X и сконнектился c Y" нет.

"сделай технически крутое устройство на открытом коде, которое можно использовать так же как и закрытое, и оно станет хитом". Все почему-то боятся, что если сделать что-то на открытом коде, то это фиг продашь. Я вижу в этом глубочайшее заблуждение

Интересно, почему? Почему куча владельцев бизнесов такие тупые, а автор, по видимому, не имеющий опыта вывода железных продуктов на рынок, и не посчитавший экономику этого проекта, значительно умнее их? :))

В своей заметке рассуждал с точки зрения потребителя, поэтому и отношение такое :) по поводу поддержки продуктов я писал выше. Ее по сути нет и у коммерческих устройств, все на уровне - перезагрузите или привозите поменяем. Разбираться почему ваша Алиса не соединяется с вашим ЗигБи шлюзом никто за вас не будет.
Продажа привазанных устройств изживет себя, когда позврослеет потребитель.

Да, но будут разбираться с тем, за что берут деньги и что входит в их экосистему:

1) почему не играет Музыка (или подкасты) и Кинопоиск

2) почему не работает Поиск.

Ну, если вы рассуждаете как потребитель, то ок. Хотя лично я не вижу в этом особой ценности - я и так знаю, что хочет потребитель. Он хочет чтобы было а) дешево и/или бесплатно, б) всё всегда работало - и зигби, и китайский выключатель, и медиаплеер 2012 года.

Меня как инженера интересует, как соблюсти балансы - а вот этого я как раз в статье не увидел, хотя на Хабре мне интересны именно решения. Проблем я и сам могу накидать десяток :)

Продажа привазанных устройств изживет себя, когда позврослеет потребитель.

Эээх, надежды. Ну, вот, смартфон у вас так или иначе привязан. Лет уже 15 привязан, с первого iPhone.

И есть, конечно, опенсорс смартфоны... но рынок их ужасно мал, а запускаться с ними надо на Западе, так есть надежда хоть какой-то объем производства отбить.

В статье нет про "дёшево или бесплатно", там именно про техническое. Как уже говорилось, многие готовы заплатить любые деньги (в разумных пределах - скажем, до 100 т.р. за устройство), если в ней будет реализована часть или всё из того, что описано в статье. Первое и, видимо, самое недостижимое - Алиса оффлайн. Давайте будем честны: сейчас колонки с Алисой вовсе не умные, т.к. своего ума у них нет, есть только простенькая программа для обмена данными с сервером Яндекса, а вот он уже умный. Второе - это осмысленное исполнение просьб пользователя, хотя бы на уровне "почитай мне новости с произвольного сайта, а не с того, который перечислен в списке навыков".

Обобщённо говоря, мне не очень-то и нужны суперкрутые штуки, о которых известно, что они заранее запрограммированы и заложены, типа вычислений сложных функций за секунду или игра в сложнейшие виды шахматно-шашечных игр на уровне гроссмейстера. Мне нужны не очень крутые и не слишком сложные, но при этом не заложенные изначально, а понятые на лету. То же "подбрось монетку" - это прикольный, но именно заранее заложенный навык. А вот "подбрось десятигранный кубик" - она этого не умеет, хотя казалось бы банальное действие (и навык ГСЧ у Алисы есть, но она не поймёт, что десятигранный кубик - это и есть ГСЧ от 1 до 10). Если чего-то не поняла, то не грех и переспросить.

Мне нужны не очень крутые и не слишком сложные, но при этом не заложенные изначально, а понятые на лету. 

О, я бы тогда колонку научил партию в преферанс записывать.

С умными колонками не так то, что у них нет экрана. Большинство описанных задач будут намного приятнее решаться, если колонка не только что-то ответит и сделает, но и покажет информацию. Список продуктов, например, чтобы я мог его быстро просмотреть и убедиться, что там нет полугодового запаса муки, который я покупаю раз в полгода.

Но как только мы добавляем экран - возникает резонный вопрос: а чем нас, собственно, не устраивает смартфон с тем же голосовым ассистентом, что и в колонке?

Вот и получается, что колонка удобна только для тех задач, которые не требуют от пользователя восприятия сложной информации. Да-да, то самое "включи группу Браво" и "включи свет в коридоре".

У вас дома телевизор есть?
Вот вам экран, если надо.
А домочадцы есть? Вас устраивает, что у вас с ними в общении только голосовой интерфейс?
Я это к тому, что голосовой интерфейс недооценивают только потому, что его реализации пока так себе

Есть. С приставкой Яндекса.

И что, мне ходить к телевизору, чтобы список покупок посмотреть? Так телефон ближе, он всегда под рукой.

Хорошо, согласен. С проприетарщиной от яндекса можно только скулить об этой проблеме, а с опенсорс решением, если будет критическая масса желающих или один но разраб, то запилят мобильное приложение-компаньон, которое подобного рода подтверждения сможет показывать текстом вместо (вместе) с озвучкой голосом.
И если мы говорим про тру опенсорс колонку, как я ее вижу, то вы всегда сможете подключить к ней любой монитор - большой или маленький.

Экономику чего-то с экраном считали уже. Все плохо.

Посмотрите на решение от Сбера. Оно столько стоит не из-за жадности, это как бы не меньше себестоимости. И это больше того что люди готовы тратить на такое.

Люди не готовы платить 20 кр за Я.Станцию? Люди не готовы платить ~10 кр за миниПц и еще пару тыщ сверху за микрофон и колонки? Камон. Кому надо будет экран, купят его за копейки с Алиэкспресса

Люди не готовы платить 20 кр за Я.Станцию?

Вы думаете зря они их по подписке предлагают так активно? Вы думаете зря такой огромный ассортимент Яндекс колонок от 3 до 6 тысяч? Хотя у дешевых вариантов звук прям говоря так себе. Одна из основных задач "играть музыку" решается на них не очень.

Кому надо будет экран, купят его за копейки с Алиэкспресса

Точно? Я вижу предложение от Сбера за 30 тысяч. Это как бы не копейки. С Али купить такое за копейки чтобы по кнопке заработало, да еще и в нормальном корпусе все вместе, не выйдет. У Сбера не вышло. Вы дешевле чем они тоже самое точно не купите.

500 долларов это реально много для таких штук. Стоит ориентироваться на 100-200 долларов за базовую версию. Чтобы оно хотя бы имело шанс стать массовым.

У меня, к примеру, нет (внезапно).

Однако это одна из тех вещей, которая мне нравится в Google Assistant колонках. Он тебе что-то начитывает, а ты ему такой - а отправь мне это на смартфон. Бздинь, и это уже на смартфоне.

Умные колонки с экранами тоже есть, хоть и не у Яндекса.

Но вот даже у Сбера -- есть.

И вместо устройства "умная колонка" мы получаем устройство "умный планшет".

То есть проблема - в родовой ущербности чисто голосового интерфейса для решения сложных задач. Потому, собственно, для этого и приходится либо брать смартфон/ПК, либо лепить к колонке экран.

И в том же Google Hub раздражало, что сайт не по браузить, на условный домашний ioBroker/HomeAssistant не зайти...

На первый взгляд кажется, что если взять условный планшет Lenovo, там и голосовой помощник будет, причем с русским языком без танцев с бубнами, и те же ответы, вывод музыки, ютуба... И сайты для более продвинутых потребностей.

На мой взгляд приделать экран к колнке - сильное удорожание. Но по функциональности за те же деньги можно полноценный планшет использовать. Разве что заточенный под стационарное постоянное питание.

Mycroft попытался такое устройство сделать. Даже 2 поколения смогли. Но у меня к нему очень много вопросов, как думаю и у многих. Во-первых опять это гребанная привязка к своему обалку. Объясняют мол что по-другому они не видели как сделать хороший speech-to-text ("Бва-ха-ха", сказали ребята из OpenVoiceOS которые их форкнули)

Ну, они скорее объясняют тем, что не знают, как иначе сделать понятную пользователю настройку. Но да, эта привязка к облаку в итоге делает их такими же vendor-lock, как и конкуренты. Ну а распознавание для русского (и многих других языков) лучше всего работает на вполне себе локальном Vosk'е.

Далее цена. В Mycroft сделали ставку на Raspberry Pi, как сердце системы. А мы все помним, что случилось с ценами на Raspberry. Потом на кой-то ляд они приделали к ней LCD экран, что еще больше увеличило стоимость. Ладно бы оставили первое поколение и дали людям возможность выбора.

Имхо нет проблемы непосредственно в RPi. Четвёртая версия на максималках с нужными шилдами обойдётся сотни в две. Но вот дальше начинается эта фигня с LCD и тачем, которые стоят бешеных денег, но никому нужны. В итоге получаются 400 долларов, а это уже практически две Яндекс.Станции второго поколения, каждая из которых уделывает это устройство на раз. И непонятно, то ли они неправильно оценили потребности ЦА, то ли пытаются заработать уже на мелкосерийном производстве, но так далеко они не уедут.

Про первое поколение полностью согласен. Вместо того, чтобы тратить годы на разработку новой непонятной железки, куда полезнее было бы перевыпустить обновлённую первую.

Потом они сильно углубились в разработку железа, вместо того чтобы оттачивать архитектуру своего софта и интеграцию. А железо брать из того, что уже доступно на рынке. Доступно там было куча всего тогда, а сейчас и того больше. Пилить свою железку могут себе позволить Сбер, Мэйл, Яндекс и подобные им. Там есть на это деньги и как следствие качественные инженерные ресурсы. А для мелкого стартапа без людей с опытом в железках лезть в эту область было ошибкой. В итоге, к этому и пришло.

Даже без учёта железа, у них в целом большая проблема по работе с сообществом. Им готовы помогать десятки людей, но всё организовано так, что для помощи тебе надо пройти через десяток препятствий, а они за это время успеют всё поменять, и твои изменения станут неактуальными. Вместо нормальной платформы для плагинов (которые сообщество готово пилить само) с каким-нибудь версионированием API выходит постоянный лок версии то одного плагина, то другого. То библиотека не релизится по два года. В итоге они просто запихнули десяток основных плагинов в отдельный репозиторий с несовместимой структурой, и теперь они существуют в двух версиях. Ну, а сайт для переводов, на который они посылают людей, но с которого не загружали переводы уже много лет, это отдельный цирк.

они скорее объясняют тем, что не знают, как иначе сделать понятную пользователю настройку

Они уже и сами путаются в показаниях. Я читал вот это:

We’ve tried a lot of local STT options over the years, and while there’s been incredible work going into many projects, unfortunately nothing has come close to providing the level of experience we think is required for a general purpose voice assistant.
For this reason, by default Mycroft has used Google’s STT cloud services and layered on some additional privacy protections. We proxy the requests through Mycroft’s servers and delete identifying data related to these requests as soon as possible. (You can read more about that here.) But as much as we try to mitigate the privacy exposure inherent in such a system, this has always been a stop gap solution – a necessary evil in order to provide a quality voice experience.

https://mycroft.ai/blog/grokotron-stt-on-the-edge/

Ну а распознавание для русского (и многих других языков) лучше всего работает на вполне себе локальном Vosk'е.

Да, и не только там.

Имхо нет проблемы непосредственно в RPi. Четвёртая версия на максималках с нужными шилдами обойдётся сотни в две.

При изначальной MRSP в 35 кажется, и принимая во внимание текущий ценник за 2Гб модель 4B в ~150 для меня это выглядит как большая ошибка с их стороны, продолжать их использовать. Ну или безвыходность / упрямство. Ну не суть.

Касаемо работы с сообществом, очень интересно, спасибо. Пытались что-то законтрибьютить? Владеете железкой?

Анализ MyCroft и Leon в моей первой статье про Ирину был взят именно из комментариев putnik )) Если правильно помню, putnik как раз пытался законтрибутить поддержку русского языка в Mycroft.

Касательно вопроса о колонках вообще: никогда ничего вроде яндекстанции себе не поставлю. Т.к. это нифига не помощник, а просто интерфейс для выкачивания денег через подписки на вендорлочный сервис. Точка.


В моих влажных фантазиях я имею свой сервер, где крутится весь необходимый софт и разбросанные по квартире\дому\участку тупые терминалы, задача которых гонять туда-сюда звук по WiFi\проводам. В идеале, подключенные по HDMI к монитору\тупому-ТВ, чтобы выполнять запросы в духе "открой ютуб, там плейлист такой-то, начни воспроизведение с третьего видео и выведи на экран".

я имею свой сервер, где крутится весь необходимый софт и разбросанные по квартире\дому\участку тупые терминалы, задача которых гонять туда-сюда звук по WiFi\проводам

Полагаю, что в этом треде я уже поднадоел, но отмечу, что как раз реализовывал подобное в Ирине. Ставится сервер + неограниченный набор клиентов, задача которых как раз гонять звук туда-сюда (опцией устанавливается где озвучивать результат запроса - на сервере или на клиенте)

Из минусов - клиенты пока тупые, и умеют только это. Если нужно что-то где-то проигрывать, то надо тянуть HDMI с сервера.

Плюс, конечно, сразу скажу - интеграции с API ютуба нет )) так что придется пилить самому.

Осталось найти где-то Ирина-совместимую колонку с адекватным звуком и приличным микрофонным массивом. Вот нечто такое я бы купил.


А пока у меня просто неттоп за телевизором и клавиатура с интегрированным тачпадом. И, в принципе, меня всё устраивает.

На неттопе микрофон есть? Если есть, можно просто поставить Ирину, и для каких-то простейших действий её юзать без клавы. Довольно удобно.

У меня у самого она стоит на старом ноуте, так что кейс использования похож.

Я бы себе тоже не поставил. Но детям от 2 до 15 лет отлично заходят Яндекс станции.

Сравнение с автомобилями строго некорректное. Автор хочет как раз "гранту" чтобы ее в гараже ковырять и пердолить, а производители делают мерсы с вендорлоками.

Если бы я вообще видел смысл в умных колонках, то я бы как раз выбирал что-то вендорлочное, зато стабильно работающее. Собственно как и большинство людей.

По поводу API - у алексы давно все это есть, крутится в амазоне в облаке, куча врапперов под разные языки, всякие webRTC под капотом, делай - не хочу.

Меня Амазон уже раз 5 блокировал, я никому не рекомендую вкладываться в Alex'у, если, конечно, у вас нет полного набора "правильных" документов и платёжных средств.

Рискуя повторить что-то избитое... Вопрос о том, что не так с умными колонками и голосовыми ассистентами, мне кажется, вопрос не столько к технической реализации сколько к концепции использования. Все пытаются моделировать голосовых ассистентов по модели ассистентов-людей, но при этом сходство заканчивается на поверхности - и тем и другим можно что-то сказать и они это поймут и исполнят. Но если копнуть глубже, то выяснится что по-настоящему хороший ассистент-человек - это такой, которому наоборот (почти) ничего говорить не надо, а он сам всё организует. Или, иначе говоря, фишка голосового ассистента - это то, что с ним можно говорить. Фишка ассистента-человека - это то, что с ним можно не говорить. :) Go figure.

Все верно. Это как разница между умным домом и домом с дистанционно управляемыми выключателями/приборами и кое-какой автоматизацией. Идеал недостижим. Но это не значит, что надо прекратить пытаться

XXX еще может что-то сделать в офлайне..

проблема не в том может или не может XXX работать в оффлайне, а в том что при наличии интернета он упорно будет ломиться на сервера чтобы включить лампочку которая с ним вообще-то в одной локалке живёт.
ну уж нет, спасибо, мой выбор - homeassistant и пара скриптов, а голосовое управление отсутствует, хотелось бы но вменяемого способа без облаков и платных сервисов я не нашёл

Home Assistant отлично дружит с Алисой. Прокидываешь его в сеть, и вуаля. Алиса может управлять всем, что живёт в HA. У меня так работает уже пару лет.

Да, знаю, я тоже попробовал, правда сейчас оно disabled. Хочу всё же максимально без выходов за пределы локалки.

Ну, я про это думал, но для меня самый страшный вектор атаки - это хакер, взломавший Яндекс, сможет у меня лампочками помигать. Ладно, ещё ворота открыть. Но не дом, дом заперт на механический замок. Так что не страшно. А если есть что-то критичное, то можно это просто не отдавать Алисе, в интеграции можно настроить, что можно прокидывать, а что нельзя.

Да, локалка работает быстрее, чем запрос через интернет. Но запрос голосом через интернет всё равно быстрее сценария "вынь телефон, разблокируй, открой приложение, долистай до выключателя, ткни". А ещё голосовое управление можно дать ребёнку без телефона.

Если говорить о полном доступе к колонке - то может разговоры послушать (и определить, когда вас дома нет). И открыть ворота, облегчив проникновение. И выключить лампочки, затруднив опознание по камерам (если они есть).

голосовое управление отсутствует, хотелось бы но вменяемого способа без облаков и платных сервисов я не нашёл

Уже присутствует. Погуглите на тему synesthesiam joins nabu casa. И до него тоже было, но не так хорошо

Если что - гляньте, у Ирины полностью локальное голосовое управление, и есть интеграция с HomeAssistant (и бесплатно).

Умные колонки — это какая-то кончелыжная чушь, по соотношению заявленной пользы и реального функционала наиболее близкая к товарам из телемагазинов. Модная деталь интерьера типа велотренажёра, УЗ- увлажнителя воздуха, в пользу которой верят, но через пару месяцев перестают пользоваться, хотя верить вроде не перестают.

Соотношение - да, но в отличие от товаров из телемагазинов, умная колонка умеет делать хорошо некоторые вещи. Реально хорошо.

Включить музыку, поставить таймер, озвучить время или погоду - с этим Алиса вполне справляется. Стоит ли оно тех денег, что за неё заплачены - это каждый решает сам.

 в отличие от товаров из телемагазинов, умная колонка умеет делать хорошо некоторые вещи. Реально хорошо

Ну так и Очки Мохаве реально держат удар кувалдой, а Чудо-пароварка реально готовит, я в этом не сомневаюсь. Так что вы правы - вопрос только, по карману ли это конкретному человеку за свой функционал. А когда человек покупает специально задорого что-то не особо функциональное - то это называется игрушкой, или элементом стиля. Соответственно, умные колонки - не помощники, а просто элемент футуристичного интерьера, ну как дизельпанковские часы на газоразрядных лампах.

Умные колонки - вполне себе помощники, если понимать их границу применимости. Я готовлю, у меня заняты руки - я прошу включить таймер на 20 минут и через 20 минут получаю оповещение - значит, рис сварился, можно выключать плиту. Я хочу послушать группу Ундервуд - я говорю колонке, и она её включает. Мне надо знать температуру за окном - я спрошу, она ответит. Можно ещё лампочку прикрутить - она её будет выключать по команде.

Собственно, именно такой функционал и рекламируется на сайте Яндекса. Музыка, новости, погода, работа с часами и напоминания. Управление светом при наличии лампочек. В отличие от часов на лампах vs часов за 300 рублей - Алиса таки реально даёт новые возможности, которых у вас не было раньше. Стоят ли они своих денег - тут уже вам решать.

Немного миллениального бубнения:

90% функционала есть в телефоне, который у всех обычно рядом с собой и его не нужно покупать в каждую комнату.

Прикола с лампочками, если у Вас не хоромы трехэтажные, вообще не понимаю - так сложно на выключатель нажать, неужели проще орать в колонку? Ладно бы там было единое управление кондиционером, пылесосом, температурой воды, джакузи, плитой, мультиваркой и т.д., но это либо очень дорого, либо вообще не поддерживается этими колонками или устройствами.

В итоге остается единственная обоснованная причина покупки - нужна аудиоколонка с голосовым управлением и интернетом, в которой количество песен зависит от базы яндекс.музыки, которая после недавних событий еще меньше стала. Для меня в ней, например, нет очень много того, что слушаю я (слишком стар видимо), либо в наличии только концертные записи и каверы.

С моей точки зрения более интересными выглядели станции салют с монитором, на них хоть ютубчик можно было посмотреть. Но там свои проблемы и сервисы.

У каждого свой сценарий использования. Вам удобнее доставать телефон. Мне удобнее крикнуть колонке перед выходом - "выключи везде свет и запусти пылесос". Одно не исключает другого

Проблема не в "заплаченных деньгах", а в тех которые ты будешь платить "пожизненно" из-за вендор лок и платных подписок.... :-) С учетом, что можешь вообще "полу кирпич" получить по воле производителя (или государства). Что прекрасно демонстрируют примеры AppleTV, Sony PSN и еще кучи подобных Online сервисов.

Спасибо, Виталий. Мне иногда странно, почему такие очевидные вещи приходится проговаривать. Видимо, мне надо было подробнее этот момент раскрыть в своей заметке.

Умная колонка — просто спасение для лежачих инвалидов и, если бы та же Яндекс Алиса работала хорошо, цены бы ей не было. В реальности же случается порой так, что её просишь выключить свет, чтобы поспать, а она не только не выключает, но и зависает сама (минут 30 крутится раздражающий синий свет сверху и не отвечает ни на какие запросы). Чтобы дозвониться на колонку с телефона, нужно звонить раз 5, потому что 4 раза вместо голоса собеседника в ухе звучит какой-то «колокольчик». Один раз была вообще жуть, Алиса начала орать «ПроПроПроПрПрПрПр» (видимо, начало фразы «произошла ошибка …») и это длилось до прихода соцработницы.

В общем, жутко кривая программная начинка, явно нет нормальных таймаутов и обработки внутренних ошибок.

Ну тогда и функционал у нее должен быть заточен под это. Здесь я полностью согласен, но в реальности мы не видим нишевых продуктов, которые реализуют робастное голосовое управление умным домом (у инвалидов и голос может быть не очень), спецфункции вроде тревожной кнопки или управления электрической кроватью и др. Есть только модный масс-продукт, который глючит и мало на что способен в реальности. Погоду, пробки, почту мне проще увидеть, чем воспринимать на слух. Таймер поставить? Ну это только если у меня руки по локоть в тесте, а надо уже засекать время выпечки первой партии пирожков. Музыку лично я вообще не слушаю, она меня бесит. В общем, лично мое мнение - бесполезная игрушка, типа как в люксовых машинах в 60-е был встроенный виниловый проигрыватель.

Здравствуйте! Я из Яндекса. Чтобы разобраться в ситуации, мне потребуется дополнительная информация. Пожалуйста, пришлите мне в личные сообщения следующие данные:

— Идентификатор вашего устройства. Если вы используете приложение Яндекс: нажмите «Сервисы (⊞)» → «Устройства» → выберите нужное устройство → пункт «Об устройстве» → «Идентификатор устройства». Если вы используете приложение Дом с Алисой: выберите нужное устройство → пункт «Об устройстве» → «Идентификатор устройства».

— Логин, которым вы авторизовались в приложении. Если вы используете приложение Яндекс: откройте главную страницу приложения и нажмите на свой аватар в левом верхнем углу. Далее выберите самую верхнюю строчку рядом с ним. Появятся указанные в ID имя и логин. Если вы используете приложение Дом с Алисой — нажмите «Настройки (⚙️)». Ваша почта высветится в верхней строке.

— Дату и время, когда последний раз возникли трудности в работе вашего устройства.

— Небольшое видео ситуации. Его можно сохранить на Диск, а мне прислать ссылку.

Обязательно во всём разберёмся подробно.

У меня Яндекс станция и Яндекс станция лайт. Первая ни разу не зависала, вторая зависает через 4 дня в режиме ожидания. Но возможно это кто-то отключает микрофон или причина в не родном блоке питания. Особой проблемы у нас в этом нет. Все равно часто перезагружается, когда переносят из комнаты в комнату. Такого чтобы орала ни разу не было. Если подвисает, то молча.

Просто не у всех есть сценарии использования. У меня вот они потихоньку разможаются. Три штуки стоят. Постепенно скорее всего появятся в каждой комнате. Детям очень удобно использовать.

Аналогично, у ребенка одна из любимых игрушек. Из комнаты в комнату носить неудобно и от еще двух Яндекс станций лайт не отказался бы.

УЗ- увлажнителя воздуха
Очень классная штука, но сломалась у меня о необходимость постоянно добывать чистую (а лучше дистиллированную) воду.
Ну то бишь банально неудобно.
А интегрировать с водопроводной системой — ну, это чистая фантазия.

Роботы пылесосы, которые моют пол, потом на станции зарядки моют свои тряпки, имеют подключение к водопроводу и канализации уже существуют и стоят не как чугунный мост. Я думаю и до УЗ увлажнителей дойдёт, через какой-нибудь хороший фильтр обратного осмоса подключать их к водопроводу. Если уже не дошло. Поизучайте тему.

Интегрировать с фильтром на обратном осмосе, ничего сложного. Я тоже планирую такое, через N лет ))

Это надо скорее всего ставить отдельный фильтр под это дело, и трубы проводить. Вопрос еще в том, сколько стоит сам увлажнитель, который такую интеграцию поддерживает.
Сдается мне, что будет как с кофеварками — за подвод трубы +500% к цене, потому что индастриал.

Поплавком можно подачу регулировать, вроде любой увлажнитель можно доработать, некоторым нравится процесс DIY для себя. Ну или купить готовый действительно.

Обычный фильтр на обратном осмосе. Расход 10-20 литров в сутки на 2-3 испарителя. Ну да, надо заправлять пару раз в день. Записываю как зарядку

Фильтр-то у меня есть. Но все равно удобств мало.

Обратный пример, детям отлично заходят, начиная с 2 лет. Купил 2 Яндекс станции и не против третьей, чтобы не носить из комнаты в комнату. Там и беседы интересные у ребенка и может аудиосказку включить и игры типа загадок или угадывания чисел. Это лучшая покупка по соотношению цена/качество.

Взрослым, что постоянно за компом, действительно нет особого смысла. Разве что погоду раз в месяц спросить.

На кухню можно.

Причем даже с экраном (или с подключением по HDMI/Miracast).

От банального - таймера, включения-выключения музыки, до "покажи как перевернуть блин" (сделано профессионалами, не повторяйте это дома).

У яндекса ещё забавно то, что управлять музыкой (Без диска то) можно через локальную сеть, а лампочкой (Не zigbee) - нельзя.

Не пост, а праздник идиотии какой-то.

Требование наличия интернета

Зачем колонка без интернета? Основные сценарии - музыка, погода, какая-то быстра инфа. Сценариев оффлайнового использования - полторы штуки. И то они без интернета будут работать погано, так как голос без интернета хорошо не распознаётся. Ну и реально, вот я пользуюсь в загороднем доме и у пожилой бабушки на даче. У бабушке через роутер с симкой воткнуто. Отлично работает.

Привязка к сторонним сервисам

Ну, я не знаю, как это комментировать, очевидная глупость. Что будет делать колонка без сторонних сервисов? Точное время сообщать?

Гнилая система подписок

И рыбку съеcть и подписку не платить? Контент откуда браться будет? Модель потребления контента - 100% пиратство? А мощности на обработку запросов и разработку софта?

и отсутствие локального хранилища

Домашняя медиа библиотека - сценарий для 0.01% задротов. Да, я вхожу в их число, но не жду, что рынок будет ориентироваться на меня.

Техническое отставание / недооценивание возможностей on-edge computing

Ну конечно, chatGPT только что вышел, фиг ли он в яндексе не развёрнут ещё с сопоставимыми возможностями, да?

Вопросы приватности

Кому можно доверять, если никому нельзя доверять? Остаётся разве что отрезаться от интернета и сидеть в шапочке из фольги.

Закрытая инфраструктура и vendor-lock-in

Если ничего не помогает - стоит прочитать документацию. Можно писать навыки, интеграции, и втыкаться в колонку по локальной сети. Всё что угодно можно.

Посредственные навыки

Про это уже было в пункте про chatgpt. Непонятно, зачем повторяться. Пунктов мало набралось, что ли?

Управление умным домом

Никто не забывал про умный дом. Просто там зоопарк, который не так просто поддержать. И вообще не дёшево. Ни у кого нет безграничного количества человекочасов под это.

А что там с opensource?

А вот удивительно. Наверное, опенсорса нет ровно потому что никому не нужна оффлайновая колонка? Потому что она не будет интегрирована ни с чем? Потому что на ней никогда не будет нейронок, о которых автор поста говорил чуть раньше?

Не пост, а какой-то праздник некомпетентности. Краткий пересказ - "Дайте мне всё на свете, и бесплатно. Кстати, предмет я не изучал". А опрос в конце - просто финиш. Уровня "хотите ли вы кушать вкусно и бесплатно?" Все хотят, конечно. Но так не бывает.

праздник идиотии, глупость, задротов, сидеть в шапочке из фольги, праздник некомпетентности

Спасибо за ваше мнение. Отвечу на пару вопросов.

Зачем колонка без интернета?

Устройство может иметь опциональный доступ к интернету, но только когда об этом попросит пользователь. Без интернета устройство не должно глупеть до состояния кирпича.

так как голос без интернета хорошо не распознаётся

Это не так. Да, у Яндекса самая лучша СТТ модель. Как и, условно, Ламборгини - самое лучшее авто. Но у большинства-то как раз не Ламборгини. Я приводил в одном из комментариев список СТТ решений, с которыми я игрался. Среди них есть очень хорошие.

Модель потребления контента - 100% пиратство?

Нет, совершенно. В хозмаге продаются ножи. Ими можно убивать людей или резать колбасу. Я собираюсь резать колбасу. Что собираются делать другие - их личное дело. Если я могу зайти посмотреть на ютубе музыкальное видео, это пиратство?

Краткий пересказ

Нет. Краткий пересказ такой: сейчас продаются электрочайники, которые не работают без сторонних облаков, интернета, подписки, требуют своего особенного блока питания и воду умеют кипятить только до 40 градусов. И вы, как и некоторые другие, пытаетесь меня тут убедить, что вот это и есть норма и по-другому быть не может.
А у меня, как и у многих других энтузиастов, это работает дома именно так, как я хочу.

А удобно вы понадёргали из моего комментария удобно трактуемых отрывков. На всё отвечать, лень, остановлюсь на одном моменте.

И вы, как и некоторые другие, пытаетесь меня тут убедить, что вот это и есть норма и по-другому быть не может.
А у меня, как и у многих других энтузиастов, это работает дома именно так, как я хочу

Окей, расскажите, как у вас дома работают все указанные в посте противоречащие параграфы, всем будет интересно.

А опрос в конце — просто финиш. Уровня «хотите ли вы кушать вкусно и бесплатно?» Все хотят, конечно. Но так не бывает.
Что не так с опросом? Я проголосовал, что мне не интересно.
Но в первую очередь не из-за closed source, а потому, что боль пользователей голосовых интерфейсов человек<->компьютер — притча во языцех. С момента появления, и еще наверное лет 10 будет.
Потому что никакого fallback на другие способы управления, если искусственный идиот услышал что-то не то — нет. Ну то есть если он услышал «позвони А» вместо «позвони Б» — все, страдай. Можешь еще помучиться и поиграть интонацией, но проще, все же, было изначально нажать «позвони Б» на телефоне.

Что будет делать колонка без сторонних сервисов? Точное время сообщать?
Собственно, если без «сторонних сервисов», но с распознаванием голоса — то все. Музыка локальная (определять лицензионность музыки в число задач колонки не входит и не должно), таймеры в сервисах и подписках не нуждаются, поиск бесплатный, умный дом — тоже (не считая, конечно, самого железа).
Но делать сервисы без подписок в 2023 не модно. Акционеры не поймут.

Кому можно доверять, если никому нельзя доверять?
Ваши слова, да любителям покричать «ВИНДА СЛЕДИТ!!!» в уши. Но забугорным сервисам как-то проще доверять. Их майор вряд ли когда-нибудь решит подключить к колонке функцию распознавания фразы «систему надо менять». По крайней мере на русском языке. :)
А учитывая, насколько Яндекс под- и про-государственный — вопрос времени.

Домашняя медиа библиотека — сценарий для 0.01% задротов.
На фоне санкций — вопрос актуальный. Немногие просто задумываются о том, что есть локальные альтернативы. А треки из библиотеки пропадают молча — тому же Яндексу нет интереса вам сообщать о том, что вот эти треки вы у них больше не послушаете.
А вот лично мне между Youtube Vanced и Яндекс.Музыкой переключаться уже немного надоедает. Одной общей библиотеки музыки уже нет.

Тут, на мой взгляд, вопрос маркетинга и лицемерия.
Производители пишут на коробках: "умная колонка...расскажет ребёнку сказку...погоду...анекдот...бла-бла-бла"

А вот если законодательно обязать как на сигаретах не менее 30% площади упаковки покрывать надписью:
"НЕ РАБОТАЕТ БЕЗ ИНТЕРНЕТА И ЕЖЕМЕСЯЧНЫХ ТРАТ 300+ РУБЛЕЙ!!!"

То останутся ли продажи на прежнем уровне?


Санкции - не единственный риск. Вот случай: мастер-ремесленник своего дела, умеет не только точить детали, но и объяснять, как это надо делать. Серия роликов на ютубе. Абсолютно аполитичный контент.
Потом у автора в 50 лет - раз, щёлкнуло что-то в голове - удалил весь свой канал и ушёл из онлайна...

Тут налицо конфликт интересов. И именно в этом мне видится проблема.

Сами помощники в первую очередь обучаются управлять сервисами своей родительской компании, и только по остаточному принципу другими сервисами. И с другой стороны точно такие же ограничения. Никто не даёт управлять полноценно своими сервисами стороннему софту, зачем?

В итоге Алиса на телефоне не может работать с заблокированным экраном, не может прочитать или написать СМС, спасибо хоть позвонить может. В то же время Ассистент Гугла, который такое может, не имеет полноценного доступа к сервисам Яндекса.

И это принципиальное ограничение, которое ни одной компании не выгодно устранять пока у компании есть эко-система.

Похоже надо расширять понятие монополии и на экосистемы. Как в свое время раскулачивали гугл и майкрософт, тоже самое надо делать с телефонами, колонками и прочими умными устройствами.

Пока устройства жёстко связаны с софтом, конфликт интересов не устранить.

Пока устройства жёстко связаны с софтом, конфликт интересов не устранить.

Самое злобное (с, скорее всего, более-менее правильное) решение - злобно запретить изготовителям софта продавать железо с ним, а производителям железа - продавать софт для него. А для того, чтобы не жульничали с соседней знакомой фирмой - требовать полноценной документации в духе "вот вам штраф, если документация не соответствует железке, те. нечто, соответствующее доке, на железке не работает, как обещано".

Купил компьютер - ищи, кто продаст тебе софт (БИОС) для него, что ли? И зашьёт, потому что без загрузчика не поместить софт в железо.

Посредников никто не отменял. Будут продавать полноценные комплектации с указанием того, что куда воткнули.

Смысл в том, что сломать упомянутую сцепку - можно только если производитель железа вынужден описывать все свои интерфейсы (иначе ничего не напишут), а производитель софта - не может получить преимущества от "тайных знаний только для него" от производителя железа.

не вижу ничего злобного, Интел, Куалком, НВидиа прекрасно живут производя только железо. Майкрософт и Яндекс производя только софт. А вот Эппл и Гугл (подмявший мобилки через ОС) сидят на своих монополиях и не дают никому слишком тесно с ними интегрироваться.

НВидиа прекрасно живут производя только железо

Э нет. Софт в виде драйверов НВидиа тоже пишет сама.

драйвера это не функционал, по сути это часть железа, вы передёргиваете

Не совсем. В моем сообщении более-менее имелось в виду, что железо - производят и продают отдельно (и публикуют все интерфейсные спецификации), а драйвера пишут - отдельно. Все, кто осилит.

Чтобы потому не было, что железка (например, WiFi сетевушка) есть, а драйвера для нее под очередную ОС - нет, потому что производитель не написал. И даже заплатить никому нельзя для написания, потому что производитель нужных доков никому не дает потому что не сделал.

Тогда придётся придумать, где провести границу.

Вот, например, обычный телевизор без всякого смарта. Для него интерфейс тоже должна писать отдельная компания, никак не связанная с производителем телевизора? А если никто не захочет, то что тогда?

Или возьмем, наоборот, сложное устройство типа смартфона. Вот, допустим, Самсунг сделал телефон без софта, а Гугл написал для него операционку. Как это решает проблему "Алиса на телефоне не может работать с заблокированным экраном, не может прочитать или написать СМС"? Доступ-то у неё ограничен на уровне операционки, а не железа. Сегментировать ещё дальше - операционку и ПО снова должны писать не связанные между собой компании? Либо каждому приложению придётся работать напрямую с железом, воюя за внимание с операционкой.

Тогда придётся придумать, где провести границу.

Это просто. Если у меня есть на руках железка, но я не могу ей воспользоваться по всем функционалу, что написано в доке, если нет какой-то софтовой части, что производитель не написал/не поддерживает/не может, потому что не существует -- то соответствующая софтовая часть должна писаться не производителем железки, а кем-то другим. А производитель железки - должен предоставить всю необходимую документацию, чтобы это можно было сделать и к железке прикрутить даже после того, как он сам сдохнет.

И как производителю продавать железку, у которой нельзя воспользоваться всем функционалом из документации? "Покупайте и ждите, что вам кто-то напишет"?

Именно так.

Компьютеры без OS продаются же. Хотя сами по себе они по интернету, скажем, ходить не могут. Но и в доке к ним (кроме уж совсем рекламных материалов) ничего подобного не обещается.

Компьютеры без ОС продаются потому, что кто-то десятилетия назад сумел создать систему совместимых между собой устройств. IBM PC, x86 и вот это всё. И в результате компьютеры мало того что продаются без железа - они продаются россыпью, вы можете купить набор совместимых комплектующих и собрать его дома. И это - исключение. Больше, пожалуй, ни для одного изделия в мире нет такого, что вы можете купить в магазине набор совместимых изделий (железо плюс софт) от разных производителей и относительно легко собрать из них устройство.

Больше ни с чем такой фокус в мире не удался. Телевизоры, телефоны и смартфоны, автомобили, навигаторы для автомобилей, осциллографы, и так далее, и так далее. Всё это продаётся единым комплексом из железа и ПО. И для того, чтобы это изменить - нужна такая же инициатива на много десятилетий вперёд.

Телевизоры, телефоны и смартфоны, автомобили, навигаторы для автомобилей, осциллографы, и так далее, и так далее. Всё это продаётся единым комплексом из железа и ПО.

Да. И это нормально, пока выполняется вот то самое условие - 'могу воспользоваться, даже если производитель уже не существует'.

А вот как только это не выполняется - нет уж, нарезайте функционал на кусочки(от разных производителей) с хорошо описанными интерфейсами, чтобы исправная железка не превращалась в тыкву, потому что нет никого(потому что не описано, как с железкой взаимодействовать), кто может сделать софтовую часть.

Вот у меня дома телевизор, он регулярно требует обновления. Я пока вежливо отказываюсь (сторонник принципа "работает не трогай"), но мне боязно, что он когда-нибудь окирпичится из-за этого. Если бы я знал, что эта тварь будет себя так вести, я б его ни в жизнь бы не купил.

Современная проблема с техникой и гаджетами в том, что всех свойств товара, особенно тех, которые будут натирать лично мне ногу, невозможно предугадать заранее, сколько обзоров не читай. И выбор подобных устройств становится мукой по времязатратам: приходится натурально искать редкие розы в кучах навоза.

И как правило, если технически гаджет устраивает (телефон, телевизор или даже говорящая колонка), то обязательно найдётся какой-нибудь неприятный косяк с программной начинкой.

И ОпенСорс здесь - как глоток свежего воздуха. Если что-то не нравится до такой крайней степени - сядь, разберись и сделай как тебе надо. А если не умеешь, то найди единомышленников и объединитесь с ними в решении своей проблемы.

Свелось к "запретить завязывать часть функционала устройства на облачные сервисы, принадлежащие производителю устройства".

А где граница?
UEFI производителю компьютера можно в комплект поставлять?
А прошивку Intel ME/AMD PSP? А ту ее часть что нужна для запуска платы а не всякого допфункционала и без которой — никак?
А обновления микрокода кто может поставлять?
Для видеокарт — видеобиос кто может писать? производитель чипа? А в комплекте с картой продавать кто может — производитель чипа?
А драйвер видеокарты кто пишет? (если что — сейчас интерфейс драйвера с картой — совсем даже не открытый). А вещи вроде компилятора шейдеров?


А для смартфонов и около… ладно, смартфонов самих — не касаюсь но есть такая штука как докстанции Nexdock/Uperfect. Выглядят как ноут. Последние модели могут в том числе брать сигнал с телефона через Miracast (сделано для совместимости с Samung DeX) а клавиатура/тач — через Bluetooth (потому что Samsung не осилил UIBC), по проводу тоже могут. Внимание — вопрос — а кто прошивку к этим докстанциям может писать? там как минимум драйвер WiFi чипа и стек Miracast есть. Ну и что-то для работы с OSD.

А где граница?

Отвечал выше. Границы проводятся так, чтобы физически исправная железки не становились ломом исключительно потому что производитель железки не сделал нового софта.

Собственно, оно не самоцель. Просто разделение производителей железки и софта для нее - это довольно хорошее средство, чтобы интерфейсы были более-менее публичными и документированными и вот этого:

если что — сейчас интерфейс драйвера с картой — совсем даже не открытый

Не было

Условный Apple Home Pod еще может что-то сделать в офлайне, умным домом там поуправлять или быть просто колонкой для стриминга с других устройств, то Я Станция тупеет до состояния кирпича.

Стоп. А как же поддержка Bluetooth?


У пользователя нет возможности "закачать" в свою умную колонку свою любимую коллекцию mp3, которую он бережно хранит на диске уже 20 лет, оцифровав свои старые записи. У него нет возможности закачать в нее свои фильмы и сказать "Играй!".

Есть загрузка треков с компьютера, см https://yandex.ru/support/music-app-ios/import-tracks/pc.html — да, у Apple это сделано значительно удобнее.
Если же "своя любимая коллекция" уже выгружена в Apple Music (там есть функция матчинга) то есть софт для "переноса"(точнее для воссоздания плейлистов и прочего с теми же произведениями если они вообще есть у Яндекса). Вполне может хватить.

Я отключаю дома интернет и говорю - "Алиса, включи блютус". В ответ слышу - "Отсутствует подключение к интернету"

Н-да. Все еще хуже чем мне казалось.
Я это обычно слышу когда роутер перезагружался а станция нет (видимо у станции едет крыша когда она лезет с другого IP а после перезагрузки это с вероятностью 50% будет потому что dualwan)

Понятно, еще рано начинать пользовать голосовыми помощниками. Подождем еще.

Почему мы всегда в этих холиварах упираемся в две крайности? Либо суровый OSS, либо закрытый всеми дверями код?

Где та середина, когда есть устройство - с его железными умениями - записать голос в OGG, проиграть поток, отправить команду по ИК-протоколу или Zigbee, получить файл с флешки, или т.п., и есть настройка его на работу с сервисами ассистентов - тогда можно было бы подключать сразу один или несколько провайдеров услуг голосовых ассистентов к колонке. При этом должно быть доступна полная конфигурация устройства, и открытое API (код колонки необязательно должен быть тут открытым, ибо компилировать фильтры под DSP процессор микрофонного массива не всем под силу вообще нужно).

К примеру, возьмите SIP-телефоны - они имеют разный дизайн, функции, свистоперделки - и этим и соревнуются бренды. Но прошивки у них закрытые в большинстве случаев. Но они имеют 100500 настроек для интеграции.

То есть нужно отделить железную (в целом примитивную часть) от программной и облачной.

Все дело в открытости API как колонки, так и сервисов голосовых ассистентов. Проблема сейчас - в их закрытости и безальтернативности. Тогда наступит конкуренция между производителями колонок (я, может, хочу ее в виде радиолы в корпусе из ореха?) и провайдеров услуг ассистентов. При этом в целом можно даже делать маршрутизаторы, например, если мы знаем, что Ариса плохо знает рецепты, а условная Петровна хорошо ищет по рецептам домашних заготовок, то тогда даем колонке команду типа "Анжелика (wake up) Петровна (provider select key), найди-ка мне рецепт огурчиков по-архангельски!".

Вот знаете, хорошо, что у нас нет колонок от Эппл с Сири внутри. то ли моя Сири в Айфоне ещё совсем не обучена, то ли она от природы не очень умная, но я предпочитаю пользоваться поиском самостоятельно, а не с её помощью.
У меня жена недавно докапывала Марусю, чтобы она ей рецепт жареной картошки подсказала. Что только она не сочиняла! И варёную картошку, и стопицот видов картошки. Только не жареную.
ИМХО - колонки эти пустая трата денег. Но если есть лишние, почему бы не потратить?

Ну продайте на Авито. У меня 2 Алисы, не отказался бы еще от двух (чтобы в каждой комнате стояли) и Марусю на пробу. Дочке нравится голосовой помощник например.

У меня дома 4 Станции, Маруся и Салют. А ещё я в тусовке разработчиков навыков с самого момента основания этой платформы. Аккредитован и в Яндексе, и в Сбере.

Так вот: у колонок куча серьёзных проблем, но ни одна из описанных вами даже близко меня не беспокоит. То есть, вы описали свои субъективные боли, которые могут не соответствовать потребностям людей в целом. Мне вот плевать на требование интернета и на необходимость подписки. При этом, например, положительно отмеченный вами ZigBee на самом деле неюзабелен, потому что работает только с небольшим подмножеством устройств, поддерживаемых Яндексом.

А о проблемах колонок уже давно пишут в западной прессе применительно к Amazon и Google, которые на этом рынке живут дольше и попробовали больше всяких экспериментов, в том числе упомянутые вами кейсы о покупке товаров итд.

Вот хорошая статья от Arstechnica о том, почему Alexa считают колоссальным провалом: https://arstechnica.com/gadgets/2022/11/amazon-alexa-is-a-colossal-failure-on-pace-to-lose-10-billion-this-year/

Вот свежая статья от NYTimes о нереализованных прогнозах у корпораций: https://www.nytimes.com/2023/03/15/technology/siri-alexa-google-assistant-artificial-intelligence.html

У колонок есть фундаментальные проблемы с UX просто из-за их звуковой сути. Ну неудобно людям без использования зрения выполнять большинство операций. Не заводится просто, как ни крути.

У разработчиков свои проблемы, у пользователей свои. Про зигби знаю. Этой болезнью Яндекс заразился от других производителей, которые штампуют свои зигби шлюзы с поддержкой только своих зигби устройств. Бред дичайший, как по мне, но "пипл хавает". Я примерно представляю, почему они так делают, если что. И положительно я его отметил лишь только потому, что он хоть кривонький, хоть косонький, пусть с привязкой, но есть. У других и этого нет.

просто из-за их звуковой сути

Я считаю, что проблема не из-за звуковой сути, а из-за конкретных имплементаций. У людей друг с другом голосовой интерфейс отлично работает, экранов не надо (по крайней мере большинству).

Ну вот в Alexa за годы её жизни не появилось достаточно хороших конкретных имплементаций серьёзных бизнес-задач, чтобы ими люди пользовались. Если никто так и не придумал, значит, сама площадка для этого не подходит, только и всего. У людей тоже так себе со звуком: попробуйте объяснить человеку по телефону без шеринга экрана какую-нибудь сложную задачу. Обычно всё равно нужно показывать, что и куда. Довольно редкое подмножество задач реализуется только голосом. Например, покупать голосом продукты я бы и у человека не стал, и вообще никакие товары не стал бы.

Например, покупать голосом продукты я бы и у человека не стал, и вообще никакие товары не стал бы.

А теперь представьте, что вы просите свего родственника купить продуктов по вашему списку покупок. Родственник ничего не знает (пока) о ваших вкусовых предпочтения. В списке есть "колбаса, варенье, яблоки, помидоры". Какого рода дополнительные инструкции вы бы дали такому человеку?

Я бы сказал: держи, вот тебе история моих покупок в этом магазине, выбирай из того, что я когда-то уже покупал в этом магазине. Покупай в том же объёме, как я покупал до этого. А если ровно таких же товарных позиций не будет, выбери из той же ценовой категории +- 10 процентов. Если не будет в том же диапазоне, тогда звони мне и говори какие будут. И в следующий раз, когда я тебе дам список покупок, делай то же самое, чтобы мне всё это тебе не повторять каждый раз.

После трех попыток, я стал просить чек.

В чеке есть и наименование позиций, и их цена (чтобы не ошибиться).

А вообще ненавижу ходить в магазин за едой для кого-то. Нынче в этом плане все слишком замороченные, пусть сами идут или заказывают с доставкой.

Для детей начиная с 2 лет отлично заходят. Взрослым особо не требуется, раз в месяц разве что погоду спросить. И ZigBee особо не нужен, если выключатели удобно расположены под рукой, быстрее руками свет переключить.

 ZigBee на самом деле неюзабелен, потому что работает только с небольшим подмножеством устройств, поддерживаемых Яндексом.

Проект Zigbee2mqtt только официально, из коробки, поддерживает
2786+ устройств от 359+ производителей.
Энтузиасты своими кастомными конвертерами доводят покрытие до 99% рынка Zigbee-устройств.
Так может проблема в Яндексе?

Да запихивать нейросеть распознавания (весьма дорогой авктив) в устройство опасно - украдут однозначно.

Но откройте хотя бы кусочек устройства - хотя бы чтоб Zigbee-логика настраивалась с компа и работала в полном оффлайне...

Видимо, считается, что обычный пользователь не будет этим заниматься. Вон у эпла вообще в умном доме жесточайший вендор-лок, и ничего, народ всё равно покупает и пытается делать. Спрут (sprut.ai) даже свою платформу построил именно вокруг Apple, хотя это имхо худший выбор из всех существующих.

Так что для, условно, гиков, просто рынок не особо работает. Гиков мало, и они придирчивы.

для, условно, гиков, просто рынок не особо работает


История с FlippeZero говорит что это не так :)

Я один из первых бэкеров FlipperZero. Лежит без дела. Одно из самых больших разочарований в моей жизни. Просто маркетинг очень круто сработал. Но гиков редко удаётся так обмануть. Иногда удаётся, и получаем такие примеры, но как правило всё-таки нет.

Никогда не понимала - какой смысл в этих колонках? И кто их вообще покупает? Что они могут привнести нового ну или чем существенным дополнить быт?

У каждого свои сценария использования. Если речь например про Яндекс Станцию, где приличная аккустика, то она играет музыку очень прилично по запросу. Еще это удобный голосовой интерфейс для поиска чего-то в интернете. К сожалению, в случае с Яндексом, количество ресурсов на которых она ищет ограничено несколькими (вики, вопросы мэйл ру + пара таких же). Поставь таймер на 20 минут (пока готовишь). Добавь муку в список покупок (пока готовишь). Поставь напоминание завтра в 9 заказать еды. Покажи фильм. Расскажи о фильме. Включи телевизор (не охота искать пульт). Включи кондей на 20 градусов. Выключи весь свет и запусти робот пылесос.

Ну, получается, она просто немножечко помогает не делать лишних телодвижений

именно так

Ага, сделай телевизор погромче (повторить 5 раз)

Что они могут привнести нового ну или чем существенным дополнить быт?

А чем существенным дополняет быт блендер, пылесос или там музыкальный центр? Колонка, это просто гаджет, который некоторые бытовые вещи делает удобнее. Попросить включить музыку, не отрываясь от текущего дела, или чей-то номер набрать и т.д. Жена у меня испанский подтягивает, прося колонку перевести те или иные фразы.

Есть инструменты, которые именно существенно экономят время и силы: взбить вручную белковый крем - это всё равно что подстригать газон ножницами. Т. е. в этом случае блендер вполне оправдан по время- и трудозатратам. А уменьшить затраты времени для включить или что-то вписать, или набрать номер... Ну такое...

взбить вручную белковый крем — это всё равно что подстригать газон ножницами

Вы можете вообще не взбивать белковый крем, а готовить что-то, не требующее белкового крема, точно так же, как и не учить испанский :) И то, и другое — всего лишь опциональное хобби.

По вашей логике: мне недоступно изучение испанского, потому что у меня нет этой колонки ))

По моей логике: вы не сможете вести диалог на испанском языке в то время, которое удобно вам, а не в то время, когда у вас вдруг под рукой оказался живой испанец. Так-то вам и вилочкой за 20 минут никто не возбраняет взбить белки, ну, или мужа попросить. Просто это неудобно. Ещё, вы себе без умной колонки музычку не включите, когда коржи для того торта будете делать, потому что у вас руки будут в муке :)

О боже... Сколько всего я потеряла! Музычку не включить, когда руки в муке ))

А уж мне-то как тяжело! Не могу взбить белковый крем!

Голосовое управление освещением (если есть совместимое железо)/подключенными розетками/запуском совместимой техники (которая при этом может через пару бриджей работать — какой то китайский робот-уборщик со своим облаком например), будильник (еще б яндекс поправил проблем с нарастающим будильником), музыку слушать.
Я управление светом и немного музыку использую. Остальное настроено но не используется.

«Три дня я гналась за вами, чтобы сказать, как вы мне безразличны»

С таким количеством претензий кажется правильнее сразу постучаться на вакансию продакта Алисы — вы же наверняка знаете, как сделать лучше .)

Мои запросы сильно специфичны, я прекрасно это понимаю. И те идеи, которые я толкаю, идут вразрез с бизнес планом условного Яндекса, по увеличению прибыли своих стриминговых площадок.

Но радует, что я не один такой. И судя по результатам голосования, число заинтересованных в таком продукте людей велико.

Я уже писал это несколько раз выше - вангую, что как только условные братья китайцы запилят что-то похожее в симпатичном корпусе на основе существующих off-shelf компонент (miniPC+аккустика+микрофон) и причешут софт, такие устройства сильно подвинут существующие колонки с рынка. И тогда уже Яндексы со Сберами и Мэйлами будут чесать репу, как же им обратно отвоевать рынок. Или забить на него.

Статья отличная. Думается, что в момент появления алексы конкуренты - поисковики испугались, что управление голосом станет базовым сценарием и пустились в погоню. Позже на продукт забили, оставив на самоокупаемости. Отсюда и беда со сценариями. Может быть, нужна критическая масса устройств, чтобы резко рвануть вперёд.

От себя замечу, что с умными колонками всё отлично. Они, как и предыдущие реализации колонок, неплохо проигрывают музыку. Ну ещё удобно таймер заводить, чтобы пирог не сгорел или погоду узнавать. Ещё у меня дети по английски отказывались вне занятий говорить. Купил им колонку от гугла и стало заметно лучше. На этом всё.

Для умного дома гораздо удобнее кнопки, датчики, экраны, сценарии. Жду крутилок. У меня 40+ "умных" устройств и семь детей, которые их непрерывно тестируют. Например, чтобы свет ночью не выключался через 30 сек после того, как включил, достаточно вырубить роутер из розетки.

Сценарии вроде "позвать сына со второго этажа, года у него колонка со своим аккаунтом" на деле решаются телефонным звонком.

Из 7 детей никто не разряжает телефоны в ноль, не держит их на беззвучном и не прячет под подушку (ибо злой родитель вечером увидев телефон спрячет его в сейф)?

К сожалению, вынужден согласится с автором, что "Алиса" как голосовой ассистент содержит огромную пропасть недоделок и сомнительных решений. Есть большое подозрение, что те, кто делают колонку, сами ей не пользуются дальше будильника, музыки и погоды.

1. до недавнего времени у проигрываемой музыки была беда с нормализацией (а у аудиокниг, похоже, до сих пор сохраняется). Т.е. одна композиция орет, требуя уменьшать громкость, другую вообще еле слышно. Проблема тянулась чуть ли не самого начала, на форуме Яндекса были темы... и три года торчала в TODO. Хотя, казалось бы, базовая фишка прослушивания музыки из разных источников.

2. принципиальная необучаемость. Если попросить Алису поставить трек на ломаном английском (или ошибиться в названии группы), то она найдет что-то очень отдаленно похожее и поставит его. Не переспросив, не уточнив. И так до позеленения просящего - будет гнуть свою линию, не пытаясь предложить варианты, не говоря о том, чтобы хоть как-то реализовать задел под обучение. Ну или просто уточнить.

3. не менее бесит постоянное желание лезть в интернет и искать. Причем, опять же, уточнить поиск нельзя (может сейчас и можно, не проверял), особенно если что-то распозналось неправильно. Видимо, уверенность в своем STT безгранична.

4. очень удивляет отсутствие такой базовой фишки, как "диктофон". Т.е. нельзя сказать "Алиса, запиши разговор", а потом "Алиса, проиграй разговор". Хотя, казалось бы, куча микрофонов. Да, я понимаю, мигом прибегут инфобезовцы и скажут, что "небезопасненько", что в контексте постоянно слушающего устройства уже выглядит смешно.

5. одно время у меня поменялся провайдер и вся музыка (треки, потоки) просто не проигрывались. Вместо них "ой, простите, зажевало пленку" (пришлось детям объяснять, что это значит, они не застали пленочные носители). Переписка с поддержкой выявила, что проблема в DNS - надо было на DHCP-сервере указать DNS Яндекса и тогда все работает. Вопрос - а что мешало это прописать сразу на устройстве - задавать, наверное, смысла нет. Что-то.

Это только что смог вспомнить, так-то претензий было больше.

Как разработчик, я могу понять, почему так.
Как пользователю, мне очень тяжело пользоваться столь странным и недоделанным устройством.

А, вспомнил еще, за гранью добра и зла - фактическое отсутствие режима тишины (номинальное там вроде есть, но оно не соблюдается), когда не надо вообще ничего ни отвечать, ни включать (кроме будильника). Поэтому риск, что колонка разорется на весь дом ночью, разбудив остальных, остается.

Так собственно так же Алиса за последние три года не особо поменялась. Это или отсутствие конкуренции или отсутствие идей.

А ещё мой ребенок столкнулся с ограничением базы самого Яндекса - песенки из Ютуба там отсутствуют в принципе. И да, dlna сервер прямо напрашивается внутрь. Пусть мелкие колонки действительно зависят от интернета, но большая станция за 20 тысяч рублей то должна уже сама локально все делать. Или слейте исходники прошивки "случайно" - этапов мигом сделают такие функции, что только успевай добавлять.

И цена. Инженеров тут явно покусали маркетологи. Тогда как на западе можно за копейки купить саму колонку и пользоваться сервисом за деньги, то у нас и колонка дорогая (5000 за лайт?) И подписка (300 рублей в месяц) без выбора нужных функций.

Готовую колонку покупать не стану.
А вот "умную колонку" из имеющегося у меня оборудования сделать очень даже хочу.

Есть у меня роутер tp-link mr3020 с openWrt и подключенными колонками и микрофоном.
У меня сложилось впечатление (может быть, неверное), что вполне можно сделать из него "умную колонку". Дело только в скриптах, которые надо найти.
Он используется, как медиа-центр. Радио, mini-dlna, подключен внешний диск. Управление с клавиатуры.
Но мне больше понравилось управление со смартфона (например, MPDroid).
В качестве синтезатора речи используется gTTS. Как сделать распознавание речи - не знаю.
Мне понравилось, как сделали здесь:
https://www.youtube.com/watch?v=IIKWQSnj3MA&t=7s
но не могу найти пошаговой инструкции по настройке.
Там оффлайн распознавание, по моему.

Но меня устроило бы онлайн распознавание, тем более, это мне кажется самым лучшим вариантом.
Как я вижу это все в идеале?
На Андроид-смартфоне - Tasker. С него - распознанная голосовая команда (текст), которая идет на устройство, и в ответ на эту команду срабатывает некоторый скрипт.
Вот как здесь:
https://github.com/alexylem/jarvis-api
Если Tasker можно установить на "умные часы" на Андроид, то это вообще будет замечательно.

Ну и ChatGPT туда примонтировать как-то...

Только моей квалификации на это не хватит, к сожалению. Мой уровень - это пошаговые инструкции.
Но мечта... пока еще есть. Буду смотреть, как другие сделали.

Как сделать распознавание речи - не знаю.

Есть множество проектов. Начните с Vosk и Whisper.CPP
А еще лучше с Rhasspy2.5/3 - это такой кухонный комбайн с кучей сменных насадок, к которому только свой intent-manager подключить и вуаля. Особенно 3ья версия, которая архитектурно уже максимально близко к тому, как это работает в проприетарщине. Там есть и vad, и wakeword detection и стриминг аудио сразу в ASR (на выбор несколько локальных). Короч очень продуманный проект, с точки зрения архитектуры.

С умными колонками всё так.

Голосовой помощник Алисы из смарфона (или самодельный опенсорс/сфинкс) не сравнится с чувствительностью колонки той же Алисы, у которой четыре микрофона на все стороны и которая на аппаратно-програмном уровне отслеживает и игнорирует фоновые шумы (даже громкая музыка или новости).

При этом, колонка стоит от 3тыр., никакой абонентской платы для управления умным домом, будильником, радио, озвучивания погоды, новостей и условного расписания электричек не требует. Для прослушивания музыки и просмотра кино у меня есть ДК. И мне абсолютно наплевать, если Яндекс её зажмурит, куплю другую колонку от другого провайдера.

Публикации

Истории