All streams
Search
Write a publication
Pull to refresh
56
0
bugman @bugman

Make software to happen

Send message

Нет. Это грубо говоря конструктор для создания голосовых приложений - https://github.com/rhasspy/rhasspy
Еще не сам голосовой ассистент, но уже 95% от большинства его потрохов.
У него есть куча архитектурных косяков, и вряд ли его удастся использовать в конечной сборке из-за этого, но для начала вполне сойдёт.

Разобрались. Это действительно косяки в наборах из Стенфорда. Вот их тут чистить пытаются https://github.com/gururise/AlpacaDataCleaned

Я именно так и хочу, чтобы не языковая модель выбирала какой навык надо включать. Каждый навык экспонирует какой-то набор ключевых фраз или пэттернов, например в таком формате https://rhasspy.readthedocs.io/en/latest/intent-handling/ и далее уже интент-менеджеру решать какому из навыков отдавать это в обработку - скачивать ли пользователю фильм (один навык), заказывать ли пиво в красном-белом (другой), или он хочет за политику потрындеть (третий).

Кстати по поводу ASR, попробуйте вот эту штуку - https://github.com/abb128/april-asr
Мне она очень понравилась по соотношению качество / скорость / ресурсы, мне кажется это какой-то прям недооценённый бриллиант среди моделей.

Такими темпами льва скоро придётся брать уже в масштабе 2-к-1 к настоящему :)
30B серъёзная цифра, жирный у вас мак, если подтормаживать стало только "немного". Модель квантованная до 4 бит?

Какие мысли по поводу хранения контекста беседы? я думал вместо скармливания последних сообщений из диалога, попробовать сам диалог суммаризировать и обновлять это саммари по мере самого диалога, но это будет нехилая паразитная нагрузочка.

Да я видел langchain и думал о ней как раз в этом ключе.
Но на текущем уровне развития доступных для локального запуска моделей я бы не стал прям вот делать их краеугольным камнем или мозгом такого помощника. Как один из навыков - да, абсолютно. Поболтать, question answering, переводы - это пойдёт через модель. Но большинство повседневных взаимодействий где от устройства требуется конкретных действий, думаю будут реализованы думаю посредством достаточно простых (уже готовых) скиллов.

Смотрите аккуратнее, давая ему возможность крутить любой код :)
https://twitter.com/michalkosinski/status/1636683816923463681

Пока таких отдельных моделей ("русский биология", "английский айти") нет. А что есть - это Альпака. Когда появятся, буду думать

Я просто делаю проект, эдакий doom's day device. Это будет такой домашний сервер в форм факторе Яндекс Станции, с голосовым интерфейсом, на котором всё будет работать локально без интернета: и распознавание голоса, и его синтез, и question answering, и управление умным домом (кому надо), и своё облако (NextCloud), и эмуляторы старых игр (только к телеку подключи и дешманский блютус геймпад имей), и аудио-видео медиатека + ее пополнение из интернета, и свой стриминг - всё это через голосовой интерфейс, ну кроме игр конечно. И вот теперь еще и переводчик будет, как бонус. Полностью офлайновый. Я заметил за собой, когда фильмы смотрю, если какое слово не знаю - спрашиваю голосом у Алисы, это реально удобно. Вот хочу такую же штуку у себя в проекте.

Меня просто подзаебала эта вечная привязка к облачным сервисам, что девайс в тыквку превращается без них. Плюс этот большой брат везде в виде постоянного трекинга тебя на каждом вонючем сайте. А современный софт вполне позволяет всё это собрать на одной дешевой железке.

прям куплет из "Проклятого старого дома" :)

про обучение - https://habr.com/ru/news/t/723638/comments/#comment_25355144
размер весов модели <> размер текстов, на которых её обучали
размер весов квантированной модели < размера весов оригинальной модели

На гитхабе alpaca-lora как раз об этом и написано. Дать доступ в интернет и сказать - "сходи, почитай и поучись", такого пока нет - надо немного кода написать для этого. Я писал свои соображения на этот счёт выше - https://habr.com/ru/news/t/723638/comments/#comment_25348258

Надо еще отметить, что если модель просто обучать рандомными нефильтрованными текстами из интернета, то ничего хорошего не выйдет. Это как собственного ребенка учить с малолетства не учебниками да добрыми книжками, а комментариями под новостями к Ленте.Ру

Народ, вон специально заморачивается отбирает / прочищает корпусы текста википедий, мировой литературы, чтобы модели никакой токсичной дряни в себя не впитывали

Тренировка таких больших языковых моделей на текстах разных языков не только утяжеляет модель, но и делает её "умнее". Как приятный бонус, такие модели могут быть переводчиками, причём достаточно неплохими. Попробуйте её попросить перевести что-нибудь с одного языка на другой. Гугл транслейт больше не нужен :)

Сильно сомневаюсь, что можно просто взять готовые веса модели и как-то их "проредить" без ущерба. Но я не специалист ни разу, и ответ на этот вопрос мне тоже очень интересен. Надо будет поизучать

Супер! Whisper использовали родной или Whisper.cpp от Грегория?
По поводу SBC могу посоветовать посмотреть в сторону RK3588, типа Orange Pi 5 / Rock 5 и им подобных. Достаточно шустрый чип для всех этих задач и платы стоят не сильно дорого.

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity

Specialization

Chief Technology Officer (CTO), Software Architect
Lead
Git
Linux
Docker
Database
High-loaded systems
SQL
English
Software development
Algorithms and data structures
Development of integration solutions