All streams
Search
Write a publication
Pull to refresh
56
0
bugman @bugman

Make software to happen

Send message

А почему например производители андройд телефонов продолжают их делать?

Сфинкс это старовато, мягко говоря.
А так да, решение должно быть конечным продуктом, чтобы "достал - подключил - работает".

Что вы называете "поделкой-на-коленке"? OpenAI Whisper? Или NextCloud? Или может HomeAssistant и Rhasspy?

у меня он иногда циклится и на 7B и на 13B

Про это уже писали - в наборе данных Стенфорда, которым им нагенерил GPT, было много грязи. Их вроде сейчас уже более-менее прочистили, и должны были появится перетренированные - попробуйте их.

По поводу всех решений, которыми лично вы не владеете (облако, VDS/VPS) хочу сказать одну неочевидную вещь. Если что-то пойдет не так у провайдера, и вы например потеряете данные, никто ничего вам не компенсирует. Сделает морду уточкой и скажет "сорри, вот вам еще 30 бесплатных минут пользования вашим VPS за наш косяк". Ответственность должна быть материальной, но вы ее нигде не получите. Я не знаю, откуда у людей берется эта вера в то, что какой-то дядя может сделать что-то лучше, чем вы сами. Видимо маркетологи.

По поводу конкретно малинок. Малинки это прошлый век, за которые слабеющими руками держутся только их владельцы и фанаты. Даже условно пару лет назад, они уже уступали многим ARM чипам других, производителей (RK3399) а сейчас просто вчистую проигрывают в сравении с более свежими и производительными RK3588. Но мобильные интелы (N5095/N5105/N100 и далее) уже сильно поджимают ARM по части доллара на производительность и энергозатрат. А с точки зрения совместимости софта, так они вообще вне конкуренции. Я поигрался с ARM SBC и перешел на x86_64 MiniPC.

И да, целиком поддерживаю автора, за self-host и децентрализацией будущее.

На здоровье. Да, мне тоже очень интересно, когда и как именно демократизируется эта крайне востребованная функция. Возможные варианты уже на столе: дообучение (fine tuning) либо встраивание в промпт. С последним у Лламы не очень, т.к. промпт ограничен 2к токенами, вроде. OpenAI вон пошли по второму пути со своими плагинами к ChatGPT.

Особенность работы подобного рода моделей. Условно она сначала ищет путь среди своих синапсисов с максимальным суммарным весом - это и занимает больше всего времени.

И добавлю, если кто-то захочет на разные другие варианты посмотреть - https://github.com/topics/personal-assistant (посортируйте по звездам). Леон канеш мимо, но все остальное вполне удобоваримое. Одних Жарвисов штук 10 :)

Датасет, на котором тренировали ЛЛаму - нет.
Датасет, котрый сгенерил GPT для ребят из Стенфорда, которым они зафайнтюнили ЛЛаму до Альпаки - да, но он грязный.
В проекте https://github.com/gururise/AlpacaDataCleaned есть прочищенный.
На huggingface есть модели, натренированный из ранних версий прочищенного датасета, возможно есть уже и более новые. Вообще пишут для файнтюнинга Лламы до Альпаки люди пользовались и своими 30x0 / 40x0 видеокартами и занимало это какое-то разумное время, типа ~ суток.

Всё, руки прикрутили в OpenAI - https://www.youtube.com/watch?v=ZSfwgKDcGKY
Бросайте это дело имхо, в OpenAI все эти бизнесы и инициативы перехватят и задушат, внедрив всё то же самое у себя. И правильно, я считаю.
Давайте лучше вместе ковырять Лламу с Альпакой и дадим пользователям свободу от корпораций.

Кстати вот GPT-4 теперь справляется почти в таком же сценарии, но через плагины - https://youtu.be/ZSfwgKDcGKY?t=176

Обновил статью. Появились бесплатные варианты онлайн, если только поиграться хочется

На N5095 дела не так радужны как на моем райзене, но терпимо. Где-то секунд 5-10 на токен. Видимо из-за отсутствия поддержки AVX инструкций.

Ну вот вам тогда ещё в копилку для дальнейшего улучшения. В whisper.cpp есть пример стриминга. Можно сразу слушать и распознавать по мере слушания и сэкономить на этом несколько секунд

Я думаю это докрутят в средах. А кто для своих проектов собирается - тут фактически всего два варианта, либо повторять последние реплики диалога целиком, либо саммари. И поглядывать, чтобы не превысить количество входных токенов. Можно глянуть как в лангчейне это делают и по аналогии

У вас получилось в режиме стриминга проект Григория закрутить? А то я помню там были косяки с окном контекста и vad. Хотя в обычном режиме распознавания из wav файла все работало отлично.

Хотя чего я спрашиваю, у него самого мак, скорее всего все работает :)

Надо немного больше вводных: что пытаетесь запустить и где? И куда файл с моделью скачали?

April-ASR это STT, не TTS. Это на потенциальную замену Whisper если проца не хватает

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity

Specialization

Chief Technology Officer (CTO), Software Architect
Lead
Git
Linux
Docker
Database
High-loaded systems
SQL
English
Software development
Algorithms and data structures
Development of integration solutions