Information
- Rating
- Does not participate
- Location
- Москва, Москва и Московская обл., Россия
- Registered
- Activity
Specialization
Chief Technology Officer (CTO), Software Architect
Lead
Git
Linux
Docker
Database
High-loaded systems
SQL
English
Software development
Algorithms and data structures
Development of integration solutions
А почему например производители андройд телефонов продолжают их делать?
Сфинкс это старовато, мягко говоря.
А так да, решение должно быть конечным продуктом, чтобы "достал - подключил - работает".
Что вы называете "поделкой-на-коленке"? OpenAI Whisper? Или NextCloud? Или может HomeAssistant и Rhasspy?
Про это уже писали - в наборе данных Стенфорда, которым им нагенерил GPT, было много грязи. Их вроде сейчас уже более-менее прочистили, и должны были появится перетренированные - попробуйте их.
По поводу всех решений, которыми лично вы не владеете (облако, VDS/VPS) хочу сказать одну неочевидную вещь. Если что-то пойдет не так у провайдера, и вы например потеряете данные, никто ничего вам не компенсирует. Сделает морду уточкой и скажет "сорри, вот вам еще 30 бесплатных минут пользования вашим VPS за наш косяк". Ответственность должна быть материальной, но вы ее нигде не получите. Я не знаю, откуда у людей берется эта вера в то, что какой-то дядя может сделать что-то лучше, чем вы сами. Видимо маркетологи.
По поводу конкретно малинок. Малинки это прошлый век, за которые слабеющими руками держутся только их владельцы и фанаты. Даже условно пару лет назад, они уже уступали многим ARM чипам других, производителей (RK3399) а сейчас просто вчистую проигрывают в сравении с более свежими и производительными RK3588. Но мобильные интелы (N5095/N5105/N100 и далее) уже сильно поджимают ARM по части доллара на производительность и энергозатрат. А с точки зрения совместимости софта, так они вообще вне конкуренции. Я поигрался с ARM SBC и перешел на x86_64 MiniPC.
И да, целиком поддерживаю автора, за self-host и децентрализацией будущее.
На здоровье. Да, мне тоже очень интересно, когда и как именно демократизируется эта крайне востребованная функция. Возможные варианты уже на столе: дообучение (fine tuning) либо встраивание в промпт. С последним у Лламы не очень, т.к. промпт ограничен 2к токенами, вроде. OpenAI вон пошли по второму пути со своими плагинами к ChatGPT.
Особенность работы подобного рода моделей. Условно она сначала ищет путь среди своих синапсисов с максимальным суммарным весом - это и занимает больше всего времени.
И добавлю, если кто-то захочет на разные другие варианты посмотреть - https://github.com/topics/personal-assistant (посортируйте по звездам). Леон канеш мимо, но все остальное вполне удобоваримое. Одних Жарвисов штук 10 :)
Датасет, на котором тренировали ЛЛаму - нет.
Датасет, котрый сгенерил GPT для ребят из Стенфорда, которым они зафайнтюнили ЛЛаму до Альпаки - да, но он грязный.
В проекте https://github.com/gururise/AlpacaDataCleaned есть прочищенный.
На huggingface есть модели, натренированный из ранних версий прочищенного датасета, возможно есть уже и более новые. Вообще пишут для файнтюнинга Лламы до Альпаки люди пользовались и своими 30x0 / 40x0 видеокартами и занимало это какое-то разумное время, типа ~ суток.
Всё, руки прикрутили в OpenAI - https://www.youtube.com/watch?v=ZSfwgKDcGKY
Бросайте это дело имхо, в OpenAI все эти бизнесы и инициативы перехватят и задушат, внедрив всё то же самое у себя. И правильно, я считаю.
Давайте лучше вместе ковырять Лламу с Альпакой и дадим пользователям свободу от корпораций.
Кстати вот GPT-4 теперь справляется почти в таком же сценарии, но через плагины - https://youtu.be/ZSfwgKDcGKY?t=176
Да, я писал об этом - https://habr.com/ru/news/t/723638/
Обновил статью. Появились бесплатные варианты онлайн, если только поиграться хочется
Умеет, и чем больше модели тем лучше
На N5095 дела не так радужны как на моем райзене, но терпимо. Где-то секунд 5-10 на токен. Видимо из-за отсутствия поддержки AVX инструкций.
Ну вот вам тогда ещё в копилку для дальнейшего улучшения. В whisper.cpp есть пример стриминга. Можно сразу слушать и распознавать по мере слушания и сэкономить на этом несколько секунд
Я думаю это докрутят в средах. А кто для своих проектов собирается - тут фактически всего два варианта, либо повторять последние реплики диалога целиком, либо саммари. И поглядывать, чтобы не превысить количество входных токенов. Можно глянуть как в лангчейне это делают и по аналогии
У вас получилось в режиме стриминга проект Григория закрутить? А то я помню там были косяки с окном контекста и vad. Хотя в обычном режиме распознавания из wav файла все работало отлично.
Хотя чего я спрашиваю, у него самого мак, скорее всего все работает :)
Надо немного больше вводных: что пытаетесь запустить и где? И куда файл с моделью скачали?
April-ASR это STT, не TTS. Это на потенциальную замену Whisper если проца не хватает