Comments / Profile of bugman / Habr

Про это уже писали - в наборе данных Стенфорда, которым им нагенерил GPT, было много грязи. Их вроде сейчас уже более-менее прочистили, и должны были появится перетренированные - попробуйте их.

Look

Yet Another Домашний Сервер. Железо (часть 1)

bugman Mar 26 2023 at 10:38

По поводу всех решений, которыми лично вы не владеете (облако, VDS/VPS) хочу сказать одну неочевидную вещь. Если что-то пойдет не так у провайдера, и вы например потеряете данные, никто ничего вам не компенсирует. Сделает морду уточкой и скажет "сорри, вот вам еще 30 бесплатных минут пользования вашим VPS за наш косяк". Ответственность должна быть материальной, но вы ее нигде не получите. Я не знаю, откуда у людей берется эта вера в то, что какой-то дядя может сделать что-то лучше, чем вы сами. Видимо маркетологи.

По поводу конкретно малинок. Малинки это прошлый век, за которые слабеющими руками держутся только их владельцы и фанаты. Даже условно пару лет назад, они уже уступали многим ARM чипам других, производителей (RK3399) а сейчас просто вчистую проигрывают в сравении с более свежими и производительными RK3588. Но мобильные интелы (N5095/N5105/N100 и далее) уже сильно поджимают ARM по части доллара на производительность и энергозатрат. А с точки зрения совместимости софта, так они вообще вне конкуренции. Я поигрался с ARM SBC и перешел на x86_64 MiniPC.

И да, целиком поддерживаю автора, за self-host и децентрализацией будущее.

Look

Странно, уже столько времени прошло, а на Хабре до сих пор не упомянули про Alpaca

bugman Mar 26 2023 at 10:13

На здоровье. Да, мне тоже очень интересно, когда и как именно демократизируется эта крайне востребованная функция. Возможные варианты уже на столе: дообучение (fine tuning) либо встраивание в промпт. С последним у Лламы не очень, т.к. промпт ограничен 2к токенами, вроде. OpenAI вон пошли по второму пути со своими плагинами к ChatGPT.

Look

Странно, уже столько времени прошло, а на Хабре до сих пор не упомянули про Alpaca

bugman Mar 26 2023 at 10:06

Особенность работы подобного рода моделей. Условно она сначала ищет путь среди своих синапсисов с максимальным суммарным весом - это и занимает больше всего времени.

Look

Ирина, голосовой помощник. Продолжение

bugman Mar 25 2023 at 23:27

И добавлю, если кто-то захочет на разные другие варианты посмотреть - https://github.com/topics/personal-assistant (посортируйте по звездам). Леон канеш мимо, но все остальное вполне удобоваримое. Одних Жарвисов штук 10 :)

Look

Странно, уже столько времени прошло, а на Хабре до сих пор не упомянули про Alpaca

bugman Mar 25 2023 at 09:30

Датасет, на котором тренировали ЛЛаму - нет.
Датасет, котрый сгенерил GPT для ребят из Стенфорда, которым они зафайнтюнили ЛЛаму до Альпаки - да, но он грязный.
В проекте https://github.com/gururise/AlpacaDataCleaned есть прочищенный.
На huggingface есть модели, натренированный из ранних версий прочищенного датасета, возможно есть уже и более новые. Вообще пишут для файнтюнинга Лламы до Альпаки люди пользовались и своими 30x0 / 40x0 видеокартами и занимало это какое-то разумное время, типа ~ суток.

Look

Приделываем руки к ChatGPT: бот, который исполняет код в рантайме

bugman Mar 24 2023 at 13:11

Всё, руки прикрутили в OpenAI - https://www.youtube.com/watch?v=ZSfwgKDcGKY
Бросайте это дело имхо, в OpenAI все эти бизнесы и инициативы перехватят и задушат, внедрив всё то же самое у себя. И правильно, я считаю.
Давайте лучше вместе ковырять Лламу с Альпакой и дадим пользователям свободу от корпораций.

Look

Странно, уже столько времени прошло, а на Хабре до сих пор не упомянули про Alpaca

bugman Mar 24 2023 at 12:45

Кстати вот GPT-4 теперь справляется почти в таком же сценарии, но через плагины - https://youtu.be/ZSfwgKDcGKY?t=176

Look

Как настроить Alpaca (аналог ChatGPT) на своём арендованном сервере. Гайд для самых маленьких

bugman Mar 24 2023 at 09:44

Да, я писал об этом - https://habr.com/ru/news/t/723638/

Look

Как настроить Alpaca (аналог ChatGPT) на своём арендованном сервере. Гайд для самых маленьких

bugman Mar 24 2023 at 09:22

Обновил статью. Появились бесплатные варианты онлайн, если только поиграться хочется

Look

Как настроить Alpaca (аналог ChatGPT) на своём арендованном сервере. Гайд для самых маленьких

bugman Mar 24 2023 at 08:31

Умеет, и чем больше модели тем лучше

Look

Странно, уже столько времени прошло, а на Хабре до сих пор не упомянули про Alpaca

bugman Mar 23 2023 at 22:07

На N5095 дела не так радужны как на моем райзене, но терпимо. Где-то секунд 5-10 на токен. Видимо из-за отсутствия поддержки AVX инструкций.

Look

Странно, уже столько времени прошло, а на Хабре до сих пор не упомянули про Alpaca

bugman Mar 23 2023 at 21:08

Ну вот вам тогда ещё в копилку для дальнейшего улучшения. В whisper.cpp есть пример стриминга. Можно сразу слушать и распознавать по мере слушания и сэкономить на этом несколько секунд

Look

Странно, уже столько времени прошло, а на Хабре до сих пор не упомянули про Alpaca

bugman Mar 23 2023 at 21:01

Я думаю это докрутят в средах. А кто для своих проектов собирается - тут фактически всего два варианта, либо повторять последние реплики диалога целиком, либо саммари. И поглядывать, чтобы не превысить количество входных токенов. Можно глянуть как в лангчейне это делают и по аналогии

Look

Странно, уже столько времени прошло, а на Хабре до сих пор не упомянули про Alpaca

bugman Mar 23 2023 at 20:57

У вас получилось в режиме стриминга проект Григория закрутить? А то я помню там были косяки с окном контекста и vad. Хотя в обычном режиме распознавания из wav файла все работало отлично.

Хотя чего я спрашиваю, у него самого мак, скорее всего все работает :)

Look

Странно, уже столько времени прошло, а на Хабре до сих пор не упомянули про Alpaca

bugman Mar 23 2023 at 20:50

Надо немного больше вводных: что пытаетесь запустить и где? И куда файл с моделью скачали?

Look

Странно, уже столько времени прошло, а на Хабре до сих пор не упомянули про Alpaca

bugman Mar 23 2023 at 20:46

April-ASR это STT, не TTS. Это на потенциальную замену Whisper если проца не хватает

Look