Обновить
10
0

AI first

Отправить сообщение

Понимаю, что это перевод, но позволю себе заметить:

Инференс на GPU не стоит того при объеме VRAM менее 8 ГБ. Если GPU у вас маловато, делайте инференс на CPU

Если мало VRAM, тогда можно разместить на GPU только часть слоев (это может быть большая часть), а остальные слои будут работать на CPU. И такой вариант работает существенно быстрее, чем когда все слои на CPU. Странно, что автор не указал это.

Делается это добавлением параметра:

-ngl, --gpu-layers, --n-gpu-layers N (три варианта написания)

Если модель поддерживает большой контекст, у вас может закончиться память. В таком случае установите меньший размер контекста

Еще можно квантовать KV-кеш на инференсе, что также существенно экономит память, часто без заметной потери качества. По умолчанию KV-кеш в float16 (f16), его можно поменять на:

"f32", "f16", "bf16", "q8_0", "q4_0", "q4_1", "iq4_nl", "q5_0", "q5_1", через параметры:

-ctk, --cache-type-k (два варианта написания) и -ctv, --cache-type-v (два варианта написания), например:

--cache-type-k q8_0 cache-type-v q8_0

Поскольку llama.cpp назван в честь флагманской модели Meta, логично начинать с их модели

Странный логический вывод, но да ладно :)

Bы уверены, что хоть в одном из ныне расплодившихся ИИ есть хоть какая-то связь между словами "вектор" и "A245B511D1451F576C847B9589D980F060A060D7"

Такой связи не будет, потому что "A245B511D1451F576C847B9589D980F060A060D7" это абракадабра, она будет рядом с другими мусорными векторами вроде этого же.

А слово "вектор" будет в пространстве ближе к таким концепциям, как: математика, направление, векторная графика и тд.

Примеры с носом, ключом и глаголом "идти" ну это же совсем банальная вещь, обычный механизм Attention с пол оборота разделит концепции "нос корабля" и "нос, как орган", например, это будут совсем разные векторы. С этим справится даже любой простейший n-граммный механизм

Спасибо за модель, ребят! Потестировал на своих локальных задачах (в том числе c использованием function calling), очень понравилась

Добрый день! Не вполне понятно о чем именно речь, из абстракта к статье - еще более не понятно. Отдал материал ChatGPT (нет времени читать полностью), позадавал ему вопросы.

Правильно ли я понял суть исследования:

  • есть датасет LORuGEC с примерами ошибка-исправление ("он сам пошла туда" - "он сам пошел туда")

  • есть текст который нужно исправить на грамматические ошибки с помощью LLM без существенного изменения текста (чтобы только ошибки исправлял, не перефразируя)

  • предварительно, c помощью малой модели GECTOR, анализируется текст на ошибки, находятся похожие в представленном датасете LORuGEC

  • в итоге LLM на вход подаются: примеры найденных ошибок и их исправление (few-shot) + текст который нужно исправить. LLM исправляет текст без существенного его изменения

Параллельно еще проверили разные модели на то, какие ошибки они не понимают.

Все верно?

Сколько ж оно денег скушает за один консилиум?

Не рекомендовал бы использовать совсем модели ниже 12b в фактологии, арифметике и других точных задачах. Сам когда-то тестировал несколько 8b моделей, они все ошибались в банальных вопросах даже про самых известных людей или других моментах, кстати приведенная здесь Мистраль 8b в их числе. Вероятно модели с параметрами выше 20b в этом плане сколько-то лучше, но лично я их бы не использовал для точных вопросов тоже.

А вообще небольшие современные модельки на 4-8-12b очень даже хороши для некоторых задач. Я например использую их для не сложных Function Calling (часто через промпты), для переводов простых текстов (например новостей), для суммаризации, оценки материалов на разные вещи (например сложность чтения), для практики английского (об этом хочу написать статью) и тд тд, много применений можно найти.

Из последних нравятся модельки gemma3-12b, gemma3-4b, qwen3-8b и много других, даже относительно старые gemma2-9b и qwen2-7b тоже хороши и влезают в GPU 12Gb (кванты 6/8).

Когда давно еще тестировал (из малых) например wizardlm2-7b и openchat3.6-8b, поболтать на русском было очень неплохо (тогда еще было не много моделей умеющих нормально в русский), правда модельки уже старые, ну и не для фактологии 100%.

Спасибо за статью, сэкономили часть времени.

Писал статью по этой теме, внизу там есть ссылки на оригинал и апскейлнутое видео:

https://habr.com/ru/articles/904784/

Спасибо большое! Удивительно, что до сих пор применяются такие относительно старые модели как Tacotron и Tortoise.

Если получится уточнить:

  1. Как происходит тюн через sft, это специально записанные отрывки текстов с нужной интонацией?

  2. Цитата:

    модель отлично читала вслух научпоп, а художественная литература давалась ей с трудом. Но в итоге мы научили её читать одинаково хорошо.

Тот же вопрос.

И есть ли где посмотреть больше технических деталей?

Использую для некоторых локальных задач квантованные НЕ function calling модели, например Gemma2 7b, функции описываю своими словами в промпте, ответ прошу предоставить в формате json-like. Все работает очень хорошо, если не работает сразу, правим промпт. Для разных групп запросов/задач разные промпты. Ваша реализация показалась странной, зачем-то какой фреймворк, который даже между 3мя простейшими функциями не смог выбрать нужную, ну это совсем не серьезно. Простые функции в состоянии определить модель уровня Gemma2 2b (2 млрд параметров), даже прилично квантованная.

Позже хочу написать статью, как я реализовал свой function calling на локальных моделях, можете подписаться на меня здесь.

Может будет интересно, писал здесь небольшой пост по теме: Сколько стоит «Спасибо» для Сэма Альтмана. Там про то, сколько могут стоить простые, фактически бессмысленные, финальные сообщения от пользователя вроде "спасибо", "ок", "пока" и тп (вероятно дорого)

Библиотека чего? Не вполне понятен вопрос.

Для расчета глубины используется DepthAnythingV2 (можно и другие аналогичные применять). Для параллакса NumPy и OpenCV, в скриптах же все очевидно вроде

Наверное это будет очень долго. В текущей реализации на нескольких потоках один фильм обрабатывается в районе суток на модели Large. То что вы описали это добавочно еще один ресурсозатратный стек обработки. Да и ни к чему это, по большому счету.

В статье же написано про VapourSynth, как один из вариантов для связки с Python.

переделал на чтение видео по кадрам из python, инференс, покадровая запись. Никаких 500 гб не понадобилось

Разобрался что вы имели в виду, вероятно речь про промежуточный сервер на VapourSynth. Возможно позже я включу такую опцию, но придется много чего переделать. Да и настораживает, что в процессе где-то что-то зависнет (да хоть свет выключат), а время на обработку фильма от 8 часов и выше, вплоть до 2х суток (в зависимости от продолжительности фильма), и тогда все по новой запускать. Ну и вопрос с потоками, я еще не сравнивал, может покадрово в потоках быстрее будет, но это не точно. Зато место на диске не требует, это да, большой плюс. Аудио-дорожки можно после подключить.

LLM не думают, а симулируют мышление статистически. Делать что-либо, что выходит за рамки обучающей выборки, не могут

Все таки наверное могут, раз каждый квартал выходят бенчи, где LLM решают задачи лучше стольки-то процентов людей, задачи, которые раньше не видели.

источник правды для вобов - .ifo, а не сами вобы

Прямо сейчас посмотрел ifo и затем vob. Первый все наврал, и даже vob наврал меньше.

В данном случае диск кривой, я к этому склоняюсь. До этого скейлил другой диск, никаких проблем не было.

Прикрепил ваши комментарии к статье, может быть кому-то еще будут полезны. Спасибо большое.

Добрый день! Чуть дополню материал своей недавней статьей здесь.

Там я увеличивал фильм с помощью модели SwinIR, которую вы здесь также вскользь упомянули. Получилось вполне прилично, и самое главное - без артефактов, вроде появления лица вместо глаза )

До этого пробовал делать то же самое через Real-ESRGAN, не понравилось, очень заметна синтетичность, особенно на сильно замыленных видео/изображениях. Но Real-ESRGAN позволяет легко дотренировать модель, хотя руки так и не дошли (муторно собирать и подготавливать датасет). Зато базовый SwinIR вполне прилично скейлит из коробки, хоть и не идеально.

Какие косяки сразу бросились в глаза - часто деревья и траву сильно меняет, прямо видно как рисует отсебятину. Там в статье есть несколько скриншотов. Но в целом, для апскейла видео, очень неплохо.

В общем, если будет интересно, можете заглянуть )

НЛО это скорее исключение из опытных лабораторий ) Но сама возможность их появления на "улучшенных" изображениях конечно же настрораживает.

Насчет видео, можете почитать мою статью здесь:

Апскейл видео из SD (DVD) в FullHD/4K современными нейросетями

Там я апскейлил фильм, получилось вполне годно, и никаких приведений и пришельцев )

Написал статью по теме, может будет интересно:

Апскейл видео из SD (DVD) в FullHD/4K современными нейросетями

Я использовал модель SwinIR, а до неё описываемый здесь Real-ESRGAN. SwinIR качественнее, меньше пластилиновости, которая очень заметна у Real-ESRGAN. Пока не идеально, но вполне годно, уже несколько фильмов восстановил, смотреть приятно, очень близко к реальному HD

Информация

В рейтинге
6 675-й
Зарегистрирован
Активность

Специализация

ML разработчик, LLM, RAG, DS, CV
Python
Linux
Базы данных