Pull to refresh

Comments 29

Вот это интересно. Можно за $100 дообучить какую-нибудь VLM, чтобы pornhub нормально каталогизировать. А то по запросу student party половина вечеринок за 40.

Вспомнилось ОВР ШОУ Весь в кредитах ...

В кино всегда не правда, особенно в порнофильмах

Вооот, наконец-то достойные цели🤣

Просто это студенты заочного отделения :)

насмотревшиеся универсиады

Ох уж эти «вечные студенты»…

Можно за $100 дообучить какую-нибудь VLM, чтобы pornhub нормально каталогизировать. А то по запросу student party половина вечеринок за 40.

Вот мы и нашли лучшее применения для "ИИ"!

так на рессурсе не режиссёрские версии кино да что он там может накатолгизировать

Это очень круто, что выходят такие проекты. Я сам уже давно работаю над туториалом по созданию ChatGPT с нуля, но пока что нет времени его доделать:)

Хочу просто добавить, что Карпаты указал название проекта как "The best ChatGPT that $100 can buy.", но это не ChatGPT, к которому мы привыкли, поскольку в его проекте нет многих важных компонентов: sft этап с ручной разметкой полученных результатов, которые нужны в дальнейшем для RL этапа. Также в его проекте я не увидел всякие ускорялки обучения типа flash attention, qlora и т.д. Ну и конечно же ничего нет про RAG. Это не значит, что это плохо, просто, к сожалению, это далеко от того, что называется ChatGPT.

С удовольствием бы почитал вашу статью, периодически (в рамках хобби и спортивного интереса) - пытаюсь обучением сломать мозги мелким LLM моделям
По поводу flash attention, бегло бегал по коду Карпаты, про flash attention - встречал блок кода, про RAG да, не видел. Но... не суть. Суть в том, что из-за дурацкой токенизации русских слов, все модели не умеют в стихи на русском. (делал не дурацкую токенизацию, сломал мозг, забросил на половине составления словаря, не придумал как можно процесс автоматизировать)
Я о чём: быть может, статью разбить на блоки, чтобы из блоков можно было собрать что-то похожее на работающий проект...
А то вроде интернет большой - а ничего с хорошими пояснениями не найти.

Это будет набор статей. Ранее я такое уже делал с курсом ml-алгоритмы с нуля здесь же на Хабре. Код у меня в принципе по ChatGPT готов, но вот чтобы написать туториал по каждому из его компонентов, пока что нет времени)

По поводу Flash Attention. В коде Карпаты использует scaled_dot_product_attention из pytorch. Это тоже Flash Attention, но готовый. Кстати, в ближайшую неделю я выложу в Open Source Flash Attention 2 на Triton с поддержкой Turing+ архитектур (теперь можно будет работать даже на rtx 20 серии или на T4 GPU в colab и на Kaggle), а также с кастомным режимом, где вручную можно будет настраивать вычислительные ядра и ещё с многими наворотами. Также здесь на Хабре будет самый подробный туториал по данной технологии с реализацией с нуля на Гитхабе, начиная от описания того как пришли к механизму внимания с qkv проекциями и заканчивая принципом работы всех трёх версий Flash Attention и обзором моей реализации.

Chatgpt плохо справляется с поэзией и рифмами, но Suno каким-то образом пишет обалденные песни без ошибок.

Я могу ошибаться, но я предполагаю, что трудности LLM с поэзией и рифмами вызваны отсутствием информации об ударениях на каждом слове обучающих данных. LLM при обучении просто не может из-за отсутствия этой информации найти закономерности, обеспечивающие рифмованность в стихах.

Хотя, думаю, если дополнить датасет звуковыми данными, то модель, уже будучи мультимодальной, сможет сопоставить каждому слову его произношение, что может улучшить её способность писать поэзию.

Да, если каждому слову сопоставить его звучание, это бы помогло, только это сложные модели.
Текстовые, разбивают русские слова на "часто встречающиеся фрагменты символов", по типу: [ча + сто + в + стр+ е + чаю + щи + еся + фраг + мент +ы]
Получились токены. И при такой разбивке совсем не очевидно что половинка одного токена должна рифмоваться с тремя другими токенами на соседней строке.
В целом, в интернете был у одного человека подход, где он делал токенизатор где каждая буква - отдельный токен (это самый простой способ), и у него LLM рифмует, правда смысла в стихах нет
Пример его рифмобота в телеге: https://t.me/verslibre_bot

Да, и для «обучения» — тоже зочу придраться. О каком обучение идет речь, когда запускается одной командой, а обучение то же самое.. звучит странно, но видимо это со мной что-то не так…

Я правильно понимаю - ты берешь указанные мощности, программу и ... просто грузишь в нее кучу книжек на которых хочешь её обучить?

не просто. данные для обучения нужно готовить (либо взять готовые, но тогда зачем все это?). А еще данные для проверки результата. Пока все выглядит как "потрать 100$ чтобы обучить готовыми данным то что уже есть у других, потому-что можешь".

Так ведь можно например корпоративной инфой накормить ИИ. И будет у тебя удобный help desk, как вариант.

Смысла нет для практических целей, модель слабая будет. Это для обучения, чтобы процесс по шагам пощупать своими руками.

Верно, чтобы модель адекватно понимала "правила компании" нужна минимум модель от 7B, можно 3B + RAG, но это будет - такое себе, как только дело коснется логики происходящего.

походу очередной развод сомневающихся сливать свои данные в инет или ещё нет - они же думают что всё будет private на этих арендованных мощностях

Поясните, за сто долларов её можно обучить, а сколько потом стоить её обслуживать/использовать?.. для этого нужна облачная машинка послабее, необязательно держать восемь видеокарт круглосуточно же?

Небольшие модели можно на своем ПК запускать.

Смотря какими обьемами данных будешь обучать.

От объема данных для обучения никак не зависит, хоть одна книга, хоть миллиард. А зависит от количества параметров в сети. В данном случае меньше 1В. Поэтому запустить можно будет на любом ПК даже без видеокарты, но и даже это не особо нужно будет, т.к. она едва едва слова будет связывать. А вот тут чтобы лучше слова связала объем данных для обучения имеет значение...

Судя по описанию проекта на github, обучение можно провести и на более слабых GPU, есть возможность подкрутить параметры в скрипте. Можно попробовать даже на домашних GPU, вроде RTX 4090, только скорее всего очень долго обучаться будет.

which occurs when light passes through tiny particles in the air. These particles are made up of blue and violet particles

Ну чушь же.

Sign up to leave a comment.

Other news