Comments / Profile of vova

Владимир Саморезов @vova_sam

Data scientist

ProfileArticles3PostsNewsComments169

Сайга-Мистраль — третья русская нейросеть после YaGPT и GigaChat, публично доступная по API

vova_sam Jan 5 2024 at 09:23

LLM от Ильи считает его одним из самых известных ученых :-)

Look

Дообучение saiga2_7b_lora

vova_sam Jan 4 2024 at 14:28

интересно, Илья обучил свою модель с помощью LoRa, Это значит, что рядом с моделью были созданы новые слои. А тут получается LoRa поверх LoRa. Как так может быть? какая в итоге архитектура будет?

Look

Начинаем продолжать: обработка исходников с помощью ИИ в оффлайне

vova_sam Jan 2 2024 at 17:18

какие сведения берутся? вы сами же написали тоже, что я написал про повышенные требования к железу для помощника. :-)
"нужна одна видеокарта типа 3060 с 8Гб памяти ". У меня дома такой сейтап. Вот поверьте, все модели (Saiga, Mis(x)tral и т.п.) запускаю/тестирую с момента их появления. С квантованными "для поиграть" можно, конечно. Но для серьезной работы такого железа сильно мало.

Квантованные модели вообще отвечают иногда просто бред. Я бы этим моделям доверил только развлечения.

Минимум только вот этих "урезанных" открытых моделей нужно 3090 (и это просто для "поиграть"). А если finetunning то вообще без шансов.

Хотя я вчера Mistral 7b научил отвечать на вопросы как будто Ниссаргадата Махарадж, скормив ему диалоги из книг про просветление и он смог ответить мне, что "просветление на надо достигать, оно само придет". Обучение шло полтора часа для 700 вопросов-ответов в две эпохи на 4 битной модели.

Вы будет для "помощника"(!) на предприятии просить на черном рынке (прямых поставок нет) сетап с А100 за 5 млн рублей купить? Вам руководитель скажет "Сами код напишете, вы же программист. зачем вы нам нужны если мы для кода купили за 5 млн искусственный интеллект"

Это все игрушки, но в образовательных целях, конечно, отлично, что они есть

Look

Начинаем продолжать: обработка исходников с помощью ИИ в оффлайне

vova_sam Jan 2 2024 at 16:41

дорогое удовольствие выйдет: как минимум одну неслабую машину придется выделить только для помощника

GPT-4 Turbo: Самая Мощная Нейросеть 21 века | Презентация на русском языке - YouTube Вот тут Альтман справедливо сказать, что надо делать заточенные LLM - иначе "пушкой по воробьям."
Я вообще все больше думаю, что не сможем мы нормально использовать LLM ки в быту. Требования к железу все больше и больше. Скоро нормальный комп будет как машина стоить (а будет ли он помогать на цену машины). Какая то тупиковая ветка наращивание количества весов в трансформерах

Представляю как сейчас Bing AI кипятит воздух для ответов на поисковые запросы, которые раньше обрабатывали намного меньшие ресурсы.

Сейчас я собираю, парсю и классифицирую новости в нейронке на Rasberry PI за 3 тыс рублей (тогда стоил столько). Постоянно думаю перевести на LLM для повышения точности, но это мне комп за ₽250к минимум (3090 сейчас ₽200к) потребуется что ли?

Получается, что LLM снова уводит развитие IT от массового разработки к избранным

Look

Дообучение saiga2_7b_lora

vova_sam Dec 30 2023 at 22:44

Преимущество Kaggle над Google Collab

c одним НО - россиянам недоступны на Kaddle GPU

Look

Как работают Векторные базы данных и Поиск похожих текстов в них

vova_sam Dec 30 2023 at 11:57

курсовая? ?

Look

GigaChat Pro. Технические детали, сдача ЕГЭ и сравнение с конкурентами

vova_sam Dec 28 2023 at 22:54

я так понимаю, что факты не самая сильная сторона отечественных моделей. но в принципе русский язык они знают хорошо и это важно

вопрос их дообучения для специфичной задачи

Look

Сайга-Мистраль — третья русская нейросеть после YaGPT и GigaChat, публично доступная по API

vova_sam Dec 28 2023 at 21:44

интересно, а можно дообучить эту модель под свои данные через QLoRa?

она вроде уже обучена через LoRa, а тут получается обучить модель с LoRa через QLoRa - непонятен результат

Look

LLMClone: как клонировать себя в Telegram

vova_sam Dec 28 2023 at 18:23

на Colab у меня 15 минут обучалась. На своем железе не смог запустить, т.к. на винде эта схема не работает

Look

LLMClone: как клонировать себя в Telegram

vova_sam Dec 28 2023 at 18:14

вы модели выдаете вот такую "простыню" :

User: Как дела? Clone: Хорошо, вышли на улицу. User: Хорошо. Я сейчас в машине, поеду к тебе. Clone: Хорошо. User: Я сейчас в машине, поеду к тебе. Clone: Хорошо. User: Я сейчас в машине, поеду к тебе. Clone: Хорошо. User: Я сейчас в машине, поеду к тебе. Clone: Хорошо ........

Как она поймет, что это диалог, что кто то отвечает кому-то?

для нее это просто сплошной набор токенов, где User и Clone просто обычные токены.

Посмотрите набор инструкций для файнтюнинга chatGPT. Там четко структурированный файл, где каждый вопрос и ответ отдельной позицией сделан. Указано, где вопрос, где ответ. А вы просто скормили plane text, Она вам plane text-ом и отвечает

По другому вопрос. Откуда модель знает что после "Clone:" это ее (модели) ответ, а после User: это как бы ей вопрос.

ну либо я вас концептуально не понял

В любом случае огромное спасибо за пример - для практики было очень полезно. Я уже подумываю, чтобы по интереснее обучить на базе этого

и еще замечание: у меня совсем другой формат выгрузки JSON из телеграма (ваших ключей ("chat", "list") там нет )

def process_chats(file_path: str):

with open(file_path, encoding='utf-8') as f:

# Load the JSON data from the file

data = json.load(f)

messages = []

for row in data["messages"]:

# for row in sample["messages"]:

if row["text"] != '':

username = row['from']

if username != "Vldmr":

username = "User"

if username == "Vldmr":

username = "Clone"

message = f"{username}: {row['text']}"

messages.append(message)

return messages

Look

LLMClone: как клонировать себя в Telegram

vova_sam Dec 28 2023 at 16:05

я вообще проверил этот сценарий тюнинга, чтобы убедиться, что в подготовке обучающих данных какая то ошибка (такое подозрение было сразу после прочтения). Как можно обучать модель на данных, где просто подряд идет переписка с именами пользователей?

откуда она (модель) понимает, что это диалог.

Обучив собственноручно модель я убедился, что тут какая то ошибка. Данные для обучения надо готовить другим способом

Look

Как правильно файн-тюнить ChatGPT?

vova_sam Dec 25 2023 at 14:26

смерть это безусловно часть жизни. Суицид - очень плохо как для материалистов, так и для духовных людей, т.к. нарушает общий принцип живого.

Оба эти явления я бы не назвал "смешными". Но Ваше право воспринимать все по своему.
Удачи Вам!

А по теме интересно узнать, как обучающие данные обрабатываются: что там "под капотом" у модели

Look

Как правильно файн-тюнить ChatGPT?

vova_sam Dec 25 2023 at 11:25

"заместо" - давно такого слова не слышал в использовании.

Вы не обижайтесь, ваши статьи я читаю, но вам бы обучить GTP, чтобы она исправляла грамматику, добавляла знаки препинания и обогащала текст Ваших статей.
Просто Вы же публичные статьи пишете. А так, конечно, вы в полном праве писать и говорить как считает нужным

а вот эта Ваша тяга к информации о смерти, суицидам. Надо с ней что то делать

Look

Свободная музыка со словами, созданная нейронными сетями в «Бесконечном нейронном радио»

vova_sam Dec 21 2023 at 17:55

ну это какой то поп )

Look

Свободная музыка со словами, созданная нейронными сетями в «Бесконечном нейронном радио»

vova_sam Dec 21 2023 at 10:48

интересно, что не было желания сделать техно - мне кажется, там генерация будет неотличима от оригинала

Look

LSTM и GRU

vova_sam Dec 15 2023 at 08:43

вот тут https://habr.com/ru/articles/723792/ я писал как LSTM реализовать простыми формулами.

Look

Mixtral 8x7B – Sparse Mixture of Experts от Mistral AI

vova_sam Dec 14 2023 at 14:59

попробовал по ссылке автора. Да, модель субъективно работает хорошо.
даже подзалип немного

Look

Архитектуры RL: DDPG иPPO

vova_sam Nov 5 2023 at 14:03

я так понял это реклама-замануха курса: многое написано без пояснения, код не объяснен.

Look

Нейронные сети для планирования движения беспилотных автомобилей

vova_sam Oct 5 2023 at 15:03

архитектура кожаных мешков создавалась миллиарды лет и обучение каждой модели проходит как минимум 18 лет 16 часов в день 7 дней в неделю на реальных многопараметрических данных множеством учителей

для более сложных задач проводится fine tunning также длительное время

я бы пока с жизнью соревноваться не стал бы. И не понятно, если там то, что не обучается, а суть явлении более высокого порядка, чем нейросеть, и способное вмешиваться в ход процесса получения ответа

Look

Нейронные сети для планирования движения беспилотных автомобилей

vova_sam Oct 5 2023 at 09:54

А насколько вообще допустимо использовать в такой области ML, ведь он неинтерпритируемый?

одно дело предсказать ответ пользователю в чате, а другое - доверять такой модели жизнь людей.

Look

1 2 3 4 5

7 8 9