All streams
Search
Write a publication
Pull to refresh
12
0
Владимир Саморезов @vova_sam

Data scientist

Send message

LLM от Ильи считает его одним из самых известных ученых :-)

интересно, Илья обучил свою модель с помощью LoRa, Это значит, что рядом с моделью были созданы новые слои. А тут получается LoRa поверх LoRa. Как так может быть? какая в итоге архитектура будет?

какие сведения берутся? вы сами же написали тоже, что я написал про повышенные требования к железу для помощника. :-)
"нужна одна видеокарта типа 3060 с 8Гб памяти ". У меня дома такой сейтап. Вот поверьте, все модели (Saiga, Mis(x)tral и т.п.) запускаю/тестирую с момента их появления. С квантованными "для поиграть" можно, конечно. Но для серьезной работы такого железа сильно мало.

Квантованные модели вообще отвечают иногда просто бред. Я бы этим моделям доверил только развлечения.

Минимум только вот этих "урезанных" открытых моделей нужно 3090 (и это просто для "поиграть"). А если finetunning то вообще без шансов.

Хотя я вчера Mistral 7b научил отвечать на вопросы как будто Ниссаргадата Махарадж, скормив ему диалоги из книг про просветление и он смог ответить мне, что "просветление на надо достигать, оно само придет". Обучение шло полтора часа для 700 вопросов-ответов в две эпохи на 4 битной модели.

Вы будет для "помощника"(!) на предприятии просить на черном рынке (прямых поставок нет) сетап с А100 за 5 млн рублей купить? Вам руководитель скажет "Сами код напишете, вы же программист. зачем вы нам нужны если мы для кода купили за 5 млн искусственный интеллект"

Это все игрушки, но в образовательных целях, конечно, отлично, что они есть

дорогое удовольствие выйдет: как минимум одну неслабую машину придется выделить только для помощника

GPT-4 Turbo: Самая Мощная Нейросеть 21 века | Презентация на русском языке - YouTube Вот тут Альтман справедливо сказать, что надо делать заточенные LLM - иначе "пушкой по воробьям."
Я вообще все больше думаю, что не сможем мы нормально использовать LLM ки в быту. Требования к железу все больше и больше. Скоро нормальный комп будет как машина стоить (а будет ли он помогать на цену машины). Какая то тупиковая ветка наращивание количества весов в трансформерах

Представляю как сейчас Bing AI кипятит воздух для ответов на поисковые запросы, которые раньше обрабатывали намного меньшие ресурсы.

Сейчас я собираю, парсю и классифицирую новости в нейронке на Rasberry PI за 3 тыс рублей (тогда стоил столько). Постоянно думаю перевести на LLM для повышения точности, но это мне комп за ₽250к минимум (3090 сейчас ₽200к) потребуется что ли?

Получается, что LLM снова уводит развитие IT от массового разработки к избранным

Преимущество Kaggle над Google Collab

c одним НО - россиянам недоступны на Kaddle GPU

я так понимаю, что факты не самая сильная сторона отечественных моделей. но в принципе русский язык они знают хорошо и это важно

вопрос их дообучения для специфичной задачи

интересно, а можно дообучить эту модель под свои данные через QLoRa?

она вроде уже обучена через LoRa, а тут получается обучить модель с LoRa через QLoRa - непонятен результат

на Colab у меня 15 минут обучалась. На своем железе не смог запустить, т.к. на винде эта схема не работает

вы модели выдаете вот такую "простыню" :

User: Как дела? Clone: Хорошо, вышли на улицу. User: Хорошо. Я сейчас в машине, поеду к тебе. Clone: Хорошо. User: Я сейчас в машине, поеду к тебе. Clone: Хорошо. User: Я сейчас в машине, поеду к тебе. Clone: Хорошо. User: Я сейчас в машине, поеду к тебе. Clone: Хорошо ........

Как она поймет, что это диалог, что кто то отвечает кому-то?

для нее это просто сплошной набор токенов, где User и Clone просто обычные токены.

Посмотрите набор инструкций для файнтюнинга chatGPT. Там четко структурированный файл, где каждый вопрос и ответ отдельной позицией сделан. Указано, где вопрос, где ответ. А вы просто скормили plane text, Она вам plane text-ом и отвечает

По другому вопрос. Откуда модель знает что после "Clone:" это ее (модели) ответ, а после User: это как бы ей вопрос.

ну либо я вас концептуально не понял

В любом случае огромное спасибо за пример - для практики было очень полезно. Я уже подумываю, чтобы по интереснее обучить на базе этого

и еще замечание: у меня совсем другой формат выгрузки JSON из телеграма (ваших ключей ("chat", "list") там нет )

def process_chats(file_path: str):

    with open(file_path, encoding='utf-8') as f:

    # Load the JSON data from the file

        data = json.load(f)

    messages = []

    for row in data["messages"]:

        # for row in sample["messages"]:

            if row["text"] != '':

                username = row['from']

            if username != "Vldmr":

                username = "User"

            if username == "Vldmr":

                username = "Clone"

            message = f"{username}: {row['text']}"

            messages.append(message)

    return messages

.

я вообще проверил этот сценарий тюнинга, чтобы убедиться, что в подготовке обучающих данных какая то ошибка (такое подозрение было сразу после прочтения). Как можно обучать модель на данных, где просто подряд идет переписка с именами пользователей?

откуда она (модель) понимает, что это диалог.

Обучив собственноручно модель я убедился, что тут какая то ошибка. Данные для обучения надо готовить другим способом

смерть это безусловно часть жизни. Суицид - очень плохо как для материалистов, так и для духовных людей, т.к. нарушает общий принцип живого.

Оба эти явления я бы не назвал "смешными". Но Ваше право воспринимать все по своему.
Удачи Вам!

А по теме интересно узнать, как обучающие данные обрабатываются: что там "под капотом" у модели

"заместо" - давно такого слова не слышал в использовании.

Вы не обижайтесь, ваши статьи я читаю, но вам бы обучить GTP, чтобы она исправляла грамматику, добавляла знаки препинания и обогащала текст Ваших статей.
Просто Вы же публичные статьи пишете. А так, конечно, вы в полном праве писать и говорить как считает нужным

а вот эта Ваша тяга к информации о смерти, суицидам. Надо с ней что то делать

интересно, что не было желания сделать техно - мне кажется, там генерация будет неотличима от оригинала

вот тут https://habr.com/ru/articles/723792/ я писал как LSTM реализовать простыми формулами.

попробовал по ссылке автора. Да, модель субъективно работает хорошо.
даже подзалип немного

я так понял это реклама-замануха курса: многое написано без пояснения, код не объяснен.

архитектура кожаных мешков создавалась миллиарды лет и обучение каждой модели проходит как минимум 18 лет 16 часов в день 7 дней в неделю на реальных многопараметрических данных множеством учителей

для более сложных задач проводится fine tunning также длительное время

я бы пока с жизнью соревноваться не стал бы. И не понятно, если там то, что не обучается, а суть явлении более высокого порядка, чем нейросеть, и способное вмешиваться в ход процесса получения ответа

А насколько вообще допустимо использовать в такой области ML, ведь он неинтерпритируемый?

одно дело предсказать ответ пользователю в чате, а другое - доверять такой модели жизнь людей.

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity