интересно, Илья обучил свою модель с помощью LoRa, Это значит, что рядом с моделью были созданы новые слои. А тут получается LoRa поверх LoRa. Как так может быть? какая в итоге архитектура будет?
какие сведения берутся? вы сами же написали тоже, что я написал про повышенные требования к железу для помощника. :-) "нужна одна видеокарта типа 3060 с 8Гб памяти ". У меня дома такой сейтап. Вот поверьте, все модели (Saiga, Mis(x)tral и т.п.) запускаю/тестирую с момента их появления. С квантованными "для поиграть" можно, конечно. Но для серьезной работы такого железа сильно мало.
Квантованные модели вообще отвечают иногда просто бред. Я бы этим моделям доверил только развлечения.
Минимум только вот этих "урезанных" открытых моделей нужно 3090 (и это просто для "поиграть"). А если finetunning то вообще без шансов.
Хотя я вчера Mistral 7b научил отвечать на вопросы как будто Ниссаргадата Махарадж, скормив ему диалоги из книг про просветление и он смог ответить мне, что "просветление на надо достигать, оно само придет". Обучение шло полтора часа для 700 вопросов-ответов в две эпохи на 4 битной модели.
Вы будет для "помощника"(!) на предприятии просить на черном рынке (прямых поставок нет) сетап с А100 за 5 млн рублей купить? Вам руководитель скажет "Сами код напишете, вы же программист. зачем вы нам нужны если мы для кода купили за 5 млн искусственный интеллект"
Это все игрушки, но в образовательных целях, конечно, отлично, что они есть
дорогое удовольствие выйдет: как минимум одну неслабую машину придется выделить только для помощника
GPT-4 Turbo: Самая Мощная Нейросеть 21 века | Презентация на русском языке - YouTube Вот тут Альтман справедливо сказать, что надо делать заточенные LLM - иначе "пушкой по воробьям." Я вообще все больше думаю, что не сможем мы нормально использовать LLM ки в быту. Требования к железу все больше и больше. Скоро нормальный комп будет как машина стоить (а будет ли он помогать на цену машины). Какая то тупиковая ветка наращивание количества весов в трансформерах
Представляю как сейчас Bing AI кипятит воздух для ответов на поисковые запросы, которые раньше обрабатывали намного меньшие ресурсы.
Сейчас я собираю, парсю и классифицирую новости в нейронке на Rasberry PI за 3 тыс рублей (тогда стоил столько). Постоянно думаю перевести на LLM для повышения точности, но это мне комп за ₽250к минимум (3090 сейчас ₽200к) потребуется что ли?
Получается, что LLM снова уводит развитие IT от массового разработки к избранным
User: Как дела? Clone: Хорошо, вышли на улицу. User: Хорошо. Я сейчас в машине, поеду к тебе. Clone: Хорошо. User: Я сейчас в машине, поеду к тебе. Clone: Хорошо. User: Я сейчас в машине, поеду к тебе. Clone: Хорошо. User: Я сейчас в машине, поеду к тебе. Clone: Хорошо ........
Как она поймет, что это диалог, что кто то отвечает кому-то?
для нее это просто сплошной набор токенов, где User и Clone просто обычные токены.
Посмотрите набор инструкций для файнтюнинга chatGPT. Там четко структурированный файл, где каждый вопрос и ответ отдельной позицией сделан. Указано, где вопрос, где ответ. А вы просто скормили plane text, Она вам plane text-ом и отвечает
По другому вопрос. Откуда модель знает что после "Clone:" это ее (модели) ответ, а после User: это как бы ей вопрос.
ну либо я вас концептуально не понял
В любом случае огромное спасибо за пример - для практики было очень полезно. Я уже подумываю, чтобы по интереснее обучить на базе этого
и еще замечание: у меня совсем другой формат выгрузки JSON из телеграма (ваших ключей ("chat", "list") там нет )
я вообще проверил этот сценарий тюнинга, чтобы убедиться, что в подготовке обучающих данных какая то ошибка (такое подозрение было сразу после прочтения). Как можно обучать модель на данных, где просто подряд идет переписка с именами пользователей?
откуда она (модель) понимает, что это диалог.
Обучив собственноручно модель я убедился, что тут какая то ошибка. Данные для обучения надо готовить другим способом
"заместо" - давно такого слова не слышал в использовании.
Вы не обижайтесь, ваши статьи я читаю, но вам бы обучить GTP, чтобы она исправляла грамматику, добавляла знаки препинания и обогащала текст Ваших статей. Просто Вы же публичные статьи пишете. А так, конечно, вы в полном праве писать и говорить как считает нужным
а вот эта Ваша тяга к информации о смерти, суицидам. Надо с ней что то делать
архитектура кожаных мешков создавалась миллиарды лет и обучение каждой модели проходит как минимум 18 лет 16 часов в день 7 дней в неделю на реальных многопараметрических данных множеством учителей
для более сложных задач проводится fine tunning также длительное время
я бы пока с жизнью соревноваться не стал бы. И не понятно, если там то, что не обучается, а суть явлении более высокого порядка, чем нейросеть, и способное вмешиваться в ход процесса получения ответа
LLM от Ильи считает его одним из самых известных ученых :-)
интересно, Илья обучил свою модель с помощью LoRa, Это значит, что рядом с моделью были созданы новые слои. А тут получается LoRa поверх LoRa. Как так может быть? какая в итоге архитектура будет?
какие сведения берутся? вы сами же написали тоже, что я написал про повышенные требования к железу для помощника. :-)
"нужна одна видеокарта типа 3060 с 8Гб памяти ". У меня дома такой сейтап. Вот поверьте, все модели (Saiga, Mis(x)tral и т.п.) запускаю/тестирую с момента их появления. С квантованными "для поиграть" можно, конечно. Но для серьезной работы такого железа сильно мало.
Квантованные модели вообще отвечают иногда просто бред. Я бы этим моделям доверил только развлечения.
Минимум только вот этих "урезанных" открытых моделей нужно 3090 (и это просто для "поиграть"). А если finetunning то вообще без шансов.
Хотя я вчера Mistral 7b научил отвечать на вопросы как будто Ниссаргадата Махарадж, скормив ему диалоги из книг про просветление и он смог ответить мне, что "просветление на надо достигать, оно само придет". Обучение шло полтора часа для 700 вопросов-ответов в две эпохи на 4 битной модели.
Вы будет для "помощника"(!) на предприятии просить на черном рынке (прямых поставок нет) сетап с А100 за 5 млн рублей купить? Вам руководитель скажет "Сами код напишете, вы же программист. зачем вы нам нужны если мы для кода купили за 5 млн искусственный интеллект"
Это все игрушки, но в образовательных целях, конечно, отлично, что они есть
дорогое удовольствие выйдет: как минимум одну неслабую машину придется выделить только для помощника
GPT-4 Turbo: Самая Мощная Нейросеть 21 века | Презентация на русском языке - YouTube Вот тут Альтман справедливо сказать, что надо делать заточенные LLM - иначе "пушкой по воробьям."
Я вообще все больше думаю, что не сможем мы нормально использовать LLM ки в быту. Требования к железу все больше и больше. Скоро нормальный комп будет как машина стоить (а будет ли он помогать на цену машины). Какая то тупиковая ветка наращивание количества весов в трансформерах
Представляю как сейчас Bing AI кипятит воздух для ответов на поисковые запросы, которые раньше обрабатывали намного меньшие ресурсы.
Сейчас я собираю, парсю и классифицирую новости в нейронке на Rasberry PI за 3 тыс рублей (тогда стоил столько). Постоянно думаю перевести на LLM для повышения точности, но это мне комп за ₽250к минимум (3090 сейчас ₽200к) потребуется что ли?
Получается, что LLM снова уводит развитие IT от массового разработки к избранным
Преимущество Kaggle над Google Collab
c одним НО - россиянам недоступны на Kaddle GPU
курсовая? ?
я так понимаю, что факты не самая сильная сторона отечественных моделей. но в принципе русский язык они знают хорошо и это важно
вопрос их дообучения для специфичной задачи
интересно, а можно дообучить эту модель под свои данные через QLoRa?
она вроде уже обучена через LoRa, а тут получается обучить модель с LoRa через QLoRa - непонятен результат
на Colab у меня 15 минут обучалась. На своем железе не смог запустить, т.к. на винде эта схема не работает
вы модели выдаете вот такую "простыню" :
User: Как дела? Clone: Хорошо, вышли на улицу. User: Хорошо. Я сейчас в машине, поеду к тебе. Clone: Хорошо. User: Я сейчас в машине, поеду к тебе. Clone: Хорошо. User: Я сейчас в машине, поеду к тебе. Clone: Хорошо. User: Я сейчас в машине, поеду к тебе. Clone: Хорошо ........
Как она поймет, что это диалог, что кто то отвечает кому-то?
для нее это просто сплошной набор токенов, где User и Clone просто обычные токены.
Посмотрите набор инструкций для файнтюнинга chatGPT. Там четко структурированный файл, где каждый вопрос и ответ отдельной позицией сделан. Указано, где вопрос, где ответ. А вы просто скормили plane text, Она вам plane text-ом и отвечает
По другому вопрос. Откуда модель знает что после "Clone:" это ее (модели) ответ, а после User: это как бы ей вопрос.
ну либо я вас концептуально не понял
В любом случае огромное спасибо за пример - для практики было очень полезно. Я уже подумываю, чтобы по интереснее обучить на базе этого
и еще замечание: у меня совсем другой формат выгрузки JSON из телеграма (ваших ключей ("chat", "list") там нет )
def
process_chats(file_path: str):
with open(file_path, encoding='utf-8') as f:
# Load the JSON data from the file
data = json.load(f)
messages = []
for row in data["messages"]:
# for row in sample["messages"]:
if row["text"] != '':
username = row['from']
if username != "Vldmr":
username = "User"
if username == "Vldmr":
username = "Clone"
message = f"{username}: {row['text']}"
messages.append(message)
return messages
.
я вообще проверил этот сценарий тюнинга, чтобы убедиться, что в подготовке обучающих данных какая то ошибка (такое подозрение было сразу после прочтения). Как можно обучать модель на данных, где просто подряд идет переписка с именами пользователей?
откуда она (модель) понимает, что это диалог.
Обучив собственноручно модель я убедился, что тут какая то ошибка. Данные для обучения надо готовить другим способом
смерть это безусловно часть жизни. Суицид - очень плохо как для материалистов, так и для духовных людей, т.к. нарушает общий принцип живого.
Оба эти явления я бы не назвал "смешными". Но Ваше право воспринимать все по своему.
Удачи Вам!
А по теме интересно узнать, как обучающие данные обрабатываются: что там "под капотом" у модели
"заместо" - давно такого слова не слышал в использовании.
Вы не обижайтесь, ваши статьи я читаю, но вам бы обучить GTP, чтобы она исправляла грамматику, добавляла знаки препинания и обогащала текст Ваших статей.
Просто Вы же публичные статьи пишете. А так, конечно, вы в полном праве писать и говорить как считает нужным
а вот эта Ваша тяга к информации о смерти, суицидам. Надо с ней что то делать
ну это какой то поп )
интересно, что не было желания сделать техно - мне кажется, там генерация будет неотличима от оригинала
вот тут https://habr.com/ru/articles/723792/ я писал как LSTM реализовать простыми формулами.
попробовал по ссылке автора. Да, модель субъективно работает хорошо.
даже подзалип немного
я так понял это реклама-замануха курса: многое написано без пояснения, код не объяснен.
архитектура кожаных мешков создавалась миллиарды лет и обучение каждой модели проходит как минимум 18 лет 16 часов в день 7 дней в неделю на реальных многопараметрических данных множеством учителей
для более сложных задач проводится fine tunning также длительное время
я бы пока с жизнью соревноваться не стал бы. И не понятно, если там то, что не обучается, а суть явлении более высокого порядка, чем нейросеть, и способное вмешиваться в ход процесса получения ответа
А насколько вообще допустимо использовать в такой области ML, ведь он неинтерпритируемый?
одно дело предсказать ответ пользователю в чате, а другое - доверять такой модели жизнь людей.