Комментарии 16
"на подложенном самому стречанием и поговорянулся оно отдавали с вам"
Буратино вонзил мазаные сульфамиды в энергосистему и съел ее, хрустя и причмокивая. После этого усиливал тереться головой о приблудную щеку папы Карло.
В ~2005 был такой сайт Internet Exploder, который подменял/коверкал слова подобным образом. Без GPU. Получалось настолько забавно, что из-за хабраэффекта хостер заблокировал этот проект, на том все и закончилось.
Меня не покидает ощущение, что сейчас мы получили в распоряжение инструментарий, которому не можем найти применение, или оно будет найдено лишь годы спустя.
Этот факт разбивания орехов электронным микроскопом несомненно печалит.
Я Одёргивающий Выкормок, завибрировало существо, сживу в этой комнате больше ста лет. Иначе тебя ждут буфетные добродетели и шоссейные приключения. За твою жизнь я не дам и дохлой сухой самопроверки. Ах ты, здоледняя бугажга-дарагажга! Конкретный умный камешек тяжело вздохнул, реанимировал усами и уполз за очаг, навсегда из этой прорицательницы.
Применение есть конечно, но довольно ограниченное, в целом рынок LLM сейчас напоминает ранний интернет, все понимают перспективу технологии, но пока не до конца есть понимание, куда ее впиндюрить, и что нужно сделать, чтобы ее можно было впиндюрить.
Я сомневаюсь, что на сокращения в айти ИИ ощутимо влияет, тут основной фактор мировой экономической кризис.
Но сама технология все равно безумно интересна лично для меня.
Нет готовых датасетов и скриптов для претрейна небольших моделей? Видел в англоязычном интернете учат GPT-2 по инструкциям, но для обычных домашних условий это пока недостижимое.
Учиться когда результат всегда отрицательный сложно. Как оценивать свой прогресс без референса? Хорошо бы иметь какую-то минимальную воспроизводимую конфигурацию, пусть и на англоязычных данных. Дальше её можно улучшать и на этом прокачивать свои навыки.
GPT-2 как раз в домашних условиях можно обучать без проблем, по крайне мере с small ( 124 млн параметров) и medium (355 млн параметров) у меня проблем не возникло, про small я даже упоминал в начале статьи. Но меня интересовало обучение с полного нуля. А так датасетов на hugging-face куча всяких разных.
Для GPT-2 1.5b памяти не хватит.
Претрейн и есть с нуля. Просто датасеты не решают задачу, нужны готовые скрипты со всеми параметрами, запускаешь получаешь результат. Чтобы убедиться что это в принципе работает, только потом дорабатываешь. Так же как в разработке, прежде чем вносить изменения, надо хотя бы собрать и запустить чужой проект.
Иначе это выглядит так: что-то сделал - получилась ерунда, сделал что-то другое - опять ерунда. Можно экспериментировать бесконечно. В какой момент я пойму что двигаюсь в нужном направлении?
Сколько я не пробовал, модели рассуждения из llm у меня не прорастало. Модель цитирует куски датасета, или выдаёт шум - но не каким образом это не рассуждение. Что по этому поводу заявляют техногиганты? - нужно больше датасета.
Хотя у меня устойчивое мнение, что они сильно уводят на ложный след.
Очень интересный опыт, спасибо за комментарий неиронично
Тут в целом важно заметить, что все упирается не только в размер датасета, но и в размер самой модели. Попробуй gemma-3-270m от Google, для такого размера она выдает удивительно высокое качество, но ее может дико колбасить даже на английском, что-то похожее на рассуждение появляется от 1-2 млрд параметров, но обучить модель такого размера с нуля на домашнем пк мне не представляется возможным.
На первых демонстрациях chatgpt оператор писал промпт, а чат выдавал наиболее релевантное продолжение. Тогда показывали пример на python, оператор быстренько поправлял код и это считалось супер отличным результатом. Никаких рассуждений там не было, я такое когда то делал на простом цикле подбора нужного кода без всякого ai.
Я много экспериментировал, подбирал параметры - не получается из llm получить хоть какое то рассуждение. LLM неплохо пересчитывает статистику слов и это всё что я получил.
Модели рассуждений это правила, написанные человеком. То что нам подают как рассуждения от языковых моделей при внимательном рассмотрении оказываются трюком, где прописано правило, только оно замаскировано в ненужной обвеске алгоритма.
модели рассуждений это не правила написанные человеком. "рассуждать" модель учится сама когда ее обучают, никаких правил там нет. это буквально "распиши по шагам и поставь теги thinking"
есть отдельно то что модели обучают на цепочках рассуждений очень умных людей, которые решают задачи, но это тоже не то, из этих цепочек модель учится правильно думать по шагам над задачей
RAG это тоже не то что миллиарды параметров внутри модели. модель это "мозг", параметры - связи которые этот "мозг" вывел, создал, сам, во время обучения. а RAG это библиотека. он обогащает промт данными. и какую ты библиотеку к дебилу не приделывай, хоть в ленинку его посади и книжками по матану обложи, он дифференциальные уравнения решать не начнет
Все правда, считать что это просто статистический попугай - это чудовищно упростить крайне интересную технологию.
"рассуждать" модель учится сама когда ее обучают
В llm для этого нет алгоритма. Просто нечему там рассуждать - модель обучают возвратить массив наиболее статистически значимых токенов и всё - на большее модель не способна.
model = Sequential([
...
Dense(vocab_size, activation='softmax')
])А рассуждения это код похожий на;
def solve_math_problem(self, prompt_text):
"""Решает математическую задачу с пошаговым объяснением"""
self.reasoning_steps = []
# Шаг 1: Извлекаем числа и операцию
import re
numbers = list(map(float, re.findall(r'\d+\.?\d*', promt_text)))
if 'плюс' in promt_text or 'сумма' in promt_text or '+' in promt_text or 'сумму' in problem_text:
operation = 'addition'все упирается не только в размер датасета, но и в размер самой модели.
Размер модели прямо пропорционален размеру датасета - это жёсткое правило. То что сейчас используют rag или другие способы расширения контента - это попытка довнести в модель"новые" данные которые на момент обучения модели были не известны и не включены в датасет.
Притом я вспомнил интересный эксперимент, который можно было бы включить в статью, но да пофиг. Я просил написать реализацию многослойного перцептрона с нуля для решения XOR с нуля - код там не особо сложный, но требует математического понимания концепции. Все модели от 1 до 10 млрд, даже дистилляции от Opus, тест проваливали, а вот gpt-oss-20b (да, открытая модель от OpenAI которую можно запустить на игровом ноутбуке) справилась блестяще, код полностью рабочий и сеть успешно обучается. Примерно так.
Но на масштабе от 20 млрд параметров уже возникают другие проблемы, на дистанции нескольких сообщений модели могут справляться очень хорошо, но на многоступенчатых долгих задачах гарантированно начнут плыть, притом что даже триллион параметров эту проблему решает не до конца, это в целом сейчас большая проблема - на краткосроке LLM уже могут решать большинство интеллектуальных задач на уровне человека, но вот задачи где требуется "длинная воля" они могут быть довольно беспомощны, наиболее крутые успехи тут демонстрирует по моему личному мнению Anthropic с их моделью Opus, ну и сейчас OpenAI на этом поприще их пытаются догнать.

Как я выращивал цифрового гомункула и стал нейро-панком