Как стать автором
Обновить

Комментарии 62

А где можно узнать про конфигурацию для автономного выполнения скриптов использующих локальные LLM?

Т.е. я хочу хостить у себя допустим LLaMA (??B), векторизировать корпоративные документы и дальше выполнять запросы через API против дообученой модели.

Какое железо нужно и что влияет на скорость выполнения?

Вы можете хостить Ламу на CPU, кушает 70b примерно 30 Гб (в ОЗУ), часть слоев можно закинуть в видеокарту, но в целом скорость будет ограничена CPU. Я сделал выбор в сторону "серверного китайского Зиона" на 24 потока, 64 Гб RAM. Работает довольно неторопливо, но если это не критично - то по моему лучший вариант за свои деньги. Разумеется никакими миллионами и даже сотнями тысяч рублей тут не пахнет.

Еще для хранения моделей, датасетов и всякого такого очень рекомендую быстрые nvme. На обычном SSD это прям боль. Я уж молчу про HDD.

Благодарю за ответ.

Пара практических вопросов:

  • Есть 96гб RAM на i7 Gen 12.
    Насколько критичен размер видео RAM?
    У меня стоит 4гб VRAM (rtx a2000).
    Есть-ли смысл upgrade на nvidia rtx a5000?

  • Есть несколько одинаковых ноутов 96гб RAM, i7, rtx a2000
    Есть ли смысл и возможность запускать параллельно?

Как понимю, речь о какой-то мобильной версии A2000, десктопная вроде существенно больше памяти должна нести, и, значит i7 Gen12 тоже мобильный..

Вы сможете например запустить Llama3 8B, 70B целиком в RAM, работать будет. Очень неспешно (навскидку могу предположить, что 70B где-то по несколько минут на ответ, но надо проверять). На этих примерах вероятно сможете оценить, насколько результат ответов вас устраивает и нужно ли копать дальше.

Размер видео рам критичен для скорости. Для работоспособности некритичен. 4Gb не помогут никак (ну тоесть как-то помогут, но это все равно будет очень больно). 8Gb имхо минимум для экспериментов без особых ожиданий. В 8Gb уже влезет LLama3 8B слегка квантованая. На 16Gb можно уже сгрузить какое-то число слоёв 70B, чтобы эффект был хорошо заметным.

Смысла параллелить ноуты в этих условиях я не вижу. На днях пробегала статья - там товарищ говорил, что нужен минимальный интерконнект в 50Gbps. Ну тоесть на 40gbps вероятно еще можно попробовать, но врядли вы такое в ноутах сможете организовать. Да и это уже не из разряда типовых решений - придется свои велосипеды строить.

Объём VRAM критически важен, если вам нужна быстрая работа LLM. При работе модели на CPU/RAM вам придётся ждать ответа на короткий вопрос около минуты, на сложные - значительно дольше. К сожалению, лично у меня нет практики использования LLM с разделением памяти на VRAM и RAM, поэтому насчёт апгрейда не подскажу.

4 Гб VRAM это неприлично мало для таких задач. И даже 16 gb vram. А вот на обычной рам вы можете запустить даже ламу-70, но узким местом станет шина, и процессор (потому что GPU будет в основном простаивать). Будет медленно, один токен в секунду - но будет. Для задач программирования - сойдет. Хотите быстрее? Покупайте в стационарник 4090 но и то, там тоже маловато врама. Тут только A100 покупать. Что сильно больно по деньгам.

Ноутбуки даже смысла нет рассматривать, это не те системы для таких задач. Вот совсем. Хоть миллиард ноутбуков установи.

Распределение памяти vram и ram - работает, можно часть весов закинуть в видеокарту. Но скорость всей системы определяется самым медленным ее элементом.

Насколько мне известно, параллелизации пока еще не сделали. Есть любительские проекты типа StableHorde, но они не про распараллеливание, а только про выполнение очереди запросов у одного "доброго" юзера. Даже если этих юзеров миллионы, ваш запрос выполняется только на видеокарте одного из них.

Тут только A100 покупать. Что сильно больно по деньгам.

Э-э-э, спасибо за совет.
Я спрашивал у ребят совет на базе существующего железа.
Херакнуть $30k+ не планировал.
Проще продолжать с OpenAI API. В месяц сущие копейки, а технологии меняются ежемесячно.

Ну, у меня тоже нет таких денег на такое железо. Початиться мне хватает и того, что влезает в 12гб врам 3060, а серьезные задачи вроде кодинга я предпочту задавать той же ламе-3 или Кодестралю, которая работает на процессоре и ОЗУ. Да, это долго, но все равно это быстрее, чем если бы я этот код писал. Мне этого достаточно)

Посмотрите сообщения этого бота, он берет разные открытые модели llm и вычисляет минимальные требования к оперативной памяти для их обучения и запуска, в зависимости от типа квантизации, вот например для llama3-70b, к сожалению эта модель чуть чуть не влезает в 64gb для 8bit квантизации (ее даже для некоторых finetuning используют) да и 4bit (которая уже заметно ломает качество, на 3-5%) так же не помещается в 32gb

Хорошим примером оценки требований является .gguf формат для llama.cpp, там размер файла точно соответствует требованиям к оперативной памяти (так как это буквально копия данных в памяти) но к этому размеру требуется добавить размер state, который в свою очередь зависит от размера контекста, используемого для запроса. Пример размера контекста для codestral-22b - от 1гб до 7гб (32к токенов), при q5ks квантизации размер .gguf 15324мб - т.е. модель влезает в 16гб vram только до некоторых небольших размеров контекста (4-5тысяч токенов). Batching (паралельное выполнение) может значительно ускорить обработку нескольких запросов но повышает линейно требования к vram (это бывает оправдано, так как скорость растет быстрее чем требования).

p.s. у llama.cpp есть возможность часть слоев разместить в vram а часть в обычной ram, таким образом все же модель будет работать с быстрой скоростью

Посмотрел конфигурацию для llama3-70b.
Получается, можно поднять, хотя будет не так шустро как с VRAM.
Попробую с flowise.

Для запуска llama3-70b с адекватным качеством рекомендуется 3x16gb vram, т.е. трех (лучше 4-x) например nvidia gtx 4060 ti 16gb при стоимости 50т.р. за каждую будет достаточно (еще 80-100т.р. на машину - слабый процессор и 128гб ddr4 ram, nvme ssd, плюс хороший БП на киловат), автор статьи же рисует какую-то х..ню на те же деньги. Для домашнего пользователя такие дорогие решения избыточны.

К сожалению на базе десктопного железа сложно собрать машину, способную finetuning llama3-70b, так как требуется больше 140гб vram

На какую систему ориентироваться: Windows или Linux?

Без разницы. Если использовать eGPU, то лучше Windows, так как в Linux с переключением гибридных и внешних GPU всё сложно.

Странно, что в статье не написано про eGPU.

А eGPU позволяет и на настоящих ноутбуках (и планшетах) иметь мощную GPU и апгрейдить её. Детское железо от апол почему-то лишено такой возможности

Рекомендую ставить процессоры от AMD, потому что они дешевле, а также выделяют и потребляют меньше тепла, чем процессоры других фирм

Меньше чем ARM (Snapdragon)?

ARM значительно слабее в этих задачах.

Если комп стоит 7 млн, то сколько стоят данные для обучения?

https://www.tomshardware.com/news/startup-builds-supercomputer-with-22000-nvidias-h100-compute-gpus

Была новость, что некие ребята собрали комп с 22000 штук Nvidia H100. Каждый юнит H100 в розницу стоит около $30000. Это конечно не самое типичное решение, но обучение нейронок в промышленных масштабах сейчас выглядит примерно так. Крупные игроки вроде AWS или Google предлагают ускорители на базе чипов собственной разработки. Короче, использовать персоналки с игровыми видеокартами в 2024 есть смысл только для самообучения или для игр. =)

А как же пиратские видео? Не надо забывать о главном)

А для каких нейронок все же подойдет обычное домашнее железо, например ВК 4060 + i5/r5 с ОЗУ 16-32Гб?

Файнтюн предобученного resnet/mobilenet. Достаточно, чтобы сделать тестовое задание и устроиться на работу, где будет доступ к чему-то посерьезнее (моя история успеха)

Статья ужасна более чем полностью.

Работа с llm это два направления - finetuning (обучение) и inference (использование) и у каждого из них есть свои требования к железу. Для inference может быть достаточно оперативной памяти и запуск может быть произведен на процессоре, так как даже 70b модели на среднем железе дадут скорость примерно 1токен в секунду, мало того в этом режиме возможна квантизация, когда веса сети занимают вместо 16бит на вес в среднем до 4бит (можно меньше но качество падает значительно) и скорость в этом случае так же увеличивается. А вот для finetuning квантизация практически всегда противопоказана, а значит требования к оперативной памяти максимальны. Так же возможность разместить рядом с весами модели еще и обучающую выборку, может увеличить кратно скорость работы, что так же критично.

Отсюда главные требования к железу - не процессор а только оперативная память gpu. На скорость будет влиять в большей степени не скорость процессора (или количество ядер) а количество памяти на устройство (т.е. 5 по 16гб хуже чем 3 по 24гб даже если в первом случае памяти в сумме чуть больше), но и требования к модели нужно учитывать. И конечно поддержка софтом, при выборе amd или intel видеокарты, готовые решения будут ограничены llama.cpp когда как с nvidia будет работать почти любой код (некоторые требуют серверные gpu, а их цены на порядок выше десктопных той же скорости).

Да, количество оперативной памяти у процессора желательно должно быть больше чем требуется для работы llm но как это ни странно не обязательно, если используемый сервис загружает веса в vram однократно, то хранить в ram их уже не нужно. Но есть другие цели использования ram, например хранение промежуточных state kv cache для ускорения запросов с одинаковым стартовым prompt (они имеют гигабайтовые размеры даже для небольших сетей до 7gb для codestral22b например).

И главное, в конечном счете часто стоимость все решает, когда каждый следующий tps в скорости inference увеличивает стоимость всего железа на порядок, нужно вовремя остановиться.

p.s. моя рекомендация дешевого железа для домашней llm - nvidia gtx 3060 12gb или 4060ti 16gb, это очень медленные видеокарты от nvidia (компания сделала это намеренно) но с самой низкой стоимостью гигабайта vram. Процессор и оперативную память брать не самое топовое, быстрой оперативной памяти не нужно, тут можно сэкономить. Диск брать самый быстрый для чтения, любые дешевые ssd nvme pci-e подойдут но тогда быть готовым к частым заменам, llm-ки это сотни гигабайт, особенно если часто сохранять pretrained когда занимаешься finetuning.

Согласно вашего комментария (finetuning vs inference) насколько экономически выгодно рентовать железо для finetuning, вместо покупки ?
А уже inference выполнять на обычном компе с 16 gb VRAM.

Да.

Аренда мощностей это 0 капитальных вложений и завышенные оперативные (потому что железо там серверное, дороже десктопного в 10 раз).

Свое десктопное железо - это много капитальных вложений и очень низкие оперативные (только энергия и помещение).

Отсюда вывод что арендованное железо имеет смысл, если утилизация этих мощностей кратковременная. А свое железо имеет смысл, если оно будет загружено на долго.

Где то через 3-4 месяца нагрузки затраты на аренду сравняются с покупкой железа, а если его есть возможность позже продать, даже с учетом большой амортизации, выгода становится еще заметнее. Я выше в комментарии считал что для inference llama70b хватит машины за 300-350т.р. (порядка 10-20токенов в секунду, для batching по уму и 50 будет), берем лучший сервис для gpu вычислений vast ai - 4x16gb обойдется $360 в месяц, это 34т.р позволит больше полугода работать (там лучше брать interruptible, кстати такие цены там редкость, чаще в 2 раза дороже).

p.s. начиная с некоторого объема мощностей (кластеры, сотни gpu) затраты на обслуживание и накладные расходы на плохую приспособленность к работе в кластере десктопного железа (медленные сети, медленная память, медленный pci-e, отсутствие ECC, отсутствие софта) начинают сказываться, но нужно очень аккуратно считать, народ не очень спешит делать тесты и делиться конкретными результатами.

моя рекомендация дешевого железа для домашней llm - nvidia gtx 3060 12gb или 4060ti 16gb, это очень медленные видеокарты от nvidia (компания сделала это намеренно) но с самой низкой стоимостью гигабайта vram.

Это если брать новые карточки. Но сейчас как раз очень удачное время - крупные хостеры массово делают апгрейд железа, поэтому на барахолках (ebay, aliexpress, avito) можно купить карточки старого поколения типа NVidia Tesla P40 с 24 Гб VRAM за смешные суммы, порядка $350 за штуку. Да, придётся колхозить с охлаждением, покупать кабель питания и материнку придётся выбирать такую, чтоб поддерживала эти карточки, но в целом это очень бюджетный вариант даже для сборки ригов (за цену одной 4090 так вообще можно взять три б/ушных Теслы, собрав из них риг на 72 Гб VRAM).

Любые БУ решения это лотерея, играть в которую имеет смысл только если у тебя есть четкое понимание и оценка этих рисков и возможность к примеру самостоятельно/дешево починить.

p.s. покажите мне рабочую NVidia Tesla P40 с 24 Гб за $350?

Открываете любую барахолку и смотрите. Для части лотов указывается количество проданного, есть с развёрнутыми отзывами. Для ряда позиций - даже возможность возврата товара в 30-дневный срок.

Конечно, это лотерея. И вовсе не готовый продукт (систему охлаждения вам придётся самостоятельно к ней делать, равно как и питание, хотя в последнем случае в продаже есть готовые переходнички). Но с теми ценами на модели с нормальным количеством VRAM, которые заламывает NVidia, этот вариант как минимум заслуживает того, чтобы к нему присмотреться.

Действительно, год назад я таких не видел.

Жаль в россии это недоступно.

А год назад такого и не было. Массовый вброс их на барахолки произошёл всего несколько месяцев назад, и скорее всего до конца года закончится, потому что хостеры проапгрейдятся. Потом ждать нового поколения видеокарт и нового апгрейда.

В России тоже есть доступные барахолки, но там риск намного выше. Есть на Aliexpress с возможностью покупки из России (с доставкой нашей любимой Почтой России). Есть на avito (но тут вообще нужно быть предельно внимательным, т.к. на этой барахолке по ощущениям мошенников больше, чем честных продавцов).

Я бы не экономил прежде всего на блоке питания и корпусе. БП на 850W - это всё же маловато, впритык для 4090. Корпус тоже надо выбирать тщательно - с учетом систем охлаждения.

Материнка бюджетная нежелательна - там мало линий PCI, а это важно при мощной видюхе и нескольких nvme-дисках.

1/2ТБ nvme диск - это ни о чем, очень мало для экспериментов с разными моделями.

ЗЫ:

Я не вижу таких уж огромных перспектив у больших языковых моделей. Имхо, это по большей мере хайп, пузырь. Основную проблему вижу в неинтерпретируемости результатов, это черный ящик. Для баловства - да, для развлечений - да, для анализа данных - да, для серьезных применений - нет! Хотя на последнее видимо наплюют... со всеми вытекающими последствиями. В большинстве случаев нужно что-нибудь попроще, например надежный классификатор с интерпретируемыми результатами. А складность речи - это прикольно, конечно, но это необязательный фактор.

(Кажется у mistral) были статьи про интерпретируемость, они нашли способ искать, какие веса за какие знания отвечают, и управлять ими без подмены запроса.

Направлению от силы 2 года исследований, это ничто для такой сложной отрасли, особенно когда минимальный стартап в ней требует многомиллионные вложения (гаражом не отделаешься). Откуда такие абсолютистские высказывания? вот появилась технология и за считанные годы стала решать ну просто огромный пласт задач, к которым ранее не могли подступить никаким способом - работа с естественной речью. Вот скажи, 3-5 лет назад, можно было предположить что программа сможет по изображению мема или шутки, дать пояснение этой шутке на естественном языке? И речь не о поиске картинок в базе данных, а буквально, набросай мем от руки, и оно дает решение! Да, были подвижки в этом направлении (собственно мультимодальные llm-ки появились не на пустом месте) но чтобы такой резкий скачок - немыслимо.

(Кажется у mistral) были статьи про интерпретируемость, они нашли способ искать, какие веса за какие знания отвечают, и управлять ими без подмены запроса.

Думаю, это несколько иное. Я про полную ясность причин конкретного результата. Не "потому что веса так сошлись", а про понятную цепочку выводов. Например, когда суд спрашивает банк: поясните, по каким конкретным причинам/признакам/логике ваша система заблокировала счета вашего клиента (в результате чего ему были нанесены убытки)?

Направлению от силы 2 года исследований, это ничто для такой сложной отрасли, особенно когда минимальный стартап в ней требует многомиллионные вложения (гаражом не отделаешься). Откуда такие абсолютистские высказывания?

Это же нейронные сети. Им уже много десятков лет. Проблемы эти давно известны.

Вот скажи, 3-5 лет назад, можно было предположить что программа сможет по изображению мема или шутки, дать пояснение этой шутке на естественном языке?

Давайте начистоту. Применение нейронных сетей в поисковых системах, по вашему, улучшило поиск? По мне поиск стал значительно хуже, результат стал сильно размыт. Сейчас стало сложно искать конкретную точную информацию. например, в запросе среди прочего указываешь Debian 11, а в ответ получаешь размытые результаты по любым линуксам, по похожим проблемам, но не по конкретному линуксу и конкретной проблеме. Постоянно приходится использовать кавычки и минусы для точного поиска, да и это зачастую не помогает.

С другой стороны, нейросети в поиске - идеальное решение для обывателя, когда домохозяйка, не зная толком, что она хочет, не зная как сформулировать запрос, вбивает фразу типа: хочу что-нибудь про котиков... и получает размытый, но разнообразный результат с котиками. Домохозяйка довольна.

Я проводил тесты с нейронными сетями для текстового поиска, тематической классификации/кластеризации и пр. Пришел к выводу, что результат для многих серьезных применений не годится или годится в ограниченном упрощенном виде.

Первые результаты, да, вызывали эффект вау: находятся документы соответствующие смыслу запроса, и это при том, что в этих текстах нет ни одного слова из запроса. Однако, стал замечать, что что-то в этих результатах не то. С одной стороны, имеется хорошее совпадение по смыслу, но с другой стороны - всё как-то размыто, перекошено в сторону обобщения, т.е. практической пользы мало. В итоге предпочел простые, но точные ответы, пусть и за счет повышенных требований к запросам и некоторой потери полноты. Т.е. остановился на более простых алгоритмах.

И речь не о поиске картинок в базе данных, а буквально, набросай мем от руки, и оно дает решение!

Проблема в том, что от этого "решения" мало пользы - вы не можете полагаться на этот ответ, не будучи экспертом в этой теме (теме заданного вопроса). Повторюсь, для развлечений это годится, для эксперта, способного оценить ответ, тоже годится, а для серьезных применений за пределами экспертной оценки - вряд ли.

Есть академическое знание, а есть практика. Интерпретируемость это именно первое. Оно нужно как одно из решений (не единственное) ряда проблем, например юридических, ограничивающих внедрение автоматизации (например робомобили - проблема вины и ответственности стоит тут в полный рост, и полное объяснение причин того или иного поведения ИИ может прикрыть кому то задницу в полной мере).

А практика - это когда тебе нужно решать задачи, и тебе абсолютно не важно КАК эта задача решена, тебя волнует только цена решения (затраты ресурсов и времени) и вероятность сбоя/ошибки. Ты можешь посадить 100 китайцев в коробку и продавать ее как универсальное решение, китайцы будут лажать по страшному, (попробуй сам качественно поработай, сидя в коробке) но если число ошибок не будет превышать критического порога, т.е. дело делается, задачи решаются, - тебе этого будет достаточно.

Современный ИИ лучше воспринимать как такую коробку. Как черный ящик, описываемый количественными характеристиками - вот такие то вопросы из таких доменов решаемы с такой то вероятностью. Мало того, лучшие решения от openai уже подошли к такому порогу, что чтобы уличить их в ошибке нужно быть человеком выше среднего по уровню интеллекта и огромным багажом знаний (за исключением известных ограничений уже технологии)... мало того я уверен что большинство без гугла (т.е. еще один ИИ по проще) мало что в принципе смогут современному ИИ противопоставить.

p.s. еще интерпретируемость может использоваться как инструмент повышения качества результата без значимых вложений в создание ИИ. Каждый следующий шаг традиционными способами уже становится неоправданно дорогим.

p.p.s. пример с описанием шутки - это отличный пример оценки современного ИИ, никакими иными способами раньше эту задачу решить было нельзя, даже намеков не было.

Предположим, вам надо принять ответственное решение в теме, в которой вы не являетесь экспертом. Вы спросили нейросеть, получили ответ. Что вы с этим ответом делать будете, если не можете оценить его достоверность?

Я бы предпочел ответ в виде выбора подходящего решения из набора готовых экспертных решений, а не решение полностью сгенерированное ИИ "близко по смыслу". А зачастую ведь каждое слово, каждый термин имеет значение.

Мало того, лучшие решения от openai уже подошли к такому порогу, что чтобы уличить их в ошибке нужно быть человеком выше среднего по уровню интеллекта и огромным багажом знаний (за исключением известных ограничений уже технологии)... мало того я уверен что большинство без гугла (т.е. еще один ИИ по проще) мало что в принципе смогут современному ИИ противопоставить.

А сопоставлять надо именно с системой классического поиска по справочникам, которые на выходе дают подборку экспертных материалов.

А что вы будете делать, если эту задачу будет решать человек? Чем отличается некачественный результат от 80% обывателей и ИИ? Какое именно свойство есть у человека и нет у машины, из-за которого его работу обесценивают?

А что вы будете делать, если эту задачу будет решать человек? Чем отличается некачественный результат от 80% обывателей и ИИ? Какое именно свойство есть у человека и нет у машины, из-за которого его работу обесценивают?

Некачественный результат от качественного отличается источником результата - от обывателя искомый ответ или от эксперта, причем с фамилией, именем, отчеством.

Давайте рассмотрим ситуации решения проблемы:

1) Вы получаете в ответ от ЧатЖПТ некий сгенерированный складный текст - словесно-частотную компиляцию из множества материалов разного качества. По сути получаете подражание экспертам, но не экспертное мнение.

2) Вы получаете от поисковой (или экспертной) системы несколько экспертных материалов от известных в своей области специалистов.

Какой вариант выберите? Я однозначно выберу второй, даже если это будет касаться простых справочных данных. Но понимаю, что большинство обывателей ничтоже сумняшеся выберут первый вариант. Со всеми вытекающими...

Это общие слова, вы с практической точки зрения говорите.

С практической? Недавно сын доклад готовил по биологии (9 класс). Всё хорошо, всё складно и структурно, но... ИИ причислил к одноклеточным организмам также и вирусы. Сын даже глазом не моргнул, а мне бросилось в глаза...

Вот видите, ИИ уже стала лучше 9-летнего но хуже чем вы....

Все познается в сравнении, когда начинаешь оценивать численно качество ответов (буквально, на сколько ответил ИИ а на сколько тот же экзамен сдают в среднем люди) то...

  • пять и больше лет назад речь шла о 'ура, наша сеть говорит синтаксически и даже семантически верно, но все равно получается бред шизофазии'

  • четыре-три года назад о трансформерах думали исключительно как о переводчике с языка на другой язык, и с интересом ковырялись в них как инструмент решения задач с текстом (например классификация или к примеру заголовок сгенерировать и даже аннотацию, поверьте задачи до gpt практически не решаемы адекватно)

  • два года назад речь шла о - 'оно сумело ответить на эти простые вопросы правильно, как интересно, их не было в обучающей выборке'

  • год назад оно отвечало на вопросы из некоторых доменов знаний так же как обыватель!

  • а сейчас, в некоторых доменах, ИИ превосходит человека, но все еще есть такие знания, которые не поддаются, и во всю заговорили о мультимодальности, это пока ахилесова пята ИИ, его понимание мира все еще крутится вокруг текстовых данных, и пространственное понимание на зачаточном уровне, большая часть простых для людей но сложных для ИИ вещей крутится вокруг графических задач

Прогресс просто коллосальный, и останавливаться пока не собирается

Hidden text

паникеры твердят о выходе плато, а я говорю что - прогресс искусственно тормозится, в доказательство привожу то что как только конкуренты anthropic или гугл выкатывают решения лучше или рядом с openai, так она обновляет свою модель которая ровнехонько лучше, это говорит что они МОГУТ повышать качество своих моделей в пределах их технических возможностей прогнозируемо, и не делают это сразу по максимуму по каким то внутренним причинам)

p.s. но это само собой все еще не AGI, не просто не близко, а на парсеки далеко. лично я считаю gpt это как некая часть будущего ИИ, работающая как у человека интуитивное понимание - моментальное решение, часто не верное, но очень близкое к верному.

Вы получаете от поисковой (или экспертной) системы несколько экспертных материалов от известных в своей области специалистов

Только если у вас есть доступ к экспертам, которые готовы работать бесплатно. Для остальных это будет стоить $390 за час работы. Жадная нейронка возьмёт $0,39 за страницу и будет работать несколько секунд.

Люди в общем-то приспособлены для принятия решений в условиях неполной или неточной информации. Если вы руководитель, то постоянно сталкиваетесь с такой ситуацией - это пресловутый человеческий фактор. Лажать могут даже самые именитые из экспертов. Поэтому вы выстраиваете процессы так, чтобы свести риски до приемлемого уровня.

Только если у вас есть доступ к экспертам, которые готовы работать бесплатно. Для остальных это будет стоить $390 за час работы. Жадная нейронка возьмёт $0,39 за страницу и будет работать несколько секунд.

Разница огромна. Рассмотрим ку примеру юридическую консультацию.

За $0,39 вы получите размытый обобщенный ответ, касаемо ситуаций схожих с вашей.

За $390 вы получите подробную консультацию конкретно по вашей проблеме.

Но первый вариант я тоже не отметаю. Например, если вы сами решили заняться своей проблемой, то можно начать и с первого варианта - с ИИ: получить направление для дальнейшего углубления в тему. Но это уже анализ, для анализа это полезный инструмент. Но тупо доверять таким результатам (без проврки и анализа) я бы не стал.

Вот вы пишете, что не годится для серьёзного применения, но годится для эксперта, способного оценить ответ.

Но для меня это уже ОЧЕНЬ серьёзное применение! Если эта шушлайка поможет мне решить сложную задачу не за 5 рабочих дней, а подсказками наведëт на более интересные варианты и я решу её за 4 рабочих дня, то по факту она экономии компании средства и увеличивает эффективность работы эксперта на 10-25%, а дальше вопрос только в оценке финансовой эффективности.

Да, из десятка предложенных решений половина окажется полным бредом (до сих пор помню, как по одному вопросу по специфичному приложению GPT4 дала исчерпывающий ответ по функционалу... который лежит в беклоге, и, возможно, выкатится в продакшн через год), но парочка может быть очень даже актуальными.

Но для меня это уже ОЧЕНЬ серьёзное применение! Если эта шушлайка поможет мне решить сложную задачу не за 5 рабочих дней, а подсказками наведëт на более интересные варианты и я решу её за 4 рабочих дня, то по факту она экономии компании средства и увеличивает эффективность работы эксперта на 10-25%, а дальше вопрос только в оценке финансовой эффективности.

Да, верно, но... для этого не нужны большие языковые модели. В этом случае скорей всего будут более оптимальны более простые специализированные системы.

для этого не нужны большие языковые модели. В этом случае скорей всего будут более оптимальны более простые специализированные системы.

Если бы такой ответ сгенерировала нейронка, я думаю вы бы ещё больше утвердились в их практической бесполезности. Но к вам, как эксперту, ни каких претензий.

Но для меня это уже ОЧЕНЬ серьёзное применение! Если эта шушлайка поможет мне решить сложную задачу не за 5 рабочих дней, а подсказками наведëт на более интересные варианты и я решу её за 4 рабочих дня, то по факту она экономии компании средства и увеличивает эффективность работы эксперта на 10-25%, а дальше вопрос только в оценке финансовой эффективности.

Если бы именно в таком ключе эти языковые модели позиционировались, то нет вопросов. Моя претензия к хайпу на этой теме, к утверждениям, что нейронки скоро заменят многие профессии.

В принципе да, можно будет полностью заменить например врачей экспертными системами, уже сейчас можно, но такого будущего не хотелось бы.

Т.е. вместо того чтобы обвинить неадекватных журналистов, вы огульно обвиняете технологию, о которой они говорят?

Это как обвинять голограммы что они чего то не могут, только потому что журналисты называют этим именем любую фигню хоть как то подающую объем и даже без этого (голограммами называют переливающиеся картинки)

Где я обвинял технологию?

Я вот периодически ОднуБольшуюLLM использую для задач вида:

вот тебе json простой структуры тег-текстовой значение (с некоторыми вложенными структурками). сделай data class на kotlin, добавь атрибуты SerializedName, добавяв заготовку для kdoc.

Результат не с первого раза и иногда бред...но быстрее править этот результат чем набирать правильное - руками. Конечно быстрее

но вот с задачей - вот класс со со сложно-извращенной функцией вида - в зависимости от нескольких входных параметров, используя кучу сложной и запутанной логики выдай такие то ответы по которым потом будет построен экран - напиши максимальное количество юнит тестов. При этом бонус - функци может работать ошибочно и если тест падает и понятно чего там не так - возможно надо перечитывать спеку и править эту функцию.

У меня написание тестового набор сегодня где то полдня заняло неспешно, и это был именно случай когда тесты писались руками, падали, выяснялось почем, обычно ошибка была в самой функции или ее зависимостях. Сейчас 9 штук тестов проходят нормально, размер функции уменьшился в два раза и есть уверенность что во всех прямо прописанных в спецификации случаях - ответ ожидаемый.

ОднаБольшаяLLM конечно тестов (по финальной версии кода) написала быстро, но пришлось просить постоянно еще и есть ньюанс - то что выдано к использованию скажем так не пригодно, код даже не компилируется.

Вот только для первого результата - ОднаБольшаяLLM не нужна - локальные модели на бытовом железе вовсе даже не топовом справляются не сильно хуже(а без них ну просто будет медленее)(и вообще можно взять и написать наконец свой генератор классов по таким JSON'ам, там понятно что делать - просто не так часто надо) а второй результат...нафиг такую "помощь"

То же самое произойдет, если ты с улицы возьмешь очень старательного человека, который ну никогда юнит тесты не писал но умеет гуглить stackoverflow

Разработчикам llm приходится чем то жертвовать из обучающего датасета, так как там далеко не линейная зависимость времени обучения от его размера. Мало того, llm-ки пришли к тому что хоть и начался их триумфальный ход с того что они сумели из мусорных данных извлекать знания, теперь же приходится очень аккуратно собирать этот датасет чтобы модель стала умнее. Это тупо дорого.

Программирование не является целью открытых датасетов, мне известен только фейсбуковский llama3-70b и может быть и мистраловский codestral22b, остальные пилят для маркетинга, и даже просто github у них по минимуму.

p.s. если не секрет ОднуБольшуюLLM это какая?

Звучит достаточно странно. Я стабильно генерю то же самое но для php, и всегда оно генерит то что я прошу с первого раза. Потому что простая задача, если ее правильно описать.

Речь про 4турбо, остальные такие себе. А 4о в целом умная но код пишет хуже. Мультимодальность далась не бесплатно.

БЯМ быстро учатся, гораздо быстрее чем человек из контекста. Уже после 3-4 страниц документации, ей удается приводить примеры и рабочий код из смежных областей с использованием этих технологий.

Удается даже банально файл 5~кб цифр - отформатировать и перевести в формат языка N. Контекстное поле гигантское стало.

Какие то скучные и нудные занятия хорошо делает. Переводы doc (понятно через ocr) в latex. Форматировать литературу по ГОСТ и многое другое… кодировку отгадать, если испортилась.

Даже внутренний файл со своей структурой заранее неизвестной модели, просто по содержанию она догадывается что где и как.

В целом я понимаю ваше недовольство хайпом. Но я верю и уже убедился, что если убрать свистоперделки - это такой хороший тул. Автокомплит-база знаний и умений, которая точно также как и отвертка может использоваться.

PS: чтобы быть пустословом. Киньте документ в GPT-4o. Даже в бесплатной версии уже можно заливать pdf ки. И попросите там в какой нибудь хитрый формат перевести.

Автокомплит-база знаний и умений, которая точно также как и отвертка может использоваться.

Несомненно. Но при одном условии - эта "отвертка" должна использоваться специалистом, понимающим что и как этой отверткой надо закручивать. (И еще я бы смотрел в сторону узко-специализированных экспертных систем - более компактных и более точных. Думаю, за ними реальное будущее).

Но, как обычно бывает, всё закончится тем, что этим инструментом массово будут пользоваться дилетанты, слепо доверяющие результатам ИИ. На волне хайпа не разбирающиеся в теме руководители будут массово внедрять модные БЯМы в своих организациях. Потом... придется такое использование расхлебывать... Наверняка после несчастных случаев и прочего вреда пойдет волна судебных исков, потом введут жесткое законодательное регулирование и т.д.

Что такое "узкоспециализированные экспертные системы" ? Приведите хоть одну такую. А, я кажется понял. Это такие системы которые каждая корпорация делает под свои задачи, и разумеется никакой публичности это не предполагает. Это вот это оно?

Но зачем вы такой внутренний продукт сравниваете с нейронкой общего назначения? Это как электричку сравнивать с бульдозером "внутризаводским".

Я кстати думаю что fine tuning может считаться таковой. И вероятно gpt трансформатор всегда будет доминировать, так как учить его гораздо проще и менее ресурсозатратно.

Да, типа того имел ввиду. Правда БЯМ в этом случае будет являться по большей части основой для генерации ответов на естественном языке. А это необязательно для большинства применений.

Что такое "узкоспециализированные экспертные системы" ?

Узкотематические. Например, какого нибудь медицинского направления. Но уж никак не обо всём на свете.

Но ЛОРы не тянут на экспертную систему. Это всего лишь минимоделька. Экспертные системы обычно основаны на СУБД... Или я отстал от жизни?

Сейчас экспертные системы пилят на основе gpt в том смысле, что большая часть знаний не структурирована в виде реляционной базы, а представляет из себя огромную гору текстовых и не только документов.

Раньше чтобы эти знания хоть как то можно было использовать, пилились узкоспециализированные системы анализа и поиска по этим базам, но чаще под каждый массив данных набиралась команда и обрабатывала их как отдельный проект (и поэтому качественно в общем сделать ыло невозможно/дорого)

И да, сейчас тоже приходится узкоспециализированно ковырять данные, но с gpt это буквально можно дойти до результата.

p.s. не знаю, что имеется в виду под экспертной системой для медицины, там требования к интерпретируемости повыше будут, но и там RAG подход очень поможет

В colab реально обучать подобные объемы? Или есть вероятность, что данные утекут?

Там такая вероятность существует.

Цена. Примерно 300 000 рублей.

Сейчас одна видеокарта стоит 230 тр. У меня такая сборка получается заметно больше 300 тр. Вы в каком магазине смотрите комплектующие?

Можете подсказать в какой этакий корпус я смогу засунуть 4х A6000 и тредриппер, чтобы все это добро влезло и не сгорело без водного охлаждения?

Зарегистрируйтесь на Хабре, чтобы оставить комментарий