Comments / Profile of proxy3d / Habr

Илья@proxy3d

нейробиология, нейронные сети, AR/VR

ProfileArticles2PostsNewsComments409

Исследование показало, что просьбы к чат-ботам давать короткие ответы могут усилить галлюцинации

proxy3d May 8 2025 at 20:04

Это связано с тем, что существует два механизма: глобальные и локальные маршруты.

https://t.me/greenruff/2073?single

Кратко, суть в том, что под воздействием норадреналина подавляется активность лобной доли. Это приводит к коротким маршрутам: короткая речь, быстрые действия. Норадреналин выбрасывается во время стресса, когда требуется не рассуждать, а выбрать самый короткий, самый сильный при этом маршрут, для быстрых действий в случае опасности /стресса.

Это отражается на уровне текстов. Короткие тексты содержат отражения этих признаков воздействия норадреналина. Обучение на этих текстах и такие же ответы приводят к симуляции такого поведения.

На уровне нейронов, норадреналин изменяет соотношение сигнал/шум. Теперь, те сигналы, которые раньше считались устойчивыми начинают считаться шумом. За счёт этого увеличивается контраст самых сильных сигналов, наиболее коротких. Это приводит к тому, что сигнал не проходит по всем областям, а только по локальной области. Это позволяет решить ряд проблем:

1) все силы бросаются на реакцию на стресс, быстрым действиям. Так как опасность может стоить жизни

2) берутся самые сильные сигналы в области и сокращается время реакции. Поэтому во время стресса, кто то неосознанно забежит у горящее здание спать других, а кто то победит подальше от пожара. Это и есть работа данного механизма. Он словно изменяет яркость на картинке, когда в итоге все соседнее изображение исчезает, и остаются только самые яркие цвета. Связи теряются, мы видим только самые сильные признаки на картинке.

Тексты, это отражение этих признаков. Когда сетка генерирует короткие, это тоже самое как у человека. Это не значит, что они обязательно неправильные. Остаются самые сильные связи. Например, студент учил упорно вопросы к экзамену. Мы разбудили его во время сна и спрашиваем ответ на них. Он ответит, эти связи у него самые сильные, а резкое пробуждение это стресс. Он выдаст их сходу. Но если мы попросим его назвать имя первой учительницы, он не сможет его вспомнить. Норадреналин блокирует это.

Тоже самое с LLM. Москва - столица России, она выдаст коротко. Но если это сложные связи со множеством деталей, то вероятно отразит те же признаки.

Четыре проблемы GPT

proxy3d May 8 2025 at 19:40

Когда вы упоминали человеческую память, то одна из важных проблем всех LLM - это контекст. Сейчас у них только один контекст на основе диалога. У человека гиппокамп держит множество контекстов, что позволяет не забывать детали, возвращаться к более слабыми и в целом удерживать глобальный контекст как группу локальных, выбирая какие данные из них сейчас важны.

Второй момент динамичность. Саморефлексия работает у нас постоянно, и рассуждая в рамках контекста , через петли саморефлексии мы неосознанно "вычищаем" шум из контекста, дополняя его деталями. Это отдаленно напоминает рассуждающие модели, но из за отсутствия множества других механизмов (в том числе множества локальных контекстов) не даёт такого качественного результата и часто приводит к забывание деталей (которые у нас хранятся как множество локальных контекстов).

Не представляю, как без архитектурных расширения моделей такое можно решить

Четыре проблемы GPT

proxy3d May 8 2025 at 19:31

ChatGPT неплохо ищет в режиме исследования. Но тут тоже надо каждый раз смотреть. Из последнего, он полез на разные форумы и использовал срач в них как часть исследования. В других отдавал предпочтение древним источникам. Но правда одно "исследование" в нем занимает много времени, их кол-во ограничено, и повторная их генерация занимает много времени. Но часто удобнее чем искать в поисковике, где тоже куча мусора и пока найдешь, обобщишь их.

Личный опыт «вайб-кодинга» глазами руководителя разработки

proxy3d May 8 2025 at 19:24

Как я уже писал ранее в одном из комментариев, LLM мощный инструмент. Благодаря ему удается победить лень и получить заряд мотивации написать самому.

Сначала делаешь с помощью LLM. Но потом устаешь ему объяснять все косяки кода. Указывать на все ошибки, когда он правит одно и ломает другое. Злость нарастает и появляться желание написать самому. И тогда берешь и пишешь сам. Так как основу вроде уже LLM накидал. А вот с логикой не справился.

Например, помню просил его написать функцию, которая увеличивает энергию форманты, имея данные о частоте форманты и ширине канала на каждом шаге. Он написал, но только лютую дичь. После долгих попыток и указаний, бросил эту затею и написал функцию сам. Ну нет у него абстрактного мышления и не может он учитывать детали, хотя спрашиваешь их по отдельности и он правильно отвечает. Но как только решает задачу, использует только данные описанного контекста, а так куча нюансов. Если их все расписать, то они будут гораздо больше по тексту, чем реализация самой функции.

+13

ChatGPT: как искать уязвимости? Набор исследователя

proxy3d May 7 2025 at 09:22

Это из той же оперы:

LLM называть ИИ - это не шизофрения. 🤷‍♂️

Верить, что LLM себя осознает- это не шизофрения. 🤷‍♂️

Верить, что уже "скоро" LLM заменит всех - это не шизофрения. 🤷‍♂️

Верить, что LLM может рассказать внутреннюю информацию на данных, которых она явно не обучалась - это не шизофрения. 🤷‍♂️

Общаться с LLM, где она отвечает ему, что он мессия или обладает супер-способностями - это шизофрения. 🤯

Где заканчивается первая граница шизофрении и начинается не шизофрения? 🤔 Для меня резкой границы между этими случаями нет, разница лишь в форме.

Раз человек что-то спрашивает, то получает в ответ то что "наиболее вероятно" хочет услышать. То что он хочет услышать, формируется на основе прогнозирования продолжения наиболее вероятных токенов. То есть фраза, колобок колобок я тебя.... съем (продолжилась в наибольшей вероятностью). И ни кто не говорит, что LLM смогла рассказать о существовании колобков и их гибели. Но вот в других областях, уверенно переносят такие рассказы на реальность.

По-моему Сапольский в своих лекциях приводил как довод, что шизофрения в разной форме присутствует везде. Он приводил пример, одной африканской деревни, где его привезли посмотреть на случай шизофрении к одной женщине. Местные говорили, что она ненормальная. На его вопрос, в чем это проявляется, они ответили что она говорит с духами всегда вместо определенных дней и убила козу. Он спросил, но ведь они тоже убивают же коз. На что ему ответили, что он не видит разницы что ли? Они убивают коз для жертвы и общаются с духами только в определенные для этого дни, а ненормальная женщина не по этим дня. Женщина реально была с шизофренией. Но случай был показателен тем, что местное племя не смущало остальное ненормальное поведение женщины, но вот козу забить не в тот день и общаться с духом не в тот день - это уже нездоровое поведение. Хотя для нас, поведение племени, тоже мягко говоря не здоровое по современным меркам.

Поэтому каждый раз, читая такие статьи или комментарии о том, что LLM уже не отличимые от сознания или близки к этому или делятся с ними секретами - я вспоминаю эту женщину из африканского племени и козу/духов по неправильным дням.

OpenAI объяснила, как выбрать подходящую модель ChatGPT

proxy3d May 5 2025 at 23:58

Они на самом деле отличаются. По крайне мере режимы простая, рассуждающая и исследования. Каждый имеет свои плюсы и минусы.

1) обычная - не плохо улавливает контекст, но плохо находит подкрепление написанному.

2) рассуждающая - легко теряет контекст, после ответа уже практически не возможно ссылаться на ранние сообщения диалога, даже если они были только что. Может вытащить что то из "памяти" (которую они сделали). Но лучше прорабатывает конкретный ответ.

3) исследование - хорошо собирает материалы по вопросу, но практически бесполезен в плане рассуждений и связей внутри них. Зато отлично анализирует множество источников исследований и даёт по ним выжимку и ссылки, что можно посмотреть. Из минусов: надо смотреть историю его исследования, там порой такой бред (может взять срач с какого то форума или же древние). Использую его как поисковик.

Проблема в том, что эти режимы практически не совместимы. После исследования, у меня часто перестают работать другие режимы. Не может порой обобщить или зависает.

В плане выбора самих моделей, то я увидел только разницу в стиле оформления ответа.

Поэтому самой частой практикой у меня является откатить ответ. Получил, учел, перегенерировал с другим сообщением.

В целом они все страдают удержанием контекста. Но продвинутые режимы, приводят к тому, что контекст прежних сообщений теряется ещё быстрее. И помогает только откат к старым для продолжение диалога с них.

Но надо отдать должное, тот же qween вообще несёт полную пургу. Гораздо хуже deepseek. Сегодня спрашивал про неокортекс, он путает слои 5 и 6, утверждает о наличии связей которых нет. При этом если спрашиваешь его, ты уверен? Пишешь правильно ему, просишь сказать есть ли ошибка. Он снова гнет свою линию. И лишь приведя ему исследования, он извиняется и корректирует свой ответ. Какой толк от такого бредо-генератора я не знаю. В том что он уверено несёт бред и даже просьба проверить свой ответ на основе исследований или перепроверить его не помогает и даже написание правильного.

Deepseek в этом плане гораздо лучше. Но из за того что они оптимизировали матрицы внимания, это явно проявляется в деталях. Например, в тех же слоя неокортекса, он может писать верно и в какой то момент одна галлюцинация и он уже перепутал слои мозга. Указываешь ему на ошибку и он забыл важный контекст в прежних сообщениях.

Но в целом у всех моделей проблемы с контекстом. Так как они берут только самые яркие детали. У того же ChatGPT обсуждали мозг человека, через несколько сообщений "человека" уже не важная деталь и он в ответе подсовывает редкий случай отличия мозга какого-нибудь редкого животного (у которого что то обнаружили по этой теме). И если сам не знаешь, то понять что "человек" уже не учитывается не сможешь. Все таки люди держат в голове в гиппокамп несколько контекстов сразу.

Айтишники в стартапе

proxy3d May 5 2025 at 19:36

Как человек, который запустил разные стартапы, вставлю свои 5 копеек на конкретных примерах.

1) разработка компонентов для реализации полноценного текстового редактора trichview.com (,он использовался в первых версиях skype, the bat). Проект был направлен на закрытие конкретных проблем пользователей, так как его разработка и улучшение требует года работы, то его проще купить. Первая разработка заняла год, и сразу запуск. Сырой продукт, глюченый, который улучшался многие годы в ответ на обобщение проблем и багов пользователей . Как итог, тысячи клиентов. Большую роль сыграл маркетинг

2) очки gepse, и ряд других очков.

https://youtu.be/zRW4T0DwYWw?si=dpc2hpm4EXIHZBQH

Проблема, на тот момент хоть и привлек внимание, но по сути стоимость продукта и сложности без конкретных юзер кейсов не позволили пока закончить проект.

3) очки glazz, был продект из Microsoft. Но отсутствие рынка в РФ и стоимость проекта, таки не позволили выпустить пока их

https://navigator.sk.ru/orn/1123845?ysclid=mabh0l8c7s164908111&utm_referrer=https%3a%2f%2fya.ru%2f

4) школьный конструктор AR очков под нос сектор образования.

https://habr.com/ru/articles/828760

Проблемы в том, что гос сектор требует множества лицензирования, сложности продвижения и времени. Как итог, я пока должен государству ~1,5 мое руб. И пока не могу получить гос сектор, так как без хороших связей наверху это проблема (не на уровне топ менеджеров). Кроме того, работа с гос сектором очень опасна, тебя ещё и посадить могут в итоге, за нецелевое расходование

5) проект тянущейся электроники. Разработка технологий, материалов , тех процесса, стендового оборудования

https://vc.ru/tribuna/466947-stoit-li-sozdavat-v-rossii-novye-tehnologii-nash-opyt-razrabotki-tyanusheisya-elektroniki-gflex

Рынок только зарождается в виде робототехники. Остальные рынки как оказалось это единичные экспериментальные стартапы, на которых бизнес не построишь. Как итог проект пылиться.

6) приложение для изучения иностранных языков , онлайн репетитор. Разработаны собственные технологии управляемого синтеза речи, поведением модели и много всего. Конечная себестоимость проекта оказалась на сегодняшний день очень высокой, а снижать качество желания нет.

Это часть проектов. По ним видны целый ряд проблем: юзер кейс, реклама, стоимость разработки, себестоимость, целевая аудитория, рынки сбыта.

Поэтому нельзя рассматривать, что то одно в отрыве от остального.

И ещё, некоторые из них требуют разное время на mvp и затраты. Например, проект тянущейся электроники занял 4 года предварительных исследований, прежде чем была отработана идея и проверены вручную этапы, прежде чем был создан первый MVP. А школьные очки потребовали год на разработку, но много миллионов вложений. Даже онлайн репетитор, потребовал 2 года, на исследования разработку и создание нужных технологий и все это время сервера gpu и не только сжирали прилично денег ежемесячно, так как отлаживать проект на одной машине было уже невозможно и требовало комплексного подхода создания микроархитектуры и распределенных gpu серверов.

Ложь искусственного интеллекта

proxy3d May 5 2025 at 19:07

Тут все равно есть проблема, в том что в используется температурах.

В трансформерах температура и стохастический выбор частично заменяют top-down модуляцию слоя 5, но не эквивалентны ей.

Приведем пример, где в биологической модели разные зоны (зрение, моторика, слух) модулируют сигнал слоя 5. В трансформере же только температурный порог и случайность влияют на выход, что приближённо, но не точно отражает такой процесс.

FFN в трансформерах обобщает признаки, как слой 5. Но в слое 5 есть модуляция top-down. В трансформере ее нет. Формально, температура задаёт диапазон вероятных признаков из FFN из которых модель может выбрать. Случайная компонента выбирает один из признаков, который попал в этот диапазон. Это не прямой эквивалент top-down модуляции, а скорее его альтернатива, где из наиболее вероятных обобщенных признаков выбирается один.

Для понимания, представим, что на слой 5 с разным весом на сигнал влияли бы зрение, моторика, слух. В итоге мы отбросили часть менее вероятных, которые оказали меньшее влияние. Например, зрение оказало влияние 0.5, моторика 0.3, слух 0.1. Мы задали диапазон (аналогично температуре на уровне 0.2) и откинули слух. А затем случайно выбрали модуляцию между зрением или моторикой (хотя моторика оказывает меньшее влияние на сигнал). И теперь на выходе у нас признак не с усилением зрения, а моторики. И вместо выбора слова "вижу", мы выбираем слово "иду". Это косвенная связь, чтобы провести аналогию с искусственным инженерным решением при отсутствии top-down модуляции слоя 5. Хотя механизмы безусловно разные. Поэтому выбор не учитывает контекста.

Ложь искусственного интеллекта

proxy3d May 5 2025 at 18:57

Этим легко управлять. Я использовал данный подход как часть эмоциональной модели. Со статическим характером.

https://t.me/greenruff/2240?single

Это небольшая часть. Полностью, там ещё небольшая сеть (упрощённый прототип амигдалы), которая учитывает ещё

Голос ответа пользователя
Контекст пользователя (текст)
Контекст ответа модели (текст)
Заданный статический характер

В дополнение делал регулировку архитектуры на уровне сигнал/шум. Аналог норадреналина - уменьшает разницу отношения, серотонина - изменяет контрастность сигнала. Это лучше, чем просто случайно полагаться на температуру, так как создаёт понимание поведения модели и ответов.

Ложь искусственного интеллекта

proxy3d May 5 2025 at 18:51

Вы по-моему смешали три понятия:

Галлюцинации
Бред
Проблемы конфликтов блоков, из за того что при обучении не учитывает разница влияния глобальной ошибки при классическом методе обратного распространения

Все три пункта по разному проявляются , хоть могут быть схожи. Но будет интересно почитать, в чем вы видите причину.

Одна из главных проблем галлюцинаций , как была температура, так и осталась. Но она не единственная причина конечно. Их несколько, и люди часто путают, считая все три проявление галлюцинациями и одним и тем же.

На примере неокортекса, в тех же ассоциативных зонах, возникают такие же проблемы.

Например, отсутствие обратной связи внутри блока (аналог 6 слоя неокортекса), а так же отсутствие полноценной модуляции слоя 5 (в трансформерах эту роль играет FFN), который должен выбирать итоговое усиление сигнала (внимание) исходя из внешнего контекста (зрение, моторные зоны и другие) приводят к галлюцинации.

Нехватка связей в FFN, аналог нехватка связей в своей 5 неокортекса (малая плотность нейронов, например деменция или не сформировались у ребенка ещё) приводит к бреду или словесной окрошке.

Отсутствие чувствительности блоков у глобальной ошибке и отсутствие учёта локальной ошибки приводит к конфликту блоков. Когда в целом глобальная ошибка выдала уменьшение, но в реальности блок 1 наоборот хуже справил, а остальные верно. Это приводит к тому, что в блоке 1 ошибка будет нарастать и это приводит к накоплению противоречий. Локальная ошибка, как раз корректирует эту проблему. А так же разделение обучения не классическим методом обратного распространения, а обучения глобальной ошибке индивидуально каждого блока. При правильном механизме, эта проблема исчезает. https://t.me/greenruff/2257

Тут выкладывал примеры backward, там новый метод обучения с правильным учётом глобальной ошибки и учётом локальной ошибки. Они превосходят классический метод обратного распространения ошибки.

Через промпт, вы можете лишь перенаправить предсказание токенов по другому маршруту. Связанному с определенным паттерном.

https://t.me/greenruff/2240?single

Но, интересно почитать, что вы получили. И как трактуете. Возможно, я не правильно вас понял, поэтому с удовольствием почитаю вашу статью.

Представлена ИИ-модель, вдохновлённая нейронными колебаниями в мозге человека

proxy3d May 5 2025 at 14:35

Вот про SSM не понял. В статье написано, что они плохо обучаются - это так. Но выше это та же SSM, только измененная немного. LinOSS так и расшифровывается Linear Oscillatory State-Space models.

Вообще хорошо бы прилагать ссылку на саму работы https://openreview.net/pdf?id=GRMfXcAAFh
и на GitHub чтобы не искать: https://github.com/tk-rusch/linoss/tree/main

Если я правильно понимаю, то в оригинальной SSM матрица состояния инициализируется методов типа HiPPO. Где ее значения вещественные и отрицательные.

А вот у Oscillatory SSM матрица состояния A — это комплексные числа с ненулевой мнимой частью. Это позволяет модели генерировать осцилляции (например, синусоиды). Амплитуда осцилляций контролируется вещественной частью, а частота — мнимой частью.

В частности приводится пример, на задаче PPG-DaLiA (предсказание пульса по данным с датчиков) LinOSS-IM показал MSE = 6.4×10⁻² , что в 2 раза лучше Mamba и LRU. Это связано с тем, что пульс человека — периодический сигнал , который LinOSS эффективно моделирует.

Собственно у них там 3-и доработки (модели):

S5 : Как пружина, которая быстро затухает.

LinOSS-IM : Как маятник, который колеблется, но со временем останавливается.

LinOSS-IMEX : Как маятник без трения — колебания продолжаются бесконечно.

Вот на LLM было бы интересно проверить, так как у текста тоже должна быть периодичность (на основе дыхательных циклов).

Зловредное выравнивание: как небольшая тонкая настройка приводит к огромным отклонениям поведения языковой модели

proxy3d May 3 2025 at 15:16

Показывал и писал об этом

https://t.me/greenruff/2240?single

Разработал данный подход, где то 1,5-2 года назад. Но только недавно подробно объяснил, что за ним стоит.

Видимо тоже надо написать статью, а то ещё долго будут доходить до этого. Видимо без публикации на площадках, это так и останется локальным исследованием.

По-сути рассуждения, направления ответов и другие механизмы, перенаправляют прогнозирование модели на каждом шаге. Так как рассуждения так же построена на дополнениях ответов, с учётом накопленных данных. Формально их можно считать микродиалогами

Искусственный интеллект в медицине: Революция в здравоохранении

proxy3d May 2 2025 at 13:29

С каких пор машинное обучение стало называться ИИ? И чем так плоха формулировка ML? То что перечислено, это именно машинное обучение, где модель учиться по входным данным находить/выделять признаки.

Просто вы написали, что ML инженер, но при этом называете это ИИ. Плохо вяжется это.

Я — редактор. И я боюсь, что меня заменит нейросеть

proxy3d May 2 2025 at 11:11

Вы серьезно это написали про промпт? Вы понимаете, как вообще промпт оказывает влияние на предсказание токенов и что, чем дальше текст от начала (текста промпта), тем меньше влияния он будет оказывать? А так же, если мы вы распишите в нем 100 деталей, то он возьмет самые "весомые" и будет искать связи с ними.

Garbage in, garbage out - вы серьезно? Что вы черт возьми такое пишете? В жизни вы будете смотреть код, где будет множество таких комментариев. И если вы не смотрите логику кода, то вы точно занимаетесь программированием?

Возможно дело в задачах. Я вполне допускаю, что у вас очень простые задачи. Сетки хорошо справляются накидать структуру, построить график, всякие простые обработчики в том же JS или накидать первичный код.

Когда я говорю про "тупость", то речь идет про разрыв между хвалебными опусами в статьях и реальностью. Поэтому мне всегда интересно, что за примитивный код должен писать разработчик, хвалебных статьей и комментариев.

Я всегда говорил, что LLM это инструмент, но очень ограниченный, хотя и очень полезный. Он может сделать простые рутинные вещи. Но разработка это прежде всего решение задач, а не написание кода.

Я — редактор. И я боюсь, что меня заменит нейросеть

proxy3d May 1 2025 at 22:43

Нельзя, тут к примеру тревожность. Вот это мы можем определить по аудио паттерну https://t.me/greenruff/1895

Вы можете определить базовое восприятие, которое ближе к рефлексам https://t.me/greenruff/1851 и связано с биологией строения слухового аппарата. Но ни о каком страхе, радости и так далее нет. Доминирование? Да, но это не является когнитивной эмоцией. Тревожность? Да. Волнение/активность/возбуждение? Да.. но это не являет когнитивной эмоцией, а своего рода прото-эмоцией. Базовые восприятия, которые помогали и помогают выживать. Которые построены на биологических особенностях (размеры тела, приводящие к размеру голосового тракта и следовательно к возникновению механизма реагирования на низкие звуки при оценке размеров особи для выживания).

https://t.me/greenruff/1847

Здесь я делал исследование, на анализ аудио паттернов речи. Множество эмоций имеет одинаковые. Более того, некоторые имеют разные паттерны в разных контекстах. Поэтому привычные нам когнитивные эмоции так распознать нельзя.

https://t.me/greenruff/1855

https://t.me/greenruff/1852

Я не просто так показал, на примере самого же Сбера что это не работает. С таким же успехом можно бросать монетку. Это просто работает иначе.

https://t.me/greenruff/1924

Выше к примеру описано как звуковые паттерны влияют на когнитивное восприятие эмоций.

https://t.me/greenruff/2059

Тут исследование пауз речи, которое объясняет почему нельзя распознать по звуковых паттернам когнитивные эмоции, которые зависят от смысла

Я — редактор. И я боюсь, что меня заменит нейросеть

proxy3d Apr 30 2025 at 21:04

У них вообще беда с моделями. Они продают сервис оценки эмоций (4е эмоции) обученные на данных Душа (по-моему так назывался). Но это не работает, потому что там совсем не то, что должно быть. Нельзя только по звуку определить те эмоции. Так как они зависят от смыслового контекста + аудио паттернов, а не только от звука (аудио речи).

Я им в бывшем комьюнити сбера об этом писал и разбирал и показывал на их же синтезе как пример.

https://t.me/greenruff/1857?single

Я взял синтезировал два их аудио. Выровнял их тон и форманты обрезал (звонкие звуки). Затем наложил одинаковые шаблоны на речь. Затем поместил их в разные контексты (реальную речь и внешние звуки). У речи одинаковый шаблон наложен звуковой, разный только смысл (контекст). Так вот мозг сам достраивает соответствие контексту, где в одном случае один и тот же шаблон речи будет восприниматься либо как страх в голосе либо как радость.

Я впервые столкнулся с этим, когда анализировал эмоции в речи. И оказалось что многие противоположенных эмоции в плане звуковых шаблонов одинаковые. Для меня это было откровением и неожиданностью. Тесты показали, что мозг опирается на смысловой контекст + базовые прото-эмоции в звуке. Прото-эмоции это не страх, радость и другие - это тревожность, волнение и другие базовые. И при анализе мозг уже выстраивает общую картину об эмоции на основе этих двух факторов: базы в звуке и смысла в контексте. Но только по голосу ни какого страха определить нельзя. Достаточно взять речь на неизвестном языке (например я не знаю итальянский) и нельзя точно понять ругаются там или с каким то волнением рассказывают новость.

И Сбер это продает как сервис для коллцентров для оценки звонков клиента. И пофиг, что им на примере показали что это не работает, и что можно определить реально.

Так что gigachat с их бенчмарками не вызывает ни какого доверия.

Разворачиваем AI-приложение в кластере k8s

proxy3d Apr 30 2025 at 13:48

Мы же говорили о GPU. О каких конкретно разных задачах идёт речь?

В ray serve можно запускать готовые LLM. Загрузив их через 20-30 строчек кода и получив при этом возможность автоматически распараллелить и видеть логи llm через мониторинг.

Или вы имеете ввиду не совсем LLM, а обертки вроде Gradio? Если так, то gradio ближе к обычным cpu серверам, а gpu лучше выносить отдельно. Если конечно один gpu сервер, то разницы нет. Но тогда и k8s избыточный.

Хочется понять, когда k8s оправдан с gpu, против ray serve. Не могу придумать ни одного сценария. Какие сценарии вы видите, в которых k8s с нейронками даёт преимущества или делает то, что не позволяет делать ray serve? И при этом k8s не избыточен.

Представлен открытый проект со схемами и моделями машинного обучения человекоподобного робота Berkeley Humanoid Lite

proxy3d Apr 29 2025 at 21:30

Надо смотреть сколько стоит такая сборка. А то я до этого собирал их ноги birdbot. Так там один серво стоит 70 тыс руб, а их надо 4 шт. Вот этого https://youtu.be/PXXdaqseHis

Только одного почти дособирал, осталось пара моторов, а тут беркли уже нового. Но по сравнению с их прошлой моделью birdbot - текущая не очень впечатляет как ходит.

Проблема этих opensource проектов пока в том, что все они при сборке очень дорогие. Тут только печать занимает несколько месяцев, и не считая затрат на все остальное. Пока соберешь, оказывается что там куча недостатков и на видео все красивей.

Все они требуют множества дорогих моторов. Пробовал печатать разные разновидности моторов, но их надо потом встраивать и значит переделывать корпус и механику.

Но все равно классно, что появляется множество таких открытых проектов. Жаль что в наших вузах, таких не делают. Китайцы быстро собирают на базе opensource и потом продают на алике/алибабе за 0,45-1,5 млн руб. Хотя сборки робособак так на разный вкус от 10 тыс руб до 200 тыс руб. на основе тоже opensource.

Разворачиваем AI-приложение в кластере k8s

proxy3d Apr 29 2025 at 20:50

Какие преимущества у разворачивания в k8s моделей перед ray serve?

Google запускает инструменты искусственного интеллекта для практики языков с помощью персонализированных уроков

proxy3d Apr 29 2025 at 20:46

Надеюсь что гугл сделает такое

https://habr.com/ru/articles/905454/comments/#comment_28239034

Я не потянул такое содержать, чтобы развернуть публично. Слишком дорого обходится сервера, а в платных подписчиков веры как то у меня нет. Надеюсь гугл доведет свое до ума.

1 2 ...

6 7

9 10 ...

20 21