Comments / Profile of HomoLuden / Habr

Матвеев Алексей Сергеевич @HomoLuden

Developer

ProfileArticles29PostsNewsComments2.1K

Llama 4 плоха во всём

HomoLuden Apr 16 at 13:16

Модели из семейства Qwen 2.5 давно говорят по-русски.

Look

Нейронки пошли не туда

HomoLuden Mar 27 at 04:47

Я почему то не увидел пометки что основная часть статьи - это пересказ почти слово в слово физика и замечательного популяризатора Семихатова.

Look

Google представили Titan: архитектуру нейросетей, которая может стать новой серебряной пулей LLM

HomoLuden Jan 17 at 14:30

Для меня описанный механизм выглядит аналогично ручному обогащению контекста выжимками из предшествующих сообщений. Но естественно не на уровне матриц нейронных связей, а в виде текста добавляемого к аромату.

Look

Google представили Titan: архитектуру нейросетей, которая может стать новой серебряной пулей LLM

HomoLuden Jan 17 at 14:00

Ну и в итоге в конце статьи указано, что самый эффективный вариант - память как контекст. И этот вариант худо - бедно реализуется и с текущими архитектурами. Хотелось бы узнать есть ли принципиальная разница между ручным наполнением контекста запрошенным выжимками и предложенной Гуглом архитектурой. И пожалуйста без токса вида "а вы вообще статью читали".

Look

Google представили Titan: архитектуру нейросетей, которая может стать новой серебряной пулей LLM

HomoLuden Jan 17 at 13:55

Другими словами, у нас есть некоторый core – стандартное внимание с ограниченным окном, которое применяется, например, к последнему сообщению в диалоге; – и модуль, который хранит важную информацию из "далекого прошлого". Эта важная информация может быть постоянной (модуль постоянной памяти) или обновляться прямо во время инференса (модуль долгосрочной памяти).

Похожий механизм реализуется в виде доп инструментов в text-generation-webui. См. напр., плагин Twin Book или всякие плагины персистентной памяти. В принципе можно наверное периодически делать саммэри и пихать его в любое место контекста. Но это конечно не онлайн решение.

Look

Google представили Titan: архитектуру нейросетей, которая может стать новой серебряной пулей LLM

HomoLuden Jan 17 at 13:50

Именно основываясь на этих связях модель может глобально понимать тексты, которые читает, а затем один за одним предсказывать следующие токены, из которых получаются осмысленные ответы на ваш запрос.

Вы допустили несколько опечаток в

Именно благодаря такому построению связей многие ко многим модель избавляют от необходимости понимать текст для предсказания следующего токена. Модель действует просто как болванчик в Китайской Комнате. (читай Ложная Слепота Питера Уоттса.

Look

Промптинг: действительно полезное руководство

HomoLuden Dec 13 2024 at 10:29

Вы допустили несколько опечаток в "недействительно бесполезный".

Очень много поверхностного обзора без конкретных примеров. Например в Chain of notes. Не увидел примеров самого инжиниринга проста. Больше похоже на комбинацию Кликбэйта и Низкого технического уровня статьи.

Look

Стажёр устроился в ByteDance и изнутри два месяца саботировал выполнение проекта по разработке нейросетей

HomoLuden Oct 21 2024 at 07:09

Обиженный разраб оставил в глубине кучи .h файлов запись

// happy debug punks
#define TRUE rand() > 0.05

Look

Стажёр устроился в ByteDance и изнутри два месяца саботировал выполнение проекта по разработке нейросетей

HomoLuden Oct 21 2024 at 07:00

С точки зрения гуманности и моральности ни в коем случае НЕ можно.

А с точки зрения объективной реальности вполне "можно" (в смысле ВОЗможно)

Look

Стажёр устроился в ByteDance и изнутри два месяца саботировал выполнение проекта по разработке нейросетей

HomoLuden Oct 21 2024 at 06:58

Почему они не перевели каммитуемые в репу чекпоинтов в формат safetensors?

Пусть pt файлы временна используются на машине, но каммитать всегда надо sft

Look

Стажёр устроился в ByteDance и изнутри два месяца саботировал выполнение проекта по разработке нейросетей

HomoLuden Oct 21 2024 at 06:45

Pickle файлы - это старый формат чекпоинтов. .pt файлы которые могут помимо самих весов содержать ещё и активный код.

Раз разрабатывают нейросети, могу предположить, что старые скрипты тренировки (Легаси) сохраняют и используют именно pt файлы. И результат работы разраба был именно пикл файл.

По аналогии с проектами npm, на что я на нескольких проектах ругался, из лени и других соображений часто каммитают гигантские package-lock файлы с кучей белиберды. Эти файлы оч длинные и Борда ревью пулл реквеста не позволяет их проревьюить (или не позволяла). Соответственно там можно было прописать произвольный урл на модуль npm из любого гит репозитория.

Так и с огурчиками выходит. Если каммитается месево из весов и кода в одном файле, как ты его проревьюить. Система на пиклах - это безопасность в дыре.

PS: а тому кто придумал использовать в нейросетях такой формат-микс нужно поставить памятник после окончания карьерной жизни и сделать это бы как можно раньше.

Look

Профиль основателя ABBYY Давида Яна удалён с сайта компании

HomoLuden Oct 4 2024 at 03:55

А потом я проснулся и вспомнил, что кожура толще банана.

Look

Нейросети для генерации изображений: обзор популярных сервисов

HomoLuden Jul 10 2024 at 09:56

Хоть бы разобрались в том как работают "енти нейросети". Представленные для трей нейросервисов "особенности принципа работы" являются описанием одного и того же принципа диффузии изображения и его каскадного восстановления с помощью UNet.

Look

Stability AI стала бесплатной для пользователей и малого бизнеса

HomoLuden Jul 7 2024 at 06:56

Comfyui + Omost workflow + какая-нибудь Pony модель вроде DucHaiten Pony или ее дериватив

Я подозреваю, что под капотом у миджлрни некая архитектура, сравнимая с SDXL/PONY, но поверх нее натянули специализированную LLM которая перерабатывает твой запрос. Посмотрите Omost. Эта штука на Pony делает отличные результаты.

Look

Stability AI стала бесплатной для пользователей и малого бизнеса

HomoLuden Jul 7 2024 at 06:47

Comfyui + Omost workflow + какая-нибудь Pony модель вроде DucHaiten Pony или ее дериватив

Look

Кадровый голод в IT не то, чем кажется

HomoLuden Jun 21 2024 at 19:45

IT-компаниям нужно создавать условия для того, чтобы синьорам было комфортно выращивать смену без ущерба для собственной карьеры и продукта.

Описываю ситуацию... Представьте проект с аналитикой в противозачаточное состоянии. С генеральным планом разработки, написанным без оценок трудозатрат разрабами и без хоть какой-то технической проработки, перманентная красная зона и профуканные дедлайны. Менеджеры не форсят вроде, но настойчиво напоминают о том, что мы и так опаздываем. Псевдо-сеньоры с околонулевой мотивацией повышать квалификацию вместо учения на замечаниях к ревью жалуются менеджерам, что ревьюеры душнят и вечно недовольны тестами и сильно тормозят ПР. Халатный подход к кодингу и наплевательство на потребление ресурсов.

С одной стороны менеджменту интересно только выруливание из глубокой красноты. С другой стороны новомодные инфоциганские сеньоры, которые не видят разницу между рефлексией и деревом выражений в .net.

Даже при попытке создать комфортные условия для взращивания, ты не можешь помочь тому, кто хочет просто пилить в говнокод за денежки сеньора. И таких щас очень много.

Look

Новый прорыв приближает умножение матриц к идеалу

HomoLuden May 22 2024 at 05:41

Автор бы уделил побольше внимания следующим моментам:

Все эти проверки на мусорность - это же много IF? Сколько на них тратится тактов ЦП? Или мы только умножения FP считаем?
Разбитие на блоки - насколько это перспективно с точки зрения TensoFlow и пр. технологий GPGPU.
Хотя бы псевдокодом ключевые алгоритмы представили бы.
Без этих трёх моментов статья ну совсем вода водой. А хотелось бы пива склеивающего попу со стулом.

Look

Новый прорыв приближает умножение матриц к идеалу

HomoLuden May 22 2024 at 05:35

В статье вообще огромное количество воды. Вся как будто из кликбейтных тизеров состоит.

Look

Архитектура Stable Diffusion: Face ID, Lighting

HomoLuden May 19 2024 at 19:59

Тема затронута интересная. Особенно про PuLID, одна ко ж....
1. Какой-то кривой текст... "На MacBook не всё идеально quantised и оптимизировано". На Medium блог с рускоязычном именем, и при этом зачем-то перевод с английского да еще и будто бы сгенерирован ChatGPT.

Тема заголовка совершенно не раскрыта... это как-будто ликбеза обгрызок, а не разбор архитектуры. Статья на медиуме вообще названа как "Deep Dive", но тут мы видим поверхностная прогулка с парой растиражированных картинок.

Похоже на пустышку с кликбейтным заголовком.. АТАТАТ

Look

Домашняя нейронка. Какое «железо» выбрать для Stable Diffusion?

HomoLuden May 4 2024 at 14:56

Вот например такой постер. Тут по реальным собачкам их силуэт обрисовывался с SD1.5 (чекпоинт CinEro SD15). Потом поверх рисованных собак клались обратно реальные. Совпадают почти идеально и вписываются в окружение с отражением от ступеней.

Look

2 3 ...

105 106