Search
Write a publication
Pull to refresh
98
0
Матвеев Алексей Сергеевич @HomoLuden

Developer

Send message

Модели из семейства Qwen 2.5 давно говорят по-русски.

Я почему то не увидел пометки что основная часть статьи - это пересказ почти слово в слово физика и замечательного популяризатора Семихатова.

Для меня описанный механизм выглядит аналогично ручному обогащению контекста выжимками из предшествующих сообщений. Но естественно не на уровне матриц нейронных связей, а в виде текста добавляемого к аромату.

Ну и в итоге в конце статьи указано, что самый эффективный вариант - память как контекст. И этот вариант худо - бедно реализуется и с текущими архитектурами. Хотелось бы узнать есть ли принципиальная разница между ручным наполнением контекста запрошенным выжимками и предложенной Гуглом архитектурой. И пожалуйста без токса вида "а вы вообще статью читали".

Другими словами, у нас есть некоторый core – стандартное внимание с ограниченным окном, которое применяется, например, к последнему сообщению в диалоге; – и модуль, который хранит важную информацию из "далекого прошлого". Эта важная информация может быть постоянной (модуль постоянной памяти) или обновляться прямо во время инференса (модуль долгосрочной памяти).

Похожий механизм реализуется в виде доп инструментов в text-generation-webui. См. напр., плагин Twin Book или всякие плагины персистентной памяти. В принципе можно наверное периодически делать саммэри и пихать его в любое место контекста. Но это конечно не онлайн решение.

Именно основываясь на этих связях модель может глобально понимать тексты, которые читает, а затем один за одним предсказывать следующие токены, из которых получаются осмысленные ответы на ваш запрос.

Вы допустили несколько опечаток в

Именно благодаря такому построению связей многие ко многим модель избавляют от необходимости понимать текст для предсказания следующего токена. Модель действует просто как болванчик в Китайской Комнате. (читай Ложная Слепота Питера Уоттса.

Вы допустили несколько опечаток в "недействительно бесполезный".

Очень много поверхностного обзора без конкретных примеров. Например в Chain of notes. Не увидел примеров самого инжиниринга проста. Больше похоже на комбинацию Кликбэйта и Низкого технического уровня статьи.

Обиженный разраб оставил в глубине кучи .h файлов запись

// happy debug punks
#define TRUE rand() > 0.05

С точки зрения гуманности и моральности ни в коем случае НЕ можно.

А с точки зрения объективной реальности вполне "можно" (в смысле ВОЗможно)

Почему они не перевели каммитуемые в репу чекпоинтов в формат safetensors?

Пусть pt файлы временна используются на машине, но каммитать всегда надо sft

Pickle файлы - это старый формат чекпоинтов. .pt файлы которые могут помимо самих весов содержать ещё и активный код.

Раз разрабатывают нейросети, могу предположить, что старые скрипты тренировки (Легаси) сохраняют и используют именно pt файлы. И результат работы разраба был именно пикл файл.

По аналогии с проектами npm, на что я на нескольких проектах ругался, из лени и других соображений часто каммитают гигантские package-lock файлы с кучей белиберды. Эти файлы оч длинные и Борда ревью пулл реквеста не позволяет их проревьюить (или не позволяла). Соответственно там можно было прописать произвольный урл на модуль npm из любого гит репозитория.

Так и с огурчиками выходит. Если каммитается месево из весов и кода в одном файле, как ты его проревьюить. Система на пиклах - это безопасность в дыре.

PS: а тому кто придумал использовать в нейросетях такой формат-микс нужно поставить памятник после окончания карьерной жизни и сделать это бы как можно раньше.

А потом я проснулся и вспомнил, что кожура толще банана.

Хоть бы разобрались в том как работают "енти нейросети". Представленные для трей нейросервисов "особенности принципа работы" являются описанием одного и того же принципа диффузии изображения и его каскадного восстановления с помощью UNet.

Comfyui + Omost workflow + какая-нибудь Pony модель вроде DucHaiten Pony или ее дериватив

Я подозреваю, что под капотом у миджлрни некая архитектура, сравнимая с SDXL/PONY, но поверх нее натянули специализированную LLM которая перерабатывает твой запрос. Посмотрите Omost. Эта штука на Pony делает отличные результаты.

Comfyui + Omost workflow + какая-нибудь Pony модель вроде DucHaiten Pony или ее дериватив

IT-компаниям нужно создавать условия для того, чтобы синьорам было комфортно выращивать смену без ущерба для собственной карьеры и продукта.

Описываю ситуацию... Представьте проект с аналитикой в противозачаточное состоянии. С генеральным планом разработки, написанным без оценок трудозатрат разрабами и без хоть какой-то технической проработки, перманентная красная зона и профуканные дедлайны. Менеджеры не форсят вроде, но настойчиво напоминают о том, что мы и так опаздываем. Псевдо-сеньоры с околонулевой мотивацией повышать квалификацию вместо учения на замечаниях к ревью жалуются менеджерам, что ревьюеры душнят и вечно недовольны тестами и сильно тормозят ПР. Халатный подход к кодингу и наплевательство на потребление ресурсов.

С одной стороны менеджменту интересно только выруливание из глубокой красноты. С другой стороны новомодные инфоциганские сеньоры, которые не видят разницу между рефлексией и деревом выражений в .net.

Даже при попытке создать комфортные условия для взращивания, ты не можешь помочь тому, кто хочет просто пилить в говнокод за денежки сеньора. И таких щас очень много.

Автор бы уделил побольше внимания следующим моментам:

  1. Все эти проверки на мусорность - это же много IF? Сколько на них тратится тактов ЦП? Или мы только умножения FP считаем?

  2. Разбитие на блоки - насколько это перспективно с точки зрения TensoFlow и пр. технологий GPGPU.

  3. Хотя бы псевдокодом ключевые алгоритмы представили бы.

  4. Без этих трёх моментов статья ну совсем вода водой. А хотелось бы пива склеивающего попу со стулом.

В статье вообще огромное количество воды. Вся как будто из кликбейтных тизеров состоит.

Тема затронута интересная. Особенно про PuLID, одна ко ж....
1. Какой-то кривой текст... "На MacBook не всё идеально quantised и оптимизировано". На Medium блог с рускоязычном именем, и при этом зачем-то перевод с английского да еще и будто бы сгенерирован ChatGPT.

  1. Тема заголовка совершенно не раскрыта... это как-будто ликбеза обгрызок, а не разбор архитектуры. Статья на медиуме вообще названа как "Deep Dive", но тут мы видим поверхностная прогулка с парой растиражированных картинок.

Похоже на пустышку с кликбейтным заголовком.. АТАТАТ

Вот например такой постер. Тут по реальным собачкам их силуэт обрисовывался с SD1.5 (чекпоинт CinEro SD15). Потом поверх рисованных собак клались обратно реальные. Совпадают почти идеально и вписываются в окружение с отражением от ступеней.
Вот например такой постер. Тут по реальным собачкам их силуэт обрисовывался с SD1.5 (чекпоинт CinEro SD15). Потом поверх рисованных собак клались обратно реальные. Совпадают почти идеально и вписываются в окружение с отражением от ступеней.

1
23 ...

Information

Rating
Does not participate
Location
Саратов, Саратовская обл., Россия
Date of birth
Registered
Activity