Comments / Profile of SnakeSolid / Habr

How to become an author

Антон @SnakeSolid

User

ProfileArticles4PostsNewsComments204

Когда LLM — это не чат, а мозг: путь к VLA‑архитектуре

SnakeSolid Jul 17 at 10:23

Можете подробнее объяснить как робот ориентируется на местности. Например вы ему говорите - "Принеси бутылку воды с кухни и поставь на мой стол". Как робот понимает где находится кухня и что это такое? Ему за ранее показывают локацию, он как-то ищет кухню по предметам (холодильник, плита), он просто ищет бутылку?

И второй момент, я правильно понимаю, что робот может делать только те действия, которые описаны в DSL у VLA модели? То есть если я его попрошу повторять за мной какое-то действие, например погладить кота, то но не сможет его повторить без переобучения моделей. Какие сейчас действия он может выполнять, есть ли какое-то ограничение по количеству или сложности? Например чтобы помыть пол нужно отслеживать не только состояние швабры, но и чистоту воды и уже помытую область, более того нужно стараться мыть так, чтобы не ходить по чистому. Сможет ли робот с подобной архитектурой это все отслеживать?

0

Как создать свой парсер и AST-генератор на C++ с минимальными усилиями: знакомьтесь с QapDSLv2

SnakeSolid Jul 9 at 14:20

Каким образом у вас реализовано восстановление после обнаружения ошибки? Например что будет если пользователь передаст в ваш парсер вот такой JSON: { "array": [ 1, 2 3, 4], "object": { "a": true "b": null } }. Здесь есть две ошибки с пропущенными запятыми, одна в массиве, одна в объекте. С точки зрения пользователя ожидается что парсер вернет обе ошибки, а так же какие точены парсер ожидал получить в этих местах.

Я не совсем понимаю как работают правила t_true, t_null, t_string и т.д. Какой объект я получаю, когда пишу подобное правило, как мне получить информацию о том, в каком месте исходного текста находится указанный токен. С точки зрения разработчика DSL мне нужно иметь возможность ссылаться на любой токен исходного текста для подсветки ошибок и перехода между определениями. В идеале у меня должен быть доступ не только с пробельным символам, но и к следующему/предыдущему токенам.

Не нашел ничего про инкрементальный парсинг. Это важный момент для работы с большими файлами. Пользователь может с радостью открыть какой-нибудь XML на 200Мб и начать его править.

Очень необычный синтаксис. Не хватает простых примеров, на которых можно будет по шагам разобраться какие конструкции чему соответствуют. Например, начать с простого парсера который парсит только true и false, затем добавить возможность парсить еще и числа, затем массив разделенный запятыми, потом показать как работать с кардинальностью (? / + / *) и альтернативами. Дальше уже разные типы токенов, комментарии и другие возможности парсера.

PS: На C++ не программирую, возможно чего-то не понял.

+4

Я сделал тачпанель управления умным домом чтобы вам тоже пришлось

SnakeSolid Jun 18 at 18:48

Про пылесос - посмотрите формулу перспективной проекции, используется для преобразования из морового 3д в экранное 2д. Например вот в этой статье есть картинки с выводом и примером. Вам нужно позицию пылесоса немного наклонить и отодвинуть от камеры, а потом выполнить проекцию полученной точки на экран.

+1

Видеокарты для нейросетей: две RTX 5060 Ti 16GB или одна RTX 3090 24GB? Тест LLM‑инференса

SnakeSolid Jun 18 at 09:03

Добавьте, пожалуйста, табличку с результатами всех тестов в конец статьи, чтобы было бы понятнее. Сложно сравнивать производительность выискивая результаты в тексте.

+8

Как мы разрабатываем отечественный AI-процессор. Часть 1. Почему GPGPU?

SnakeSolid Jun 3 at 18:39

Можете объяснить пару моментов:

На существующих видеокартах многие блоки для машинного обучения в принципе не нужны, например растеризатор, буфер кадра и весь геометрический конвейер. Вы планируете полностью повторять архитектуру GPU с этими блоками или все же будете реализовывать только то, что необходимо для работы нейросетей?

Как вы планируете добавлять поддержку существующих фреймворки машинного обучения? Даже при наличии библиотеки-обертки с реализацией CUDA/Vulkan API нужно еще уметь компилировать ядра фреймворков под вашу архитектуру, а ядра по большей части оптимизированы под работу с NVidia.

+5

Почему крупный бизнес бежит от ChatGPT на «железки» за $150

SnakeSolid Jun 3 at 06:57

Проблемы с согласованием если и есть, то мне они в глаза не бросаются, по крайней мере на паре русский-английский. Возможно для литературного перевода эта модель не подходят, но у меня был выбор только среди 8b моделей и я выбрал ту, которая показала лучший результат в моих тестах. Если когда-нибудь обновлю видеокарту, буду выбирать модели побольше.

+1

Почему крупный бизнес бежит от ChatGPT на «железки» за $150

SnakeSolid Jun 2 at 15:44

Я использую 8b модельку от яндекса для перевода и сокращения текста.

0

Gemma-3: Обзор модели

SnakeSolid May 30 at 08:39

Я для перевода/суммаризации недавно перешел на модельку от яндекса (yandexgpt-5-lite-8b-instruct). По ощущениям перевод у нее лучше получается, плюс ошибок с переходом на английский нет. Хотел еще модельки от тинькова попробовать, но руки пока не дошли.

+1

Синтез речи ◍ 2025: топ-4 бесплатных нейросетей для озвучки текста

SnakeSolid May 27 at 18:35

В своём проекте я использую локальные модели Silero Models. Для озвучки больших текстов существует готовая обёртка speakerpy, которая автоматически разбивает текст на предложения и конвертирует числа в слова. Если нужно статьи озвучить можно через trafilatura получать текст и сразу отправлять на озвучку, книги аналогично. На моём компьютере за 15 минут генерируется примерно час аудио - этого более чем достаточно даже при прослушивании на повышенной скорости.

Из недостатков:

Часто неправильно расставляются ударения (для моего проекта не критично).
Поддерживаются только некоторые популярные языки (мне достаточно поддерживаемых русского и английского).
Требуется предобработка и нормализация текста, так как модель работает только с символами целевого языка и текстом ограниченной длинны (можно использовать тот же speakerpy, но я написал свою утилиту по мотивам).

+8

Stable Diffusion WebUI Forge: Шаг 1. Установка

SnakeSolid Apr 10 at 18:47

Можно поступить проще - поставить Pinokio и через него установить Forge. При необходимости через него же большая часть локальных моделей ставится и запускается.

+2

«Руки вверх» эволюции: зачем человек размахивает руками при ходьбе?

SnakeSolid Mar 28 at 15:03

миллионы лет наши предки передвигались на четвереньках, и их нервная система отполировала синхронную работу всех конечностей

Мне кажется, что дело не в том как передвигались наши предки, а в том как выглядит наименее энергозатратный паттерн движения при распределении масс человека. С детства ребенок пробудет разные способы перемещения, но запоминает и дальше адаптирует наиболее удачные. Так же как работает мышечная память для других задач, например для игры на гитаре, где запоминаются положения пальцев.

К слову, если посмотреть на то как растут котята, на них хорошо видно как они меняют способы перемещения от почти случайного перемещения лап до классической кошачьей походки. А у лошадей есть иноходцы (они сначала обе левые ноги переставляют, потом обе правые), потому что их распределение масс позволяет использовать такой паттерн без существенного повышения энергозатрат.

0

Устанавливаем и пробуем нейросеть для генерации 3D моделей Hunyan3D-2 под Windows в ComfyUI

SnakeSolid Feb 5 at 09:10

Я где-то по четыре-пять запросов делаю раз в неделю, до лимита не доходил.

0

Об OpenAI Deep Research

SnakeSolid Feb 5 at 07:28

Загнать документы в RAG (ну или GraphRAG) и большая часть моделей будет отвечать на уровне студента (желательно брать модели с большим контекстом). У меня документация так индексируется - на большинство вопросов локальный deepseek нормально отвечает.

0

Устанавливаем и пробуем нейросеть для генерации 3D моделей Hunyan3D-2 под Windows в ComfyUI

SnakeSolid Feb 3 at 15:21

Я вот этими пользуюсь: картинку в модельку - TRELLIS, модельку по запросу - Luma. Обе онлайн работают, устанавливать ничего не нужно, но есть ограничение на число запросов.

0

Покажи своего Telegram бота

SnakeSolid Jan 29 at 13:20

Изначально я так и делал. Но тут есть несколько моментов:

Иногда я смотрю интервью на языках отличных от русского и английского. Их нужно переводить, что проще сделать с текстом;
Аудио содержит музыку, длинное молчание, рекламу, на интервью часто бывает что гость кучу мычания и междометий выдает. Это все убирает LLM, оставляя только осмысленную речь;
Бонусом, после такой обработки, интервью и подкасты больше чем в два раза сокращаются.

Из минусов - все говорят одним голосом, но мне это подходит.

+1

Покажи своего Telegram бота

SnakeSolid Jan 28 at 14:23

Управление реализовано через стандартный класс Robot, присутствующий в Java. Бот выполняет команды на моем домашнем компьютере, на этом же компьютере он и запущен. Так же к компьютеру подключен модуль SIM800 для получения SMS из банка. Суть в том, что как только у меня менялся IP - СБ мне блокирована вход в личный кабинет и просили подтвердить что я не верблюд. Так как бот открывает банк на том же компьютере - IP не меняется и мне не блокируют доступ.

Озвучка сделана через Silero models используя обертку speakerpy, которая преобразует числа в текст и разбивает статью на небольшие фрагменты. Сейчас использую два голоса, для русского xenia, для английского - en_5. По произношению они мне больше всего понравились.

+2

Покажи своего Telegram бота

SnakeSolid Jan 28 at 13:53

У сейчас три активных бота. Вместо ссылок будет описание, потому что они доступные только мне по захардкоженному id:

Бот для удаленного управления компьютером. Позволяет очень медленно открыть браузер в нем что-то понажимать и выполнить несколько команд на компьютере. Писал его для обхода СБ одного банка, потому что они блокировали мне аккаунт каждый раз когда я заходил в личный кабинет из другого города;
Бот для генерации фраз на сайтах знакомств. По фотографии и описанию анкеты придумывает фразы, с которых можно начать диалог с девушками. Не все функции успел реализовать, так как в нем отпала необходимость;
Бот для чтения статей и переозвучки видео. Обычный TTS оформленный в виде бота. Качает статью по ссылке, при необходимости переводит ее, и озвучивает. Если ссылка на Youtube - качает субтитры, преобразует их в читаемый текст и озвучивает его.

Если будет интересно - могу описать подробнее работу ботов или дать ссылку на исходники.

+1

LangChain vs LlamaIndex: проектируем RAG и разбираемся, что выбрать для вашего проекта

SnakeSolid Jan 23 at 05:27

Настолько я знаю GraphRAG умеет в кластеризацию документов. Через глобальный поиск находит котиков, потом только по ним ищет.

0

Как устроен робот-доставщик Яндекса: от восприятия до планирования движения

SnakeSolid Sep 26 2024 at 13:24

Если не это не секретная информация, то какие камеры вы используете на этих роботах? Правильно ли я понимаю, что глубина определяется по лидару, что будет если на него попадет снег или пыль?

+4

Как эволюционировало машинное зрение автономного транспорта. Доклад Яндекса

SnakeSolid Sep 26 2024 at 10:24

Нет, не смущает. Если на автомобиль будут ставить камеры со спутника или БПЛА - тогда я с вами соглашусь. Но пока картинка с камер автомобилей, которую я вижу в статьях и презентациях, на порядок хуже картинки даже со среднего телефона, особенно когда в кадре появляется солнце и погодные эффекты.

В перспективе - да, возможно автомобили будут видеть и действовать лучше людей, и даже лидары не понадобятся. Но то, что я вижу на данный момент - попытки несовершенства восприятия компенсировать количеством и вычислительной мощностью. Опять же - это мое ИМХО, может в действительности не все так плохо и видят автомобили как спутники, просто в статьях приводят пережатые картинки.

0

1

2 3 ...