Search
Write a publication
Pull to refresh
37
0
Антон @SnakeSolid

User

Send message

Можете подробнее объяснить как робот ориентируется на местности. Например вы ему говорите - "Принеси бутылку воды с кухни и поставь на мой стол". Как робот понимает где находится кухня и что это такое? Ему за ранее показывают локацию, он как-то ищет кухню по предметам (холодильник, плита), он просто ищет бутылку?

И второй момент, я правильно понимаю, что робот может делать только те действия, которые описаны в DSL у VLA модели? То есть если я его попрошу повторять за мной какое-то действие, например погладить кота, то но не сможет его повторить без переобучения моделей. Какие сейчас действия он может выполнять, есть ли какое-то ограничение по количеству или сложности? Например чтобы помыть пол нужно отслеживать не только состояние швабры, но и чистоту воды и уже помытую область, более того нужно стараться мыть так, чтобы не ходить по чистому. Сможет ли робот с подобной архитектурой это все отслеживать?

Каким образом у вас реализовано восстановление после обнаружения ошибки? Например что будет если пользователь передаст в ваш парсер вот такой JSON: { "array": [ 1, 2 3, 4], "object": { "a": true "b": null } }. Здесь есть две ошибки с пропущенными запятыми, одна в массиве, одна в объекте. С точки зрения пользователя ожидается что парсер вернет обе ошибки, а так же какие точены парсер ожидал получить в этих местах.

Я не совсем понимаю как работают правила t_true, t_null, t_string и т.д. Какой объект я получаю, когда пишу подобное правило, как мне получить информацию о том, в каком месте исходного текста находится указанный токен. С точки зрения разработчика DSL мне нужно иметь возможность ссылаться на любой токен исходного текста для подсветки ошибок и перехода между определениями. В идеале у меня должен быть доступ не только с пробельным символам, но и к следующему/предыдущему токенам.

Не нашел ничего про инкрементальный парсинг. Это важный момент для работы с большими файлами. Пользователь может с радостью открыть какой-нибудь XML на 200Мб и начать его править.

Очень необычный синтаксис. Не хватает простых примеров, на которых можно будет по шагам разобраться какие конструкции чему соответствуют. Например, начать с простого парсера который парсит только true и false, затем добавить возможность парсить еще и числа, затем массив разделенный запятыми, потом показать как работать с кардинальностью (? / + / *) и альтернативами. Дальше уже разные типы токенов, комментарии и другие возможности парсера.

PS: На C++ не программирую, возможно чего-то не понял.

Про пылесос - посмотрите формулу перспективной проекции, используется для преобразования из морового 3д в экранное 2д. Например вот в этой статье есть картинки с выводом и примером. Вам нужно позицию пылесоса немного наклонить и отодвинуть от камеры, а потом выполнить проекцию полученной точки на экран.

Добавьте, пожалуйста, табличку с результатами всех тестов в конец статьи, чтобы было бы понятнее. Сложно сравнивать производительность выискивая результаты в тексте.

Можете объяснить пару моментов:

На существующих видеокартах многие блоки для машинного обучения в принципе не нужны, например растеризатор, буфер кадра и весь геометрический конвейер. Вы планируете полностью повторять архитектуру GPU с этими блоками или все же будете реализовывать только то, что необходимо для работы нейросетей?

Как вы планируете добавлять поддержку существующих фреймворки машинного обучения? Даже при наличии библиотеки-обертки с реализацией CUDA/Vulkan API нужно еще уметь компилировать ядра фреймворков под вашу архитектуру, а ядра по большей части оптимизированы под работу с NVidia.

Проблемы с согласованием если и есть, то мне они в глаза не бросаются, по крайней мере на паре русский-английский. Возможно для литературного перевода эта модель не подходят, но у меня был выбор только среди 8b моделей и я выбрал ту, которая показала лучший результат в моих тестах. Если когда-нибудь обновлю видеокарту, буду выбирать модели побольше.

Я использую 8b модельку от яндекса для перевода и сокращения текста.

Я для перевода/суммаризации недавно перешел на модельку от яндекса (yandexgpt-5-lite-8b-instruct). По ощущениям перевод у нее лучше получается, плюс ошибок с переходом на английский нет. Хотел еще модельки от тинькова попробовать, но руки пока не дошли.

В своём проекте я использую локальные модели Silero Models. Для озвучки больших текстов существует готовая обёртка speakerpy, которая автоматически разбивает текст на предложения и конвертирует числа в слова. Если нужно статьи озвучить можно через trafilatura получать текст и сразу отправлять на озвучку, книги аналогично. На моём компьютере за 15 минут генерируется примерно час аудио - этого более чем достаточно даже при прослушивании на повышенной скорости.

Из недостатков:

  1. Часто неправильно расставляются ударения (для моего проекта не критично).

  2. Поддерживаются только некоторые популярные языки (мне достаточно поддерживаемых русского и английского).

  3. Требуется предобработка и нормализация текста, так как модель работает только с символами целевого языка и текстом ограниченной длинны (можно использовать тот же speakerpy, но я написал свою утилиту по мотивам).

Можно поступить проще - поставить Pinokio и через него установить Forge. При необходимости через него же большая часть локальных моделей ставится и запускается.

миллионы лет наши предки передвигались на четвереньках, и их нервная система отполировала синхронную работу всех конечностей

Мне кажется, что дело не в том как передвигались наши предки, а в том как выглядит наименее энергозатратный паттерн движения при распределении масс человека. С детства ребенок пробудет разные способы перемещения, но запоминает и дальше адаптирует наиболее удачные. Так же как работает мышечная память для других задач, например для игры на гитаре, где запоминаются положения пальцев.

К слову, если посмотреть на то как растут котята, на них хорошо видно как они меняют способы перемещения от почти случайного перемещения лап до классической кошачьей походки. А у лошадей есть иноходцы (они сначала обе левые ноги переставляют, потом обе правые), потому что их распределение масс позволяет использовать такой паттерн без существенного повышения энергозатрат.

Я где-то по четыре-пять запросов делаю раз в неделю, до лимита не доходил.

Загнать документы в RAG (ну или GraphRAG) и большая часть моделей будет отвечать на уровне студента (желательно брать модели с большим контекстом). У меня документация так индексируется - на большинство вопросов локальный deepseek нормально отвечает.

Я вот этими пользуюсь: картинку в модельку - TRELLIS, модельку по запросу - Luma. Обе онлайн работают, устанавливать ничего не нужно, но есть ограничение на число запросов.

Изначально я так и делал. Но тут есть несколько моментов:

  • Иногда я смотрю интервью на языках отличных от русского и английского. Их нужно переводить, что проще сделать с текстом;

  • Аудио содержит музыку, длинное молчание, рекламу, на интервью часто бывает что гость кучу мычания и междометий выдает. Это все убирает LLM, оставляя только осмысленную речь;

  • Бонусом, после такой обработки, интервью и подкасты больше чем в два раза сокращаются.

Из минусов - все говорят одним голосом, но мне это подходит.

Управление реализовано через стандартный класс Robot, присутствующий в Java. Бот выполняет команды на моем домашнем компьютере, на этом же компьютере он и запущен. Так же к компьютеру подключен модуль SIM800 для получения SMS из банка. Суть в том, что как только у меня менялся IP - СБ мне блокирована вход в личный кабинет и просили подтвердить что я не верблюд. Так как бот открывает банк на том же компьютере - IP не меняется и мне не блокируют доступ.

Озвучка сделана через Silero models используя обертку speakerpy, которая преобразует числа в текст и разбивает статью на небольшие фрагменты. Сейчас использую два голоса, для русского xenia, для английского - en_5. По произношению они мне больше всего понравились.

У сейчас три активных бота. Вместо ссылок будет описание, потому что они доступные только мне по захардкоженному id:

  • Бот для удаленного управления компьютером. Позволяет очень медленно открыть браузер в нем что-то понажимать и выполнить несколько команд на компьютере. Писал его для обхода СБ одного банка, потому что они блокировали мне аккаунт каждый раз когда я заходил в личный кабинет из другого города;

  • Бот для генерации фраз на сайтах знакомств. По фотографии и описанию анкеты придумывает фразы, с которых можно начать диалог с девушками. Не все функции успел реализовать, так как в нем отпала необходимость;

  • Бот для чтения статей и переозвучки видео. Обычный TTS оформленный в виде бота. Качает статью по ссылке, при необходимости переводит ее, и озвучивает. Если ссылка на Youtube - качает субтитры, преобразует их в читаемый текст и озвучивает его.

Если будет интересно - могу описать подробнее работу ботов или дать ссылку на исходники.

Настолько я знаю GraphRAG умеет в кластеризацию документов. Через глобальный поиск находит котиков, потом только по ним ищет.

Если не это не секретная информация, то какие камеры вы используете на этих роботах? Правильно ли я понимаю, что глубина определяется по лидару, что будет если на него попадет снег или пыль?

Нет, не смущает. Если на автомобиль будут ставить камеры со спутника или БПЛА - тогда я с вами соглашусь. Но пока картинка с камер автомобилей, которую я вижу в статьях и презентациях, на порядок хуже картинки даже со среднего телефона, особенно когда в кадре появляется солнце и погодные эффекты.

В перспективе - да, возможно автомобили будут видеть и действовать лучше людей, и даже лидары не понадобятся. Но то, что я вижу на данный момент - попытки несовершенства восприятия компенсировать количеством и вычислительной мощностью. Опять же - это мое ИМХО, может в действительности не все так плохо и видят автомобили как спутники, просто в статьях приводят пережатые картинки.

1
23 ...

Information

Rating
5,696-th
Date of birth
Registered
Activity

Specialization

Software Developer, System Software Engineer
Lead
Java
Linux
Algorithms