Можете подробнее объяснить как робот ориентируется на местности. Например вы ему говорите - "Принеси бутылку воды с кухни и поставь на мой стол". Как робот понимает где находится кухня и что это такое? Ему за ранее показывают локацию, он как-то ищет кухню по предметам (холодильник, плита), он просто ищет бутылку?
И второй момент, я правильно понимаю, что робот может делать только те действия, которые описаны в DSL у VLA модели? То есть если я его попрошу повторять за мной какое-то действие, например погладить кота, то но не сможет его повторить без переобучения моделей. Какие сейчас действия он может выполнять, есть ли какое-то ограничение по количеству или сложности? Например чтобы помыть пол нужно отслеживать не только состояние швабры, но и чистоту воды и уже помытую область, более того нужно стараться мыть так, чтобы не ходить по чистому. Сможет ли робот с подобной архитектурой это все отслеживать?
Каким образом у вас реализовано восстановление после обнаружения ошибки? Например что будет если пользователь передаст в ваш парсер вот такой JSON: { "array": [ 1, 2 3, 4], "object": { "a": true "b": null } }. Здесь есть две ошибки с пропущенными запятыми, одна в массиве, одна в объекте. С точки зрения пользователя ожидается что парсер вернет обе ошибки, а так же какие точены парсер ожидал получить в этих местах.
Я не совсем понимаю как работают правила t_true, t_null, t_string и т.д. Какой объект я получаю, когда пишу подобное правило, как мне получить информацию о том, в каком месте исходного текста находится указанный токен. С точки зрения разработчика DSL мне нужно иметь возможность ссылаться на любой токен исходного текста для подсветки ошибок и перехода между определениями. В идеале у меня должен быть доступ не только с пробельным символам, но и к следующему/предыдущему токенам.
Не нашел ничего про инкрементальный парсинг. Это важный момент для работы с большими файлами. Пользователь может с радостью открыть какой-нибудь XML на 200Мб и начать его править.
Очень необычный синтаксис. Не хватает простых примеров, на которых можно будет по шагам разобраться какие конструкции чему соответствуют. Например, начать с простого парсера который парсит только true и false, затем добавить возможность парсить еще и числа, затем массив разделенный запятыми, потом показать как работать с кардинальностью (? / + / *) и альтернативами. Дальше уже разные типы токенов, комментарии и другие возможности парсера.
PS: На C++ не программирую, возможно чего-то не понял.
Про пылесос - посмотрите формулу перспективной проекции, используется для преобразования из морового 3д в экранное 2д. Например вот в этой статье есть картинки с выводом и примером. Вам нужно позицию пылесоса немного наклонить и отодвинуть от камеры, а потом выполнить проекцию полученной точки на экран.
Добавьте, пожалуйста, табличку с результатами всех тестов в конец статьи, чтобы было бы понятнее. Сложно сравнивать производительность выискивая результаты в тексте.
На существующих видеокартах многие блоки для машинного обучения в принципе не нужны, например растеризатор, буфер кадра и весь геометрический конвейер. Вы планируете полностью повторять архитектуру GPU с этими блоками или все же будете реализовывать только то, что необходимо для работы нейросетей?
Как вы планируете добавлять поддержку существующих фреймворки машинного обучения? Даже при наличии библиотеки-обертки с реализацией CUDA/Vulkan API нужно еще уметь компилировать ядра фреймворков под вашу архитектуру, а ядра по большей части оптимизированы под работу с NVidia.
Проблемы с согласованием если и есть, то мне они в глаза не бросаются, по крайней мере на паре русский-английский. Возможно для литературного перевода эта модель не подходят, но у меня был выбор только среди 8b моделей и я выбрал ту, которая показала лучший результат в моих тестах. Если когда-нибудь обновлю видеокарту, буду выбирать модели побольше.
Я для перевода/суммаризации недавно перешел на модельку от яндекса (yandexgpt-5-lite-8b-instruct). По ощущениям перевод у нее лучше получается, плюс ошибок с переходом на английский нет. Хотел еще модельки от тинькова попробовать, но руки пока не дошли.
В своём проекте я использую локальные модели Silero Models. Для озвучки больших текстов существует готовая обёртка speakerpy, которая автоматически разбивает текст на предложения и конвертирует числа в слова. Если нужно статьи озвучить можно через trafilatura получать текст и сразу отправлять на озвучку, книги аналогично. На моём компьютере за 15 минут генерируется примерно час аудио - этого более чем достаточно даже при прослушивании на повышенной скорости.
Из недостатков:
Часто неправильно расставляются ударения (для моего проекта не критично).
Поддерживаются только некоторые популярные языки (мне достаточно поддерживаемых русского и английского).
Требуется предобработка и нормализация текста, так как модель работает только с символами целевого языка и текстом ограниченной длинны (можно использовать тот же speakerpy, но я написал свою утилиту по мотивам).
Можно поступить проще - поставить Pinokio и через него установить Forge. При необходимости через него же большая часть локальных моделей ставится и запускается.
миллионы лет наши предки передвигались на четвереньках, и их нервная система отполировала синхронную работу всех конечностей
Мне кажется, что дело не в том как передвигались наши предки, а в том как выглядит наименее энергозатратный паттерн движения при распределении масс человека. С детства ребенок пробудет разные способы перемещения, но запоминает и дальше адаптирует наиболее удачные. Так же как работает мышечная память для других задач, например для игры на гитаре, где запоминаются положения пальцев.
К слову, если посмотреть на то как растут котята, на них хорошо видно как они меняют способы перемещения от почти случайного перемещения лап до классической кошачьей походки. А у лошадей есть иноходцы (они сначала обе левые ноги переставляют, потом обе правые), потому что их распределение масс позволяет использовать такой паттерн без существенного повышения энергозатрат.
Загнать документы в RAG (ну или GraphRAG) и большая часть моделей будет отвечать на уровне студента (желательно брать модели с большим контекстом). У меня документация так индексируется - на большинство вопросов локальный deepseek нормально отвечает.
Я вот этими пользуюсь: картинку в модельку - TRELLIS, модельку по запросу - Luma. Обе онлайн работают, устанавливать ничего не нужно, но есть ограничение на число запросов.
Изначально я так и делал. Но тут есть несколько моментов:
Иногда я смотрю интервью на языках отличных от русского и английского. Их нужно переводить, что проще сделать с текстом;
Аудио содержит музыку, длинное молчание, рекламу, на интервью часто бывает что гость кучу мычания и междометий выдает. Это все убирает LLM, оставляя только осмысленную речь;
Бонусом, после такой обработки, интервью и подкасты больше чем в два раза сокращаются.
Из минусов - все говорят одним голосом, но мне это подходит.
Управление реализовано через стандартный класс Robot, присутствующий в Java. Бот выполняет команды на моем домашнем компьютере, на этом же компьютере он и запущен. Так же к компьютеру подключен модуль SIM800 для получения SMS из банка. Суть в том, что как только у меня менялся IP - СБ мне блокирована вход в личный кабинет и просили подтвердить что я не верблюд. Так как бот открывает банк на том же компьютере - IP не меняется и мне не блокируют доступ.
Озвучка сделана через Silero models используя обертку speakerpy, которая преобразует числа в текст и разбивает статью на небольшие фрагменты. Сейчас использую два голоса, для русского xenia, для английского - en_5. По произношению они мне больше всего понравились.
У сейчас три активных бота. Вместо ссылок будет описание, потому что они доступные только мне по захардкоженному id:
Бот для удаленного управления компьютером. Позволяет очень медленно открыть браузер в нем что-то понажимать и выполнить несколько команд на компьютере. Писал его для обхода СБ одного банка, потому что они блокировали мне аккаунт каждый раз когда я заходил в личный кабинет из другого города;
Бот для генерации фраз на сайтах знакомств. По фотографии и описанию анкеты придумывает фразы, с которых можно начать диалог с девушками. Не все функции успел реализовать, так как в нем отпала необходимость;
Бот для чтения статей и переозвучки видео. Обычный TTS оформленный в виде бота. Качает статью по ссылке, при необходимости переводит ее, и озвучивает. Если ссылка на Youtube - качает субтитры, преобразует их в читаемый текст и озвучивает его.
Если будет интересно - могу описать подробнее работу ботов или дать ссылку на исходники.
Если не это не секретная информация, то какие камеры вы используете на этих роботах? Правильно ли я понимаю, что глубина определяется по лидару, что будет если на него попадет снег или пыль?
Планируете ли добавлять анимации для упражнений, чтобы было наглядно видно как его выполнять?
Можете подробнее объяснить как робот ориентируется на местности. Например вы ему говорите - "Принеси бутылку воды с кухни и поставь на мой стол". Как робот понимает где находится кухня и что это такое? Ему за ранее показывают локацию, он как-то ищет кухню по предметам (холодильник, плита), он просто ищет бутылку?
И второй момент, я правильно понимаю, что робот может делать только те действия, которые описаны в DSL у VLA модели? То есть если я его попрошу повторять за мной какое-то действие, например погладить кота, то но не сможет его повторить без переобучения моделей. Какие сейчас действия он может выполнять, есть ли какое-то ограничение по количеству или сложности? Например чтобы помыть пол нужно отслеживать не только состояние швабры, но и чистоту воды и уже помытую область, более того нужно стараться мыть так, чтобы не ходить по чистому. Сможет ли робот с подобной архитектурой это все отслеживать?
Каким образом у вас реализовано восстановление после обнаружения ошибки? Например что будет если пользователь передаст в ваш парсер вот такой JSON:
{ "array": [ 1, 2 3, 4], "object": { "a": true "b": null } }. Здесь есть две ошибки с пропущенными запятыми, одна в массиве, одна в объекте. С точки зрения пользователя ожидается что парсер вернет обе ошибки, а так же какие точены парсер ожидал получить в этих местах.Я не совсем понимаю как работают правила
t_true,t_null,t_stringи т.д. Какой объект я получаю, когда пишу подобное правило, как мне получить информацию о том, в каком месте исходного текста находится указанный токен. С точки зрения разработчика DSL мне нужно иметь возможность ссылаться на любой токен исходного текста для подсветки ошибок и перехода между определениями. В идеале у меня должен быть доступ не только с пробельным символам, но и к следующему/предыдущему токенам.Не нашел ничего про инкрементальный парсинг. Это важный момент для работы с большими файлами. Пользователь может с радостью открыть какой-нибудь XML на 200Мб и начать его править.
Очень необычный синтаксис. Не хватает простых примеров, на которых можно будет по шагам разобраться какие конструкции чему соответствуют. Например, начать с простого парсера который парсит только
trueиfalse, затем добавить возможность парсить еще и числа, затем массив разделенный запятыми, потом показать как работать с кардинальностью (?/+/*) и альтернативами. Дальше уже разные типы токенов, комментарии и другие возможности парсера.PS: На C++ не программирую, возможно чего-то не понял.
Про пылесос - посмотрите формулу перспективной проекции, используется для преобразования из морового 3д в экранное 2д. Например вот в этой статье есть картинки с выводом и примером. Вам нужно позицию пылесоса немного наклонить и отодвинуть от камеры, а потом выполнить проекцию полученной точки на экран.
Добавьте, пожалуйста, табличку с результатами всех тестов в конец статьи, чтобы было бы понятнее. Сложно сравнивать производительность выискивая результаты в тексте.
Можете объяснить пару моментов:
На существующих видеокартах многие блоки для машинного обучения в принципе не нужны, например растеризатор, буфер кадра и весь геометрический конвейер. Вы планируете полностью повторять архитектуру GPU с этими блоками или все же будете реализовывать только то, что необходимо для работы нейросетей?
Как вы планируете добавлять поддержку существующих фреймворки машинного обучения? Даже при наличии библиотеки-обертки с реализацией CUDA/Vulkan API нужно еще уметь компилировать ядра фреймворков под вашу архитектуру, а ядра по большей части оптимизированы под работу с NVidia.
Проблемы с согласованием если и есть, то мне они в глаза не бросаются, по крайней мере на паре русский-английский. Возможно для литературного перевода эта модель не подходят, но у меня был выбор только среди 8b моделей и я выбрал ту, которая показала лучший результат в моих тестах. Если когда-нибудь обновлю видеокарту, буду выбирать модели побольше.
Я использую 8b модельку от яндекса для перевода и сокращения текста.
Я для перевода/суммаризации недавно перешел на модельку от яндекса (yandexgpt-5-lite-8b-instruct). По ощущениям перевод у нее лучше получается, плюс ошибок с переходом на английский нет. Хотел еще модельки от тинькова попробовать, но руки пока не дошли.
В своём проекте я использую локальные модели Silero Models. Для озвучки больших текстов существует готовая обёртка speakerpy, которая автоматически разбивает текст на предложения и конвертирует числа в слова. Если нужно статьи озвучить можно через trafilatura получать текст и сразу отправлять на озвучку, книги аналогично. На моём компьютере за 15 минут генерируется примерно час аудио - этого более чем достаточно даже при прослушивании на повышенной скорости.
Из недостатков:
Часто неправильно расставляются ударения (для моего проекта не критично).
Поддерживаются только некоторые популярные языки (мне достаточно поддерживаемых русского и английского).
Требуется предобработка и нормализация текста, так как модель работает только с символами целевого языка и текстом ограниченной длинны (можно использовать тот же speakerpy, но я написал свою утилиту по мотивам).
Можно поступить проще - поставить Pinokio и через него установить Forge. При необходимости через него же большая часть локальных моделей ставится и запускается.
Мне кажется, что дело не в том как передвигались наши предки, а в том как выглядит наименее энергозатратный паттерн движения при распределении масс человека. С детства ребенок пробудет разные способы перемещения, но запоминает и дальше адаптирует наиболее удачные. Так же как работает мышечная память для других задач, например для игры на гитаре, где запоминаются положения пальцев.
К слову, если посмотреть на то как растут котята, на них хорошо видно как они меняют способы перемещения от почти случайного перемещения лап до классической кошачьей походки. А у лошадей есть иноходцы (они сначала обе левые ноги переставляют, потом обе правые), потому что их распределение масс позволяет использовать такой паттерн без существенного повышения энергозатрат.
Я где-то по четыре-пять запросов делаю раз в неделю, до лимита не доходил.
Загнать документы в RAG (ну или GraphRAG) и большая часть моделей будет отвечать на уровне студента (желательно брать модели с большим контекстом). У меня документация так индексируется - на большинство вопросов локальный deepseek нормально отвечает.
Я вот этими пользуюсь: картинку в модельку - TRELLIS, модельку по запросу - Luma. Обе онлайн работают, устанавливать ничего не нужно, но есть ограничение на число запросов.
Изначально я так и делал. Но тут есть несколько моментов:
Иногда я смотрю интервью на языках отличных от русского и английского. Их нужно переводить, что проще сделать с текстом;
Аудио содержит музыку, длинное молчание, рекламу, на интервью часто бывает что гость кучу мычания и междометий выдает. Это все убирает LLM, оставляя только осмысленную речь;
Бонусом, после такой обработки, интервью и подкасты больше чем в два раза сокращаются.
Из минусов - все говорят одним голосом, но мне это подходит.
Управление реализовано через стандартный класс Robot, присутствующий в Java. Бот выполняет команды на моем домашнем компьютере, на этом же компьютере он и запущен. Так же к компьютеру подключен модуль SIM800 для получения SMS из банка. Суть в том, что как только у меня менялся IP - СБ мне блокирована вход в личный кабинет и просили подтвердить что я не верблюд. Так как бот открывает банк на том же компьютере - IP не меняется и мне не блокируют доступ.
Озвучка сделана через Silero models используя обертку speakerpy, которая преобразует числа в текст и разбивает статью на небольшие фрагменты. Сейчас использую два голоса, для русского
xenia, для английского -en_5. По произношению они мне больше всего понравились.У сейчас три активных бота. Вместо ссылок будет описание, потому что они доступные только мне по захардкоженному id:
Бот для удаленного управления компьютером. Позволяет очень медленно открыть браузер в нем что-то понажимать и выполнить несколько команд на компьютере. Писал его для обхода СБ одного банка, потому что они блокировали мне аккаунт каждый раз когда я заходил в личный кабинет из другого города;
Бот для генерации фраз на сайтах знакомств. По фотографии и описанию анкеты придумывает фразы, с которых можно начать диалог с девушками. Не все функции успел реализовать, так как в нем отпала необходимость;
Бот для чтения статей и переозвучки видео. Обычный TTS оформленный в виде бота. Качает статью по ссылке, при необходимости переводит ее, и озвучивает. Если ссылка на Youtube - качает субтитры, преобразует их в читаемый текст и озвучивает его.
Если будет интересно - могу описать подробнее работу ботов или дать ссылку на исходники.
Настолько я знаю GraphRAG умеет в кластеризацию документов. Через глобальный поиск находит котиков, потом только по ним ищет.
Если не это не секретная информация, то какие камеры вы используете на этих роботах? Правильно ли я понимаю, что глубина определяется по лидару, что будет если на него попадет снег или пыль?