есть мнение, что с md файлами напрямую модели работают лучше, чем с json через mcp. Сам не проверял, но если подумать, то тот же CLAUDE.MD подсовывется не через json
Вместо ответа на вопрос, который задан без сарказма, как сейчас tess справляется с фото с тенями и перспективыными искаженями, т. к. раньше с этим у него были проблемы, вы зачем то ещё раз и в токсичной форме написали, в чем tess лучше...
Недавно также столкнулся с созданием лендинга. В peplexity labs (аналог чат-gpt и подобных) отправил запрос:
"в соответствии с аналитикой ниже разработан веб сервис. Разработай html для размещения на diworld.ru с ссылкой на app.diworld.ru. Задача html кратко доносить суть сервиса, легко находиться в поисковых системах и направлять пользователей на app.diworld.ru. Перед созданием html согласуй со мной контент, который планируешь на нем разместить."
в ответ perplexity спросил:
❓ Вопросы для уточнения:
Основной целевой аудиторий на старте: Домашние пользователи? Малый бизнес? Оба?
Примеры скриншотов интерфейса app.diworld.ru для демонстрации?
Отправил ответ на вопросы: 1. оба 2. да, сервис абсолютно бесплатный, подчеркнуть это. 3. Да, посыл такой: сервис работает с форматами, которые поддерживает ваш браузер (большинство поддерживают mp4 и webm). Для других форматов может потребоваться конвертация. Максимальный размер видео 1 Gb 4. SEO-приоритеты исследуй и предложи сама. "поиск движения в видео онлайн", "анализ видеозаписей бесплатно" - подходит 5. Дизайн сделай соответствующий app/diworld.ru. Скриншот приложил
Через 20 мин сайт был залит на хостинг "как есть".
только его уже неделю не могут проиндексировать поисковики)
PS: держу в голове дату: 20 ноября 2022г (публичыный выход Chat GPT). После этого вероятность найти в интернете контент созданный человеком, а не ИИ, с ее проблемами галлюцинаций, становится все ниже...
Классические алгоритмы cv достаточно быстрые. Поиск метки на HD (1280х720) кадре и расчет позиции в 3D пространстве у меня занимет около 10мс на десктопе (комп. 2023г) и ~30мс на миникомпьютере Orange Pi Max. Кроме распознавания в это время входит обработка результатов различным фильтрами (медианный, Калман и т.п.) и отрисовка HUD (вывод результатов на кадре и отображение кадра). GPU не используется, все на CPU. Для большинства риалтайм приложений этого достаточно.
Погрешность сильно зависит от размера маркера и расстояния до него, разрешения камеры, что очевидно, а также доп. настроек алгоритма (например включение параметра субпиксельной точности при детекции AruCo маркера), точности калибровки камеры и точности соответствия реальных размеров распознанного объекта и переданных алгоритму для расчета. Также, если ваша камера или объект в движении, то будет играть роль выдержка камеры (смазанность движущегося объекта в кадре) и при наличии смазанности - тип затвора камеры (global shutter или rolling shatter).
Если используете один квадратный маркер, то будут проблемы определения перпендикуляра к маркеру, если смотреть строго с фронта. Отклонение по углу при взгляде сбоку будет на уровне 0.5 градусов, а в "фас" уже до 5 градусов.
Проводил экспериметы. Для двух маркеров размером 6х6 см точность сантиметровая на расстояниях до 2.5-3 метров, с камерой HD (1280х720). Дальше 3х метров маркер слишком мелкий для распознавания. Вот на видео один из экспериментов https://youtube.com/shorts/J3cVfUyGl9o?si=cRxSzjGsgyy25me1
Чтобы добиться уверенного позиционирования мне пришлось кроме перебора разных алгоритмов и настроек распознавания также обрабатывать результаты с помощью фильтра Калмана, без этого результаты были слишком шумными, особенно когда метка или камера в движении.
Как итог: между теорией и практическим внедрением этой технологии довольно большая пропасть. Но ничего сверх сложного здесь нет, просто отладка потребует времени и усилий.
Статья зацепила. Спасибо! Не знал, что столько разработчиков из России внесли свой вклад. Круто! Активно использую OpenCV в проектах. Прямо сейчас, во время чтения статьи, параллельно тренировался алгоритм (для беспилотного транспорта), определяющий позицию по метке с помощью камеры и OpenCV.
работаю по похожей схеме, просто в папке с md файлами живет агент и в этой папке есть файл links.md, в котором ссылки на все проекты в других местах
не понимаю почему вас минусят. В профильтых обсуждениях действительно много жалоб, что MCP жрет токены более чем ожидается
есть мнение, что с md файлами напрямую модели работают лучше, чем с json через mcp. Сам не проверял, но если подумать, то тот же CLAUDE.MD подсовывется не через json
Дружище, спасибо тебе. Для меня прям открытие, сам не догадался бы.
Попросите агента, например cloud code, и он вам все настроит и проверит.
Ps: сам не пробовал, но в других задачах интеграции он справляется у меня нормально
Вместо ответа на вопрос, который задан без сарказма, как сейчас tess справляется с фото с тенями и перспективыными искаженями, т. к. раньше с этим у него были проблемы, вы зачем то ещё раз и в токсичной форме написали, в чем tess лучше...
Так-то нейронки и в fine reader в 2000г были.
Признаюсь, мой опыт с tesseract был в 22м году и больше к нему не возвращался.
В ваших тестах он "рвет" в том числе на фото с перспективой и тенями или в задаче идеального отсканированного тескта?
Вопрос снимаю. Невнимательно прочитал
А что-нибудь из перечисленного умеет формуры из md разметки делать?
Как здесь https://readmd.diworld.ru/
так можете попробовать:
присылайте макет и требования, проверю. Только одностраничник желательно, а не корпоративный портал)
действительно, анимация на сворачивание кривая. Не заметил сначала даже. Спасибо, что подсказали.
Оцените пжлст также критически лендинг от ИИ в посте ниже)
Недавно также столкнулся с созданием лендинга.
В peplexity labs (аналог чат-gpt и подобных) отправил запрос:
"в соответствии с аналитикой ниже разработан веб сервис. Разработай html для размещения на diworld.ru с ссылкой на app.diworld.ru. Задача html кратко доносить суть сервиса, легко находиться в поисковых системах и направлять пользователей на app.diworld.ru. Перед созданием html согласуй со мной контент, который планируешь на нем разместить."
в ответ perplexity спросил:
❓ Вопросы для уточнения:
Основной целевой аудиторий на старте: Домашние пользователи? Малый бизнес? Оба?
Сообщение о цене:
Упоминать, что сервис бесплатный/freemium?
Или оставить это для app.diworld.ru?
Технические детали:
Нужна ли информация о поддерживаемых форматах (MP4, AVI, MKV)?
Размер максимального видеофайла?
SEO-приоритеты:
На какие ключевые слова нужно ориентироваться? (например: "поиск движения в видео онлайн", "анализ видеозаписей бесплатно")
Дизайн:
Использовать фирменные цвета diworld.ru?
Примеры скриншотов интерфейса app.diworld.ru для демонстрации?
Отправил ответ на вопросы:
1. оба
2. да, сервис абсолютно бесплатный, подчеркнуть это.
3. Да, посыл такой: сервис работает с форматами, которые поддерживает ваш браузер (большинство поддерживают mp4 и webm). Для других форматов может потребоваться конвертация. Максимальный размер видео 1 Gb
4. SEO-приоритеты исследуй и предложи сама. "поиск движения в видео онлайн", "анализ видеозаписей бесплатно" - подходит
5. Дизайн сделай соответствующий app/diworld.ru. Скриншот приложил
Через 20 мин сайт был залит на хостинг "как есть".
только его уже неделю не могут проиндексировать поисковики)
PS: держу в голове дату: 20 ноября 2022г (публичыный выход Chat GPT). После этого вероятность найти в интернете контент созданный человеком, а не ИИ, с ее проблемами галлюцинаций, становится все ниже...
если кому то интересно посмотреть на результат запуска кода выше)
CTRL+Y
если надо удалить прям глобально, то с правами администратора в командной строке:
format C: /q /autotest
не благодарите
Классические алгоритмы cv достаточно быстрые. Поиск метки на HD (1280х720) кадре и расчет позиции в 3D пространстве у меня занимет около 10мс на десктопе (комп. 2023г) и ~30мс на миникомпьютере Orange Pi Max. Кроме распознавания в это время входит обработка результатов различным фильтрами (медианный, Калман и т.п.) и отрисовка HUD (вывод результатов на кадре и отображение кадра). GPU не используется, все на CPU. Для большинства риалтайм приложений этого достаточно.
Погрешность сильно зависит от размера маркера и расстояния до него, разрешения камеры, что очевидно, а также доп. настроек алгоритма (например включение параметра субпиксельной точности при детекции AruCo маркера), точности калибровки камеры и точности соответствия реальных размеров распознанного объекта и переданных алгоритму для расчета. Также, если ваша камера или объект в движении, то будет играть роль выдержка камеры (смазанность движущегося объекта в кадре) и при наличии смазанности - тип затвора камеры (global shutter или rolling shatter).
Если используете один квадратный маркер, то будут проблемы определения перпендикуляра к маркеру, если смотреть строго с фронта. Отклонение по углу при взгляде сбоку будет на уровне 0.5 градусов, а в "фас" уже до 5 градусов.
Проводил экспериметы. Для двух маркеров размером 6х6 см точность сантиметровая на расстояниях до 2.5-3 метров, с камерой HD (1280х720). Дальше 3х метров маркер слишком мелкий для распознавания. Вот на видео один из экспериментов https://youtube.com/shorts/J3cVfUyGl9o?si=cRxSzjGsgyy25me1
Чтобы добиться уверенного позиционирования мне пришлось кроме перебора разных алгоритмов и настроек распознавания также обрабатывать результаты с помощью фильтра Калмана, без этого результаты были слишком шумными, особенно когда метка или камера в движении.
Как итог: между теорией и практическим внедрением этой технологии довольно большая пропасть. Но ничего сверх сложного здесь нет, просто отладка потребует времени и усилий.
Статья зацепила. Спасибо! Не знал, что столько разработчиков из России внесли свой вклад. Круто!
Активно использую OpenCV в проектах. Прямо сейчас, во время чтения статьи, параллельно тренировался алгоритм (для беспилотного транспорта), определяющий позицию по метке с помощью камеры и OpenCV.
Смешная шутка