Обновить

Разработка

Сначала показывать
Порог рейтинга

В открытом репозитории «A to Z Resources for Students» представлены ресурсы для обучения Python, PHP, Ruby, C++, C#, Machine Learning и нейросетями, а также всё про разработку на Android и много материалов про Frontend и Backend.

Теги:
Всего голосов 2: ↑2 и ↓0+4
Комментарии0

Как правильно откатывать миграции? Если коротко, то никак.

В продакшене миграции могут идти только вперед. Какого? Откат миграции во время ролбека (при неудачном деплое) во-первых сильно усложняет всю процедуру, во-вторых, в теории, может ее некисло замедлить, уже не говоря про потенциальные локи на время отката. На фоне этого возможны ошибки, которые приведут всю систему в неконсистентное состояние.

Ролбек, в идеале, это просто переключение с одной версии кода на другую. Но ведь тогда возможны ошибки связанные с изменениями в базе? Если делать через жопу, то возможны. При правильном подходе, база всегда обратно совместима как минимум на одну версию. Только в этом случае мы можем обеспечить и бесшовный деплой (zero downtime deploy) и практически моментальный откат.

А это значит, что нельзя менять тип у колонок (если тип сужается), нельзя менять именования таблиц и полей. Если это все таки нужно, то существует немало техник, позволяющих сделать переход через создание новых сущностей и синхронизацией либо через код либо через саму базу (например с помощью триггеров). По этой теме даже написали целую книгу "Refactoring Databases: Evolutionary Database Design".

Получается, что любые ошибки в базе будут только накапливаться? Не совсем. Обратная совместимость обычно нужна только на текущую и следующую версию. Если у нас не коробка, а облачное решение, то одновременно могут работать только две версии. В таком случае, мы без проблем можем писать любые миграции, которые удаляют и меняют все что угодно, что уже не используется. Заметьте, это не откат, а новые миграции.

А вот в разработке откат миграции конечно же удобен. Пока код еще не слит в основную ветку или лежит только локально, то мы без проблем можем откатить и удалить миграции, которые сами же недавно создали, но в процессе проработки поняли что они нам не нужны или их нужно переделать.

Больше про разработку в моем телеграм-канале организованное программирование

Теги:
Всего голосов 8: ↑6 и ↓2+5
Комментарии2

ImageSorcery 01 - Как я свой open source вайбкодил
ImageSorcery 02 - Превращение ImageWizard в ImageSorcery

Это серия постов от идеи ImageSorcery до 100+ звёзд на гитхабе и 100+ ежедневных установок с PyPI.

В прошлый раз мы выяснили, что при правильной настройке бесплатных инструментов, бесплатная LLM Gemini может оказаться не хуже Claude в написании документации. И закончили на вопросе, почему никто раньше не привязал MCP к ImageMagic?

А вот почему

Первым делом после звонка с Системным Аналитиком я дал Cline в своём VSCode право на запуск команд в терминале. Затем взял первый попавшийся скриншот мобильного приложения и попросил вырезать NavBar используя ImageMagic. Gemini flash вырезал какую-то случайную часть экрана.

crop "на глаз"
crop "на глаз"

Я переключился на Gemini pro - результат тот же. o3 от OpenAI и Sonnet от Anthropic также облажались.

Долго думал. Я знал что все эти модели мультимодальные и наверняка знают что такое NavBar. Тут явно что-то не сходилось. Я полез раскрывать свёрнутые секции их размышлений и обнаружил что: 

  1. Все они понимают, что изображено и “видят” NavBar. 

  2. Никто из них не способен вычислить точные координаты этого NavBar.

  3. Они даже размеров изображения не знают. 

Из-за чего все они действовали наугад.

Оказывается LLM не умеют определять точные координаты объектов, которые они видят, не говоря уже про их точную геометрию.

В этом и крылся ответ на вопрос “а чего раньше это никто не сделал?”. 

С этой дилеммой я пошёл к Gemini. Сокращённая переписка:

👤: какой аналог npmjs.com для питона?
🤖: PyPi

👤: у него сайт есть?
🤖: pypi.org

👤: порекомендуй мне 5 - 10 пакетов для распознавания изображений на python моя задача - определять координаты объектов для будущего crop
ИИ: Pillow, OpenCV, scikit-image, TensorFlow Object Detection API, Detectron2, YOLO, Tesseract OCR, SimpleCV, imutils. Рекомендации:
1) Начните с OpenCV или scikit-image.
2) Если вам нужна более высокая точность или нужно распознавать определенные типы объектов, рассмотрите TensorFlow Object Detection API, Detectron2 или YOLO.
3) Используйте Pillow для загрузки, сохранения и предварительной обработки изображений.
4) Используйте imutils для упрощения работы с OpenCV.
5) Если вам нужно распознавать текст, используйте Tesseract OCR.

👤: расскажи подробней про opencv imutils pytorch и yolo
🤖:
- OpenCV - это фундаментальная библиотека для компьютерного зрения, предоставляющая широкий спектр алгоритмов для обработки изображений и обнаружения объектов.
- imutils - это набор удобных функций, которые упрощают работу с OpenCV.
- PyTorch - это мощный фреймворк машинного обучения, который можно использовать для построения и обучения сложных моделей обнаружения объектов.
- YOLO - это семейство алгоритмов обнаружения объектов в реальном времени, известных своей скоростью и точностью.

👤: важный момент. я не хочу обучать модели сам. мне нужен готовый инструмент
🤖: Начните с OpenCV + YOLO от Ultralytics

Как можно заметить, я не силён в python от слова совсем 😅. Но я выбрал его, потому что осведомлён о его большой экосистеме инструментов ML в общем и компьютерного зрения в частности. 

И так стек найден. И с удивлением для меня, места для ImageMagic в нём не нашлось, ведь все необходимые инструменты для обработки уже есть в OpenCV.

А что стало с названием ImageWizard?

Тут всё банально. Я погуглил - это название уже занято приложением в сфере обработки изображений с ИИ 🤷. Пришлось найти незанятое. Но постарался оставить отсылку на ImageMagic

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Вебинар «Бизнес vs Безопасность: соблюдаем баланс правильно»

4 сентября в 11:00 состоится вебинар, где эксперты ГК InfoWatch расскажут, как найти эффективный баланс между ИБ и бизнесом и выстроить надежную систему защиты информации.

На вебинаре обсудим:

  • какие ошибки чаще всего совершают компании при выстраивании системы защиты внутренних данных;

  • почему антивирусов и NGFW недостаточно для информационной безопасности;

  • подходы InfoWatch к выстраиванию «умной защиты» в интересах бизнеса.

Покажем практическое демо по выстраиванию защиты информации с помощью решений InfoWatch.

Зарегистрируйтесь по ссылке.

Теги:
Всего голосов 2: ↑2 и ↓0+4
Комментарии0

Привет! Сегодня отмечается День знаний и пока школьники начинают новый учебный год, напоминаем про важность ИБ-обучения сотрудников. По данным нашего исследования, 67% утечек информации по вине работников происходят из-за невнимательности, ошибок и незнания основных ИБ-правил. Снизить число случайных инцидентов поможет прокачка киберграмотности.

Подготовили к празднику обои с базовыми ИБ-советами. Они позволят сотрудникам избежать самых частых ошибок при защите информации и всегда будут под рукой.

Для удобства оставляем ссылки на обои для Full HD и Quad HD мониторов.

Теги:
Всего голосов 5: ↑5 и ↓0+7
Комментарии0

На днях посмотрел два видео по рынку ИТ, в том числе с фокусом на российский сегмент (раз и два).

За завесой рассказов про ИИ, vibe coding, T-shape, динамику Восточной Европы и прочим анализом в тени остался, на мой взгляд, самый важный вопрос, на который можно ответить "да" или "нет". 

Способен ли "вкатун" - человек без коммерческого опыта, выучивший ответы для прохождения собеседования - удовлетворять потребностям компании, куда его наняли?

То есть достаточно ли для компании того, что задачи будут выполняться человеком, который на ходу будет находить способы их решения, не важно какие и как.

Приносит ли такой сотрудник по факту больше пользы, чем вреда, и стоит ли он своих денег.

Если да, то ваши годы опыта, полученные в бою знания, институтская теория больше не стоят примерно ничего, кто бы что ни говорил, вы стоите в общей очереди со всеми.

Они могут дать вам только полезные знакомства, и вы обойдете сам процесс найма.

Поэтому работникам придется адаптироваться, находя новые подходы к прохождению собесов, или менять профессию.

Если нет, то компаниям срочно надо менять подходы к найму, о чем было сказано многократно, а текущие тенденции временные и будут сглажены самим рынком.

А как думаете вы?

Теги:
Всего голосов 2: ↑1 и ↓1+2
Комментарии0

Как собрать личного бизнес-ассистента в Telegram с n8n

Я подготовил пошаговый разбор того, как за 15 минут развернуть ИИ-агента, который ведет заметки, ставит задачи, бронирует встречи, а также присылает последние новости из ваших источников.

В видео вы узнаете:

• Из каких частей состоит ИИ-агент и что он умеет;

• Как настраивать интеграции с Telegram, OpenAI и Google-сервисами;

• Как сделать флоу агента для администратора в роли личного секретаря;

• Как собрать флоу агента для консультаций клиентов или коллег;

• Как подключить RAG-систему для более точных ответов, используя загруженную информацию.

Такой Telegram-ассистент поможет автоматизировать рутину, разгрузить голову, ускорить работу и быть в курсе последних новостей своей индустрии. Также отправляю готовый шаблон, чтобы вы могли протестировать агента у себя.

Что нужно сделать, чтобы всё заработало:

1. Импортируйте шаблон в n8n (содержимое JSON можно просто скопировать в рабочую среду).

2. Вставьте свои ключи: OpenAI, Telegram-бота и Google.

3. Укажите ID таблиц, календаря, пользователя в условном операторе и канала.

4. Добавьте свои статьи, документы или книги в RAG — и готово.


Это быстрый способ вкатиться в автоматизацию на n8n и почувствовать, как ИИ реально экономит время и делает работу удобнее. Если давно хотели попробовать собрать собственного ИИ-агента, но не знали, с чего начать — это отличный старт.

В следующем видео разберем больше сценариев и расширим функциональность нашего агента. Подписывайтесь на Youtube-канал, если хотите видеть чаще подобный контент.

Теги:
Всего голосов 5: ↑3 и ↓2+1
Комментарии0
Сгенерировано AI
Сгенерировано AI

В предыдущем посте мы рассказали, как мы разработали решение NSR Specification для автоматизации экспертизы цифровых информационных моделей (ЦИМ).

🚆 Сегодня хотим поделиться, как мы смогли проверить работоспособность своих инструментов обработки требований в рамках пилотного проекта с РЖД!

•  Мы очень хотим выпустить универсальный инструмент, который действительно будет работать на практике. Именно поэтому нам важны пилотные проекты, в ходе которых мы дорабатываем свой функционал.

•  Вторая наша цель – весьма прозаическая. Давайте смотреть правде в глаза: мы занимаемся разработкой решения, пока не имеющего аналогов. И сталкиваемся с необходимостью доказывать свою эффективность.

В теории, конечно, возможность создания цифровых требований, которые смогут программировать ПО проектировать без ошибок, в соответствии со стандартами, – это очень круто.  А на практике – никто не знает, будет ли это работать.

🔈 Поэтому нам надо показывать и доказывать. Форсировать интерес, создавать спрос. И когда РЖД согласились показать нам свою ЦИМ, чтобы мы смогли попробовать применить наши сценарии проверки, это была фантастическая возможность! Спасибо коллегам!

Подобных пилотных проектов мы провели уже больше десяти. Каждый раз рождались на свет новые фичи. И каждый раз нам казалось, что мы готовы к промышленной эксплуатации. Наивные мы.

Укрупненный список вызовов:

1️⃣ РЖД использует свой отраслевой классификатор для описания элементов ЦИМ. И он прекрасен, потому что позволяет обеспечить настоящую информационную полноту модели.

Решено было использовать только его и не добавлять новых атрибутов (обычно мы добавляем характеристики элементам, значения которых задаем на основе визуального осмотра, расчета на основе других значений, или запрашиваем информацию у заказчика).

2️⃣ ЦИМ была передана в формате ifc. А проверки решено было запускать в CADLIB Модель и Архив. Из-за этих факторов мы не смогли использовать некоторые структурные связи элементов.

3️⃣ Требований для пилота было отобрано немного. Всего четыре. Зато каких! Тут тебе и табличный формат, и заковыристые формулировки, и расчетные значения, которые нам надо было преобразовывать в формулы.

4️⃣ Одно из требований устанавливало минимальные расстояния в свету. Специально для таких случаев у CADLIB МиА есть функционал проверки минимального расстояния в плане. А вот у нас в Модуле семантического анализа требований не оказалось нужного инструмента для передачи данной особенности. Пришлось реализовывать!

И вот счастливый финал: мы показываем коллегам из РЖД результаты наших экспериментов...

И слышим в ответ, что мы не учли важный момент:

Нормативное требование устанавливает минимальное расстояние между осями трубопроводов, а CADLIB МиА измеряет расстояние между стенками труб. В самом требовании этот нюанс прямым текстом не озвучен. Но специалисты-то знают!

Нужно пересчитать.

О счастье, у нас получилось и это!
С костылями и молитвами (ибо прямого указания нет), но получилось!

СМОТРИТЕ ВИДЕО: RuTube, VK Видео, YouTube

Было невероятно приятно получить такой комментарий:

Гуменюк Алексей, заместитель начальника Центра компетенций по внедрению ТИМ, «РЖД»:

Когда на первой встрече нам продемонстрировали возможности разрабатываемой системы, мы не поверили своим глазам, это какое-то «шаманство», не иначе. И мы ушли думать какую задачку можно скормить этой машине. Вскоре вернулись с ТЗ, моделями и выдержками из нормативной документации, дополнили устными комментариями, что бы хотелось видеть по итогу. Спустя несколько недель коллеги вернулись с отчетной презентацией… и снова «шаманство», но уже с нашими моделями и под наши задачи.

Несмотря на то, что программа в активной стадии разработки, уже сейчас видны перспективы автоматизации проверки ЦИМ. Коллеги прекрасно справились с поставленными задачами и даже решили задачу со звездочкой. Понятно, что для того, чтобы машина заработала в полную силу, нужны качественные, выполненные по EIR модели и полный каталог машиночитаемых требований. Но это только начало, дальше – больше.

Теги:
Всего голосов 3: ↑3 и ↓0+5
Комментарии0

Гипер Лингвист - это двусторонний нейросетевой переводчик между 27 языками мира. Им удобно переводить тексты туда-сюда между родным языком и иноземным, выбирая наиболее подходящие формулировки.

Под капотом у него разные версии GPT4, поставляемые через GitHub Models, завёрнутые в $mol_github_model, который балансирует запросы по разным моделям и токенам, чтобы расширить бесплатные лимиты.

Я там захардкодил десяток токенов, чего хватит на 6К запросов в день. Кому не сложно помочь проекту - насоздавайте ещё десяток токенов со своего аккаунта, чтобы кратно расширить лимиты, и сделайте PR пришлите их мне. Эти токены дают доступ только к запуску моделей и ничего более. Только уберите ограничение по времени их действия, чтобы они вдруг не протухли.

Теги:
Всего голосов 4: ↑3 и ↓1+5
Комментарии0

С 1 сентября 2025 года в России вступили новые правила: все смартфоны и планшеты, продающиеся в стране, должны иметь предустановленный магазин приложений RuStore. На iPhone реализовать подобное невозможно, из‑за чего ритейлеры нашли обходное решение.

Магазины начали отмечать iPhone специальными пометками. У большинства сетей используется маркировка «без RuStore», а некоторые компании добавляют уточнение, что устройство имеет «недостаток». Такая формулировка юридически приравнивает смартфон к «бракованному» и позволяет покупателю вернуть его в течение года.

Теги:
Всего голосов 3: ↑2 и ↓1+3
Комментарии7

API для получения прогнозов по крипторынку от обученных ML-моделей допиливается. Пока только одна пара будет, но зато подъедет и графоний. То что вы видите, скорее всего, пойдет в прод, мне нравится.

Теги:
Всего голосов 11: ↑10 и ↓1+11
Комментарии4

Genspark запустил AI Designer для автоматической генерации брендинга

Компания Genspark представила AI Designer — инструмент, который создает полную систему брендинга от логотипа до веб-сайта по одному текстовому запросу. Новинка интегрирована в экосистему Genspark Super Agent и доступна бесплатно через веб-интерфейс.

Архитектура и возможности

AI Designer работает через агентскую архитектуру Genspark, планируя задачи и распределяя их между специализированными модулями. Система создает согласованные дизайн-активы без необходимости ручной координации между различными инструментами.

Генерируемые материалы включают:

  • Логотипы и цветовые палитры

  • Дизайн интерьеров и упаковки

  • Веб-сайты и лендинги

  • Рекламные макеты

  • Контент для социальных сетей

Система объединяет несколько экспертных агентов и множество инструментов для выполнения процесса от начала до конца. Это позволяет избежать переключения между разными сервисами и сократить циклы правок.

Техническая реализация

Платформа Genspark использует девять специализированных больших языковых моделей и более 80 интегрированных инструментов, динамически распределяя задачи между ними. AI Designer расширяет этот подход на область визуального дизайна и брендинга.

Особенность системы — шаблоны, которые отличаются от стандартных решений типа Canva образца 2010-х годов. Алгоритм адаптирует дизайн под конкретную задачу, а не использует готовые шаблоны.

Практическое применение

Ранние тесты сообщества показали способность инструмента создавать полные бренды за несколько минут, включая фирменный стиль, упаковку, меню и веб-макеты. Это делает решение полезным для стартапов и малого бизнеса, которым нужен быстрый результат без привлечения дизайн-команды.

Целевая аудитория:

  • Основатели стартапов

  • Маркетологи

  • Малый и средний бизнес

  • Команды, требующие быстрого создания брендинга

Контекст и конкуренция

Genspark позиционируется как поисковая система нового поколения с ИИ-агентами, которые глубоко понимают намерения пользователя и выполняют задачи от планирования до создания мультимедиа. AI Designer — логичное развитие этой концепции в сторону автоматизации креативных процессов.

Решение конкурирует с такими сервисами как Midjourney для генерации изображений и Canva для дизайна, но предлагает комплексный подход к созданию брендинга.

Доступность

Инструмент запущен в веб-приложении Genspark с функцией мгновенного доступа. Сохраняется бесплатная модель использования, что выделяет сервис на фоне конкурентов с платной подпиской.

Теги:
Всего голосов 2: ↑2 и ↓0+4
Комментарии0

Представлен открытый проект abogen для превращения любой книги в аудиокнигу. Поддерживает много языков, качественные голоса от одной из лучших моделей KokoroTTS. Если никакой голос не подходит — можно создать свой. Простая установка.

Теги:
Всего голосов 5: ↑5 и ↓0+9
Комментарии2

Ближайшие события

Давно хотел это написать, но как будто не было триггера и вот в пятницу я его поймал. Объясняю. Хочу выразить благодарность, чуть-чуть извиниться перед разработчиками Intellij Idea и простить их. Вот прям от души.

Когда-то в детстве я 3 года отучился игре на фортепиано, но переходный возраст (пиво, футбол и девки) победил и я ушёл из музыкальной школы. К чему я.. я программист уже 8 лет и я не встречал ничего прекрасней чем Intellij Idea.. ты не разрабатываешь - ты играешь на рояле... это автодополнение или как его назвать, подсказки, я просто в шоке. Не всегда угадывает что я хочу, но часто. Триггер я поймал когда добавлял новый объект в enum вида ERROR_INFO("text") и пока строчил название объекта представлял как лезу в переводчик, чтобы точно грамотно написать на английском текст, а Идея предложила мне текст, который я хотел написать, причём не все слова были в названии объекта.. как итог я прям счастлив от такой супер приятной мелочи (не факт что мелочи) и вот спустя два дня строчу этот пост, т.к. я прям обязан это сделать, не знаю почему. Я понимаю, что нейросети, но один и тот же салат Цезарь каждый повар делает по разному.

То, от чего я прям балдею:

  • shift + f6, переименовывает всё и везде - просто песня

  • ctrl + shifr + backspace - показывает всё что я поменял в классе, а не я глазами ищу строчки

  • ctrl + e - показывает классы в порядке убывания по использованию, не ищешь в браузере слева

  • в браузере жмёшь на значок цели вверху и тебе показывается где класс лежит буквально

  • в разделе гита смотришь изменения класса, нажимаешь f4 и тебе открывается этот класс

  • супер поиск ctrl+shift+f или просто два шифта

  • работа с базами данных просто сказка (даже Дата Грип редко открываю, его тоже люблю)

  • офигенные приколы типа ctrl+d с добавлением ниже второй такой же строки, удалить строку со смещением наверх shift+del

  • быстрый переход с ошибки на следующую ошибку с помощью f2

  • ctrl+p показать все ожидаемые параметры в методе

  • ctrl+shift+вверх/вниз гоняет как строку, так и целый кусок :)

  • и ещё дофига всего!!

В общем я счастлив, что моё хобби и работа это одно и то же, а то что есть Идея счастье увеличивает. Извиниться хочу, что я ни разу не покупал подписку. Она мне досталась после прохождения какого-то курса по Java, а сейчас вообще не могу купить, т.к. технически это невозможно из РФ. Здесь я прощаю Jet Brains, без пафоса, понять можно наверное (и на царей жёны давили :) Как смогу - обязательно куплю подписку, потому что это охренеть какой труд и верх перфекционизма для меня как для такого же любителя прекрасного!! И я хотел бы знать - это один такой перфекционист у них всё таки, или целая команда (в плане, что Идея именно такая какая есть). Кто этот "фундамент" образа?

Кто скажет, что пост рекламный - вы не правы! Просто признался в любви IDE :)) и стало легче! Пашем дальше..

Теги:
Всего голосов 6: ↑5 и ↓1+6
Комментарии4

В центре Москвы стали отображаться сигналы светофоров в приложении «Яндекс Карт» — ранее технологию представили в России и тестировали в Казахстане. Официального релиза нововведения пока не было, но похоже такая опция ожидается совсем скоро.

Теги:
Всего голосов 3: ↑3 и ↓0+5
Комментарии0

Инженеры из Гонконга разработали робота‑прыгуна, способного прыгать с грузом в девять раз тяжелее себя. Устройство представляет собой квадрокоптер с закреплённой снизу ножкой, оснащённой пружиной. Двигатели коптера ускоряются по направлению к земле, что позволяет скакуну запасать больше энергии для прыжка. Благодаря этому робот массой всего 220 граммов может переносить на себе груз весом два килограмма. Чтобы робот не терял равновесие и не падал, его бортовой компьютер оснастили нейросетью. Она в реальном времени вычисляет, под каким углом и с какой ориентацией аппарату следует приземлиться.

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Бывший топ-менеджер OpenAI и Facebook Питер Денг рассказал, что борьба за специалистов в сфере искусственного интеллекта ведет к все большему разрыву в зарплатах между исследователями и другими сотрудниками технологических компаний.

В подкасте Unsupervised Learning Денг пояснил, что компенсации ведущих специалистов растут стремительно, в то время как многие другие сотрудники, также вносящие значимый вклад в продукты и развитие компаний, получают существенно меньше. По словам Денга, «HR-отделам придётся в какой-то момент заняться этой проблемой».

Денг сравнил ведущих исследователей ИИ со спортивными звёздами, за которых IT-компании ведут ожесточённую борьбу. Подобные специалисты получают многомиллионные контракты и предложения от крупнейших игроков — OpenA, Anthropic, Perplexity, xAI и других. Аналогии со спортом звучат все чаще: вице-президент по ИИ в Databricks Навин Рао ранее называл таких учёных «Лебронами Джеймсами» мира технологий.

Однако за пределами «первой лиги» остаётся большое количество инженеров и специалистов, чьи доходы несопоставимы с уровнем ведущих исследователей. Это создаёт риск недовольства и дисбаланса внутри компаний.

Теги:
Всего голосов 2: ↑2 и ↓0+4
Комментарии0

ImageSorcery 01 - Как я свой open source вайбкодил

Скажу честно, я хотел написать статью, для того чтобы рассказать о своём проекте ImageSorcery MCP. Но не хотелось писать рекламный BS о том какой он крутой. Хотелось сделать месседж более личным и искренним. Так статья превратилась в серию постов-заметок о всех тех граблях инструментах и практиках, которые мне удалось попробовать на пути от идеи до 100+ звёзд на гитхабе и ~100 ежедневных установок с pypi. А так как я фанатик экономии, весь стек в основном бесплатный (включая LLM) и часто не самый популярный.

Рост звёзд на гитхабе
Рост звёзд на гитхабе

В компании где я работаю, у меня сложилась репутация, как это принято сейчас говорить, ИИ-энтузиаста. Из-за чего ко мне однажды обратилась Системный Аналитик, которая только начала внедрять RooCode и столкнулась с какой-то проблемой полнейшего тупняка ИИ. Бесплатная веб версия Claude на раз два превращала Верхнеуровневые Бизнес Требования заказчика в детально проработанное Техническое Задание. Но копировать туда-сюда - не продуктивно, а ещё лимиты эти… Решилась она попробовать рекомендованный мною RooCode с Gemini flash. Установила впервые IDE VSCode, запустила и поставила плагин RooCode, подключила Gemini модель и попыталась скормить ему ту же задачу, но в ответ получила какой-то откровенный бред. Вместе мы выяснили, что для адекватной работы RooCode (а ещё его предшественника Cline и, скорее всего, последователя Kilo Code) требуется не просто запустить VSCode, но ещё и создать в нём проект с соответствующей директорий где-то в системе. А если ещё и все материалы сложить в эту директорию - их можно не копипастить и даже не драгндропать, а меньшонить через @ что намного удобней. (Даже мне стало плохо от обилия англицизмов в этом предложении, извините). Кроме того, выяснилось, что промпт содержал помимо текста ещё ссылку на Figma дизайн. А RooCode, несмотря на то что может используя браузер, какую-то осмысленную деятельность с этой ссылкой вести. При наличии у него Figma MCP справляется гораздо эффективнее.

И теперь бесплатный Gemini flash под капотом RooCode засиял во всей красе. Промпты стали проще и читаемей. И благодаря доступу ко всем необходимым файлам (ВБТ и шаблон) и инструментам, RooCode ваншотом не просто создал качественное ТЗ в формате markdown (привет markdown preview плагин), но ещё и наполнил его нужными скриншотами прямо в теле документа, чего Claude не мог. 

Вот только осталась одна проблема: он использовал скриншоты целых экранов, и не смог их порезать на кусочки для документирования соответствующих секций: шапка, меню т.п.

Фигня война! - сказал я, — наверняка есть MCP который это делает. 

Погуглив вместе минут 15 мы обнаружили, что такого нет. Но так как нарезка экранов на скриншоты - привычная для системного аналитика задача, она поблагодарила меня за получившийся результат и убежала на другой звонок. А я остался сидеть глядя в пустой монитор с непониманием, почему такая простая и очевидная задача ещё не решена.

Так появилась идея ImageWizard - взять ImageMagic и прикрутить к нему MCP протокол.

А почему сейчас проект и называется иначе и никакой связи с ImageMagic не имеет, расскажу в следующей серии.

Теги:
Всего голосов 3: ↑1 и ↓2+1
Комментарии0

AI-синхронизация губ: от Wav2Lip до коммерческих решений

Технологии автоматической синхронизации движений губ с аудио перешли от исследовательских проектов к готовым продуктам. Современные сервисы создают реалистичное видео за секунды, где персонаж произносит любой текст с сохранением деталей лица.

Ключевые прорывы

Wav2Lip (2020, IIT Hyderabad) стал первой моделью, работающей без предварительного обучения на конкретном человеке. Исследование показало возможность генерации синхронизированного видео на основе GAN-архитектуры с дискриминатором, обученным отличать реальные движения губ от синтетических.

FaceFormer от Microsoft Research (2022) применил трансформерную архитектуру. Модель использует 6-слойный Transformer для обработки MFCC-признаков аудио и генерирует 768 3D-точек лицевых landmarks с учетом временных зависимостей.

Коммерческие решения

Lipsync 2.0 от Sync Labs работает как zero-shot модель без настройки. Поддерживает обработку видео с несколькими говорящими в кадре.

D-ID Creative Reality Studio генерирует говорящие аватары из статичных фото, ограничен 5-минутными роликами в базовой версии.

Synthesia ориентирована на корпоративный сегмент с готовыми AI-аватарами. Стоимость от $30/месяц за 10 минут видео.

Технические характеристики

Производительность:

  • CPU Intel i7: 1 секунда видео за 30-45 секунд обработки

  • GPU RTX 3060: соотношение 1:3

  • GPU RTX 4090: близко к real-time (1:1.2)

Метрики качества:

  • LSE-D (точность синхронизации): лучшие модели <8.0

  • SSIM (сохранение деталей): целевое значение >0.85

  • FID (реалистичность): оценка качества генерации

Практические применения

Стриминговые платформы: Netflix автоматизирует дубляж сериалов, сокращая локализацию с 3-6 месяцев до 2-3 недель.

Образование: Coursera тестирует многоязычные версии курсов с автоматической синхронизацией губ преподавателей.

Соцсети: TikTok экспериментирует с автопереводом популярных роликов, YouTube Creator Studio планирует функцию автодубляжа к 2026 году.

Ограничения

Качество исходного материала: требует четкого видео минимум 256×256px с углом поворота головы ±30° от фронтального.

Языковые особенности: модели обучены на английском. Для агглютинативных языков (финский, турецкий) точность падает на 15-20%.

Детекция артефактов: современные детекторы находят AI-генерацию с точностью до 95% (FakeSpotter — 94.2%, Microsoft Video Authenticator — 91.8%).

Открытые инструменты

  • Wav2Lip GitHub — базовая модель с предобученными весами

  • FaceFormer — трансформерная архитектура

  • Google Colab notebooks для экспериментов без установки зависимостей

Следующее поколение моделей будет работать в реальном времени для видеозвонков и включать генерацию жестов, синхронизированных с речью.

Теги:
Всего голосов 2: ↑1 и ↓1+2
Комментарии0

Представлен сервис Kira.art, который позволяет редактировать картинки прямо в чате. Все просто: грузим картинку и описываем, что хотим получить. Никаких кистей, слоёв и прочих инструментов. Можно поменять оттенок глаз на фото, добавить или удалить фон и другие предметы, создать арт или стилизовать пикчу, например, в аниме. Внутри также есть встроенный апскейлер — бустануть качество фото можно в несколько раз. Никаких сложных промптов, диалог идёт на естественном языке.

Теги:
Всего голосов 3: ↑3 и ↓0+5
Комментарии1