Обновить
1242.52

Искусственный интеллект

AI, ANN и иные формы искусственного разума

Сначала показывать
Порог рейтинга

Инженер Google выпустил бесплатный учебник для всех, кто хочет создавать ИИ-агентов и изучить работу нейросетей. Там собрана вся информация от А до Я про ИИ-агентов, включая продвинутые техники промптинга, тонких настроек, обучение агентов пользоваться браузером с практическими примерами с кодом.

Теги:
Всего голосов 6: ↑6 и ↓0+6
Комментарии3

LLM и AI-модели для всех и новые возможности AI-помощника в облаке: главные новости с IT-конференции GoCloud Tech 2025 ☁️☁️☁️

Наша IT-конференция в самом разгаре, и мы уже готовы поделиться главными новостями.

Во-первых, делаем LLM доступнее 🤖

До 31 октября 2025 года больше 20 LLM в Evolution Foundation Models можно попробовать бесплатно

Нам важно, чтобы тестировать и внедрять AI в свои проекты могли компании любого размера. Поэтому с 1 ноября 2025 года объявляем доступные цены на открытые языковые модели в Evolution Foundation Models

Вы сможете использовать популярные модели:

  • GLM-4.5 — 55 рублей за миллион входных токенов и 220 рублей за миллион выходных токенов;

  • Qwen3-235B — 17 и 50 рублей;

  • Qwen3-Coder —  40 и 80 рублей.

При этом средняя цена составит:

  • 35 рублей за миллион входных токенов,

  • 70 рублей за миллион выходных токенов.

Во-вторых, расширяем возможности нашего AI-помощника Клаудии 🤖

Теперь Клаудия может помогать с FinOps и SRE. Возьмет на себя:

  • мониторинг приложений и алертов по логам;

  • поиск неэффективно используемых ресурсов и формирование рекомендаций по оптимизации.

Помимо этого, AI-помощник уже умеет подбирать сервисы и конфигурации под задачу, разворачивать виртуальные машины, работать с консолью в режиме co-pilot, настраивать мониторинг и алерты. 

Немного статистики за пару месяцев работы AI-помощника:

  • больше 4 000 пользователей обратились к Клаудии,

  • свыше 12 000 сообщений отправили,

  • в 15 раз ускорили рутинные операции.

✨ Самый популярный сценарий использования помощника — создание виртуальной машины под веб-серверы, сайты, Telegram-боты, тестовые окружения, веб-хостинг и другие pet-проекты. Раньше это занимало от 5 до 30 минут, а с Клаудией можно запустить ВМ за пару минут.

Если еще не тестировали нашего AI-помощника, переходите в личный кабинет Cloud.ru и ищите Клаудию в нижнем правом углу главной страницы.

Теги:
Рейтинг0
Комментарии0

ImageSorcery 01 - Как я свой open source вайбкодил
ImageSorcery 02 - Превращение ImageWizard в ImageSorcery
ImageSorcery 03 - шаг за шагом: PoC, Initial commit

Это серия постов от идеи ImageSorcery до 100+ звёзд на гитхабе и 100+ ежедневных установок с PyPI.

В прошлый серии мы с Gemini 2.0 flash определили стек: python, OpenCV, Ultralytics и никакого ImageMagic. 

Начал я как обычно с малого. В Cline попросил своего любимого бесплатного друга Gemini накидать скрипт на python который получает данные о размере (ширина, высота в пикселях) изображения. Дальше больше - скрипт crop который обрезает изображение по указанным аргументам. С последним пришлось повозиться и даже переключиться на Pro версию, благо она тоже бесплатная, пусть и с жёсткими лимитами.

😎 one shot изи катка: detect_objects находит координаты объектов, а crop_objects их вырезает
😎 one shot изи катка: detect_objects находит координаты объектов, а crop_objects их вырезает

PoC готов, можно приступать к реализации MVP.

Как вы помните, в python я тот ещё джун. Так что я не стал рисковать своим любимым бесплатным Gemini flash и даже pro, а сразу переключился в бесплатный браузерный Claude (лучший ии-кодер что тогда, что сейчас) и попросил дать мне подробнейшую инструкцию по разворачиванию проекта который будет имплементировать простейший hello world MCP сервер.

Нет смысла ваншотить такой проект за раз даже с Claude Opus 4.1. Что он не вывезет, что я не осилю осознать все нюансы за один заход. По этому предпочитаю действовать по комплиментарным шагам, на каждом из которых получать работающий продукт с небольшими изменениями, пока не получу финальный результат.

Написание инструкции - задача с нечётким ТЗ. Такую никогда нельзя пытаться делать ваншотом. Поэтому сперва получаю первую версию по максимально абстрактному промпту, но дав ей столько контекста сколько смог насобирать в интернете и своей голове. А затем по шагам вычитываю - прошу внести исправления - снова вычитываю - снова прошу исправить и так по кругу пока не получаю результат который я понимаю и к которому у меня нет претензий.

И так инструкция готова, закидываю её в Cline + Gemini flash и ... получаю ошибку активации. Вы же помните что в python я джун и понятия о venv не имею? Даю ему шанс исправить ошибку самостоятельно, но бесполезно - он не справляется. Откатываю всё назад, переключаю модель на Gemini Pro - результат тот же. Плюю на экономию, переключаю модель на Claude Sonnet - результат тот же, но оно сожрало 3 бакса 🤬

Плюю на этих бестолковых ИИ и беру дело в свои руки. Рано железякам нас ещё заменять!

Пол дня бесполезного рыскания по stack overflow и дебага, во время которого я случайно обнаружил, что venv активируется если git bash terminal открыт в отдельном окне, а не внутри VSCode. Оказывается эта шарманка будучи запущенной внутри IDE в пути C:\Users\titulus\work сочетание \t воспринимает как знак табуляции из-за чего пытается активировать venv в C:\Users    itulus\work 😵‍💫

Очевидного решения или даже упоминания этого бага я не обнаружил, так что просто уехал со всем своим проектом в WSL, благо VSCode отлично с ним работает. В Linux окружении, разумеется, таких проблем не возникло. Cline Gemini flash ваншотом по той самой инструкции от Claude создал MCP сервер, самостоятельно к нему подключился (вот за это я его обожаю) и проверил.

Я завёл git репозиторий и закоммитил initial commit. Первый шаг сделан ✅

Теги:
Рейтинг0
Комментарии0

Один из нарративов, который часто транслируется в различных формах — что ИИ закрывает вход в профессию программиста: компании якобы перестали нанимать джунов, потому что задачи начального уровня теперь дешевле отдать большим языковым моделям. На Хабре как раз вышла статья, где объясняется отчёт за авторством Stanford Digital Economy Lab.

Автор статьи пересказывает суть отчёта: на рынке происходят сдвиги в найме молодых специалистов после 2023 года, и прежде всего в ролях с высокой долей рутинных, воспроизводимых процедур. В качестве объяснения предлагается различие между «явными» знаниями, которые БЯМ воспроизводят хорошо, и «неявными» компетенциями, присущими более опытным сотрудникам. Утверждается, что поэтому компании реже берут джунов, не сокращая мидлов и сеньоров, что деформирует привычную карьерную лестницу.

При всём уважении к личности автора хочется вынести собственный комментарий из пространства под этой статьёй в отдельную публикацию для раздела «Посты». Сразу предупреждаю, что отчёт американский, поэтому обсуждать будем заокеанские биопроблемы.

Большинство подобных прогнозов удобным для себя образом умалчивают: кончился период вливания денег в экономику во время глобальной пандемии коронавируса. Три года назад денег было навалом, на работу брали любого человека с пульсом, сейчас лафа кончилась. Изобретать всемогущий ИИ для объяснения не приходится, если есть фискальная политика Федрезерва США.

Дополнительно это умножается на эффект того, что образовательные институты наконец-то нарожали достаточно молодых специалистов с корочками computer science, как это годами и умоляли сделать в индустрии. И вот тут они как раз невовремя — девать вагоны этих джунов теперь некуда.

И упаси вас господь наглядно показать, что по сей момент число работников в крупных технологических компаниях раза в полтора выше, чем до пандемии. Посмотрите, в «Гугле» образца 2024 года работает в полтора раза больше человек, чем было в 2019.

 Число сотрудников Google. Коррекция произошла, но эффектов массовой автоматизации не наблюдается. Ну или она как минимум не такая массовая, как нам обещали. Statista
Число сотрудников Google. Коррекция произошла, но эффектов массовой автоматизации не наблюдается. Ну или она как минимум не такая массовая, как нам обещали. Statista

И кстати, что же случилось в 2013 году? (Реструктуризация Motorola и масштабные чистки в Motorola Mobility). Неужто никакой ИИ не нужен для массовых увольнений, а сокращения штата могут быть продиктованы экономикой и банальными интересами бизнеса?

Нарратив «это я, а этого автоматизируем» уже не удовлетворяет ситуации. Дарио Амодей заявил, что через 6 месяцев 90 % кода будет писать ИИ. Сделал он в марте этого года. Вот уже сентябрь — и языковые модели разве что щупают потолок своих возможностей, но не пробивают его.

Одна из последних надежд США обойти Китай экономически — это надежда на всемогущий ИИ. Отказываться от вливаний в ИИ нельзя ни под каким соусом. Поэтому новый подсознательный нарратив гласит, что пострадают в первую очередь джуны, а потом и вам достанется.

Это ведь научная деятельность так выглядит: мы изобретаем красивые сказки, и чья звучит лучше, в ту и верим. Если непонятно, то говорю прямым текстом: меня эти выводы из чьих-то отчётов про незанятых джунов не устраивают абсолютно. В очередной раз попытка придумать красивое объяснение и истолковать статистику объяснениями про ИИ, а не общими экономическими условиями. Эффект от больших языковых моделей может и есть, но почему все аккуратно молчат про макроэкономическую ситуацию в целом?

Есть объяснение куда лучше: общее уменьшение всех экономических показателей везде и непредсказуемая деятельность человека на посту президента США. Выбранный нами на Госуслугах Трамп то вводит какие-то новые огромные таможенные сборы, то убирает; то заявляет об их исключительно экономической природе, то внезапно начинает тарифами играть в геополитику; то чуть ли не бросается в пляс, то прямо сейчас не появляется на публике.

Политическая непредсказуемость — поцелуй смерти для любой стабильной экономической деятельности. Ненайм джунов — прямое следствие нестабильности в экономической политике США. Нет абсолютно ничего удивительного в том, что в такой штормоопасной ситуации американские технологические компании не спешат нанимать молодых разработчиков. Это не ИИ, а экономика.

Теги:
Всего голосов 6: ↑5 и ↓1+7
Комментарии12

Успей зарегистрироваться на GoCloud Tech 2025 — IT-конференцию про AI, облачную инфраструктуру и работу с данными ☁️ + 🤖 + 💿

Привет! Регистрация закроется 2 сентября в 17:00 по мск, так что еще есть возможность влететь в последний поезд и попасть на самое технологическое событие этой осени — IT-конференцию о создании решений на базе AI и облаков. 

Напомним, что вас ждет:

  • 4 трека: AI&ML, Cloud Infrastructure, Data&Analytics, Dev Platform Services;

  • демо и интерактивные зоны новых AI-сервисов и сервисов платформы Cloud․ru Evolution;

  • технические воркшопы;

  • нетворкинг, кастомный мерч и afterparty.

Основные темы конференции:

  • кейсы внедрения AI&ML,

  • тренды в создании облачной инфраструктуры,

  • актуальные практики для работы с данными в облаке,

  • инструменты, ускоряющие разработку.

📆 Когда: 3 сентября

📍 Где: в Лофт-пространстве Goelro в Москве + трек «AI&ML» онлайн 

Зарегистрироваться 👈

Будем рады видеть всех причастных!

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Успей зарегистрироваться на IT-конференцию про облака, AI и данные — GoCloud Tech 2025 и попробовать новые сервисы на практике 🕹️

Привет! Совсем скоро закончится регистрация на нашу очередную технологическую конференцию о создании решений на базе AI и облаков. И мы хотим напомнить, что помимо демозон, Career Lab, активностей, мерча и afterparty, вас на площадке будут ждать воркшопы:

  • 👩‍🔧 Вайб-кодинг с минимумом технического долга с сервисами Cloud.ru

Вайб-кодинг с минимумом технического долга — согласитесь, звучит дерзко? Но на самом деле, если подойди к вопросу грамотно, то это может стать реальность.

На воркшопе разберем практики чистого и безопасного вайб-кодинга, рассмотрим, как с помощью сервиса Evolution Foundation Models подключить кодовые LLM-модели к VS Code IDE и научим ее генерировать фичи в вашем стиле без пропуска уязвимостей. Затем настроим IDE так, чтобы она творила магию и ни разу не сделала rm -rf, а еще — рассмотрим сервис мониторинга качества кода и безопасности SonarQube, чтобы ловить проблемы раньше, чем они доберутся до продакшна.

  • 👨‍🔧 Плейлист как на ладони: real-time аналитика для музыкального стриминга без боли и магии

New Music Friday — это традиция выпуска новых музыкальных релизов в пятницу, когда лейблы и артисты синхронно публикуют свежие треки, что вызывает «пиковый» всплеск внимания у слушателей в первые часы и дни их выхода. На воркшопе мы изучим это явление, используя потоковую обработку и мгновенный доступ к данным, и покажем, как в этом помогают сервисы Cloud.ru Evolution:

- Managed Kafka — принимать события прослушиваний в реальном времен;.

- Managed Spark — читать сообщения из Kafka, обогащать их и сохранять в объектное хранилище в формате Iceberg (мгновенный доступ к историческим и текущим срезам);

- Managed Trino — мгновенно объединять потоковые данные из Iceberg с static‑данными о треках и пользователях, хранящиеся в Managed Postgres;

- Managed Metastore — поддерживать схемы Iceberg и обеспечивать согласованность;

- Managed BI — визуализировать результаты на дашбордах в real-time.

  • 👩‍🔧 Создание мультиагентной системы

Приглашаем всех, кто хочет попробовать:

- фреймворк Smolagents от Hugging Face,

- создавать кастомные инструменты для агентов,

- делать интеграцию с внешними API (Serper.dev и другими),

- координировать работу между несколькими специализированными агентами.

  • 👨‍🔧 Маркетплейсы глазами вендора

Предлагаем взглянуть на весь путь партнера, который хочет вывести свой продукт или решение на Маркетплейс, на примере компании Русбитех-Астра. Вы узнайте про основные потребности и сложности, с которыми сталкиваются партнеры в процессе выхода на маркетплейсы, а еще — совместно создадите идеальную витрину.

Почувствуйте себя менеджером продукта, присоединяйтесь к дискуссии и делитесь идеями, чтобы мы могли сделать Маркетплейс Cloud.ru еще удобнее и полезнее для действующих и будущих партнеров и клиентов.

  • 👩‍🔧 Быстрая разработка в GigaIDE Cloud

Что, еще одна IDE? Зачем нам еще одна IDE? Вопрос хороший, ведь ответ — возможно, низачем. На самом деле нам нужна среда, которая позволит решать больше актуальных проблем с помощью уже существующих инструментов (например, Visual Studio Code или Jupyter Notebook).

Репозиторий из GitHub или GitVerse так долго открывается, что уже легко забыть, зачем мы это делали. Чтобы изменить три строчки в ноутбуке, нужно разворачивать Jupyter Lab, а для того, чтобы воспользоваться AI-ассистентом, нужно ставить плагины, покупать учетки и настраивать прокси. Знакомо?

Чтобы закрыть этот гэп, Microsoft придумала GitHub CodeSpaces — онлайн-среду, встроенную в GitHub. А в России есть отличная альтернатива — GitVerse, которая позволит в пару кликов запустить полноценную среду разработки, уже настроенную на нужный репозиторий, с бесплатным AI-ассистентом и набором полезных плагинов. А на воркшопе мы как раз попробуем все это сделать и оценим, какие задачи это поможет упростить.

📅 Когда: 3 сентября

📍 Где: в Лофт-пространстве Goelro в Москве + трек «AI&ML» онлайн

Зарегистрироваться 👈

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

ImageSorcery 01 - Как я свой open source вайбкодил
ImageSorcery 02 - Превращение ImageWizard в ImageSorcery

Это серия постов от идеи ImageSorcery до 100+ звёзд на гитхабе и 100+ ежедневных установок с PyPI.

В прошлый раз мы выяснили, что при правильной настройке бесплатных инструментов, бесплатная LLM Gemini может оказаться не хуже Claude в написании документации. И закончили на вопросе, почему никто раньше не привязал MCP к ImageMagic?

А вот почему

Первым делом после звонка с Системным Аналитиком я дал Cline в своём VSCode право на запуск команд в терминале. Затем взял первый попавшийся скриншот мобильного приложения и попросил вырезать NavBar используя ImageMagic. Gemini flash вырезал какую-то случайную часть экрана.

crop "на глаз"
crop "на глаз"

Я переключился на Gemini pro - результат тот же. o3 от OpenAI и Sonnet от Anthropic также облажались.

Долго думал. Я знал что все эти модели мультимодальные и наверняка знают что такое NavBar. Тут явно что-то не сходилось. Я полез раскрывать свёрнутые секции их размышлений и обнаружил что: 

  1. Все они понимают, что изображено и “видят” NavBar. 

  2. Никто из них не способен вычислить точные координаты этого NavBar.

  3. Они даже размеров изображения не знают. 

Из-за чего все они действовали наугад.

Оказывается LLM не умеют определять точные координаты объектов, которые они видят, не говоря уже про их точную геометрию.

В этом и крылся ответ на вопрос “а чего раньше это никто не сделал?”. 

С этой дилеммой я пошёл к Gemini. Сокращённая переписка:

👤: какой аналог npmjs.com для питона?
🤖: PyPi

👤: у него сайт есть?
🤖: pypi.org

👤: порекомендуй мне 5 - 10 пакетов для распознавания изображений на python моя задача - определять координаты объектов для будущего crop
ИИ: Pillow, OpenCV, scikit-image, TensorFlow Object Detection API, Detectron2, YOLO, Tesseract OCR, SimpleCV, imutils. Рекомендации:
1) Начните с OpenCV или scikit-image.
2) Если вам нужна более высокая точность или нужно распознавать определенные типы объектов, рассмотрите TensorFlow Object Detection API, Detectron2 или YOLO.
3) Используйте Pillow для загрузки, сохранения и предварительной обработки изображений.
4) Используйте imutils для упрощения работы с OpenCV.
5) Если вам нужно распознавать текст, используйте Tesseract OCR.

👤: расскажи подробней про opencv imutils pytorch и yolo
🤖:
- OpenCV - это фундаментальная библиотека для компьютерного зрения, предоставляющая широкий спектр алгоритмов для обработки изображений и обнаружения объектов.
- imutils - это набор удобных функций, которые упрощают работу с OpenCV.
- PyTorch - это мощный фреймворк машинного обучения, который можно использовать для построения и обучения сложных моделей обнаружения объектов.
- YOLO - это семейство алгоритмов обнаружения объектов в реальном времени, известных своей скоростью и точностью.

👤: важный момент. я не хочу обучать модели сам. мне нужен готовый инструмент
🤖: Начните с OpenCV + YOLO от Ultralytics

Как можно заметить, я не силён в python от слова совсем 😅. Но я выбрал его, потому что осведомлён о его большой экосистеме инструментов ML в общем и компьютерного зрения в частности. 

И так стек найден. И с удивлением для меня, места для ImageMagic в нём не нашлось, ведь все необходимые инструменты для обработки уже есть в OpenCV.

А что стало с названием ImageWizard?

Тут всё банально. Я погуглил - это название уже занято приложением в сфере обработки изображений с ИИ 🤷. Пришлось найти незанятое. Но постарался оставить отсылку на ImageMagic

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии0

Как собрать личного бизнес-ассистента в Telegram с n8n

Я подготовил пошаговый разбор того, как за 15 минут развернуть ИИ-агента, который ведет заметки, ставит задачи, бронирует встречи, а также присылает последние новости из ваших источников.

В видео вы узнаете:

• Из каких частей состоит ИИ-агент и что он умеет;

• Как настраивать интеграции с Telegram, OpenAI и Google-сервисами;

• Как сделать флоу агента для администратора в роли личного секретаря;

• Как собрать флоу агента для консультаций клиентов или коллег;

• Как подключить RAG-систему для более точных ответов, используя загруженную информацию.

Такой Telegram-ассистент поможет автоматизировать рутину, разгрузить голову, ускорить работу и быть в курсе последних новостей своей индустрии. Также отправляю готовый шаблон, чтобы вы могли протестировать агента у себя.

Что нужно сделать, чтобы всё заработало:

1. Импортируйте шаблон в n8n (содержимое JSON можно просто скопировать в рабочую среду).

2. Вставьте свои ключи: OpenAI, Telegram-бота и Google.

3. Укажите ID таблиц, календаря, пользователя в условном операторе и канала.

4. Добавьте свои статьи, документы или книги в RAG — и готово.


Это быстрый способ вкатиться в автоматизацию на n8n и почувствовать, как ИИ реально экономит время и делает работу удобнее. Если давно хотели попробовать собрать собственного ИИ-агента, но не знали, с чего начать — это отличный старт.

В следующем видео разберем больше сценариев и расширим функциональность нашего агента. Подписывайтесь на Youtube-канал, если хотите видеть чаще подобный контент.

Теги:
Всего голосов 5: ↑3 и ↓2+1
Комментарии0

Гипер Лингвист - это двусторонний нейросетевой переводчик между 27 языками мира. Им удобно переводить тексты туда-сюда между родным языком и иноземным, выбирая наиболее подходящие формулировки.

Под капотом у него разные версии GPT4, поставляемые через GitHub Models, завёрнутые в $mol_github_model, который балансирует запросы по разным моделям и токенам, чтобы расширить бесплатные лимиты.

Я там захардкодил десяток токенов, чего хватит на 6К запросов в день. Кому не сложно помочь проекту - насоздавайте ещё десяток токенов со своего аккаунта, чтобы кратно расширить лимиты, и сделайте PR пришлите их мне. Эти токены дают доступ только к запуску моделей и ничего более. Только уберите ограничение по времени их действия, чтобы они вдруг не протухли.

Теги:
Всего голосов 4: ↑3 и ↓1+5
Комментарии0

Представлен открытый проект abogen для превращения любой книги в аудиокнигу. Поддерживает много языков, качественные голоса от одной из лучших моделей KokoroTTS. Если никакой голос не подходит — можно создать свой. Простая установка.

Теги:
Всего голосов 5: ↑5 и ↓0+9
Комментарии2

Бывший топ-менеджер OpenAI и Facebook Питер Денг рассказал, что борьба за специалистов в сфере искусственного интеллекта ведет к все большему разрыву в зарплатах между исследователями и другими сотрудниками технологических компаний.

В подкасте Unsupervised Learning Денг пояснил, что компенсации ведущих специалистов растут стремительно, в то время как многие другие сотрудники, также вносящие значимый вклад в продукты и развитие компаний, получают существенно меньше. По словам Денга, «HR-отделам придётся в какой-то момент заняться этой проблемой».

Денг сравнил ведущих исследователей ИИ со спортивными звёздами, за которых IT-компании ведут ожесточённую борьбу. Подобные специалисты получают многомиллионные контракты и предложения от крупнейших игроков — OpenA, Anthropic, Perplexity, xAI и других. Аналогии со спортом звучат все чаще: вице-президент по ИИ в Databricks Навин Рао ранее называл таких учёных «Лебронами Джеймсами» мира технологий.

Однако за пределами «первой лиги» остаётся большое количество инженеров и специалистов, чьи доходы несопоставимы с уровнем ведущих исследователей. Это создаёт риск недовольства и дисбаланса внутри компаний.

Теги:
Всего голосов 2: ↑2 и ↓0+4
Комментарии0

ImageSorcery 01 - Как я свой open source вайбкодил

Скажу честно, я хотел написать статью, для того чтобы рассказать о своём проекте ImageSorcery MCP. Но не хотелось писать рекламный BS о том какой он крутой. Хотелось сделать месседж более личным и искренним. Так статья превратилась в серию постов-заметок о всех тех граблях инструментах и практиках, которые мне удалось попробовать на пути от идеи до 100+ звёзд на гитхабе и ~100 ежедневных установок с pypi. А так как я фанатик экономии, весь стек в основном бесплатный (включая LLM) и часто не самый популярный.

Рост звёзд на гитхабе
Рост звёзд на гитхабе

В компании где я работаю, у меня сложилась репутация, как это принято сейчас говорить, ИИ-энтузиаста. Из-за чего ко мне однажды обратилась Системный Аналитик, которая только начала внедрять RooCode и столкнулась с какой-то проблемой полнейшего тупняка ИИ. Бесплатная веб версия Claude на раз два превращала Верхнеуровневые Бизнес Требования заказчика в детально проработанное Техническое Задание. Но копировать туда-сюда - не продуктивно, а ещё лимиты эти… Решилась она попробовать рекомендованный мною RooCode с Gemini flash. Установила впервые IDE VSCode, запустила и поставила плагин RooCode, подключила Gemini модель и попыталась скормить ему ту же задачу, но в ответ получила какой-то откровенный бред. Вместе мы выяснили, что для адекватной работы RooCode (а ещё его предшественника Cline и, скорее всего, последователя Kilo Code) требуется не просто запустить VSCode, но ещё и создать в нём проект с соответствующей директорий где-то в системе. А если ещё и все материалы сложить в эту директорию - их можно не копипастить и даже не драгндропать, а меньшонить через @ что намного удобней. (Даже мне стало плохо от обилия англицизмов в этом предложении, извините). Кроме того, выяснилось, что промпт содержал помимо текста ещё ссылку на Figma дизайн. А RooCode, несмотря на то что может используя браузер, какую-то осмысленную деятельность с этой ссылкой вести. При наличии у него Figma MCP справляется гораздо эффективнее.

И теперь бесплатный Gemini flash под капотом RooCode засиял во всей красе. Промпты стали проще и читаемей. И благодаря доступу ко всем необходимым файлам (ВБТ и шаблон) и инструментам, RooCode ваншотом не просто создал качественное ТЗ в формате markdown (привет markdown preview плагин), но ещё и наполнил его нужными скриншотами прямо в теле документа, чего Claude не мог. 

Вот только осталась одна проблема: он использовал скриншоты целых экранов, и не смог их порезать на кусочки для документирования соответствующих секций: шапка, меню т.п.

Фигня война! - сказал я, — наверняка есть MCP который это делает. 

Погуглив вместе минут 15 мы обнаружили, что такого нет. Но так как нарезка экранов на скриншоты - привычная для системного аналитика задача, она поблагодарила меня за получившийся результат и убежала на другой звонок. А я остался сидеть глядя в пустой монитор с непониманием, почему такая простая и очевидная задача ещё не решена.

Так появилась идея ImageWizard - взять ImageMagic и прикрутить к нему MCP протокол.

А почему сейчас проект и называется иначе и никакой связи с ImageMagic не имеет, расскажу в следующей серии.

Теги:
Всего голосов 3: ↑1 и ↓2+1
Комментарии0

AI-синхронизация губ: от Wav2Lip до коммерческих решений

Технологии автоматической синхронизации движений губ с аудио перешли от исследовательских проектов к готовым продуктам. Современные сервисы создают реалистичное видео за секунды, где персонаж произносит любой текст с сохранением деталей лица.

Ключевые прорывы

Wav2Lip (2020, IIT Hyderabad) стал первой моделью, работающей без предварительного обучения на конкретном человеке. Исследование показало возможность генерации синхронизированного видео на основе GAN-архитектуры с дискриминатором, обученным отличать реальные движения губ от синтетических.

FaceFormer от Microsoft Research (2022) применил трансформерную архитектуру. Модель использует 6-слойный Transformer для обработки MFCC-признаков аудио и генерирует 768 3D-точек лицевых landmarks с учетом временных зависимостей.

Коммерческие решения

Lipsync 2.0 от Sync Labs работает как zero-shot модель без настройки. Поддерживает обработку видео с несколькими говорящими в кадре.

D-ID Creative Reality Studio генерирует говорящие аватары из статичных фото, ограничен 5-минутными роликами в базовой версии.

Synthesia ориентирована на корпоративный сегмент с готовыми AI-аватарами. Стоимость от $30/месяц за 10 минут видео.

Технические характеристики

Производительность:

  • CPU Intel i7: 1 секунда видео за 30-45 секунд обработки

  • GPU RTX 3060: соотношение 1:3

  • GPU RTX 4090: близко к real-time (1:1.2)

Метрики качества:

  • LSE-D (точность синхронизации): лучшие модели <8.0

  • SSIM (сохранение деталей): целевое значение >0.85

  • FID (реалистичность): оценка качества генерации

Практические применения

Стриминговые платформы: Netflix автоматизирует дубляж сериалов, сокращая локализацию с 3-6 месяцев до 2-3 недель.

Образование: Coursera тестирует многоязычные версии курсов с автоматической синхронизацией губ преподавателей.

Соцсети: TikTok экспериментирует с автопереводом популярных роликов, YouTube Creator Studio планирует функцию автодубляжа к 2026 году.

Ограничения

Качество исходного материала: требует четкого видео минимум 256×256px с углом поворота головы ±30° от фронтального.

Языковые особенности: модели обучены на английском. Для агглютинативных языков (финский, турецкий) точность падает на 15-20%.

Детекция артефактов: современные детекторы находят AI-генерацию с точностью до 95% (FakeSpotter — 94.2%, Microsoft Video Authenticator — 91.8%).

Открытые инструменты

  • Wav2Lip GitHub — базовая модель с предобученными весами

  • FaceFormer — трансформерная архитектура

  • Google Colab notebooks для экспериментов без установки зависимостей

Следующее поколение моделей будет работать в реальном времени для видеозвонков и включать генерацию жестов, синхронизированных с речью.

Теги:
Всего голосов 2: ↑1 и ↓1+2
Комментарии0

Ближайшие события

Представлен сервис Kira.art, который позволяет редактировать картинки прямо в чате. Все просто: грузим картинку и описываем, что хотим получить. Никаких кистей, слоёв и прочих инструментов. Можно поменять оттенок глаз на фото, добавить или удалить фон и другие предметы, создать арт или стилизовать пикчу, например, в аниме. Внутри также есть встроенный апскейлер — бустануть качество фото можно в несколько раз. Никаких сложных промптов, диалог идёт на естественном языке.

Теги:
Всего голосов 3: ↑3 и ↓0+5
Комментарии1

С учётом бурного роста популярности чат‑ботов вроде ChatGPT и того, что некоторые пользователи склонны слишком доверять информации, которую такие инструменты выдают, интересно посмотреть, откуда они её берут. Такие данные (по состоянию на июнь) есть у аналитиков Semrush по 150 тысячам цитирований.

В Visual Capitalist представили инфографику с ресурсами в сети Интернет, на которые чаще всего ссылаются ИИ‑модели вроде чат‑ботов ChatGPT. Некоторые пользователи склонны слишком доверять информации, которую такие инструменты выдают по запросу к ИИ-системам.

Самым популярным источником знаний для ИИ оказался Reddit — форум упоминается в 40% цитат. За ним с большим отрывом идёт «Википедия», дальше — YouTube и Google.

Оказалось, что ИИ-системы в основном модели полагаются на дискуссии на форумах и контент, курируемый сообществами модераторов, отмечают в Visual Capitalist. В связи с этим есть риск, что распространённые там взгляды, неточности и предвзятости могут перекочевать в ответы моделей и распространиться ещё шире.

Теги:
Всего голосов 3: ↑3 и ↓0+5
Комментарии1

Валидация RAG с помощью RAGAS — доклад на IT-конференции GoCloud Tech 2025 ☁️

Retrieval-Augmented Generation — мощный инструмент, но вы уверены, что ваш RAG действительно работает? RAGAS — это метрика, которая даст ответ. По ходу доклада разберемся, как оценивать качество генерации, релевантность документов и достоверность ответов. Поговорим о метриках и пайплайнах, а также покажем, как найти слабые места в RAG-системе до того, как это сделает пользователь.

Трек: AI&ML — про AI-продукты нашей разработки и работу с GenAI. Узнаете, как устроены RAG-системы и мультиагентные ассистенты, а также, для чего они уже применяются и как начать их использовать. 

📅 Когда: 3 сентября в 12:00 мск

👉 Зарегистрироваться

Что еще интересного будет на GoCloud Tech, смотрите в программе конференции.

Теги:
Всего голосов 2: ↑1 и ↓1+2
Комментарии0

Исследователи из Чикагского и Роттердамского университетов выяснили на базе изучения данных 67 тыс. собеседований, что при большой загрузке и текучке голосовые ИИ‑агенты более эффективно отбирают кандидатов на работу, чем люди.

Проблема человеческого фактора в рекрутинге — это усталость, предвзятость и непоследовательность.

Рекрутеры‑люди могут забывать задавать ключевые вопросы, особенно при массовом подборе. Исследование показало, что ИИ‑агенты, в отличие от людей, всегда придерживаются сценария, охватывая значительно больше важных тем. В результате у нанимающих менеджеров оказывается больше релевантной информации для принятия решения, а усталость, предвзятость и непоследовательность рекрутёров‑людей наоборот игнорируется с помощью ИИ.

Хотя ИИ‑агенты ускорили процесс назначения собеседований, рекрутерам‑людям требовалось в два раза больше времени на проверку результатов таких интервью. Выгода от использования ИИ в рекрутинге зависит от масштаба. Для крупных компаний с большим потоком кандидатов и высокими зарплатами рекрутеров экономия может быть значительной. Кроме того, более качественный подбор снижает текучесть кадров, что особенно важно в таких отраслях, как колл‑центры.

Теги:
Всего голосов 2: ↑2 и ↓0+4
Комментарии1

«‎ИИ не существует» или пять опасных заблуждений про ИИ, которые тормозят технологический прогресс

Когда речь заходит о внедрении ИИ, всегда находятся скептики. Они повторяют одни и те же фразы: на первый взгляд логичные, но на деле  —  тормозящие развитие. Такие установки демотивируют команды и мешают компаниям трансформироваться. Разберем пять самых популярных.

1. «ИИ — это просто статистика»

На первый взгляд — так и есть: нейросети действительно основаны на математике и вероятностях. Но по сути похожим образом работает и человеческий мозг: мы тоже оцениваем вероятности, ищем закономерности и строим прогнозы, хотя используем иной тип вычислений. Наш мозг до сих пор остается большой загадкой, а нейросети можно рассматривать как лабораторный макет мышления — упрощенный, но доступный для изучения.

Так современные исследования показывают, что модели обладают эмерджентными свойствами: они решают задачи, которым их не учили, а в скрытых слоях формируются целые стратегии. Да, «это просто статистика», но именно статистика лежит в основе прогноза погоды, медицины и экономики — и мы доверяем ей, потому что она видит больше, чем человек. И вот главный вопрос: когда машина учится понимать и предсказывать мир, чем ее деятельность принципиально отличается от нашей?

2. «Это все хайп, скоро пройдет и пузырь лопнет»

Удобно: можно ничего не менять и остаться в зоне комфорта. Но ИИ уже встроен в повседневную жизнь — от рекомендательных систем до банковского скоринга. Да, вокруг ИИ действительно завышенные ожидания — так всегда бывает с новыми технологиями (см. кривую Gartner). Но хайп не отменяет того факта, что компании уже перестраивают процессы и продукты, а выгоды измеряются миллиардами долларов. Подождать пару лет — значит отстать навсегда. Что опаснее — переоценить возможности ИИ или проспать момент, когда конкуренты перестроят рынок?

3. «Нейросети все равно ошибаются»

Да, ошибаются. Но и люди ошибаются — зачастую даже чаще. Отличие в том, что модели работают быстрее и дешевле. Ошибки — не повод отказываться от ИИ, а часть рабочего процесса. Грамотный подход — строить систему, в которой ИИ делает 80% работы, а человек проверяет критические 20%. Те, кто осваивает такие гибридные процессы, вырываются вперед. Кто победит — тот, кто ждет безошибочный ИИ, или тот, кто учится работать с его ошибками?

4. ИИ обесценивает опыт и знания людей

Люди подсознательно боятся, что машина быстро осваивает то, на что раньше уходили годы учебы и работы. Во время первой промышленной революции ткачи разрушали станки, боясь потерять работу. Но ИИ не обесценивает опыт — он меняет роли. Тогда исчезли ткачи, но появились инженеры, а сегодня ИИ забирает на себя рутину и освобождает место для управленческих и творческих задач. Ответственность все равно остается за человеком, а ИИ — лишь инструмент. Разве инструмент, который расширяет возможности мастера, обесценивает его опыт?

5. Российский контекст

В России нет полноценных LLM уровня флагманских моделей от OpenAI и Anthropic. Импортозамещение пока невозможно: собрать качественный датасет на русском сложно, вычислительные мощности ограничены санкциями, а многие таланты работают на западные компании. Доступ к зарубежным решениям закрыт, а открытые модели не дотягивают до флагманских. Если догнать в лоб нельзя, не пора ли проявить смекалку: научиться синтезировать данные и обучать модели децентрализованно?

Главная причина отрицания ИИ кроется не в самой технологии, а в человеке. Нам проще быть в зоне комфорта, но признать сегодняшнюю значимость ИИ — значит признать необходимость учиться и перестраивать привычный процесс работы. Это требует усилий, а мозг всегда ищет путь экономии. Иллюзия комфорта опаснее всего: она оборачивается отставанием — личным, профессиональным и национальным.

Будущее у нас заберет не ИИ, а привычка жить прошлым и отрицать перемены.

***

Если вы не хотите отставать от прогресса и смотрите в будущее подписывайтесь на мой TG-канал, где я рассказываю как работают все эти ИИ-чудеса и как внедрять ИИ в бизнес.

Теги:
Всего голосов 8: ↑5 и ↓3+3
Комментарии4

Cursor теперь помогает составлять User Rules

В Cursor буквально сегодня увидел новую опцию. А именно: когда с ним работаешь по проекту и по ходу как-то его поправляешь, то внизу слева выскакивает пимпочка и предлагает занести такие вещи в User Rules.

Очень даже удобно. Не надо самому отдельно все записывать, а потом переносить.

Теги:
Всего голосов 3: ↑1 и ↓2-1
Комментарии0

Автоматизировали процесс текстовых обращений от клиентов с помощью Yandex SpeechSense и что из этого вышло

ОТП Банк протестировал технологии Yandex B2B Tech для повышения качества обслуживания клиентов. Благодаря этому проекту скорость обработки и анализа сообщений клиентов увеличилась в 30 раз.

Наша клиентская поддержка обрабатывает более 400 тысяч текстовых обращений по 260 тематикам в месяц. Анализ такого объёма информации занимает много времени специалистов, поэтому мы решили автоматизировать этот процесс с помощью сервиса для речевой аналитики Yandex SpeechSense. Так, в ходе пилота за 7 дней было проанализировано больше 29 тысяч диалогов с клиентами – это в 30 раз быстрее, чем при ручной работе трёх сотрудников.

Инструменты для анализа коммуникаций, такие как Yandex SpeechSense, помогли повысить качество работы поддержки. Система автоматически определяет тематику обращений, распределяет их по группам и выделяет в диалогах значимые смысловые блоки. Благодаря этому мы также смогли выявить направления для улучшения клиентского опыта.

Второй пилотный проект был направлен на автоматизацию клиентских консультаций с помощью ИИ-агента на основе YandexGPT. Агент отвечал на обращения клиентов в чатах мобильного приложения по 30 популярным темам, таким как частичное досрочное погашение кредита, разъяснение условий льготного периода и другие. Бот фактически без ошибок ответил на 60 тысяч запросов, в связи с чем индекс удовлетворенности клиентов (CSI) вырос на 0,2 из 10 пунктов. Кроме того, уровень автоматизации обработки диалогов увеличился до 8%. Лучше всего ИИ-агент работал в сценариях, где клиенту требовалось дать подробное пошаговое пояснение или уточнить ранее полученную информацию. В планах – расширить применение нейросетей для обработки более сложных запросов и системной работы с обратной связью клиентов.

Теги:
Всего голосов 1: ↑1 и ↓0+3
Комментарии1

Вклад авторов