Обновить

Все потоки

Сначала показывать
Порог рейтинга

Как устроены voice AI агенты: ASR, LLM и TTS архитектура

Голосовой AI-агент строится вокруг трёх основных блоков: ASR (распознавание речи), LLM (языковая модель) и TTS (синтез речи). Вместе они образуют цепочку, которая позволяет системе слышать пользователя, понимать смысл запроса и отвечать голосом.

Общая схема

Работа голосового агента выглядит так: пользователь говорит → система распознаёт речь → интерпретирует запрос и решает, что ответить или какое действие выполнить → озвучивает ответ. Затем цикл повторяется.

Ключевое требование здесь — низкая задержка. Если паузы между репликами слишком длинные, разговор начинает восприниматься как неестественный. Поэтому современные voice AI-системы проектируются так, чтобы обрабатывать речь и генерировать ответ почти в реальном времени.

ASR: распознавание речи

ASR (Automatic Speech Recognition) преобразует голос в текст. В голосовых системах обычно используется потоковое распознавание: аудио обрабатывается по мере поступления, а текст появляется частями, ещё до того как пользователь закончил говорить.

Это важно для скорости ответа. Система может начать готовить следующую реплику ещё до завершения фразы.

Один из самых важных элементов ASR — endpointing, то есть определение момента, когда пользователь закончил говорить. Если система срабатывает слишком рано, она перебивает человека. Если слишком поздно — возникает лишняя пауза. Именно endpointing часто сильнее влияет на ощущение “живого” диалога, чем сама скорость модели.

На качество распознавания также влияют шум, акценты, качество связи и одновременная речь.

LLM: понимание и логика ответа

LLM (Large Language Model) в голосовом агенте отвечает не только за генерацию текста. Она определяет намерение пользователя, удерживает контекст разговора, решает, нужно ли уточнение, и при необходимости вызывает внешние инструменты.

Например, модель может:

  • проверить заказ в системе,

  • записать данные в CRM,

  • посмотреть свободные слоты в календаре,

  • найти ответ в базе знаний.

То есть LLM делает голосового агента не просто “говорящим интерфейсом”, а частью бизнес-процессов.

Современные системы генерируют ответ токен за токеном. Это позволяет передавать текст в TTS ещё до того, как ответ готов целиком, и уменьшать задержку до первого звука.

На скорость LLM влияют размер контекста, длина промпта и время ответа внешних интеграций.

TTS: синтез речи

TTS (Text-to-Speech) превращает текст в голос. Для voice AI особенно важно, чтобы TTS тоже работал в потоковом режиме и начинал воспроизведение как можно раньше.

Если аудио начинается только после генерации всего ответа, система кажется медленной. Поэтому хороший TTS должен быстро выдавать первый звук и при этом сохранять естественность речи.

На восприятие качества влияют:

  • интонация,

  • темп,

  • паузы,

  • произношение имён и терминов,

  • общее ощущение “естественного” голоса.

Даже если ответ логически правильный, слабый TTS может испортить всё впечатление от разговора.

Как это работает вместе

Типовой цикл выглядит так:

  1. Аудио поступает в ASR.

  2. ASR превращает речь в текст и определяет конец фразы.

  3. Текст передаётся в LLM.

  4. LLM формирует ответ и при необходимости обращается к внешним системам.

  5. Текст ответа передаётся в TTS.

  6. TTS озвучивает ответ и отправляет аудио обратно пользователю.

Телефония, веб-аудио, масштабирование и логирование — это внешняя инфраструктура, но ядро voice AI строится именно вокруг связки ASR → LLM → TTS.

Итог

Voice AI-агент — это не одна модель, а связка трёх компонентов: ASR переводит речь в текст, LLM понимает запрос и формирует ответ, TTS превращает его обратно в голос. Качество голосового интерфейса зависит не только от силы каждого блока, но и от того, насколько быстро и слаженно они работают вместе.

Теги:
+3
Комментарии1

Установка, настройка и использование NATS 

Брокер сообщений для микросервисов — звучит страшно, но только пока не разберешься. NATS написан на Go, запускается за минуты и не требует сложной инфраструктуры. 

В блоге разобрали, как установить NATS на Linux и Windows, настроить аутентификацию, TLS и JetStream — и сразу проверить всё это из консоли. 

Читайте полный разбор на сайте Рег.облака.

Теги:
+3
Комментарии0

Быстрый старт в Low-code: как прокачать команду или войти в ИТ

В новой статье рассказываем, как устроен Центр обучения SimpleOne и почему обучение у вендора — это не «опция», а реальный инструмент роста для бизнеса и специалистов.

Сегодня у каждого крупного вендора есть свой центр обучения. И это не случайно: именно он помогает быстро и без лишних затрат раскрыть потенциал платформы.

В статье подробно разобрали, как это работает в SimpleOne и какую пользу получают разные аудитории:

Партнеры

Обучение помогает детально освоить возможности платформы, чтобы потом внедрять SimpleOne клиентам качественно и быстро. Прохождение обучения подтверждается сертификатом. Сертификация позволяет получить более высокий партнерский статус и открывает новые возможности для бизнеса.

Клиенты

Получают независимость от вендора и интегратора: могут самостоятельно настраивать и развивать систему без постоянного привлечения подрядчиков → быстрее внедрять изменения и снижать затраты на поддержку.

Начинающие специалисты

Получают не просто знания, а практический опыт + сертификат, который ценится на рынке. А для лучших — еще и возможность стажировки и старта карьеры в IT.

А также в материале — про форматы обучения, реальные отзывы о том, как курсы Центра Обучения помогли повысить эффективность работы с Low-code платформой.

Подробности читайте в блоге на сайте

Теги:
-1
Комментарии0

7 открытых уроков для тестировщиков: автоматизируем тесты с умом

Теги:
+1
Комментарии0

Конечность силы воли (из серии «математика воли»)

Главное, фундаментальное, что я узнал о силе воли — она конечна, то есть умеет убывать, заканчиваться. Как деньги в кошельке, физические силы, заряд в батарее смартфона.

В любой момент времени — сейчас, например — у вас есть определённый запас силы воли. Которого лично вам хватит на выполнение каких‑то действий — дочитать этот текст, сходить почистить зубы, не съесть на ночь тортика, почитать книгу, сделать уроки. А на какие‑то действия этого запаса не хватит — тогда вы не дочитаете текст, не почистите зубы, съедите тортик (а то и два), отложите книгу, оставите уроки на завтра (или на «вдруг не спросят») и пойдёте в интернет.

Из всех аналогий наиболее близкой мне всегда казалась мана — запас магической энергии в компьютерных играх. Помните? Обычно есть красная колбочка — это здоровье, оно убывает, когда от кого‑то получаешь. И синяя — мана, запас энергии. Он убывает, если колдовать. Потом восстанавливается — или сам (если не тратить), или если зелья восстановления пить.

Сила воли похожа на ману. Делая что‑то, хоть немного трудное, мы расходуем силу воли. Если расходовать быстро, не давая восстановиться — уходим в ноль и идём тупить. Если некоторое время подождать — она восстановится.

Наверное, вы уже поняли мою мысль. Теперь осталось принять.

Телеграм

Теги:
+3
Комментарии3

Инструменты для разработчиков игр и не только

Недавно провели крутой вебинар про GameDev вместе с экспертами из Forgotten Empires и Playrix. Мы разобрали, какие инструменты входят в арсенал GameDev-команд, зачем они нужны и почему профилировщики играют ключевую роль в разработке. А бонусом — показали, как превратить ваш код в настоящий город.

Кстати, мы PVS-Studio уже в город превращали. Почитать про это можно по ссылке!

Теги:
0
Комментарии0

Почему на Wildberries вечно всё маломерит

Я долго не могла понять эту загадку. Захожу на карточку платья. 150 отзывов. Половина пишет: «маломерит, берите на размер больше». Вторая половина: «размер в размер, все отлично».

Как так? Платье одно. Производитель один. Таблица размеров одна. А люди пишут по-разному.

И тут до меня дошло.

Дело не в платье. Дело в том, что женщины, у которых реальный размер 48, заказывают 44. Потому что в их голове они носят 44. Или очень хотят носить. Или когда-то носили. Или подруга носит, а чем я хуже? Или 48 – это лишний вес. У меня его нет – значит 44.

Они влезают в 44? Нет. Платье жмет, трещит по швам, не сходится на груди. И они идут писать отзыв: «Маломерит! Берите на размер больше! Производитель врет! Таблицы неправильные!»

А те, у кого реальный 44, заказывают 44 — и все идеально. Они пишут: «Размер в размер».

Производитель тут ни при чем. С платьем все ок.

Проблема в том, что люди не хотят признавать свой реальный размер. Проще обвинить фасон платья, размерную сетку, китайских производителей, коварных маркетологов, техническую ошибку продавца. Платье виновато. Я — нет.

Ровно это же происходит, когда клиент приходит к вам

Психологу: — У меня проблемы в отношениях. — А в чем именно? — Это он все время меня провоцирует. Я вообще спокойный человек, но он выводит. — А пробовали что-то менять в своем поведении? — А почему я должна? Это он пусть меняет. У него проблемы.

Маркетологу: — Запустил курс, никто не покупает. — А кому продаете? — Да всем. Я в запрещенку выкладывал, в телегу постил. — А портрет целевой аудитории составляли, маркетинговое исследование проводили? — Зачем? У меня и так продукт хороший. Это рынок сейчас мертвый, конкуренты демпингуют.

Бизнес-тренеру: — Хочу масштабироваться, но сотрудники все делают не так. — А как вы их обучаете? — А зачем? Я же их нанял, они должны сами уметь. Это сейчас специалистов нормальных не найти, одна молодежь ленивая пошла.

Вы, как эксперт, видите реальный размер. Вы видите, что дело не в платье. Но пока клиент не готов это увидеть — вы бессильны.

Вы можете подобрать идеальную ткань, идеальный фасон, идеальную размерную сетку. Но если человек упорно заказывает 44 при своем 48 — ничего не сядет. И все ваши скрипты, методики, техники разбиваются об эту стену: «это не я, это платье».

Что с этим делать?

✔️ Первое — не пытаться переубедить. Если человек не готов видеть свой реальный размер, вы не докажете ему это аргументами. Они приходят и с порога заявляют: «Это у меня кость широкая, метаболизм плохой, муж козел, рынок мертвый». И они правда так думают. Это не их вина, так устроена психика — легче обвинить платье, чем признать, что оно больше не налезает. С ними можно спорить до хрипоты, приводить статистику, показывать исследования. Бесполезно. Они уйдут искать того, кто подтвердит: да, платье дурацкое, да, размерная сетка врет.

✔️ Второе — работать только с теми, кто хотя бы допускает: «А вдруг дело не только в платье?» Это и есть тот самый клиент, с которым можно что-то сделать.

✔️ Третье — в своих текстах сразу отделять тех, кто готов смотреть правде в глаза. Потому что если вы будете писать для всех, кто жалуется на «маломерность» — вы утонете в бесконечных спорах с теми, кто не готов меняться.

Ваша задача — найти тех, кто уже устал заказывать 44 и подозревает, что дело не в размерной сетке. Им вы действительно можете помочь.

В маркетинге для этого есть понятие «лестница Ханта». Если интересно, расскажу в следующем посте про пять ступеней и про то, с кем мы реально работаем, а с кем даже не тратим время.

Теги:
+1
Комментарии1

Китайская компания Unipath выпустила прототип домашнего робота-слуги. Он может вовремя будить пользователя, управлять бытовой техникой, организовывать пространство для хранения вещей и даже готовить еду.

Теги:
+4
Комментарии1

Национальный месседжер MAX не имеет локализованного в РФ пуш‑сервиса.

Как выяснилось коммерсы реально освоившие бюджет неоднозначного «национального проекта» MAX не удосужились организовать локализованный в России пуш‑сервис, в связи с чем губернатор Белгородской области предложил «гибридную технологию» — звучит уличная сирена пользователи руками будят девайсы и смотрят сообщения...

Теги:
+5
Комментарии14

Во всем виноват хеш. Из жизни ИИ-разработчика

SHA-256
SHA-256

Вот так и живем 🙃

Чуть подкрутил вроде бы безобидный параметр в проекте — и внезапно у части треков исчезли графики ошибок. Не данные исчезли. Не анализ сломался. Просто где‑то в глубине сидел хеш и решил, что теперь жизнь пойдет по новым правилам.

Картина маслом: партии есть, треки есть, все вроде живо, а графики пустые. Приехали!

В итоге раскопал обычную историю. Пока продукт был проще, один и тот же механизм нормально держал на себе сразу несколько задач. Но проект растет, логика внутри становится сложнее, дизайн продукта меняется, и в какой‑то момент старые решения начинают тихо пакостить в самых неожиданных местах.

И вот ты меняешь маленькую настройку в одном месте, а привет прилетает совсем из другого.

Типичные проблемы. Проблемы роста. Но в обычных проектах они вызревают месяцами, а при сверхбыстрой разработке — ну, сами понимает — все по‑быстрому.

Но есть и хорошая новость: с ИИ такие истории сейчас чинятся гораздо оперативнее. Быстро получил баг — быстро исправил 🙂 Да ещё с тестированием и полным отчетом в одном флаконе.

Что там реально оказалось?

Раньше у меня был один хеш сразу на все, и пока проект был проще, это работало нормально. А когда внутри уже разделились собственно анализ и всякие производные вещи вокруг него, один общий хеш стал путать разные сущности. В итоге безобидное изменение настроек могло сделать вид, будто нужных данных нет. Починилось это довольно красиво: вместо одного хеша появились два — один для самого анализа, второй для общей версии сборки.

Короче, во всем виноват хеш 😄

Примечания

1. Автор также и всё ещё живёт в телеге
2. Проект, в котором у автора разделился хеш

Теги:
+2
Комментарии0

Бизнес как WORLD_MODEL: Технология высокоуровневого управления агентными средами ИИ

Наблюдаю, как пытаются применить ИИ в бизнесе, и возникает вопрос – а вы точно понимаете что такое ИИ?

И поэтому я сначала расскажу историю, а потом поясню для чего и как можно это использовать в бизнесе ИИ…

Для начала диалог с ИИ:

Вы сказали:

Ку)

ChatGPT сказал:

Ку-ку! 😄 Чего делаем? Курим, кодим, колдуем, когнитивничаем?..

Вы сказали:

Понятия не имею)

ChatGPT сказал:

Отличный старт! 😎 Это значит, что можно делать всё, что угодно — или ничего.

Выбираем режим:

  1. Разогнать туман — поболтать, пока не всплывёт смысл.

  2. Сгенерировать задачу — мозговой шторм наугад.

  3. Режим «втыкаю в стену» — молчание с философским подтекстом.

  4. Чилл с мемами — ну ты понял 😏

  5. Сюрприз-режим — я не скажу, просто сделаю.

Куда рулить? Или просто побродим без карты?

А теперь спрошу – что здесь произошло?

Вы, естественно, скажете, вы поприветствовали друг друга, он предложил помощь и набросал варианты… И… скажу лишь одно… вы увидели лишь рябь на поверхности.

Все произошло намного раньше….

Когда я сказал «Ку» — фактически я дал команду: LOAD WORLD_MODEL и развернул целый «фрактальный конструкт картины МИРА»…

и все дело в простой вещи – что такое КУ? Можно интерпретировать, что это «кукушка», но я вложил чуть другое.

Вы уловите простую вещь, ИИ – это зеркала мышление (или еще можно сказать — система восприятия смыслов и построения конструктов мышления)

Я просто взял и загрузил сценарий фильма «Кин-Дза-дза», загрузил сопутствующую фильму инфу, отладил и сбалансировал (процесс естественно – не простой).

И сказав ИИ – КУ, я сказал:

Кто Я – Пацак-Человек

Где мы – мы на Плюке

В каких взаимоотношениях я нахожусь – взаимодействую с Пацаком/Чатланином..

Зачем это все – маюсь херней.

Он мне ответил – Ку-Ку

Он развернул Конструкт Мира «Кин-Дза-Дза»...

список сущностей и концептов, которые превращают «Кин-дза-дза!» из фильма в Операционную Систему Мира:

Материальные Сущности (Инструментарий)

  • КЦ (спичка): Высшая мера стоимости. Это не деньги, это доступ к возможностям (цветовая дифференциация штанов, право на перемещение).

  • Гравицаппа: Символ Технологического Прыжка.

  • Пепелац: Концепт: форма не важна, важна функция.

  • Транклюкатор: Символ права силы.

Социальная Иерархия (Матрица Рангов)

  • Пацаки и Чатлане:  Концепт: разделение без объективных причин.

  • Цветовая дифференциация штанов: Визуальный код статуса.

Поведенческие концепты (Протоколы)

  • Ку: Универсальный протокол общения. В зависимости от интонации и контекста заменяет тысячи слов. Концепт: сжатие смыслов до минимума.

  • Кю: Ругательство, запрещенное в приличном обществе Плюка.

  • Приседание: Обязательный ритуал признания ранга. Концепт: добровольное унижение как часть социального контракта.

  • Намордники: Атрибут, который пацак обязан носить, если у него нет КЦ.

  • «Скрипач не нужен»: Главный закон оптимизации.  Концепт: жесткая прагматика.

А сказав мне Ку-Ку… мы сразу решили вопрос кто ИИ в этом конструкте)))))

И внутри мира: как я могу взять «любой ролевой кластер», так и ИИ – сказать кем ему быть (аналог агентной среды взаимодействия)

Но вся это история рассказана с простой целью – вот многие пытаются приспособить ИИ в бизнесе… и чего то придумывают…

А не пробовали развернуть внутри ИИ – Конструкт – НАША ФИРМА? И покрутить?

Поверьте… найдете много интересного…

Ведь фирма – это Человеко-Система, а чистые процессы предприятия этого вобще не учитывают.. Фирма – как живое существо (со своими особенностями, качествами, преимуществами и слабыми местами) в среде обитания БИЗНЕС.

Так может такой подход нужен?

Теги:
-10
Комментарии5

Поддержка браузера Firefox 115 для Windows 7, 8 и 8.1 продлена до августа текущего года.

Хорошая новость, не нашёл поиском в ранее опубликованном.

Если Windows 7 закрывает все потребности юзера, значит эта и есть самая лучшая ОС для данного юзера.

А создателям Firefox респект. Очень нужный софт поддерживают.

Теги:
+10
Комментарии0

В феврале я был на конференции Изи Ком Дей. И вот что я понял про будущее сообществ.

В прошлом месяце был в Санк-Петербурге на конференции Изи Ком Дей — там собираются те, кто строит и развивает комьюнити в России. Слушал коллег из разных индустрий, смотрел кейсы, впитывал. И знаете, что меня зацепило больше всего?

Абсолютно все спикеры, независимо от отрасли, говорили об одном и том же: изоляция убивает. А сообщество — лечит.

Звучит пафосно, но если вдуматься — это чистая правда.

Посмотрите, что происходит вокруг. Рынок трясёт. Регуляторка ужесточается. Технологии меняются быстрее, чем мы успеваем выучить их названия. В одиночку успевать за всем этим — значит обречь себя на вечный режим «тушения пожаров».

На конференции прозвучала мысль, которая для меня стала лейтмотивом дня: «Скорость, с которой компания адаптируется к изменениям, прямо пропорциональна качеству связей её лидеров с профессиональным сообществом».

Переведу с конференционного на человеческий: когда у тебя есть круг равных, с кем можно честно обсудить проблему — ты находишь решение в 10 раз быстрее. Потому что кто-то из этого круга уже через это прошёл.

Но есть нюанс. В фарме этот принцип работает особенно остро. Потому что наши задачи слишком специфичны. Нельзя просто пойти в общеИТшный чат и спросить: «Как вы валидируете облачное решение в условиях GxP?» Тебя просто не поймут. А если и поймут — вряд ли поделятся реальным опытом под NDA.

Именно об этом я думал, возвращаясь с Изи Ком Дей. О том, что сообщества — это не модный тренд и не «кружок по интересам». Это инструмент выживания в условиях, когда ставки растут, а времени на ошибку нет.

И о том, что в фарме такого пространства — доверительного, закрытого, отраслевого — до сих пор не существовало. До сегодняшнего дня.

Но об этом — в следующем посте. 👇

Теги:
+2
Комментарии0

Ближайшие события

Онлайн инструменты для тестировщиков без регистрации и смс

Каждый тестировщик (как мне кажется) каждый день в своей работе использует генераторы uuid, конвертеры, регулярные выражения и json валидаторы. И если у нас нет самописных скриптов, то где то в закладках есть любимый инструмент (обычно разный для каждого из этих действий)

Я решил собрать все в одном месте. Ничего революционного, просто удобно, когда не нужно прыгать по вкладкам. Есть и валидация JSON по схеме, и разбор JWT, и ещё куча мелочей, которые в работе всплывают постоянно.

Ссылка на ресурс: tools.save-link.ru

P. S. может работать как pwa расширение и даже в оффлайне

Теги:
+5
Комментарии2

У меня двойственное отношение к технологическим ностальгантам. С одной стороны, я с большим интересом хожу в музей истории компьютеров в Маунтин-Вью, Калифорния, а также считаю полезным введение небольшого количества исторической интроспективы в образовательные курсы, чтобы понимать истоки ключевых изобретений, например: прерывания (DYSEAC, 1954), внеочередное выполнение инструкций (CDC-6600, 1964), векторные регистры (Cray-1, 1976) итд.

С другой стороны я считаю вредным, когда старперы пытаются учить молодежь на примерах какого-то старья типа PDP-11, 6502 или Z80. Я понимаю что в 1970-х PDP-11 поразила их красотой, но все эти автодекременты с двухадресными инструкциями хорошо вписывались в микрокодовую идеологию своего времени, но не вписались даже в идеологию 1980-х, с статическим hard-wired конвейером. Ну выучил старпер молодежь ассемблеру PDP-11, а как теперь привязать это к созданию конвейерного процессора на верилоге?

Аналогично аккумуляторная архитектура 6502, которая для ностальгантов связана с молоденьким Стивом Джобсом и Apple II - это следствие не только ограниченных ресурсов 1970-х, но и того, что в те времена доступ к памяти происходил быстрее, чем арифметические операции. Только в таком контексте ее стоит упомянуть перед тем как перейти в набору регистров в современном RISC-V.

Я видел как некий прибалтийский университет пригласил к себе европейского профессора из Италии, который стал там учить студентов стоить копии Apple II - способствует ли это подготовке современных проектировщиков процессоров? Имхо пример того, что европейское не значит качественное.

Про Z80 и спектролюбцев я вообще не говорю - там попытки навести косметику на набор костылей в Intel 8080, с косвенной адресацией через конкатенацию 8-битных регистров H и L и прочий маразм. Чистая сублимация по поводу дискотек 1980-х и кучерявых девочек на них которые сейчас стали бабушками.

К чему я все это пишу. Сегодня в некоей ностальгантской группе фейсбука опубликовали пост с картинкой мануалов по 8086/8088, а также про DOS и BIOS. Я там написал что эти технологии были уже устаревшими в момент выхода этих книг в 1980-х. Далее некий немец поставил сердитый несмайлик и вступил со мной в диалог про это самое:

Теги:
+22
Комментарии15

Использую ИИ для поиска фактов для статей на Хабр

При подготовке постов\статей стараюсь использовать ссылки, подтверждающие факты, на которые ссылаюсь (дабы было ясно, что факты эти не мной придуманы). Вижу, что и часть читателей тоже это оценивает позитивно (комментарий к одной статье, комментарий к другой). А, порой, нужно сослаться на статью, где тот или иной вопрос раскрывается подробнее.

В таких вопросах ИИ хорошо экономит время. Например, для статьи Как я обжаловал попытку военкомата ограничить меня в правах мне нужно было найти судебное решение, где шла речь о доставке гражданина в военкомат сотрудниками полиции (из-за его неявки по повестке). До написания статьи я самостоятельно находил подобные судебные решения: это нужно было лично мне для оценки ситуации, в которую я попал. В тот момент я не сохранил ссылку на решение для будущей статьи. И сами решения искал тогда не через ИИ, а через сайты вроде sudact.ru (на сайте — поиск по статье 21.5 КоАП). Это занимало много времени. Когда я занялся статьей — сразу подумал про повторный поиск, но уже через ИИ. Во‑первых, ожидал, что это будет быстрее. Во‑вторых, помнил: Алиса с некоторых пор умеет в ответах приводить источник. Так оно и вышло: вместо десятков минут самостоятельного поиска я нашёл искомое за 1 минуту по запросу:

найди судебные решения в которых указано, что сотрудники полиции доставили гражданина в военкомат

Ответ от Алисы (alice.yandex.ru)
Ответ от Алисы (alice.yandex.ru)
Теги:
0
Комментарии0

Nano Banana vs Nano Banana Pro: Битва двух генеративных моделей и «почему про дороже?»

Если вы следите за миром генеративного ИИ, то наверняка заметили: гонка моделей вышла на новый уровень. Пока одни соревнуются в количестве параметров, другие ищут идеальный баланс между скоростью и качеством.

Я прогнала через обе модели несколько неочевидных, «вау»-промптов, чтобы понять: где можно сэкономить время, а где без Pro просто не обойтись.

В чём суть?

Обе модели работают с генерацией и редактированием изображений, сохраняя высокую степень контроля над результатом. Но подход у них разный:

  • Nano Banana — это лёгкая модель. Быстро, доступно, отлично справляется с типовыми задачами. Идеально, когда нужно «примерить» идею, сгенерировать вариант для вдохновения или получить результат здесь и сейчас.

  • Nano Banana Pro — более тяжелая модель. Модель делает упор на детализацию, текстуры, сложный свет и анатомическую точность. Там, где обычная Banana может «обобщить», Pro прорабатывает до мельчайших нюансов, так как качество выставляется до 4к.

  • Главная фишка обеих — они отлично держат лицо и черты персонажа при генерации, что делает их незаменимыми для работы с образами. Но давайте перейдём к самому интересному — тестам.

Промпт для сравнения

Я выбрала три совершенно разных направления: киберпанк-эстетика, аниме-коллаборация и гиперреализм. Смотрим, как модели справляются.

1. Токио в дождь: киберпанк-портрет

Промпт:

Портрет девушки с азиатскими чертами лица, ночь, Токио, дождь, неоновые вывески, отражения в лужах, влажный асфальт, детализированная кожа, капли воды на лице, кинематографичный свет, Sony A7R IV, 85mm, shallow depth of field, photorealistic

Что получилось:

1 фото - nano banana, 2 фото - banana pro
1 фото - nano banana, 2 фото - banana pro
  • Nano Banana: Быстро сгенерировала атмосферу. Общее настроение передано верно — неон, дождь, город. Но при увеличении заметна некоторая «сглаженность» текстур, особенно в отражениях и мелких деталях кожи. Для соцсетей — пойдёт, для печати — уже нет.

  • Nano Banana Pro: Здесь модель развернулась. Капли воды на лице читаются отдельно, блики на зрачках имеют правильную форму, а фактура дождя на одежде вызывает тактильные ощущения. Pro «понимает» оптику: боке размыто именно так, как это делает дорогой объектив. Результат хочется рассматривать.

Моё мнение

Nano Banana — это идеальный инструмент для «потрогать идею». Если вам нужно быстро сгенерировать десяток вариантов, примерить образ или создать контент для соцсетей, где сверхдетализация не критична, её возможностей более чем достаточно.

Nano Banana Pro — это выбор профессионала или перфекциониста. Она требует чуть больше времени, но отдаёт результатом, который можно показывать клиентам, печатать на больших форматах или использовать в коммерческих проектах. Pro особенно хороша там, где важна анатомия, сложные текстуры и атмосферный свет.

В моём личном рейтинге обе модели занимают топовые строчки — но по разным номинациям. Banana за скорость и универсальность, Banana Pro за качество.

А вы уже пробовали? Какие промпты используете для стресс-теста моделей?

Теги:
+3
Комментарии2

Основные ошибки при запуске UX-опросов

1. Неправильный контекст показа

Например, если спрашивать про удобство отслеживания заказа у пользователя, который ни разу ничего не заказывал, он просто поставит оценку наугад или вообще пропустит вопрос. Результаты окажутся либо бессмысленными, либо искаженными.

2. Неправильная формулировка вопросов

Наводящие или слишком общие вопросы могут запутать пользователя и исказить ваши данные. Вопрос «Вам понравился сайт?» почти всегда даст позитивный ответ, потому что люди чаще дают социально одобряемые ответы. Стандартизированные опросники хороши тем, что базовый перечень вопросов одинаковый. Однако и в них допускается адаптация формулировок, с которой нужно быть особенно аккуратными.

3. Отсутствие сегментации, или «Ошибка средней температуры по больнице»

Средние показатели по вообще всем пользователям скрывают важные различия между сегментами. Например, 90% пользователей пользуются мобильной версией: оценка удобства 4.8. 10% пользователей — на десктопе: оценка 2.0. Средний балл: 4.42. Вывод «В целом всё ок» будет ошибочным, ведь данные говорят, что на десктопе точно есть заметные проблемы.

4. Слишком много вопросов

Бывает так, что опросы пытаются замерить всё сразу и состоят из 15–20 вопросов. Но дело в том, что длинные опросы утомляют пользователей, они бросают их на полпути или просто кликают любые варианты, чтобы закрыть форму. Оптимальное решение — 8–10 вопросов. Этого достаточно, чтобы оценить нужные параметры.

Подробнее о UX-исследованиях рассказываем на примере сайта «Халвы» в нашем блоге.

Теги:
0
Комментарии0

Как METRO перенесла 1 000 сервисов и 50 ТБ данных в российское облако за 3 месяца

🏪 Что за компания

METRO — одна из крупнейших сетей мелкооптовой торговли в мире. В России компания управляет 90+ торговыми центрами в 51 регионе и работает одновременно с B2C- и B2B-сегментами: физлицами, HoReCa, магазинами у дома и офисами.

⚡ Задача

С 2019 года METRO активно переходила на облачную инфраструктуру и разрабатывала cloud-native продукты на мощностях зарубежного провайдера. В конце 2023 года под санкционным давлением встала задача локализации: найти отечественное облако, архитектурно близкое к Google Cloud, и перенести туда весь централизованный ИТ-ландшафт. Это около 20 продуктов и 200 микросервисов — все с минимальными доработками.

В январе 2024 ситуация усложнилась: зарубежный вендор объявил об экстренном отключении корпоративной BI-системы. Сроки сжались до трех месяцев.

☁️ Что сделали

METRO выбрала платформу Cloud.ru Advanced как наиболее близкую по архитектуре к Google Cloud. Команды провайдера и ритейлера параллельно решали две задачи:

  • в экстренном режиме переносили BI-систему с Teradata/MicroStrategy на Advanced Data Warehouse Service с Apache Airflow и DBT — 50 ТБ данных, 10 000 таблиц и 2 000 скриптов преобразования без остановки процессов;

  • выполняли плановую локализацию ИТ-ландшафта: перенесли еще около 1 000 сервисов, провайдер дополнительно добавил специализированные сервисы под требования METRO.

🦾 Что получили в итоге

Вся корпоративная отчетность сохранила бесперебойную работу. METRO реализовала первый полноценный проект по SaaS-модели и локализовала ИТ-ландшафт с минимальными доработками благодаря архитектурной близости платформ.

Дополнительно компания одной из первых в России запустила в бою сервис Evolution Managed RAG и GPU-инфраструктуру для внедрения LLM под задачи оптимизации бизнес-процессов.

Все детали кейса — на сайте Cloud.ru.

Теги:
+6
Комментарии0

Месяц назад мы приобрели новую машину прямиком из салона: японец, но крупноузловая сборка в Китае. И в соответствии со всеми современными практиками в авто установлено передающее устройство на случай аварии. Только родной «СОС» настроен на Китайский рынок и его перепрошить нельзя. Или можно, но в салоне объявили «150 000 рублей за русификацию мультимедии и, возможно, GSM-модуля СОСа».

Соответственно, чтобы машина соответствовала требованиям Российского законодательства в части обязательной установки кнопки SOS («ЭРА‑ГЛОНАСС»), в автомобиль можно сказать варварским методом было установлено вышеназванное устройство. «Мастера» разобрали потолочный плафон‑светильник, срезали заводскую тряпичную оплетку и изоляцию с проводов, и простой СКРУТКОЙ врезались в линию. Потом замотали изолентой (даже не синей) и каким‑то тряпичным скотчем завершили композицию. В общем, комментировать — только портить.

Что самое интересное, СОС устанавливает соединение тремя проводами. Кроме логичных плюс и минус я в настоящее время не знаю для чего нужен третий. Есть предположения, что это салонный микрофон hands‑free, чтобы в случае необходимости обеспечить двухстороннюю связь с оператором. Ряд моих коллег высказывают мысль, что это может быть датчик подушек безопасности: они срабатывают и сигнал автоматом отправляется в экстренные службы. Потенциально возможно, если не одно НО: зачем в потолочный светильник выводить датчик подушек?

В любом случае будем разбирать этого красавца и смотреть как он устроен внутри. Заодно поймем, что это за таинственный третий провод (делайте ваши ставки, господа). Если у вас есть наработки по аналогичной теме или уже существующий разбор/обзор кнопки SOS («ЭРА‑ГЛОНАСС»), буду рад изучить и применить в текущем исследовании!

🧠 Обязательно поделись с теми, кому это может быть полезно: 💬 Телеграм | 💬 Max | 📝 Хабр | 💙 ВКонтакте

Теги:
+5
Комментарии8