
Всем привет! Меня зовут Дима, я продакт-менеджер команды видеозвонков в Битрикс24.
Сегодня я расскажу о том, как создавался новый функционал, изменивший подход к онлайн-встречам — CoPilot в видеозвонках.
В этой статье — немного закулисья: как мы придумывали CoPilot в видеозвонках, какие решения принимали на ходу, что получилось хорошо, а что пришлось переписать несколько раз.
Как появилась идея CoPilot в видеозвонках?
В команде мы давно размышляли над тем, как уменьшить количество ручной рутины после встреч. Все эти «скинь протокол», «а кто записал задачи?», «о чем договорились?» — знакомо? Именно так мы и создавали CoPilot в видеозвонках — функцию, которая автоматически записывает звонок, делает структурированное резюме, выделяет задачи, встречи, итоги и даже даёт развернутый анализ участия каждого собеседника, показывая как сильные стороны, так и потенциальные зоны роста.
От проблемы к решению
Идея CoPilot в видеозвонках родилась не в вакууме. Мы начали с пользовательского исследования: провели десятки интервью, анализировали реальные сценарии работы команд и почти всегда слышали одно и то же — после созвона остаётся ощущение «что-то важное точно было, но кто теперь это разберёт?». Люди забывают фиксировать задачи, теряются в часовых стенограммах, переслушивают звонки по диагонали. Автоматизация тут просилась сама собой.
Конечно, мы знали о существующих решениях — есть нейросети, которые умеют подключаться к Zoom, Google Meet, Teams и собирать краткие summary. Но в этом и была загвоздка: либо нужно вручную выгружать запись, либо давать стороннему сервису доступ к внутренним звонкам. Для большинства наших пользователей это просто не вариант — особенно в закрытых системах и командах с повышенными требованиями к безопасности и приватности.
Поэтому мы решили: нужен свой инструмент, глубоко встроенный в платформу видеозвонков. Такой, который не просто "подключается к встрече", а понимает её контекст — кто участвует, что обсуждается, какие данные уже известны системе.
На этапе концепции мы сосредоточились на трёх ключевых направлениях — тех, где, по нашему опыту, большинство существующих решений либо поверхностны, либо вовсе бессильны.
1. Полная запись + умное резюме. Просто расшифровка — это неудобно. Просто summary — часто недостаточно. Мы пошли дальше: CoPilot в видеозвонках сохраняет полную запись встречи, но поверх неё строит многоуровневое резюме с разбивкой по темам, логическими блоками обсуждения, и, главное — с явным выделением ключевых решений, назначенных задач и запланированных встреч. Это не bullet-пойнты ни о чём, а связный отчёт, который можно прочитать как мини-протокол совещания.
2. Персонализированный анализ участников. Мы не просто «считаем слова». Мы анализируем, кто какие темы поднимал, кто инициировал задачи, кто принимал решения, а кто в целом занимал наблюдательную позицию. Это позволяет командам не только лучше понимать распределение ролей в разговоре, но и корректировать процессы: например, дать больше голоса тем, кто обычно молчит, или понять, почему одни встречи ведут к действиям, а другие — в никуда.
3. Связь с рабочим процессом. Все найденные задачи можно отправить прямо в task-трекер. Встречи — в календарь. CoPilot в видеозвонках не просто «отдаёт текст», он становится частью продуктового цикла: от созвона — к действию, без промежуточных копипаст и утерянных смыслов.
Так мы и подходили к созданию CoPilot в видеозвонках: как к созданию не просто «ещё одной функции на нейросети», а встроенного участника команды, который понимает, что происходит, и помогает не забыть важное.
Упаковка идеи в продукт
Когда общая концепция CoPilot в видеозвонках сформировалась, мы перешли к следующему шагу — разложили её по этапам, чтобы понять, из чего должен состоять рабочий функционал и что потребуется на каждом уровне. В итоге сформировался план из трёх ключевых направлений, с чётким пониманием задач в каждом из них:
1. Анализ аудио и текста
На этом этапе мы запланировали внедрение ASR (automatic speech recognition) — моделей, которые смогут не просто распознавать речь, но и делать это с учетом специфики рабочих звонков: прерывания, акценты, технический жаргон. Параллельно — разработка NLP-пайплайна для извлечения тем, решений, задач и структурирования итогов по смысловым блокам.
2. Оценка встречи
Чтобы давать осмысленные рекомендации, мы решили классифицировать типы встреч: синки, one-on-one, демо, ретро и пр. Под каждый сценарий — своя логика оценки: вовлеченность участников, соотношение говорящих и слушающих, плотность полезной информации и так далее.
3. Рекомендации для участников
На основе анализа мы запланировали блок персонализированных рекомендаций: что можно улучшить в следующей встрече — сократить время обсуждения, четче формулировать задачи, вовлекать пассивных участников. Это не просто "оценка ради оценки", а конкретные actionable-инсайты, которые могут повлиять на качество командного взаимодействия.
Так поэтапно и начала собираться система, в которой каждая часть — от распознавания речи до формирования советов — встроена в единую логику: помогать командам не только фиксировать итоги, но и работать эффективнее.
Распознавание: самая сложная часть, но ключевая для успеха
Одной из самых сложных задач в разработке CoPilot в видеозвонках стало создание системы распознавания речи. Этот этап — фундамент всего функционала, ведь от его качества зависит, насколько точным и полезным будет итоговый анализ. Если система неправильно распознает реплики или нарушит хронологию, весь последующий анализ потеряет смысл.

Почему это так сложно?
Качество распознавания: В видеозвонках участники часто говорят одновременно, перебивают друг друга или говорят с акцентами. Наша задача была — научить систему корректно разделять реплики и точно их расшифровывать, даже в условиях фонового шума или неидеального качества звука.
Хронология и логика текста: Мало просто распознать слова — важно сохранить их последовательность и контекст. Например, если один участник задает вопрос, а другой отвечает через минуту, система должна связать эти реплики, чтобы текст выглядел логично и был удобен для чтения.
Скорость обработки: Мы хотели, чтобы CoPilot в видеозвонках выдавал результаты через несколько минут после завершения звонка, а не заставлял пользователей ждать 10-15 минут. Это требовало оптимизации алгоритмов и инфраструктуры для быстрой обработки больших объемов данных.
Ну и как тут не рассказать про нашу любимую багу, которая чуть не превратилась в стартап.
Однажды начали замечать странности: в некоторых резюме встречи, сразу после обсуждения задач, появлялась загадочная фраза:
"Субтитры создавал/сделал/предоставил DimaTorzok."
Казалось бы, при чём тут DimaTorzok? Но модель упорно считала, что он важный участник любой встречи. 😄 Мы даже не сразу поняли, что это старый автотекст из пиратских субтитров, который случайно попал в обучающий датасет.
Самое смешное — DimaTorzok действительно внезапно получил вторую волну славы. Люди начали гуглить, кто он, искать его субтитры, вспоминать «как в старые добрые». Так что можно сказать, что CoPilot устроил ему ретро-камбэк и бесплатную рекламную кампанию.

На этой волне нас даже заметили другие титровальщики. И следующим героем должен был стать загадочный "Симон", чьё имя модель время от времени вставляла как "Субтитры подогнал Симон". Мы было уже начали шутить, что CoPilot — это не только инструмент для видеозвонков, но и талант-скаут в мире субтитров.
Но довольно быстро поняли: пора остановиться. 😅
С тех пор мы решили не заниматься продвижением титровальщиков и сфокусировались на деле — начали чистить текст записи от лишних фраз, автопереводов и случайных вставок на других языках. Всё, чтобы резюме было чистым, понятным и по делу. Без Симона. Без DimaTorzok. Только вы, ваша команда и здравый смысл.
На первых этапах работы над CoPilot в видеозвонках мы, конечно, знали, что распознавание речи — штука непростая. Но мы были полны энтузиазма и веры в технологии… пока не начали читать первые транскрипты.

Ощущение было такое, что мы случайно попали на совещание полиглотов. Один участник, судя по тексту, говорил на английском с примесью сербского, другой — на немецком, третий вообще выдавал нечто, напоминающее смесь иврита и марсианского. При этом атмосфера встречи была рабочей, люди отлично друг друга понимали, кивали, договаривались. Только вот в реальности все говорили по-русски. Просто по-разному: кто с акцентом, кто быстро, кто с микрофоном, который пережил войну.

Мы шутили, что это не просто стенограмма, а лингвистический квест: попробуй догадайся, что там на самом деле сказали.
Не обошлось и без моментов, когда сердце замирало, а рука тянулась проверить — всё ли в порядке с микрофоном, безопасностью и вообще жизнью.
Один из таких эпизодов случился неожиданно. Подходит к нам коллега, слегка бледный и явно озадаченный.
— Ребята, — говорит, — я выключил микрофон на встрече, сказал пару слов своей собаке...
(ну, как обычно: «ты моя бусинка, перестань грызть зарядку» — ничего сверхсекретного).
— А потом смотрю — эта фраза в стенограмме. Как? Почему? Что происходит?!
В этот момент внутри включается тревожный режим:
"А что, если микрофон всё-таки работал?.. А что, если запись шла? А вдруг мы вообще не контролируем, что записывается?"
Включаем форензик-режим: поднимаем логи, проверяем статусы микрофона, воспроизводим ситуацию, буквально по кадрам пересматриваем момент. И — вздох облегчения. Микрофон был выключен. Всё как положено.
Ни один диалог с домашним питомцем не был скомпрометирован.
А вот что произошло на самом деле: модель, столкнувшись с тишиной в записи (а это был именно тот момент, когда микрофон был выключен), решила, что "ну, не может же быть просто тишина!" — и вставила шаблонные фразы, вроде «да, конечно», «всё понятно», «отлично». Прямо как человек, который на встрече не услышал вопрос, но кивает: "угу".
Разобрались мы с этим быстро, научили модель уважать тишину и не додумывать за людей. Но честно скажу: пара седых волос после этой истории точно добавилась.
Оценка встречи и рекомендации: как CoPilot помогает расти
Из всех компонентов CoPilot в видеозвонках самым ценным для команд — и самым сложным для реализации — стал блок оценки встречи и персональных рекомендаций. Задача была не просто “оценить по шкале от 1 до 10”, а дать каждому участнику конструктивную обратную связь, которая помогает стать лучше от встречи к встрече.
Мы подходили к этому как к созданию тренера, а не судьи. CoPilot анализирует структуру разговора, распределение времени между участниками, кто какие темы поднимал, кто завершал обсуждение действиями, кто принимал решения, а кто просто слушал. И самое интересное — он может показать почему встреча была продуктивной, или наоборот — где она буксовала.
Для команды это — точка роста. Кто-то увидит, что часто уводит разговор в сторону. Кто-то поймёт, что недоформулирует задачи. Кто-то — что держится в тени и стоит брать больше инициативы. Всё это подаётся как рекомендации, не обвинения. И с каждой новой встречей участники могут наблюдать динамику: как меняется их стиль общения, структура встреч, эффективность коммуникации.
А теперь немного закулисья.
Когда мы только начали внедрять CoPilot в видеозвонках, одной из задач было — научить его не просто подводить итоги встречи, а делать это с умом: отмечать, что прошло хорошо, где мы договорились, какие задачи возникли, и — самое важное — давать конструктивную обратную связь.
Первая версия промта была... скажем так, прямолинейной. CoPilot честно говорил всё, что думал. И иногда это звучало как холодный душ:
«Вы не договорились ни о чём конкретном»,
«Встреча прошла без ясного результата»,
«Нет чёткого распределения задач».
Некоторые просили: «А можно, чтобы это не отправлялось в общий канал? Лучше в личку». Мы поняли: немного переусердствовали.
Затем пошли в другую крайность — мягкий, вдохновляющий стиль. CoPilot стал хвалить всех как на утреннике в детсаду:
«Отличная динамика»,
«Приятная атмосфера»,
«Молодцы!»
Звучало приятно, но стало бесполезно — обратная связь потеряла смысл. Команда получала обёртку без содержимого.
В итоге мы нашли баланс. Теперь CoPilot сначала выделяет позитив — что получилось, какие решения приняты, где команда хорошо сработалась. А затем — спокойно, по делу — показывает зоны роста. Без драмы, но и без ваты. Такой формат оказался и полезным, и комфортным. Ведь честный, но уважительный фидбэк — один из лучших способов расти. И не только для людей, но и для команд.
Что дальше?
Мы продолжаем развивать CoPilot в видеозвонках не только как инструмент, но как надёжного партнёра для команд. Уже сейчас он помогает фиксировать итоги встреч, выстраивать процессы и давать полезную обратную связь, а в будущем станет ещё ближе к людям.
В приоритете — сделать CoPilot более "живым": чтобы он звучал по-человечески, понимал контекст, подстраивался под стиль команды и давал советы, как хороший коллега, а не сухой алгоритм.
Кроме того, мы готовим следующий важный шаг — долгосрочное хранение данных о встречах и активности участников. Это позволит отслеживать прогресс каждого: как меняется стиль общения, усиливается вовлеченность и растёт вклад в общее дело.
Мы верим, что такие инструменты делают не только людей лучше, но и бизнес сильнее. Впереди много интересного!