ArtemKQA May 17 2025 at 10:16

Как я научился анализировать собственные собесы с помощью Whisper (и почему это нужно каждому айтишнику и не только)

Easy

3 min

34K

Artificial IntelligenceIT careerPython * InterviewOpen source *

From sandbox

Open source season

+21

Comments 36

Busla May 17 2025 at 11:02

записывать интервью можно только с согласия всех участников, иначе это может преследоваться законом.

А на передачу интервью третьей стороне согласия не требуется?

ArtemKQA May 17 2025 at 11:10

Хороший вопрос!

Если в интервью есть личные данные - да, передача третьей стороне (в том числе GPT) тоже может требовать согласия.

В моём случае передаётся только моя речь, без упоминания рекрутеров или компании, но в целом - согласие на анализ тоже важно, вы правы.

gooseefer May 17 2025 at 12:06

а может ну их, компании, рекрутеров, юридические риски?

Пусть чатик сам нагенерит вопросы, вы на них ему ответите «а ля собес», а потом попросите применить тот же анализ?

Жаль только что я лично знаю пару команд уже этим занимающихся, а так да, прорывная идея.

Одна из них мне даже нравится, сочту за честь чутка порекламить: https://mockin.work

ArtemKQA May 17 2025 at 17:23

Да, вариант с генерацией вопросов от GPT тоже классный, и вообще без рисков

.Спасибо за ссылку на mockin.work, не знал про них - гляну!

Надеюсь, мой способ тоже кому-то пригодится как удобный старт для самоанализа.

vangog9 May 18 2025 at 20:13

Правда минус у Мокинга всё же небольшой есть - 3 бесплатных "запроса" (интервью/проверка резюме и т.п.). В остальном выглядит норм.

karambola_stiv May 24 2025 at 15:05

Так это уже другие условия - никакого стресса, никакого "hr не понимает терминологии, и знает только ответы, но нужно донести до него, ведь первый тех этап с ним", никакого уставшего тим. лида на обратной стороне, лицо которого вызывает лишь уныние. Тут всё иначе, поэтому эффективность будет ниже. Да и, давайте не будем детьми, притворяющимися при взрослых, что они не матерятся - автор должен был написать про согласие, ведь иначе его статью могут воспринять как пропаганду, но в реальности ты можешь использовать её как хочешь, лишь бы не выкладывать вместе с названием. Многие компании так же без твоего согласия записывают интервью, чтобы анализировать. И что ты им сделаешь за эту запись, если они её никуда не выложат? Ты о ней даже не узнаешь. Как и они о твоей. Да и некоторые на ютюбе выкладывают полную запись интервью со всеми вопросами, запикивая только названия и имена и ничего им не прилетает. Вы же не просите разрешения у фотографа скачать его фотографию, чтобы на рабочий стол поставить.

timerbulatov May 17 2025 at 11:15

Какое то время назад пробовал распознавать записи, модель тогда путалась в идентификации говорящих (если там больше двух голосов), и в итоговом файле был просто поток сознания. Сейчас также или есть улучшения?

ArtemKQA May 17 2025 at 11:30

Да, Whisper пока не различает спикеров. В контексте собеседования это не критично важно отделить свои ответы от вопросов интервьюеров. Для анализа самопрезентации и технических ответов этого более чем достаточно.

hidden_pingvin May 17 2025 at 19:50

А вы уверены, что результат получается достаточно точным? Ведь LLM из третьего шага будет действительно поток сознания нескольких спикеров анализировать и она не в курсе где именно ваши ответы. Собеседующий будет влиять на результат, так или иначе.

BadNickname May 17 2025 at 20:15

А всего-то стоит сделать ещё один шаг, и добавить модель для аннотирования спикеров...

Ravius May 18 2025 at 00:29

"Всего-то"

Есть примеры?

Я пытался в real-time или около того - все плохо было у whisper... оч сомневаюсь что "всего-то" заработает быстро.

Stom May 20 2025 at 04:21

Я для схожей задачи использую https://github.com/m-bain/whisperX, под капотом whisper + pyannote-audio

ArtemKQA May 20 2025 at 17:18

я тоже читал про это, и тоже думал попробовать посмотреть как будет работать, но руки еще не дошли.

egribanov May 18 2025 at 15:18

Ну а как компании данные собирают? Будем считать, что это обезличенные данные

astenix May 17 2025 at 11:05

Какая у вас версия Whisper, что может распознавать разные голоса и так точно расставляет запятые и вопросительные вопросы? Или это chatGPT старается?

У меня из Whisper получаются тексты, которые ещё надо изрядно редактировать, чтобы они стали читаемыми без звука в фоне.

ArtemKQA May 17 2025 at 11:11

Использовал стандартную модель Whisper medium, но финальный текст прогонял через GPT он помогает привести расшифровку в читаемый вид с пунктуацией и структурой. Whisper даёт основу, GPT как бы полирует.

Stom May 20 2025 at 04:28

Привет, если узнал :)

Попробуй https://github.com/m-bain/whisperX, это whisper + разделение текста по спикерам с помощью https://github.com/pyannote/pyannote-audio

Smogendrr May 17 2025 at 16:24

А теперь сшить все транскрипты в один и добавить загрузку промпта анализа динамики из файла. Я так теперь клиентов консультирую, с их согласия конечно. DeepGram использовал с распознаванием голосов, чтоб в транскрипции сразу все цитаты помечены Голос 1 и Голос 2 были. А в промпте в начале указывал заменить имя Голоса 1 и Голоса 2 на Клиента и Терапевта.

ArtemKQA May 17 2025 at 17:31

Круто, спасибо, что поделились!

DeepGram с разметкой спикеров - звучит как удобная штука, обязательно гляну.

А идея с заменой ролей через prompt - вообще огонь, взял себе в заметки.

Smogendrr May 17 2025 at 19:27

Пожалуйста! Распознавание голосов там diarize кажется называется

UFO landed and left these words here

ArtemKQA May 17 2025 at 17:18

Рад что шутка зашла :)

Согласен, без записи сложно понять где ты ошибся . Как раз из этого и родилась идея : Whisper + GPT → текст и разбор.

Насчет видео было б вообще огонь , чем больше данных , тем глубже можно анализировать

UFO landed and left these words here

ArtemKQA May 17 2025 at 17:12

Whisper не различает собеседников и не умеет разруливать перебивания.Если говорят одновременно, он просто смешивает фразы в одну строку текста, в порядке того, как «услышал»

vangog9 May 18 2025 at 20:08

Да, Whisper - прикольная штука, сам пару раз пользовался.
Единственный вопрос: почему на запись нужно разрешение? Безусловно, если выкладывать информацию в интернет или использовать в коммерческих целях - тогда безусловно.
Зачем это делать, если чисто для себя, чисто в личных целях, не передавая третьим лицам?

ArtemKQA May 20 2025 at 17:25

Есть правда в ваших словах если ты сам участник беседы и используешь запись только для себя, то в большинстве случаев это действительно не запрещено, но я не юрист, поэтому решил сильно в это не углубляться и никого не провоцировать поэтому и написал про согласие, на всякий случай.
Ну и просто по-человечески - так честнее.

eyeDM May 19 2025 at 04:41

Вообще, если вы сами участвуете в разговоре, то записывать его можно даже и без информирование участников и получения их согласия. Это не является нарушением закона, так как и в чужую личную жизнь вы не лезете, и не получаете информацию негласным образом. Но явно обозначить своё желание сделать запись и открыто положить диктофон на стол - и удобнее, и безопаснее, и просто хороший тон.

ArtemKQA May 20 2025 at 17:25

точно точно согласен с вами

TheAim May 19 2025 at 05:15

Зачем? Уже есть Gemini 2.5 Pro есть. Он аудио и видео смело обрабатывает

ArtemKQA May 20 2025 at 17:29

Да, Gemini 2.5 Pro сильный инструмент.
Правда он платный и облачный (насколько я знаю) , а я специально собирал решение на основе бесплатных open source-инструментов, чтобы всё можно было запускать локально и под полный контроль данных.

TheAim May 21 2025 at 12:01

Я использую его через Google AI Studio, и друзьям показал и они пользуются без проблем

lynikol May 19 2025 at 19:14

Интересная статья!

Я тоже сделал подобный кейс, но у меня был немного другой вектор - локально, безопасно и без подписок.

Для разбивки по спикерам взял NeMo

ArtemKQA May 20 2025 at 17:31

Спасибо!
Надо будет потестить, интересно, как он справляется на русском(NeMo).
Если есть где-то информация какая то или статья с удовольствием почитаю

lynikol May 20 2025 at 17:46

С русским языком хорошо справляется)

Да, я вот тут описал свой опыт https://habr.com/ru/companies/alfa/articles/909498/

ArtemKQA May 20 2025 at 17:48

ого, большая статья, обязательно прочитаю !