ArtemKQA 17 мая в 10:16

Как я научился анализировать собственные собесы с помощью Whisper (и почему это нужно каждому айтишнику и не только)

Простой

3 мин

17K

Искусственный интеллектКарьера в IT-индустрииPython*ИнтервьюOpen source*

Из песочницы

Сезон Open source

+21

Комментарии 36

Busla 17 мая в 11:02

записывать интервью можно только с согласия всех участников, иначе это может преследоваться законом.

А на передачу интервью третьей стороне согласия не требуется?

ArtemKQA 17 мая в 11:10

Хороший вопрос!

Если в интервью есть личные данные - да, передача третьей стороне (в том числе GPT) тоже может требовать согласия.

В моём случае передаётся только моя речь, без упоминания рекрутеров или компании, но в целом - согласие на анализ тоже важно, вы правы.

gooseefer 17 мая в 12:06

а может ну их, компании, рекрутеров, юридические риски?

Пусть чатик сам нагенерит вопросы, вы на них ему ответите «а ля собес», а потом попросите применить тот же анализ?

Жаль только что я лично знаю пару команд уже этим занимающихся, а так да, прорывная идея.

Одна из них мне даже нравится, сочту за честь чутка порекламить: https://mockin.work

ArtemKQA 17 мая в 17:23

Да, вариант с генерацией вопросов от GPT тоже классный, и вообще без рисков

.Спасибо за ссылку на mockin.work, не знал про них - гляну!

Надеюсь, мой способ тоже кому-то пригодится как удобный старт для самоанализа.

vangog9 18 мая в 20:13

Правда минус у Мокинга всё же небольшой есть - 3 бесплатных "запроса" (интервью/проверка резюме и т.п.). В остальном выглядит норм.

karambola_stiv 24 мая в 15:05

Так это уже другие условия - никакого стресса, никакого "hr не понимает терминологии, и знает только ответы, но нужно донести до него, ведь первый тех этап с ним", никакого уставшего тим. лида на обратной стороне, лицо которого вызывает лишь уныние. Тут всё иначе, поэтому эффективность будет ниже. Да и, давайте не будем детьми, притворяющимися при взрослых, что они не матерятся - автор должен был написать про согласие, ведь иначе его статью могут воспринять как пропаганду, но в реальности ты можешь использовать её как хочешь, лишь бы не выкладывать вместе с названием. Многие компании так же без твоего согласия записывают интервью, чтобы анализировать. И что ты им сделаешь за эту запись, если они её никуда не выложат? Ты о ней даже не узнаешь. Как и они о твоей. Да и некоторые на ютюбе выкладывают полную запись интервью со всеми вопросами, запикивая только названия и имена и ничего им не прилетает. Вы же не просите разрешения у фотографа скачать его фотографию, чтобы на рабочий стол поставить.

timerbulatov 17 мая в 11:15

Какое то время назад пробовал распознавать записи, модель тогда путалась в идентификации говорящих (если там больше двух голосов), и в итоговом файле был просто поток сознания. Сейчас также или есть улучшения?

ArtemKQA 17 мая в 11:30

Да, Whisper пока не различает спикеров. В контексте собеседования это не критично важно отделить свои ответы от вопросов интервьюеров. Для анализа самопрезентации и технических ответов этого более чем достаточно.

hidden_pingvin 17 мая в 19:50

А вы уверены, что результат получается достаточно точным? Ведь LLM из третьего шага будет действительно поток сознания нескольких спикеров анализировать и она не в курсе где именно ваши ответы. Собеседующий будет влиять на результат, так или иначе.

BadNickname 17 мая в 20:15

А всего-то стоит сделать ещё один шаг, и добавить модель для аннотирования спикеров...

Ravius 18 мая в 00:29

"Всего-то"

Есть примеры?

Я пытался в real-time или около того - все плохо было у whisper... оч сомневаюсь что "всего-то" заработает быстро.

Stom 20 мая в 04:21

Я для схожей задачи использую https://github.com/m-bain/whisperX, под капотом whisper + pyannote-audio

ArtemKQA 20 мая в 17:18

я тоже читал про это, и тоже думал попробовать посмотреть как будет работать, но руки еще не дошли.

egribanov 18 мая в 15:18

Ну а как компании данные собирают? Будем считать, что это обезличенные данные

astenix 17 мая в 11:05

Какая у вас версия Whisper, что может распознавать разные голоса и так точно расставляет запятые и вопросительные вопросы? Или это chatGPT старается?

У меня из Whisper получаются тексты, которые ещё надо изрядно редактировать, чтобы они стали читаемыми без звука в фоне.

ArtemKQA 17 мая в 11:11

Использовал стандартную модель Whisper medium, но финальный текст прогонял через GPT он помогает привести расшифровку в читаемый вид с пунктуацией и структурой. Whisper даёт основу, GPT как бы полирует.

Stom 20 мая в 04:28

Привет, если узнал :)

Попробуй https://github.com/m-bain/whisperX, это whisper + разделение текста по спикерам с помощью https://github.com/pyannote/pyannote-audio

Smogendrr 17 мая в 16:24

А теперь сшить все транскрипты в один и добавить загрузку промпта анализа динамики из файла. Я так теперь клиентов консультирую, с их согласия конечно. DeepGram использовал с распознаванием голосов, чтоб в транскрипции сразу все цитаты помечены Голос 1 и Голос 2 были. А в промпте в начале указывал заменить имя Голоса 1 и Голоса 2 на Клиента и Терапевта.

ArtemKQA 17 мая в 17:31

Круто, спасибо, что поделились!

DeepGram с разметкой спикеров - звучит как удобная штука, обязательно гляну.

А идея с заменой ролей через prompt - вообще огонь, взял себе в заметки.

Smogendrr 17 мая в 19:27

Пожалуйста! Распознавание голосов там diarize кажется называется

pnmv 17 мая в 17:00

С шутки про "лучше не надо", смеялсо.

Единственный способ понять, что пошло не так, на интервью, это, любым способом, проанализировать весь разговор, а для этого нужна запись. И, если уж это "созвон по скайпу с вебкамерой и онлайн-кодингом", то еще и видео хорошо бы. Строго, для себя, естественно, а не для громких разоблачений.

ArtemKQA 17 мая в 17:18

Рад что шутка зашла :)

Согласен, без записи сложно понять где ты ошибся . Как раз из этого и родилась идея : Whisper + GPT → текст и разбор.

Насчет видео было б вообще огонь , чем больше данных , тем глубже можно анализировать

pnmv 17 мая в 17:55

Как правило, на определённом этапе, сложно не догадаться, что тебя заворачивают, и безо всяких анализаторов. Я записывал собеседования для разбора задачек и оттачивания формулировок. Первое - полезно, а второе ещё и увлекательно.

pnmv 17 мая в 17:04

А как whisper разбирает речь собеседников, когда все перебивают друг друга?

ArtemKQA 17 мая в 17:12

Whisper не различает собеседников и не умеет разруливать перебивания.Если говорят одновременно, он просто смешивает фразы в одну строку текста, в порядке того, как «услышал»

vangog9 18 мая в 20:08

Да, Whisper - прикольная штука, сам пару раз пользовался.
Единственный вопрос: почему на запись нужно разрешение? Безусловно, если выкладывать информацию в интернет или использовать в коммерческих целях - тогда безусловно.
Зачем это делать, если чисто для себя, чисто в личных целях, не передавая третьим лицам?

ArtemKQA 20 мая в 17:25

Есть правда в ваших словах если ты сам участник беседы и используешь запись только для себя, то в большинстве случаев это действительно не запрещено, но я не юрист, поэтому решил сильно в это не углубляться и никого не провоцировать поэтому и написал про согласие, на всякий случай.
Ну и просто по-человечески - так честнее.

eyeDM 19 мая в 04:41

Вообще, если вы сами участвуете в разговоре, то записывать его можно даже и без информирование участников и получения их согласия. Это не является нарушением закона, так как и в чужую личную жизнь вы не лезете, и не получаете информацию негласным образом. Но явно обозначить своё желание сделать запись и открыто положить диктофон на стол - и удобнее, и безопаснее, и просто хороший тон.

ArtemKQA 20 мая в 17:25

точно точно согласен с вами

TheAim 19 мая в 05:15

Зачем? Уже есть Gemini 2.5 Pro есть. Он аудио и видео смело обрабатывает

ArtemKQA 20 мая в 17:29

Да, Gemini 2.5 Pro сильный инструмент.
Правда он платный и облачный (насколько я знаю) , а я специально собирал решение на основе бесплатных open source-инструментов, чтобы всё можно было запускать локально и под полный контроль данных.

TheAim 21 мая в 12:01

Я использую его через Google AI Studio, и друзьям показал и они пользуются без проблем

lynikol 19 мая в 19:14

Интересная статья!

Я тоже сделал подобный кейс, но у меня был немного другой вектор - локально, безопасно и без подписок.

Для разбивки по спикерам взял NeMo

ArtemKQA 20 мая в 17:31

Спасибо!
Надо будет потестить, интересно, как он справляется на русском(NeMo).
Если есть где-то информация какая то или статья с удовольствием почитаю

lynikol 20 мая в 17:46

С русским языком хорошо справляется)

Да, я вот тут описал свой опыт https://habr.com/ru/companies/alfa/articles/909498/

ArtemKQA 20 мая в 17:48

ого, большая статья, обязательно прочитаю !

Зарегистрируйтесь на Хабре, чтобы оставить комментарий