Как стать автором
Обновить

Как я научился анализировать собственные собесы с помощью Whisper (и почему это нужно каждому айтишнику и не только)

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров9.8K
Всего голосов 14: ↑13 и ↓1+13
Комментарии23

Комментарии 23

записывать интервью можно только с согласия всех участников, иначе это может преследоваться законом.

А на передачу интервью третьей стороне согласия не требуется?

Хороший вопрос!

Если в интервью есть личные данные - да, передача третьей стороне (в том числе GPT) тоже может требовать согласия.

В моём случае передаётся только моя речь, без упоминания рекрутеров или компании, но в целом - согласие на анализ тоже важно, вы правы.


а может ну их, компании, рекрутеров, юридические риски?

Пусть чатик сам нагенерит вопросы, вы на них ему ответите «а ля собес», а потом попросите применить тот же анализ?

Жаль только что я лично знаю пару команд уже этим занимающихся, а так да, прорывная идея.

Одна из них мне даже нравится, сочту за честь чутка порекламить: https://mockin.work

Да, вариант с генерацией вопросов от GPT тоже классный, и вообще без рисков

.Спасибо за ссылку на mockin.work, не знал про них - гляну!

Надеюсь, мой способ тоже кому-то пригодится как удобный старт для самоанализа.


Правда минус у Мокинга всё же небольшой есть - 3 бесплатных "запроса" (интервью/проверка резюме и т.п.). В остальном выглядит норм.

Какое то время назад пробовал распознавать записи, модель тогда путалась в идентификации говорящих (если там больше двух голосов), и в итоговом файле был просто поток сознания. Сейчас также или есть улучшения?

Да, Whisper пока не различает спикеров. В контексте собеседования это не критично важно отделить свои ответы от вопросов интервьюеров. Для анализа самопрезентации и технических ответов этого более чем достаточно.


А вы уверены, что результат получается достаточно точным? Ведь LLM из третьего шага будет действительно поток сознания нескольких спикеров анализировать и она не в курсе где именно ваши ответы. Собеседующий будет влиять на результат, так или иначе.

А всего-то стоит сделать ещё один шаг, и добавить модель для аннотирования спикеров...

"Всего-то"

Есть примеры?

Я пытался в real-time или около того - все плохо было у whisper... оч сомневаюсь что "всего-то" заработает быстро.

Ну а как компании данные собирают? Будем считать, что это обезличенные данные

Какая у вас версия Whisper, что может распознавать разные голоса и так точно расставляет запятые и вопросительные вопросы? Или это chatGPT старается?

У меня из Whisper получаются тексты, которые ещё надо изрядно редактировать, чтобы они стали читаемыми без звука в фоне.

Использовал стандартную модель Whisper medium, но финальный текст прогонял через GPT он помогает привести расшифровку в читаемый вид с пунктуацией и структурой. Whisper даёт основу, GPT как бы полирует.


А теперь сшить все транскрипты в один и добавить загрузку промпта анализа динамики из файла. Я так теперь клиентов консультирую, с их согласия конечно. DeepGram использовал с распознаванием голосов, чтоб в транскрипции сразу все цитаты помечены Голос 1 и Голос 2 были. А в промпте в начале указывал заменить имя Голоса 1 и Голоса 2 на Клиента и Терапевта.

Круто, спасибо, что поделились!

DeepGram с разметкой спикеров - звучит как удобная штука, обязательно гляну.

А идея с заменой ролей через prompt - вообще огонь, взял себе в заметки.

Пожалуйста! Распознавание голосов там diarize кажется называется

С шутки про "лучше не надо", смеялсо.

Единственный способ понять, что пошло не так, на интервью, это, любым способом, проанализировать весь разговор, а для этого нужна запись. И, если уж это "созвон по скайпу с вебкамерой и онлайн-кодингом", то еще и видео хорошо бы. Строго, для себя, естественно, а не для громких разоблачений.

Рад что шутка зашла :)

Согласен, без записи сложно понять где ты ошибся . Как раз из этого и родилась идея : Whisper + GPT → текст и разбор.

Насчет видео было б вообще огонь , чем больше данных , тем глубже можно анализировать

Как правило, на определённом этапе, сложно не догадаться, что тебя заворачивают, и безо всяких анализаторов. Я записывал собеседования для разбора задачек и оттачивания формулировок. Первое - полезно, а второе ещё и увлекательно.

А как whisper разбирает речь собеседников, когда все перебивают друг друга?

Whisper не различает собеседников и не умеет разруливать перебивания.Если говорят одновременно, он просто смешивает фразы в одну строку текста, в порядке того, как «услышал»


Да, Whisper - прикольная штука, сам пару раз пользовался.
Единственный вопрос: почему на запись нужно разрешение? Безусловно, если выкладывать информацию в интернет или использовать в коммерческих целях - тогда безусловно.
Зачем это делать, если чисто для себя, чисто в личных целях, не передавая третьим лицам?

Вообще, если вы сами участвуете в разговоре, то записывать его можно даже и без информирование участников и получения их согласия. Это не является нарушением закона, так как и в чужую личную жизнь вы не лезете, и не получаете информацию негласным образом. Но явно обозначить своё желание сделать запись и открыто положить диктофон на стол - и удобнее, и безопаснее, и просто хороший тон.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации