Да, Gemini 2.5 Pro сильный инструмент. Правда он платный и облачный (насколько я знаю) , а я специально собирал решение на основе бесплатных open source-инструментов, чтобы всё можно было запускать локально и под полный контроль данных.
Есть правда в ваших словах если ты сам участник беседы и используешь запись только для себя, то в большинстве случаев это действительно не запрещено, но я не юрист, поэтому решил сильно в это не углубляться и никого не провоцировать поэтому и написал про согласие, на всякий случай. Ну и просто по-человечески - так честнее.
Whisper не различает собеседников и не умеет разруливать перебивания.Если говорят одновременно, он просто смешивает фразы в одну строку текста, в порядке того, как «услышал»
Да, Whisper пока не различает спикеров. В контексте собеседования это не критично важно отделить свои ответы от вопросов интервьюеров. Для анализа самопрезентации и технических ответов этого более чем достаточно.
Использовал стандартную модель Whisper medium, но финальный текст прогонял через GPT он помогает привести расшифровку в читаемый вид с пунктуацией и структурой. Whisper даёт основу, GPT как бы полирует.
ого, большая статья, обязательно прочитаю !
Спасибо!
Надо будет потестить, интересно, как он справляется на русском(NeMo).
Если есть где-то информация какая то или статья с удовольствием почитаю
Да, Gemini 2.5 Pro сильный инструмент.
Правда он платный и облачный (насколько я знаю) , а я специально собирал решение на основе бесплатных open source-инструментов, чтобы всё можно было запускать локально и под полный контроль данных.
точно точно согласен с вами
Есть правда в ваших словах если ты сам участник беседы и используешь запись только для себя, то в большинстве случаев это действительно не запрещено, но я не юрист, поэтому решил сильно в это не углубляться и никого не провоцировать поэтому и написал про согласие, на всякий случай.
Ну и просто по-человечески - так честнее.
я тоже читал про это, и тоже думал попробовать посмотреть как будет работать, но руки еще не дошли.
Круто, спасибо, что поделились!
DeepGram с разметкой спикеров - звучит как удобная штука, обязательно гляну.
А идея с заменой ролей через prompt - вообще огонь, взял себе в заметки.
Да, вариант с генерацией вопросов от GPT тоже классный, и вообще без рисков
.Спасибо за ссылку на mockin.work, не знал про них - гляну!
Надеюсь, мой способ тоже кому-то пригодится как удобный старт для самоанализа.
Рад что шутка зашла :)
Согласен, без записи сложно понять где ты ошибся . Как раз из этого и родилась идея : Whisper + GPT → текст и разбор.
Насчет видео было б вообще огонь , чем больше данных , тем глубже можно анализировать
Whisper не различает собеседников и не умеет разруливать перебивания.Если говорят одновременно, он просто смешивает фразы в одну строку текста, в порядке того, как «услышал»
Да, Whisper пока не различает спикеров. В контексте собеседования это не критично важно отделить свои ответы от вопросов интервьюеров. Для анализа самопрезентации и технических ответов этого более чем достаточно.
Использовал стандартную модель Whisper medium, но финальный текст прогонял через GPT он помогает привести расшифровку в читаемый вид с пунктуацией и структурой. Whisper даёт основу, GPT как бы полирует.
Хороший вопрос!
Если в интервью есть личные данные - да, передача третьей стороне (в том числе GPT) тоже может требовать согласия.
В моём случае передаётся только моя речь, без упоминания рекрутеров или компании, но в целом - согласие на анализ тоже важно, вы правы.