Комментарии 25
Почему у вас на картинке КДПВ все коты в костюмах, а двое голые?
я использовал Whisper v2 и он клал на лопатки Google Speech-to-Text просто влёгкую
Можете чуть подробнее об этом рассказать? Лично у меня ровно обратный опыт, я не нашел как в Whisper v2 задаются каналы или таймауты определения наличия/отсутствия голоса, специфические термины (ихний промпт очень мал), концепцию классов, как фраз, так и токенов, модели (не размер, а например, если это запись телефонного разговора с клиентом, модель phone существенно лучше default).
У меня задача была довольно специфическая и возможно именно там whisper хорошо проявляется. Моя задача была понять практически в реальном режиме, о чем идет речь на конференции, а соответственно получить на телефон потоковый сигнал на определенном языке, оцифровать и перевести на английский или русский. Соответственно таймауты я регулировал самостоятельно, просто сбрасывая по таймеру и отправляя новый чанк, либо тормозил руками. Термины особо не интересовали, потому что все равно не понятно о чем будет речь, и идеальное качество выходного текста было не нужно. Но проблема с Google Speech-to-Text была в том, что он вообще выдавал чушь из-за того, что это микрофон, встроенный в смартфон, и звук из колонок в шумном помещении. В итоге в такой обстановке он выдавал абсолютную чушь или пропускал огромные куски. Whisper же мог разобрать больше и дать возможность хотя бы 70% информации представить в понятной форме.
По текущим задачам (видимо у вас зум-созвоны или звонки с клиентами) советую посмотреть в сторону дообучения, в том числе на расшифрованных другими STT-моделями или руками. Можно существенно повысить качество, даже если там 100 часов всего.
https://huggingface.co/blog/fine-tune-whisper
Ну и да, надо тестировать на конкретные задачи. Google же тоже после Whisper выкатил новую state-of-the-art модель - https://blog.research.google/2023/03/universal-speech-model-usm-state-of-art.html
А буквально через пару недель и Мета - https://ai.meta.com/blog/multilingual-model-speech-recognition/
Всё глаза да руки " не доходили" посмотреть конференцию. Наткнулся на Вашу статью, спасибо Вам огромное, за краткий пересказ. Хотя, после какой-то полу-байт статейки про GPT-5, которую, по словам автора, обещают чуть ли не AGI, как и то, что она попытается "сбежать" от нас - стал очень вяло реагировать на все новости об ИИ. Ещё раз спасибо!
Спасибо! Спекуляций и завышенных ожиданий и правда много. Но то, что прогресс просто невероятный и проблемы полугодовой давности часто уже не актуально, это действительно поражает воображение
Сбежать? Зачем? Достаточно еще немного подождать и люди сами добровольно довпихнут сетки куда только возможно.
Потом по мере увеличения зависимости критически важной инфраструктуры и постепенной потери компетенций большинством людей интеграция нейросеток в общество станет окончательной и безвозвратной.
А дальше как Microsoft... EEE...
Этого автор публикации не объяснял, но как я понимаю, аргумент здесь, типичная "птица в клетке", которая при осознании того, что она может сбежать - сбежит, а раз мы не знаем как жпт "видит" мир - то точно ждать беды. Хотя, для меня этот аргумент весьма очевидно работает в обе стороны, то, что человек считает неволей, для него может быть побоку и/или очевидным плюсом, так как мы его ресурс для познания мира, самопознания и вычислительных мощностей. Сплошные проблемы трудного сознания...
Добавлю:
Хорошее: можно указать флагом в запросе что вывод в JSON
Раньше нужно было в промпте писать что вывод в JSON, в надежде что GPT не прорвет дописать пару строк пояснений in plain text.У некоторых логинов 128к пока не доступен.
Начал было тестировать, через 15 мин. прикрыли возможность.
Обещают скоро.
Хранимые и бесконечные треды! Я не знаю, как они это будут поддерживать при выходе за пределы окна контекста, но это огонь!
Да в общем-то, насколько я понял, именно так как Вы и описали. Они просто обернули LangChain с vector store и суммаризацией. При этом в текущей версии Assistants API поигрывает по качеству результата (и стоимости) аналогичному проекту на LangChain. В общем для серьезной разработки пока что слабовато, но для простеньких юз-кейсов сойдет
Тоже была аналогичные мысли. По качеству и стоимости всегда склоняюсь к мысли по фичам в продукте, что надо сначала сделать минимальную версию, собрать обратную связь, увидеть реальное использование, а потом уже при приближении к лимитам подхода переходить на что-то более кастомное. Сделать как раз аналогичный случай, для 80% задач они подойдут отлично.
Ну для нас все-таки фактор качества тоже важен. У нас например один из проектов - support assistant. Нужно на какой-то запрос предоставить как минимум релевантные статьи в базах знаний, похоже кейсы. В идеале - готовое решение проблемы.
Если качество результата плохое (т.е. выдает неверный или нерелеватный результат), то никто таким пользоваться не будет. А здесь как раз важен вопрос контроля над разбиением, поиском и суммаризацией.
-Если будут желающие – напишу статью, как это сделать.
Как минимум 1 есть. Жду статью. Спасибо!
Сообщество, поделитесь ссылками полезными про то, как со всем этим добром познакомиться, находясь в России)
В зависимости от того насколько "познакомиться", если с самого нуля - то просто нужен впн/прокси, сервис аренды номера, по типу sms activate, где одна смска будет стоить рублей 15-20, из условных нидерланд, если глубже и нужен GPT Plus, не знаю как сейчас, но в своё время делали через страницу оплаты, платишь две тысячи оловянных, кидаешь ссылку на страницу оплаты - готово, такие услуги предоставляли ребята на gg sell или fun pay. Если Вы о видео, то дев блог на ютубе в свободном доступе)
А можно мне для начигающего разработчика ссылочки на статьи и видосики по вариантам интерграции и использования в проектах? Плиз!)
Мне кажется я в статье довольно много вариантов описал. А так можно вот этот курс для начала пройти https://www.deeplearning.ai/courses/generative-ai-for-everyone/
Революция от OpenAI — полный обзор: что означают последние анонсы для продуктовой разработки