Pull to refresh

Comments 25

Почему у вас на картинке КДПВ все коты в костюмах, а двое голые?

А на полочке стоит чучелко кота, который выгорел на работе, но стал сотрудником года?

Там трое голых. Один сидит в шкафу.

я использовал Whisper v2 и он клал на лопатки Google Speech-to-Text просто влёгкую

Можете чуть подробнее об этом рассказать? Лично у меня ровно обратный опыт, я не нашел как в Whisper v2 задаются каналы или таймауты определения наличия/отсутствия голоса, специфические термины (ихний промпт очень мал), концепцию классов, как фраз, так и токенов, модели (не размер, а например, если это запись телефонного разговора с клиентом, модель phone существенно лучше default).

У меня задача была довольно специфическая и возможно именно там whisper хорошо проявляется. Моя задача была понять практически в реальном режиме, о чем идет речь на конференции, а соответственно получить на телефон потоковый сигнал на определенном языке, оцифровать и перевести на английский или русский. Соответственно таймауты я регулировал самостоятельно, просто сбрасывая по таймеру и отправляя новый чанк, либо тормозил руками. Термины особо не интересовали, потому что все равно не понятно о чем будет речь, и идеальное качество выходного текста было не нужно. Но проблема с Google Speech-to-Text была в том, что он вообще выдавал чушь из-за того, что это микрофон, встроенный в смартфон, и звук из колонок в шумном помещении. В итоге в такой обстановке он выдавал абсолютную чушь или пропускал огромные куски. Whisper же мог разобрать больше и дать возможность хотя бы 70% информации представить в понятной форме.

По текущим задачам (видимо у вас зум-созвоны или звонки с клиентами) советую посмотреть в сторону дообучения, в том числе на расшифрованных другими STT-моделями или руками. Можно существенно повысить качество, даже если там 100 часов всего.
https://huggingface.co/blog/fine-tune-whisper
Ну и да, надо тестировать на конкретные задачи. Google же тоже после Whisper выкатил новую state-of-the-art модель - https://blog.research.google/2023/03/universal-speech-model-usm-state-of-art.html
А буквально через пару недель и Мета - https://ai.meta.com/blog/multilingual-model-speech-recognition/

Всё глаза да руки " не доходили" посмотреть конференцию. Наткнулся на Вашу статью, спасибо Вам огромное, за краткий пересказ. Хотя, после какой-то полу-байт статейки про GPT-5, которую, по словам автора, обещают чуть ли не AGI, как и то, что она попытается "сбежать" от нас - стал очень вяло реагировать на все новости об ИИ. Ещё раз спасибо!

Спасибо! Спекуляций и завышенных ожиданий и правда много. Но то, что прогресс просто невероятный и проблемы полугодовой давности часто уже не актуально, это действительно поражает воображение

Сбежать? Зачем? Достаточно еще немного подождать и люди сами добровольно довпихнут сетки куда только возможно.

Потом по мере увеличения зависимости критически важной инфраструктуры и постепенной потери компетенций большинством людей интеграция нейросеток в общество станет окончательной и безвозвратной.

А дальше как Microsoft... EEE...

Этого автор публикации не объяснял, но как я понимаю, аргумент здесь, типичная "птица в клетке", которая при осознании того, что она может сбежать - сбежит, а раз мы не знаем как жпт "видит" мир - то точно ждать беды. Хотя, для меня этот аргумент весьма очевидно работает в обе стороны, то, что человек считает неволей, для него может быть побоку и/или очевидным плюсом, так как мы его ресурс для познания мира, самопознания и вычислительных мощностей. Сплошные проблемы трудного сознания...

Добавлю:

  1. Хорошее: можно указать флагом в запросе что вывод в JSON
    Раньше нужно было в промпте писать что вывод в JSON, в надежде что GPT не прорвет дописать пару строк пояснений in plain text.

  2. У некоторых логинов 128к пока не доступен.
    Начал было тестировать, через 15 мин. прикрыли возможность.
    Обещают скоро.

В принципе проблема решилась с добавлением function calling, GPT всегда можно было заставить вызывать функцию, и аргументом всегда был валидный JSON

У нас даже с Function calling не всегда получался валидный json, доп.проверками на бекенде справлялись и перегенерацией.

Хранимые и бесконечные треды! Я не знаю, как они это будут поддерживать при выходе за пределы окна контекста, но это огонь!

Да в общем-то, насколько я понял, именно так как Вы и описали. Они просто обернули LangChain с vector store и суммаризацией. При этом в текущей версии Assistants API поигрывает по качеству результата (и стоимости) аналогичному проекту на LangChain. В общем для серьезной разработки пока что слабовато, но для простеньких юз-кейсов сойдет

Тоже была аналогичные мысли. По качеству и стоимости всегда склоняюсь к мысли по фичам в продукте, что надо сначала сделать минимальную версию, собрать обратную связь, увидеть реальное использование, а потом уже при приближении к лимитам подхода переходить на что-то более кастомное. Сделать как раз аналогичный случай, для 80% задач они подойдут отлично.

Ну для нас все-таки фактор качества тоже важен. У нас например один из проектов - support assistant. Нужно на какой-то запрос предоставить как минимум релевантные статьи в базах знаний, похоже кейсы. В идеале - готовое решение проблемы.

Если качество результата плохое (т.е. выдает неверный или нерелеватный результат), то никто таким пользоваться не будет. А здесь как раз важен вопрос контроля над разбиением, поиском и суммаризацией.

-Если будут желающие – напишу статью, как это сделать.

Как минимум 1 есть. Жду статью. Спасибо!

Сообщество, поделитесь ссылками полезными про то, как со всем этим добром познакомиться, находясь в России)

В зависимости от того насколько "познакомиться", если с самого нуля - то просто нужен впн/прокси, сервис аренды номера, по типу sms activate, где одна смска будет стоить рублей 15-20, из условных нидерланд, если глубже и нужен GPT Plus, не знаю как сейчас, но в своё время делали через страницу оплаты, платишь две тысячи оловянных, кидаешь ссылку на страницу оплаты - готово, такие услуги предоставляли ребята на gg sell или fun pay. Если Вы о видео, то дев блог на ютубе в свободном доступе)

А можно мне для начигающего разработчика ссылочки на статьи и видосики по вариантам интерграции и использования в проектах? Плиз!)

Спасибо! Хоть от куда то начать!) Сложно нынче искать достойный материал приходиться много чего перелопатить!)

Sign up to leave a comment.

Articles