Ну да, просто совпадение. Еще говорят что эти ПВО защищали 100т илитных британских спецназовцев из САС и они все там погибли. Мы сейчас соловьиный помёт обсуждать будем?
Ллм же не умеет играть в шахматы и зрения у большинства нет. Странная затея. Если их будут дисквалифицировать за неверные ходы то большинство сольется за 5 минут.
Очень слабая попытка. Что бы сломалось достаточно просто повернуть лист с текстом боком и начинается бредятина как у гигачада.
Отдельного ocr как у мистраля для pdf у cohere нет. В доке предлагается вручную дербанить пдф и распознавать страницы отдельно, очень медленно и печально.
GPT-4.1 лучше на порядок, они явно из разных весовых категорий.
Ты хоть представляешь сколько стоит аренда сервера на котором крутится дешевая моделька gpt 4о? Там как минимум десяток видеокарт по 20т долларов стоит, в каждом сервере. Просто голое железо и электричество без учета всех остальных затрат.
А ведь ее еще создать и развивать надо, каждому крупному разработчику по 100млн отвалить чтоб его не перекупили конкуренты. И ты наверняка хочешь не голую ллм а с прикрученным к ней поиском от гугла(его запросы стоят еще больше), с виртуальной машиной для выполнеия кода, с другими нейронками в комплекте - распознавание образов, голосов, генерация картинок итп.
Себестоимость запросов к дешевым открытым моделям(+ небольшая маржа хостера) посмотри на https://openrouter.ai и потом рассказывай про жадность и вымогательство. Этим хостерам не надо тратится на разработку моделей, они просто взяли бесплатное и запустили на своем железе что бы заработать немного на аренде.
Те у кого заметно дешевле - запускают сильно порезанную квантованную версию
Пробовал сегодня qwen3coder который гигантский. Он застрял на небольшом простом питоновском коде с glob.glob(). Пытался использовать сложную маску и плохо реагировал на попытки вытащить его из болота. Пришлось доделывать в gemini.
Эм, youtube-transcript.io? Попробовал там получить транскрипцию и получил обычные субтитры которые на ютубе бесплатно лежат. Они что, пытаются это продавать за 10 баксов?
Gemini 2.5 flash (prompt = "Listen carefully to the following audio file. Provide a transcript. Fix errors, make a fine text with good looking paragraphs, without time stamps and diarization (speaker separation). This audio file is a cutted fragment with +5 extra seconds in both directions.") По мне так топ, но есть ИИшные заморочки, размер ответа не больше 30т русских символов, цензура может заблокировать запрос, может зависнуть и вернуть повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы...
Whisper(whisper-large-v3-turbo) короткие записи хорошо понимает, в длинных склонен глотать целые абзацы
Ведьмаку заплатите Он эльфов всех прогнал за дальний перевал Высокие горы на дальний привал Он бьет не вброд, а в глаз, был ранен много раз Он людям товарищ, всегда он за нас Ведьмаку заплатите, зачтется все это Ведьмаку заплатите чеканной монетой Ведьмаку заплатите, зачтется все это вам Ведьмаку заплатите чеканной монетой Чиканым монетой Ведь могу заплатить Зачтется все это
Voxtral новая модель от мистраля (такое же недоразумение как и все их модели)
Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это. Он хоть на край земли, отправится готов, сразить всех чудовищ, убить всех врагов. Он эльфов всех прогнал за дальний перевал, высокие горы на дальний привал. Он бьет не впродь, а в глаз, был ранен много раз. Он людям товарищ, всегда он за нас. Чему эта вражда, никак я не пойму. Он нас защищает, так налетишь ему. Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это. Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это. Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это.
Deepgram хороший коммерческий вариант, принимает файлы любого размера и типа без заморочек, выдает хороший результат с огромной скоростью
неправильно распознал язык, обычные записи он хорошо распознает
Assemblyai (большая модель) примерно такой же как deepgram, без заморочек но за деньги
Ведьмаку заплатите чеканной монетой, чеканной монетой. Ведьмаку заплатите, зачтется всё это вам. Он ходит на край земли, отправиться готов. Сразить всех чудовищ, убить всех врагов. Эльфов всех прогнал за дальний перевал, Высокие горы на дальний прибал. Он бьёт не в брод, а в глаз, Был ранен много раз. Он людям товарищ, Всегда он за нас. Чему эта вражда, Никак я не пойму, Он нас защищает, Так налетишь ему. Ведьмаку заплатите Чеканной монетой, Чеканной монетой, о-о-о Ведьмаку заплатите Зачтется всё это вам Ведьмаку заплатите Чеканной монетой, Чеканной монетой, о-о-о Ведь могу заплатите, зачтется все это. Ведь могу заплатите, чеканы монетой, чеканы монетой. Ведь могу заплатите, зачтется все это.
Из видео обычно получается достать текст, слова, а их уже пересказывать. Открытые модели есть, whisper, voxtral. Смотреть видео без слов вроде никто кроме гугла не умеет. Чисто теоретически можно нарезать его на кадры и прогнать через распознавание картинок, это многие умеют.
Учитывая что источник видео обычно - ютуб, там даже самому распознавать голос не надо, там субтитры почти всегда есть приложенные.
Ну да, просто совпадение. Еще говорят что эти ПВО защищали 100т илитных британских спецназовцев из САС и они все там погибли. Мы сейчас соловьиный помёт обсуждать будем?
Китай не настолько упорот и нуждается что бы продавать северокорейцам ядерное оружие или технологии.
Ллм же не умеет играть в шахматы и зрения у большинства нет. Странная затея. Если их будут дисквалифицировать за неверные ходы то большинство сольется за 5 минут.
Очень слабая попытка. Что бы сломалось достаточно просто повернуть лист с текстом боком и начинается бредятина как у гигачада.
Отдельного ocr как у мистраля для pdf у cohere нет. В доке предлагается вручную дербанить пдф и распознавать страницы отдельно, очень медленно и печально.
GPT-4.1 лучше на порядок, они явно из разных весовых категорий.
Ты хоть представляешь сколько стоит аренда сервера на котором крутится дешевая моделька gpt 4о? Там как минимум десяток видеокарт по 20т долларов стоит, в каждом сервере. Просто голое железо и электричество без учета всех остальных затрат.
А ведь ее еще создать и развивать надо, каждому крупному разработчику по 100млн отвалить чтоб его не перекупили конкуренты. И ты наверняка хочешь не голую ллм а с прикрученным к ней поиском от гугла(его запросы стоят еще больше), с виртуальной машиной для выполнеия кода, с другими нейронками в комплекте - распознавание образов, голосов, генерация картинок итп.
Себестоимость запросов к дешевым открытым моделям(+ небольшая маржа хостера) посмотри на https://openrouter.ai и потом рассказывай про жадность и вымогательство. Этим хостерам не надо тратится на разработку моделей, они просто взяли бесплатное и запустили на своем железе что бы заработать немного на аренде.
Достижения КНДР? Мороженное по 5 копеек? Эта ядреная ракета мне что то сильно напоминает, кажется я знаю в каком военторге ее могли купить.
Пробовал сегодня qwen3coder который гигантский. Он застрял на небольшом простом питоновском коде с glob.glob(). Пытался использовать сложную маску и плохо реагировал на попытки вытащить его из болота. Пришлось доделывать в gemini.
Эм, youtube-transcript.io? Попробовал там получить транскрипцию и получил обычные субтитры которые на ютубе бесплатно лежат. Они что, пытаются это продавать за 10 баксов?
Почти у всех видео на ютубе есть готовые субтитры. Чуть хуже чем то что делает виспер но для переваривания с помощью ллм - без разницы вообще.
Простых и незаблокированных мессенджеров много. Они очень низкого качества но точно лучше чем то что может сделать тебе гпт.
Скорее всего это гпт - хорошее распознавание картинок есть только у 2-3 компаний и тут оно есть.
Скорее всего это не гпт5 - обещали же что не будут больше делать неразмышляющие модели.
146% что это не опенсорс версия, такую хорошую модель в чужие руки они не отдадут.
Скорее всего это что то типа гпт 4.2, обновление для 4.1
Тут дают 20 часов в сутки на аккаунта виспер https://console.groq.com/settings/limits
Скорость x240.
Куски только резать надо по 25мб. И нет временных меток.
Бесплатно
Попросил гпт переделать с помощью mediainfo. Вроде работает, но это не точно, не очень понял зачем это нужно вообще.
Главное не проверять что там этот виспер нарасшифровывал Ж)
-- Как понять что статья написана тупым роботом?
-- Он не умеет считать.
https://www.youtube.com/watch?v=R9TnCP2D8HQ
Gemini 2.5 flash (prompt = "Listen carefully to the following audio file. Provide a transcript. Fix errors, make a fine text with good looking paragraphs, without time stamps and diarization (speaker separation). This audio file is a cutted fragment with +5 extra seconds in both directions.") По мне так топ, но есть ИИшные заморочки, размер ответа не больше 30т русских символов, цензура может заблокировать запрос, может зависнуть и вернуть повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы...
Ведьмаку заплатите
Чеканной монетой,
Чеканной монетой.
О-о.
Ведьмаку заплатите,
Зачтётся всё это.
Вау.
Он хоть на край земли отправится готов,
Сразить всех чудовищ, убить всех врагов.
Он эльфов всех прогнал за дальний перевал,
Высокие горы, на дальний привал.
Он бьёт не в бровь, а в глаз,
Был ранен много раз.
Он людям товарищ,
Всегда он за нас.
К чему эта вражда,
Никак я не пойму.
Он нас защищает,
Так налетите ж ему!
Ведьмаку заплатите
Чеканной монетой,
Чеканной монетой.
О-о.
Ведьмаку заплатите,
Зачтётся всё это.
Вау.
Ведьмаку заплатите
Чеканной монетой,
Чеканной монетой.
О-о.
Ведьмаку заплатите,
Зачтётся всё это.
Вау.
Ведьмаку заплатите
Чеканной монетой,
Чеканной монетой.
О-о.
Ведьмаку заплатите,
Зачтётся всё это.
Вау.
Whisper(whisper-large-v3-turbo) короткие записи хорошо понимает, в длинных склонен глотать целые абзацы
Ведьмаку заплатите Он эльфов всех прогнал за дальний перевал Высокие горы на дальний привал Он бьет не вброд, а в глаз, был ранен много раз Он людям товарищ, всегда он за нас Ведьмаку заплатите, зачтется все это Ведьмаку заплатите чеканной монетой Ведьмаку заплатите, зачтется все это вам Ведьмаку заплатите чеканной монетой Чиканым монетой Ведь могу заплатить Зачтется все это
Voxtral новая модель от мистраля (такое же недоразумение как и все их модели)
Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это. Он хоть на край земли, отправится готов, сразить всех чудовищ, убить всех врагов. Он эльфов всех прогнал за дальний перевал, высокие горы на дальний привал. Он бьет не впродь, а в глаз, был ранен много раз. Он людям товарищ, всегда он за нас. Чему эта вражда, никак я не пойму. Он нас защищает, так налетишь ему. Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это. Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это. Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это.
Deepgram хороший коммерческий вариант, принимает файлы любого размера и типа без заморочек, выдает хороший результат с огромной скоростью
неправильно распознал язык, обычные записи он хорошо распознает
Assemblyai (большая модель) примерно такой же как deepgram, без заморочек но за деньги
Ведьмаку заплатите чеканной монетой, чеканной монетой. Ведьмаку заплатите, зачтется всё это вам. Он ходит на край земли, отправиться готов. Сразить всех чудовищ, убить всех врагов. Эльфов всех прогнал за дальний перевал, Высокие горы на дальний прибал. Он бьёт не в брод, а в глаз, Был ранен много раз. Он людям товарищ, Всегда он за нас. Чему эта вражда, Никак я не пойму, Он нас защищает, Так налетишь ему. Ведьмаку заплатите Чеканной монетой, Чеканной монетой, о-о-о Ведьмаку заплатите Зачтется всё это вам Ведьмаку заплатите Чеканной монетой, Чеканной монетой, о-о-о Ведь могу заплатите, зачтется все это. Ведь могу заплатите, чеканы монетой, чеканы монетой. Ведь могу заплатите, зачтется все это.
gpt
Из видео обычно получается достать текст, слова, а их уже пересказывать. Открытые модели есть, whisper, voxtral. Смотреть видео без слов вроде никто кроме гугла не умеет. Чисто теоретически можно нарезать его на кадры и прогнать через распознавание картинок, это многие умеют.
Учитывая что источник видео обычно - ютуб, там даже самому распознавать голос не надо, там субтитры почти всегда есть приложенные.
Это в 40 раз дороже чем на опенроутере, по такой цене только цигане продают. Ну и казнокрады ещё. https://openrouter.ai/qwen/qwen3-235b-a22b-2507
Никто вас никуда не сманивает. Можете хоть карандашом в блокноте писать, если вам этого хватает то почему бы и нет.