Ты хоть представляешь сколько стоит аренда сервера на котором крутится дешевая моделька gpt 4о? Там как минимум десяток видеокарт по 20т долларов стоит, в каждом сервере. Просто голое железо и электричество без учета всех остальных затрат.
А ведь ее еще создать и развивать надо, каждому крупному разработчику по 100млн отвалить чтоб его не перекупили конкуренты. И ты наверняка хочешь не голую ллм а с прикрученным к ней поиском от гугла(его запросы стоят еще больше), с виртуальной машиной для выполнеия кода, с другими нейронками в комплекте - распознавание образов, голосов, генерация картинок итп.
Себестоимость запросов к дешевым открытым моделям(+ небольшая маржа хостера) посмотри на https://openrouter.ai и потом рассказывай про жадность и вымогательство. Этим хостерам не надо тратится на разработку моделей, они просто взяли бесплатное и запустили на своем железе что бы заработать немного на аренде.
Те у кого заметно дешевле - запускают сильно порезанную квантованную версию
Пробовал сегодня qwen3coder который гигантский. Он застрял на небольшом простом питоновском коде с glob.glob(). Пытался использовать сложную маску и плохо реагировал на попытки вытащить его из болота. Пришлось доделывать в gemini.
Эм, youtube-transcript.io? Попробовал там получить транскрипцию и получил обычные субтитры которые на ютубе бесплатно лежат. Они что, пытаются это продавать за 10 баксов?
Gemini 2.5 flash (prompt = "Listen carefully to the following audio file. Provide a transcript. Fix errors, make a fine text with good looking paragraphs, without time stamps and diarization (speaker separation). This audio file is a cutted fragment with +5 extra seconds in both directions.") По мне так топ, но есть ИИшные заморочки, размер ответа не больше 30т русских символов, цензура может заблокировать запрос, может зависнуть и вернуть повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы...
Whisper(whisper-large-v3-turbo) короткие записи хорошо понимает, в длинных склонен глотать целые абзацы
Ведьмаку заплатите Он эльфов всех прогнал за дальний перевал Высокие горы на дальний привал Он бьет не вброд, а в глаз, был ранен много раз Он людям товарищ, всегда он за нас Ведьмаку заплатите, зачтется все это Ведьмаку заплатите чеканной монетой Ведьмаку заплатите, зачтется все это вам Ведьмаку заплатите чеканной монетой Чиканым монетой Ведь могу заплатить Зачтется все это
Voxtral новая модель от мистраля (такое же недоразумение как и все их модели)
Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это. Он хоть на край земли, отправится готов, сразить всех чудовищ, убить всех врагов. Он эльфов всех прогнал за дальний перевал, высокие горы на дальний привал. Он бьет не впродь, а в глаз, был ранен много раз. Он людям товарищ, всегда он за нас. Чему эта вражда, никак я не пойму. Он нас защищает, так налетишь ему. Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это. Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это. Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это.
Deepgram хороший коммерческий вариант, принимает файлы любого размера и типа без заморочек, выдает хороший результат с огромной скоростью
неправильно распознал язык, обычные записи он хорошо распознает
Assemblyai (большая модель) примерно такой же как deepgram, без заморочек но за деньги
Ведьмаку заплатите чеканной монетой, чеканной монетой. Ведьмаку заплатите, зачтется всё это вам. Он ходит на край земли, отправиться готов. Сразить всех чудовищ, убить всех врагов. Эльфов всех прогнал за дальний перевал, Высокие горы на дальний прибал. Он бьёт не в брод, а в глаз, Был ранен много раз. Он людям товарищ, Всегда он за нас. Чему эта вражда, Никак я не пойму, Он нас защищает, Так налетишь ему. Ведьмаку заплатите Чеканной монетой, Чеканной монетой, о-о-о Ведьмаку заплатите Зачтется всё это вам Ведьмаку заплатите Чеканной монетой, Чеканной монетой, о-о-о Ведь могу заплатите, зачтется все это. Ведь могу заплатите, чеканы монетой, чеканы монетой. Ведь могу заплатите, зачтется все это.
Из видео обычно получается достать текст, слова, а их уже пересказывать. Открытые модели есть, whisper, voxtral. Смотреть видео без слов вроде никто кроме гугла не умеет. Чисто теоретически можно нарезать его на кадры и прогнать через распознавание картинок, это многие умеют.
Учитывая что источник видео обычно - ютуб, там даже самому распознавать голос не надо, там субтитры почти всегда есть приложенные.
Ллм умеют использовать внешние инструменты но почему то ни в одной нет встроенного калькулятора. Причем нету даже в модных moe у которых куча мелких ллм заточенных под разное внутри, почему даже среди них нет хотя бы простого калькулятора?
Врать для нейросетей это нормально, для живых, например люди с промытыми мозгами сами начинают воспроизводить искаженную реальность, и чем умнее человек тем правдоподобнее у него получается объяснить себе и окружающим почему черное это на самом деле белое.
Deepgram (700 часов халявы и регистрация без телефона и карты)
Assemblyai(так же но 100 часов)
whisper (groq дает практически безлимит - 20 часов в сутки или типа того)
gemini (почти безлимит если сделать себе десяток аккаунтов)
voxtral (mistral - почти безлимит)
и есть еще 1 сервис (хз толи микрософт толи гугол, там ограничение 1 минута, крупные записи надо резать на мелкие куски, неудобно но работает нормально https://github.com/Uberi/speech_recognition)
Ты хоть представляешь сколько стоит аренда сервера на котором крутится дешевая моделька gpt 4о? Там как минимум десяток видеокарт по 20т долларов стоит, в каждом сервере. Просто голое железо и электричество без учета всех остальных затрат.
А ведь ее еще создать и развивать надо, каждому крупному разработчику по 100млн отвалить чтоб его не перекупили конкуренты. И ты наверняка хочешь не голую ллм а с прикрученным к ней поиском от гугла(его запросы стоят еще больше), с виртуальной машиной для выполнеия кода, с другими нейронками в комплекте - распознавание образов, голосов, генерация картинок итп.
Себестоимость запросов к дешевым открытым моделям(+ небольшая маржа хостера) посмотри на https://openrouter.ai и потом рассказывай про жадность и вымогательство. Этим хостерам не надо тратится на разработку моделей, они просто взяли бесплатное и запустили на своем железе что бы заработать немного на аренде.
Достижения КНДР? Мороженное по 5 копеек? Эта ядреная ракета мне что то сильно напоминает, кажется я знаю в каком военторге ее могли купить.
Пробовал сегодня qwen3coder который гигантский. Он застрял на небольшом простом питоновском коде с glob.glob(). Пытался использовать сложную маску и плохо реагировал на попытки вытащить его из болота. Пришлось доделывать в gemini.
Эм, youtube-transcript.io? Попробовал там получить транскрипцию и получил обычные субтитры которые на ютубе бесплатно лежат. Они что, пытаются это продавать за 10 баксов?
Почти у всех видео на ютубе есть готовые субтитры. Чуть хуже чем то что делает виспер но для переваривания с помощью ллм - без разницы вообще.
Скорее всего это гпт - хорошее распознавание картинок есть только у 2-3 компаний и тут оно есть.
Скорее всего это не гпт5 - обещали же что не будут больше делать неразмышляющие модели.
146% что это не опенсорс версия, такую хорошую модель в чужие руки они не отдадут.
Скорее всего это что то типа гпт 4.2, обновление для 4.1
Тут дают 20 часов в сутки на аккаунта виспер https://console.groq.com/settings/limits
Скорость x240.
Куски только резать надо по 25мб. И нет временных меток.
Бесплатно
Попросил гпт переделать с помощью mediainfo. Вроде работает, но это не точно, не очень понял зачем это нужно вообще.
Главное не проверять что там этот виспер нарасшифровывал Ж)
-- Как понять что статья написана тупым роботом?
-- Он не умеет считать.
https://www.youtube.com/watch?v=R9TnCP2D8HQ
Gemini 2.5 flash (prompt = "Listen carefully to the following audio file. Provide a transcript. Fix errors, make a fine text with good looking paragraphs, without time stamps and diarization (speaker separation). This audio file is a cutted fragment with +5 extra seconds in both directions.") По мне так топ, но есть ИИшные заморочки, размер ответа не больше 30т русских символов, цензура может заблокировать запрос, может зависнуть и вернуть повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы...
Ведьмаку заплатите
Чеканной монетой,
Чеканной монетой.
О-о.
Ведьмаку заплатите,
Зачтётся всё это.
Вау.
Он хоть на край земли отправится готов,
Сразить всех чудовищ, убить всех врагов.
Он эльфов всех прогнал за дальний перевал,
Высокие горы, на дальний привал.
Он бьёт не в бровь, а в глаз,
Был ранен много раз.
Он людям товарищ,
Всегда он за нас.
К чему эта вражда,
Никак я не пойму.
Он нас защищает,
Так налетите ж ему!
Ведьмаку заплатите
Чеканной монетой,
Чеканной монетой.
О-о.
Ведьмаку заплатите,
Зачтётся всё это.
Вау.
Ведьмаку заплатите
Чеканной монетой,
Чеканной монетой.
О-о.
Ведьмаку заплатите,
Зачтётся всё это.
Вау.
Ведьмаку заплатите
Чеканной монетой,
Чеканной монетой.
О-о.
Ведьмаку заплатите,
Зачтётся всё это.
Вау.
Whisper(whisper-large-v3-turbo) короткие записи хорошо понимает, в длинных склонен глотать целые абзацы
Ведьмаку заплатите Он эльфов всех прогнал за дальний перевал Высокие горы на дальний привал Он бьет не вброд, а в глаз, был ранен много раз Он людям товарищ, всегда он за нас Ведьмаку заплатите, зачтется все это Ведьмаку заплатите чеканной монетой Ведьмаку заплатите, зачтется все это вам Ведьмаку заплатите чеканной монетой Чиканым монетой Ведь могу заплатить Зачтется все это
Voxtral новая модель от мистраля (такое же недоразумение как и все их модели)
Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это. Он хоть на край земли, отправится готов, сразить всех чудовищ, убить всех врагов. Он эльфов всех прогнал за дальний перевал, высокие горы на дальний привал. Он бьет не впродь, а в глаз, был ранен много раз. Он людям товарищ, всегда он за нас. Чему эта вражда, никак я не пойму. Он нас защищает, так налетишь ему. Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это. Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это. Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это.
Deepgram хороший коммерческий вариант, принимает файлы любого размера и типа без заморочек, выдает хороший результат с огромной скоростью
неправильно распознал язык, обычные записи он хорошо распознает
Assemblyai (большая модель) примерно такой же как deepgram, без заморочек но за деньги
Ведьмаку заплатите чеканной монетой, чеканной монетой. Ведьмаку заплатите, зачтется всё это вам. Он ходит на край земли, отправиться готов. Сразить всех чудовищ, убить всех врагов. Эльфов всех прогнал за дальний перевал, Высокие горы на дальний прибал. Он бьёт не в брод, а в глаз, Был ранен много раз. Он людям товарищ, Всегда он за нас. Чему эта вражда, Никак я не пойму, Он нас защищает, Так налетишь ему. Ведьмаку заплатите Чеканной монетой, Чеканной монетой, о-о-о Ведьмаку заплатите Зачтется всё это вам Ведьмаку заплатите Чеканной монетой, Чеканной монетой, о-о-о Ведь могу заплатите, зачтется все это. Ведь могу заплатите, чеканы монетой, чеканы монетой. Ведь могу заплатите, зачтется все это.
gpt
Из видео обычно получается достать текст, слова, а их уже пересказывать. Открытые модели есть, whisper, voxtral. Смотреть видео без слов вроде никто кроме гугла не умеет. Чисто теоретически можно нарезать его на кадры и прогнать через распознавание картинок, это многие умеют.
Учитывая что источник видео обычно - ютуб, там даже самому распознавать голос не надо, там субтитры почти всегда есть приложенные.
Это в 40 раз дороже чем на опенроутере, по такой цене только цигане продают. Ну и казнокрады ещё. https://openrouter.ai/qwen/qwen3-235b-a22b-2507
Никто вас никуда не сманивает. Можете хоть карандашом в блокноте писать, если вам этого хватает то почему бы и нет.
Так можно же. На 775 встает и работает без проблем вообще.
YandexArt 2.5 не мог обойти imagen3. Никак вообще.
Напоминает вотсап в котором мамочки просят проголосовать за своего ребенка на конкурсе.
Гораздо раньше. В ней написано что давно вымерший гпт3.5 - наше всё.
Бот который эти статьи штампует ни на что не реагирует вообще.
Ллм умеют использовать внешние инструменты но почему то ни в одной нет встроенного калькулятора. Причем нету даже в модных moe у которых куча мелких ллм заточенных под разное внутри, почему даже среди них нет хотя бы простого калькулятора?
Врать для нейросетей это нормально, для живых, например люди с промытыми мозгами сами начинают воспроизводить искаженную реальность, и чем умнее человек тем правдоподобнее у него получается объяснить себе и окружающим почему черное это на самом деле белое.
Для транскрибации через бесплатные API есть
Deepgram (700 часов халявы и регистрация без телефона и карты)
Assemblyai(так же но 100 часов)
whisper (groq дает практически безлимит - 20 часов в сутки или типа того)
gemini (почти безлимит если сделать себе десяток аккаунтов)
voxtral (mistral - почти безлимит)
и есть еще 1 сервис (хз толи микрософт толи гугол, там ограничение 1 минута, крупные записи надо резать на мелкие куски, неудобно но работает нормально https://github.com/Uberi/speech_recognition)