Gemini 2.5 flash (prompt = "Listen carefully to the following audio file. Provide a transcript. Fix errors, make a fine text with good looking paragraphs, without time stamps and diarization (speaker separation). This audio file is a cutted fragment with +5 extra seconds in both directions.") По мне так топ, но есть ИИшные заморочки, размер ответа не больше 30т русских символов, цензура может заблокировать запрос, может зависнуть и вернуть повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы...
Whisper(whisper-large-v3-turbo) короткие записи хорошо понимает, в длинных склонен глотать целые абзацы
Ведьмаку заплатите Он эльфов всех прогнал за дальний перевал Высокие горы на дальний привал Он бьет не вброд, а в глаз, был ранен много раз Он людям товарищ, всегда он за нас Ведьмаку заплатите, зачтется все это Ведьмаку заплатите чеканной монетой Ведьмаку заплатите, зачтется все это вам Ведьмаку заплатите чеканной монетой Чиканым монетой Ведь могу заплатить Зачтется все это
Voxtral новая модель от мистраля (такое же недоразумение как и все их модели)
Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это. Он хоть на край земли, отправится готов, сразить всех чудовищ, убить всех врагов. Он эльфов всех прогнал за дальний перевал, высокие горы на дальний привал. Он бьет не впродь, а в глаз, был ранен много раз. Он людям товарищ, всегда он за нас. Чему эта вражда, никак я не пойму. Он нас защищает, так налетишь ему. Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это. Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это. Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это.
Deepgram хороший коммерческий вариант, принимает файлы любого размера и типа без заморочек, выдает хороший результат с огромной скоростью
неправильно распознал язык, обычные записи он хорошо распознает
Assemblyai (большая модель) примерно такой же как deepgram, без заморочек но за деньги
Ведьмаку заплатите чеканной монетой, чеканной монетой. Ведьмаку заплатите, зачтется всё это вам. Он ходит на край земли, отправиться готов. Сразить всех чудовищ, убить всех врагов. Эльфов всех прогнал за дальний перевал, Высокие горы на дальний прибал. Он бьёт не в брод, а в глаз, Был ранен много раз. Он людям товарищ, Всегда он за нас. Чему эта вражда, Никак я не пойму, Он нас защищает, Так налетишь ему. Ведьмаку заплатите Чеканной монетой, Чеканной монетой, о-о-о Ведьмаку заплатите Зачтется всё это вам Ведьмаку заплатите Чеканной монетой, Чеканной монетой, о-о-о Ведь могу заплатите, зачтется все это. Ведь могу заплатите, чеканы монетой, чеканы монетой. Ведь могу заплатите, зачтется все это.
Из видео обычно получается достать текст, слова, а их уже пересказывать. Открытые модели есть, whisper, voxtral. Смотреть видео без слов вроде никто кроме гугла не умеет. Чисто теоретически можно нарезать его на кадры и прогнать через распознавание картинок, это многие умеют.
Учитывая что источник видео обычно - ютуб, там даже самому распознавать голос не надо, там субтитры почти всегда есть приложенные.
Ллм умеют использовать внешние инструменты но почему то ни в одной нет встроенного калькулятора. Причем нету даже в модных moe у которых куча мелких ллм заточенных под разное внутри, почему даже среди них нет хотя бы простого калькулятора?
Врать для нейросетей это нормально, для живых, например люди с промытыми мозгами сами начинают воспроизводить искаженную реальность, и чем умнее человек тем правдоподобнее у него получается объяснить себе и окружающим почему черное это на самом деле белое.
Deepgram (700 часов халявы и регистрация без телефона и карты)
Assemblyai(так же но 100 часов)
whisper (groq дает практически безлимит - 20 часов в сутки или типа того)
gemini (почти безлимит если сделать себе десяток аккаунтов)
voxtral (mistral - почти безлимит)
и есть еще 1 сервис (хз толи микрософт толи гугол, там ограничение 1 минута, крупные записи надо резать на мелкие куски, неудобно но работает нормально https://github.com/Uberi/speech_recognition)
Это типа ты спрашиваешь у гугла какой телефон лучше в этом сезоне и он должен тебе показать ссылки на страницы мобаил-ревью где Муртазин на гавно исходит пытаясь впихнуть тебе соснулый самсунг вместо айфона?
GPT‑3.5 — это базовая, бесплатная модель нейросети. Она напишет письмо, сформулирует пост, поможет разобраться в сложном термине, даже составит план презентации или статьи. Работает быстро, не имеет ограничений по количеству сессий, но существует лимит на сообщения. Это примерно 40–50 сообщений каждые три часа. Граница контекста у неё около 4 096 токенов (примерно 3 000 слов вместе с ответами). А при очень объёмных обсуждениях модель может терять нить или начать галлюцинировать.
Попросил гпт переделать с помощью mediainfo. Вроде работает, но это не точно, не очень понял зачем это нужно вообще.
Главное не проверять что там этот виспер нарасшифровывал Ж)
-- Как понять что статья написана тупым роботом?
-- Он не умеет считать.
https://www.youtube.com/watch?v=R9TnCP2D8HQ
Gemini 2.5 flash (prompt = "Listen carefully to the following audio file. Provide a transcript. Fix errors, make a fine text with good looking paragraphs, without time stamps and diarization (speaker separation). This audio file is a cutted fragment with +5 extra seconds in both directions.") По мне так топ, но есть ИИшные заморочки, размер ответа не больше 30т русских символов, цензура может заблокировать запрос, может зависнуть и вернуть повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы повторы...
Ведьмаку заплатите
Чеканной монетой,
Чеканной монетой.
О-о.
Ведьмаку заплатите,
Зачтётся всё это.
Вау.
Он хоть на край земли отправится готов,
Сразить всех чудовищ, убить всех врагов.
Он эльфов всех прогнал за дальний перевал,
Высокие горы, на дальний привал.
Он бьёт не в бровь, а в глаз,
Был ранен много раз.
Он людям товарищ,
Всегда он за нас.
К чему эта вражда,
Никак я не пойму.
Он нас защищает,
Так налетите ж ему!
Ведьмаку заплатите
Чеканной монетой,
Чеканной монетой.
О-о.
Ведьмаку заплатите,
Зачтётся всё это.
Вау.
Ведьмаку заплатите
Чеканной монетой,
Чеканной монетой.
О-о.
Ведьмаку заплатите,
Зачтётся всё это.
Вау.
Ведьмаку заплатите
Чеканной монетой,
Чеканной монетой.
О-о.
Ведьмаку заплатите,
Зачтётся всё это.
Вау.
Whisper(whisper-large-v3-turbo) короткие записи хорошо понимает, в длинных склонен глотать целые абзацы
Ведьмаку заплатите Он эльфов всех прогнал за дальний перевал Высокие горы на дальний привал Он бьет не вброд, а в глаз, был ранен много раз Он людям товарищ, всегда он за нас Ведьмаку заплатите, зачтется все это Ведьмаку заплатите чеканной монетой Ведьмаку заплатите, зачтется все это вам Ведьмаку заплатите чеканной монетой Чиканым монетой Ведь могу заплатить Зачтется все это
Voxtral новая модель от мистраля (такое же недоразумение как и все их модели)
Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это. Он хоть на край земли, отправится готов, сразить всех чудовищ, убить всех врагов. Он эльфов всех прогнал за дальний перевал, высокие горы на дальний привал. Он бьет не впродь, а в глаз, был ранен много раз. Он людям товарищ, всегда он за нас. Чему эта вражда, никак я не пойму. Он нас защищает, так налетишь ему. Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это. Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это. Ведь могу заплатить, чеканы монетой, чеканы монетой. Ведь могу заплатить, зачтется всё это.
Deepgram хороший коммерческий вариант, принимает файлы любого размера и типа без заморочек, выдает хороший результат с огромной скоростью
неправильно распознал язык, обычные записи он хорошо распознает
Assemblyai (большая модель) примерно такой же как deepgram, без заморочек но за деньги
Ведьмаку заплатите чеканной монетой, чеканной монетой. Ведьмаку заплатите, зачтется всё это вам. Он ходит на край земли, отправиться готов. Сразить всех чудовищ, убить всех врагов. Эльфов всех прогнал за дальний перевал, Высокие горы на дальний прибал. Он бьёт не в брод, а в глаз, Был ранен много раз. Он людям товарищ, Всегда он за нас. Чему эта вражда, Никак я не пойму, Он нас защищает, Так налетишь ему. Ведьмаку заплатите Чеканной монетой, Чеканной монетой, о-о-о Ведьмаку заплатите Зачтется всё это вам Ведьмаку заплатите Чеканной монетой, Чеканной монетой, о-о-о Ведь могу заплатите, зачтется все это. Ведь могу заплатите, чеканы монетой, чеканы монетой. Ведь могу заплатите, зачтется все это.
gpt
Из видео обычно получается достать текст, слова, а их уже пересказывать. Открытые модели есть, whisper, voxtral. Смотреть видео без слов вроде никто кроме гугла не умеет. Чисто теоретически можно нарезать его на кадры и прогнать через распознавание картинок, это многие умеют.
Учитывая что источник видео обычно - ютуб, там даже самому распознавать голос не надо, там субтитры почти всегда есть приложенные.
Это в 40 раз дороже чем на опенроутере, по такой цене только цигане продают. Ну и казнокрады ещё. https://openrouter.ai/qwen/qwen3-235b-a22b-2507
Никто вас никуда не сманивает. Можете хоть карандашом в блокноте писать, если вам этого хватает то почему бы и нет.
Так можно же. На 775 встает и работает без проблем вообще.
YandexArt 2.5 не мог обойти imagen3. Никак вообще.
Напоминает вотсап в котором мамочки просят проголосовать за своего ребенка на конкурсе.
Гораздо раньше. В ней написано что давно вымерший гпт3.5 - наше всё.
Бот который эти статьи штампует ни на что не реагирует вообще.
Ллм умеют использовать внешние инструменты но почему то ни в одной нет встроенного калькулятора. Причем нету даже в модных moe у которых куча мелких ллм заточенных под разное внутри, почему даже среди них нет хотя бы простого калькулятора?
Врать для нейросетей это нормально, для живых, например люди с промытыми мозгами сами начинают воспроизводить искаженную реальность, и чем умнее человек тем правдоподобнее у него получается объяснить себе и окружающим почему черное это на самом деле белое.
Для транскрибации через бесплатные API есть
Deepgram (700 часов халявы и регистрация без телефона и карты)
Assemblyai(так же но 100 часов)
whisper (groq дает практически безлимит - 20 часов в сутки или типа того)
gemini (почти безлимит если сделать себе десяток аккаунтов)
voxtral (mistral - почти безлимит)
и есть еще 1 сервис (хз толи микрософт толи гугол, там ограничение 1 минута, крупные записи надо резать на мелкие куски, неудобно но работает нормально https://github.com/Uberi/speech_recognition)
Качество заметно падает при переходе от очень больших к средним и "мелким".
Gemini Pro -> Gemini Flash -> Gemini flash lite
Их размеры неизвестны но скорее всего даже лайт требует 80гб видеопамяти.
На своем сайте в чате он кодит, мягко скажем не очень. Субъективно конечно но что есть.
В тулзах типа aider в бенчмарках его еще нет, но есть kimi k2 и он показывает результат далекий от топов.
Там 100% клон телеграма, в библиотеках для телеграма надо просто апи урл поменять?
Или вообще всё по другому. Ограничения из телеги есть, типа размер сообщения не больше 4к, альтернативно одаренный маркдаун итп?
А сам автомобиль то сколько стоит? 1млн рублей (68 800 – 97 800 ¥)?
Независимые сайты и обзоры товаров?
Это типа ты спрашиваешь у гугла какой телефон лучше в этом сезоне и он должен тебе показать ссылки на страницы мобаил-ревью где Муртазин на гавно исходит пытаясь впихнуть тебе соснулый самсунг вместо айфона?
Опять полупереваренный бред от готопы. Доколе?
Можно субтитры делать, которые с позицией на экране.