Чанки по 25 секунд, а как потом склеивать разорванные на полуслове предложения?
Зачем тут телеграм? Если надо читать голосовухи которые там ходят то вроде сберовский бот с ними справляется @smartspeech_sber_bot А длинные надо как то обрабатывать (сразу закидывать в какую то нейросеть которая всё умеет, типа джемини), что толку с огромной записи голоса, не будешь же ты это реально всё читать.
Юзкейс для Telegram (репосты с переводом) - перевод картинки.
Обычные текстовые мультимодальные модели. Картинка с нерусским текстом в оригинале, промпт типа: «Напиши HTML-код, который нарисует такую же картинку, но с русским текстом».
Оказалось действительно удобно, но чего-то не хватает.
Во-первых, нужно подключить вызов функций. У Mistral нет своей виртуальной машины для калькулятора и поиска в интернете — это большой минус, но есть поддержка MCP. Учитывая, что всё происходит на локальном хосте и единственный пользователь — ты сам, можно запускать код без виртуальной машины, но нужен какой-то скриптовый язык вроде Lua (Python можно, но он неудобный с зависимостями).
Если появится возможность выполнять код по запросам, можно будет создавать сценарии или просить ИИ делать что-то своими руками: переименовывать файлы, удалять их и так далее.
Ещё неплохо было бы сделать окно-чат, которое вызывается и скрывается по хоткею, но это сложно — GUI всегда сложен.
Клон на голанге. В качестве ии используются консольные утилиты которые можно вызывать вручную или из своих скриптов как то так
echo "что на картинках?" | mistral.exe -f "pathtoimg1.jpg" "pathtoimg2.jpg"
ИИ по умолчанию - мистраль, у него есть ответы по картинкам, чистый OCR, чтение пдф и транскрибация. Всё что есть херовенькое но зато работает из рф без впн и лимиты огромные(были когда смотрел последний раз, а было это давно).
Еще есть groq и github.
У грока хороший транскрибатор на виспере, может очень быстро большой аудиофайл перевести в текст, почти безлимитно. Есть гугл поиск и виртуалка для вычислений. Лимиты на текстовые модели мелкие но несколько ключей должны решить проблему.
У гитхаба хорошие модельки от опенаи, лимиты там 50 запросов к большим моделям в день на 1 ключ, и 150 к мелким. Из рф вроде пускает без впн.
Ничего не нужно. Проверил сейчас, клиент на вин11, сервер на вин10-лайт(какая то кастрированная сборка на ржавом hdd).
В браузере хромиум(не хром) никаких расширений, видео 1080р на рутубе играет с идеальным качеством и трафик между клиентом и сервером меньше 10мбит колеблется так же как если бы клиент просто смотрел ютуб.
В плеере vlc аналогично, меньше 10 мбит идет на клиента, качество идеальное.
При чем тут макс. Никто не заставляет юзать алису.
Qwen3-235 + дообучение русским датасетом + поиск и тулзы от яндекса = должно получится что то очень хорошее по идее. Большой qwen сам по себе хорош, даже без добавок.
Из того что сразу видно - распознавание картинок хорошо прокачали, раньше что бы получить плохой результат достаточно было просто сфотать боком, а теперь рукопись сфотанная как угодно читается не хуже чем в джемини (ну почти, тайский язык оно читать отказалось, хотя оригинальный qwen умеет). Отличный результат.
А вот с распознаванием голоса (в телеграме) что то непонятное, толи показывает только первую строку распознанного текста, толи распознавание фейлится. Вообще телеграм версию надо сильно доработать до юзабельного состояния, ну хотя бы научить принимать больше чем 1 сообщение за раз, самый частый кейс - 2 сообщений, текст + картинка, когда картинку пересылают из другого места и добавляют подпись.
И не только вопросы. Почти во всех статьях этого "автора" есть дичайшие ошибки, и указывать на них бесполезно, ничего исправлено не будет.
Ботхаб вообще странная компания. У них в телеграме есть служба поддержки, люди приходят, пишут что неработает-спасите-помогите, и... тп может не отвечать несколько дней.
В нашей унылой северокорейской реальности джемини побеждает с огромным отрывом за счет гигантской халявы.
Гпт и клод сдыхают после 5 минут работы и переходят в режим вымогательства подписки, которую нормальным способом не купить.
Джемини в ai studio дает нахаляву очень много токенов (в переводе на баксы не меньше 20$ в день), и если не хватило просто переключаешься на другой аккаунт и продолжаешь.
Оказывается, для современных зрительно-языковых моделей разрешение значит очень немного: Gemini 2.0 Flash работает примерно с равным успехом и при 72 PPI, и при 300 PPI.
Gemini уверено читает текст набранный символами минимально возможного размера, всего несколько пикселей высотой. 72 PPI для него это что то что надо сильно уменьшать перед обработкой.
Ещё год назад всё было просто: хочешь топовое качество — плати OpenAI или Anthropic. Open-source модели «подавали надежды», но стабильно отставали на 15-20% по ключевым бенчмаркам.
Не отставали а отстают, и не на 20% а очень сильно.
Вот например что отвечает новейший претендент на простой вопрос на который надо было ответить, я не знаю, вместо генерации вагона бредятины.
PrimeIntellect/INTELLECT-3
Отлично, с удовольствием составлю список ключевых героев «Незнайки на Луне»! Это классика советской фантастики, где персонажи сочетают юмор и глубокие идеи. Вот 10 центральных героев, отсортированных по значимости в сюжете (на мой субъективный вкус):
Незнайка (Нестор Нeschastikov) – главный герой, непоседливый и рассеянный изобретатель. Он же и «лунный первопроходец» благодаря стечению обстоятельств.
Гайнуллин – гений инженерии и техники, создатель ракеты для полёта на Луну. Самый рассудительный персонаж.
Квачков – пилот ракеты, вечно энергичный и немного суетливый. Отвечал за навигацию и техническую 「изюминку».
Баранкин – навигатор и философ команды, автор теории «лучших поцелуев». Один из эпицентров комичных ситуаций.
Лунатики – раса лунных жителей, чьи странности и принципы управления становятся ключевыми для сюжета (их «вожак» – Серафим).
Иван-дурак (Fox) – один из «Солнечников» (лучников), символ наивной но unterwegsteny мудрости.
Балбес – ещё один «солнечный» персонаж, комический антигений с оригинальными идеями.
Дунчик – младший из «Солнечников», особенно активный и неугомонный.
Игон (Леспёк) – загадочный «искрён» из Царства Космоса, возможный «дух» научного прогресса или аллегория разума.
Космические Искорки (Ignatiki) – группа年轻ых учёных из Звёздного Королевства, помогающих Незнайке вернуться на Землю.
Рейтинг условен – каждый герой по-своему важен. Некоторые критики видят в nto-персонажах аллегорию на общество, например, Лунатики – это «власть», а Солнечники – «народ». Хотите подробнее о ком-то из них или о символике? 😊
Можно обойтись и без ваиргарда, на сервере должен быть только ssh, на клиенте он скорее всего тоже есть (вин10,вин11), то есть никакого софта устанавливать не надо. Для удобства только ключи добавить что бы без пароля заходило.
Пишем батник буквально с одной строкой (чатгпт подскажет как его скрыть с глаз, как запускать итп)
Во время реализации очереди я столкнулся с проблемами, связанными с несовместимостью Celery и python‑telegram‑bot, которые не позволяли после обработки задач сразу отправлять сообщения пользователям. Немного покопавшись, я остановился на реализации, когда в Celery после обработки задачи я отправляю ответ напрямую в чат, используя request и Telegram API, указав соответствующий чат и креды для бота.
Что за несовместимость?
Зачем вообще телеграм, почему не веб сайт, у веб сайта нет ограничений типа нельзя закачать в бота больше чем 20мб файл или показать юзеру текст больше 4к без разрывов.
В Google Drive есть облачное хранилище для документов, фото и видео с автоматической загрузкой, интегрированная почта, календарь. Его интерфейс продуман до мелочей,
Робот писал или на свете существует юзер довольный интерфейсом гугл диска?
С доступом к опенроутером проблем нет, впн не нужен. Если бы ботхаб выступал в роли казаха посередине для оплаты заблокированных сервисов вопросов бы никаких не было.
Но они пытаются строить самостоятельный сервис на базе других поставщиков, как это делает Perplexity, причем без подписок, а значит очень дорого для тех кто хоть сколько-нибудь активно пользуется
Чанки по 25 секунд, а как потом склеивать разорванные на полуслове предложения?
Зачем тут телеграм? Если надо читать голосовухи которые там ходят то вроде сберовский бот с ними справляется @smartspeech_sber_bot А длинные надо как то обрабатывать (сразу закидывать в какую то нейросеть которая всё умеет, типа джемини), что толку с огромной записи голоса, не будешь же ты это реально всё читать.
Для борьбы с торговлей дипломами. Вузы набирают платников и тащат их несмотря на то что они ппц какие тупые/ленивые, платят же.
Юзкейс для Telegram (репосты с переводом) - перевод картинки.
Обычные текстовые мультимодальные модели. Картинка с нерусским текстом в оригинале, промпт типа: «Напиши HTML-код, который нарисует такую же картинку, но с русским текстом».
Сколько лет назад это было написано?
Оказалось действительно удобно, но чего-то не хватает.
Во-первых, нужно подключить вызов функций. У Mistral нет своей виртуальной машины для калькулятора и поиска в интернете — это большой минус, но есть поддержка MCP. Учитывая, что всё происходит на локальном хосте и единственный пользователь — ты сам, можно запускать код без виртуальной машины, но нужен какой-то скриптовый язык вроде Lua (Python можно, но он неудобный с зависимостями).
Если появится возможность выполнять код по запросам, можно будет создавать сценарии или просить ИИ делать что-то своими руками: переименовывать файлы, удалять их и так далее.
Ещё неплохо было бы сделать окно-чат, которое вызывается и скрывается по хоткею, но это сложно — GUI всегда сложен.
Клон на голанге. В качестве ии используются консольные утилиты которые можно вызывать вручную или из своих скриптов как то так
ИИ по умолчанию - мистраль, у него есть ответы по картинкам, чистый OCR, чтение пдф и транскрибация. Всё что есть херовенькое но зато работает из рф без впн и лимиты огромные(были когда смотрел последний раз, а было это давно).
Еще есть groq и github.
У грока хороший транскрибатор на виспере, может очень быстро большой аудиофайл перевести в текст, почти безлимитно. Есть гугл поиск и виртуалка для вычислений. Лимиты на текстовые модели мелкие но несколько ключей должны решить проблему.
У гитхаба хорошие модельки от опенаи, лимиты там 50 запросов к большим моделям в день на 1 ключ, и 150 к мелким. Из рф вроде пускает без впн.
Ничего не нужно. Проверил сейчас, клиент на вин11, сервер на вин10-лайт(какая то кастрированная сборка на ржавом hdd).
В браузере хромиум(не хром) никаких расширений, видео 1080р на рутубе играет с идеальным качеством и трафик между клиентом и сервером меньше 10мбит колеблется так же как если бы клиент просто смотрел ютуб.
В плеере vlc аналогично, меньше 10 мбит идет на клиента, качество идеальное.
При чем тут макс. Никто не заставляет юзать алису.
Qwen3-235 + дообучение русским датасетом + поиск и тулзы от яндекса = должно получится что то очень хорошее по идее. Большой qwen сам по себе хорош, даже без добавок.
Из того что сразу видно - распознавание картинок хорошо прокачали, раньше что бы получить плохой результат достаточно было просто сфотать боком, а теперь рукопись сфотанная как угодно читается не хуже чем в джемини (ну почти, тайский язык оно читать отказалось, хотя оригинальный qwen умеет). Отличный результат.
А вот с распознаванием голоса (в телеграме) что то непонятное, толи показывает только первую строку распознанного текста, толи распознавание фейлится. Вообще телеграм версию надо сильно доработать до юзабельного состояния, ну хотя бы научить принимать больше чем 1 сообщение за раз, самый частый кейс - 2 сообщений, текст + картинка, когда картинку пересылают из другого места и добавляют подпись.
И не только вопросы. Почти во всех статьях этого "автора" есть дичайшие ошибки, и указывать на них бесполезно, ничего исправлено не будет.
Ботхаб вообще странная компания. У них в телеграме есть служба поддержки, люди приходят, пишут что неработает-спасите-помогите, и... тп может не отвечать несколько дней.
В нашей унылой северокорейской реальности джемини побеждает с огромным отрывом за счет гигантской халявы.
Гпт и клод сдыхают после 5 минут работы и переходят в режим вымогательства подписки, которую нормальным способом не купить.
Джемини в ai studio дает нахаляву очень много токенов (в переводе на баксы не меньше 20$ в день), и если не хватило просто переключаешься на другой аккаунт и продолжаешь.
Gemini уверено читает текст набранный символами минимально возможного размера, всего несколько пикселей высотой. 72 PPI для него это что то что надо сильно уменьшать перед обработкой.
Сейчас бы проводить опросы, в условиях когда половина интернета уже заблокирована, а вторая в ближайших планах.
Не отставали а отстают, и не на 20% а очень сильно.
Вот например что отвечает новейший претендент на простой вопрос на который надо было ответить, я не знаю, вместо генерации вагона бредятины.
В телеге до сих пор работает даже платежная система с фублями вместо денег. Не похоже это на террористический мессенджер.
И HDD сильно подорожали. 1тб HDD теперь стоит от 9000р
Можно обойтись и без ваиргарда, на сервере должен быть только ssh, на клиенте он скорее всего тоже есть (вин10,вин11), то есть никакого софта устанавливать не надо. Для удобства только ключи добавить что бы без пароля заходило.
Пишем батник буквально с одной строкой (чатгпт подскажет как его скрыть с глаз, как запускать итп)
ssh -N -T -o ServerAliveInterval=60 -o ServerAliveCountMax=3 -p %REMOTE_SSH_PORT% -D %LOCAL_SOCKS_PORT% "%REMOTE_USER%@%REMOTE_HOST%"
Ну и еще пару строк надо добавить для бесконечного цикла, что бы переподключался автоматически (опять же чатгпт всё сделает).
Это создаст сокс прокси которую можно подключить в браузере, лучше через какое-нибудь специальное расширение типа foxyproxy для удобства.
Что за несовместимость?
Зачем вообще телеграм, почему не веб сайт, у веб сайта нет ограничений типа нельзя закачать в бота больше чем 20мб файл или показать юзеру текст больше 4к без разрывов.
Робот писал или на свете существует юзер довольный интерфейсом гугл диска?
В каком месте он главный. Что бы он сел в лужу достаточно просто боком текст повернуть.
С доступом к опенроутером проблем нет, впн не нужен. Если бы ботхаб выступал в роли казаха посередине для оплаты заблокированных сервисов вопросов бы никаких не было.
Но они пытаются строить самостоятельный сервис на базе других поставщиков, как это делает Perplexity, причем без подписок, а значит очень дорого для тех кто хоть сколько-нибудь активно пользуется