Легко только начинать вайбкодить и сделать что то похожее на то что надо, а потом начинаются сплошные мемы про собачек которые не знают точно что надо делать.
Я уже 2 года делаю банального ии чатбота для телеграма и просто охреневаю от "конкурентов", 99.9% из них даже просто донести текст от юзера до ллм и обратно не в состоянии, это какой то трындец, по-моему они просто не знают что у телеграма есть какие то технические особенности.
Вкладками как в веб версии всё эти годы можно было пользоваться и без новой фичи.
Для этого надо просто создать группу и затащить в нее обученного работать с тредами бота. Если не приглашать в нее больше никого то получится приват с вкладками.
На Рутрекере есть сборки Windows, в которых отключены все службы, нагружающие диск: антивирус, обновления и так далее. С ними компьютер работает так, будто установили легковесный Linux, и при этом доступны все нативные программы Windows. «Десятка» нормально работает даже на старом IDE-диске.
Полезный навык для чат-ботов, кстати. Раньше дамочки приходили к боту, спрашивали: "Гадать умеешь?", и получали отказ или отповедь.
Добавил в системный промпт совет притворяться, что "шаришь" в этой фигне, пару простых тулзов для рисования карт Таро и натальной карты (яхз, что это, но выглядит красиво), и теперь все дамы довольны.
Если надо такое то тут уже есть. Работает на ключах которые раздают бесплатно для разработчиков. Расшифровка голоса через виспер от грока, ллм от мистраля, оба провайдера дают больше чем можешь унести.
5.1 уже давно вымерли. Претензии надо предъявлять гуглу и андроиду, почему они не позволяют обновлять старые устройства, или к производителям чипов, это вроде они не дают делать новые ядра для своих чипов.
Чанки по 25 секунд, а как потом склеивать разорванные на полуслове предложения?
Зачем тут телеграм? Если надо читать голосовухи которые там ходят то вроде сберовский бот с ними справляется @smartspeech_sber_bot А длинные надо как то обрабатывать (сразу закидывать в какую то нейросеть которая всё умеет, типа джемини), что толку с огромной записи голоса, не будешь же ты это реально всё читать.
Юзкейс для Telegram (репосты с переводом) - перевод картинки.
Обычные текстовые мультимодальные модели. Картинка с нерусским текстом в оригинале, промпт типа: «Напиши HTML-код, который нарисует такую же картинку, но с русским текстом».
Оказалось действительно удобно, но чего-то не хватает.
Во-первых, нужно подключить вызов функций. У Mistral нет своей виртуальной машины для калькулятора и поиска в интернете — это большой минус, но есть поддержка MCP. Учитывая, что всё происходит на локальном хосте и единственный пользователь — ты сам, можно запускать код без виртуальной машины, но нужен какой-то скриптовый язык вроде Lua (Python можно, но он неудобный с зависимостями).
Если появится возможность выполнять код по запросам, можно будет создавать сценарии или просить ИИ делать что-то своими руками: переименовывать файлы, удалять их и так далее.
Ещё неплохо было бы сделать окно-чат, которое вызывается и скрывается по хоткею, но это сложно — GUI всегда сложен.
Клон на голанге. В качестве ии используются консольные утилиты которые можно вызывать вручную или из своих скриптов как то так
echo "что на картинках?" | mistral.exe -f "pathtoimg1.jpg" "pathtoimg2.jpg"
ИИ по умолчанию - мистраль, у него есть ответы по картинкам, чистый OCR, чтение пдф и транскрибация. Всё что есть херовенькое но зато работает из рф без впн и лимиты огромные(были когда смотрел последний раз, а было это давно).
Еще есть groq и github.
У грока хороший транскрибатор на виспере, может очень быстро большой аудиофайл перевести в текст, почти безлимитно. Есть гугл поиск и виртуалка для вычислений. Лимиты на текстовые модели мелкие но несколько ключей должны решить проблему.
У гитхаба хорошие модельки от опенаи, лимиты там 50 запросов к большим моделям в день на 1 ключ, и 150 к мелким. Из рф вроде пускает без впн.
Ничего не нужно. Проверил сейчас, клиент на вин11, сервер на вин10-лайт(какая то кастрированная сборка на ржавом hdd).
В браузере хромиум(не хром) никаких расширений, видео 1080р на рутубе играет с идеальным качеством и трафик между клиентом и сервером меньше 10мбит колеблется так же как если бы клиент просто смотрел ютуб.
В плеере vlc аналогично, меньше 10 мбит идет на клиента, качество идеальное.
При чем тут макс. Никто не заставляет юзать алису.
Qwen3-235 + дообучение русским датасетом + поиск и тулзы от яндекса = должно получится что то очень хорошее по идее. Большой qwen сам по себе хорош, даже без добавок.
Из того что сразу видно - распознавание картинок хорошо прокачали, раньше что бы получить плохой результат достаточно было просто сфотать боком, а теперь рукопись сфотанная как угодно читается не хуже чем в джемини (ну почти, тайский язык оно читать отказалось, хотя оригинальный qwen умеет). Отличный результат.
А вот с распознаванием голоса (в телеграме) что то непонятное, толи показывает только первую строку распознанного текста, толи распознавание фейлится. Вообще телеграм версию надо сильно доработать до юзабельного состояния, ну хотя бы научить принимать больше чем 1 сообщение за раз, самый частый кейс - 2 сообщений, текст + картинка, когда картинку пересылают из другого места и добавляют подпись.
И не только вопросы. Почти во всех статьях этого "автора" есть дичайшие ошибки, и указывать на них бесполезно, ничего исправлено не будет.
Ботхаб вообще странная компания. У них в телеграме есть служба поддержки, люди приходят, пишут что неработает-спасите-помогите, и... тп может не отвечать несколько дней.
В нашей унылой северокорейской реальности джемини побеждает с огромным отрывом за счет гигантской халявы.
Гпт и клод сдыхают после 5 минут работы и переходят в режим вымогательства подписки, которую нормальным способом не купить.
Джемини в ai studio дает нахаляву очень много токенов (в переводе на баксы не меньше 20$ в день), и если не хватило просто переключаешься на другой аккаунт и продолжаешь.
Легко только начинать вайбкодить и сделать что то похожее на то что надо, а потом начинаются сплошные мемы про собачек которые не знают точно что надо делать.
Я уже 2 года делаю банального ии чатбота для телеграма и просто охреневаю от "конкурентов", 99.9% из них даже просто донести текст от юзера до ллм и обратно не в состоянии, это какой то трындец, по-моему они просто не знают что у телеграма есть какие то технические особенности.
Нашел хороший вариант провайдера - https://enter.pollinations.ai/
ВПН вроде не нужен (но это неточно Ж)
Там дают по 1 доллару в день на любую ллм. Есть и клод и гпт и джемини (а еще есть всякие нанабананы, можно легко сделать ИИ-фотошоп при желании).
Если у вас активный гитхаб аккаунт с комитами и звездами то дадут 3 или 10 долларов в день.
Ну и конечно можно абузить, сделать несколько аккаунтов. Для ClipGen вобщем то много и не надо.
В го клоне поддержка уже есть.
Вкладками как в веб версии всё эти годы можно было пользоваться и без новой фичи.
Для этого надо просто создать группу и затащить в нее обученного работать с тредами бота. Если не приглашать в нее больше никого то получится приват с вкладками.
Тут можно посмотреть как это работает https://t.me/ChatGPT_Habr_community
На Рутрекере есть сборки Windows, в которых отключены все службы, нагружающие диск: антивирус, обновления и так далее. С ними компьютер работает так, будто установили легковесный Linux, и при этом доступны все нативные программы Windows. «Десятка» нормально работает даже на старом IDE-диске.
Полезный навык для чат-ботов, кстати. Раньше дамочки приходили к боту, спрашивали: "Гадать умеешь?", и получали отказ или отповедь.
Добавил в системный промпт совет притворяться, что "шаришь" в этой фигне, пару простых тулзов для рисования карт Таро и натальной карты (яхз, что это, но выглядит красиво), и теперь все дамы довольны.
Это тупое паразитирование. Без нормальной подписки работа с перекупом выглядит как то так. Скрин из ТП аналогичного сервиса.
Деньги тупо сливаются в унитаз, и это еще с недорогими моделями.
Подписка на клода стоит условно 20 баксов в месяц. Попытка работать через его реплику сделанную на API стоит 8 баксов за 15 минут...
Если надо такое то тут уже есть. Работает на ключах которые раздают бесплатно для разработчиков. Расшифровка голоса через виспер от грока, ллм от мистраля, оба провайдера дают больше чем можешь унести.
5.1 уже давно вымерли. Претензии надо предъявлять гуглу и андроиду, почему они не позволяют обновлять старые устройства, или к производителям чипов, это вроде они не дают делать новые ядра для своих чипов.
Гугл сам создал эту проблему. Он мог бы просто разрешить провайдерам самостоятельно кэшировать, например, с помощью условного Squid.
Наверняка он так не стал делать, чтобы не терять возможность более плотно контролировать, кто что скачивает.
Настолько сильно желание следить за людьми, что никаких серверов не жалко.
Да мы
охузасрали весь хабр тупейшим спамом и чо?Чанки по 25 секунд, а как потом склеивать разорванные на полуслове предложения?
Зачем тут телеграм? Если надо читать голосовухи которые там ходят то вроде сберовский бот с ними справляется @smartspeech_sber_bot А длинные надо как то обрабатывать (сразу закидывать в какую то нейросеть которая всё умеет, типа джемини), что толку с огромной записи голоса, не будешь же ты это реально всё читать.
Для борьбы с торговлей дипломами. Вузы набирают платников и тащат их несмотря на то что они ппц какие тупые/ленивые, платят же.
Юзкейс для Telegram (репосты с переводом) - перевод картинки.
Обычные текстовые мультимодальные модели. Картинка с нерусским текстом в оригинале, промпт типа: «Напиши HTML-код, который нарисует такую же картинку, но с русским текстом».
Сколько лет назад это было написано?
Оказалось действительно удобно, но чего-то не хватает.
Во-первых, нужно подключить вызов функций. У Mistral нет своей виртуальной машины для калькулятора и поиска в интернете — это большой минус, но есть поддержка MCP. Учитывая, что всё происходит на локальном хосте и единственный пользователь — ты сам, можно запускать код без виртуальной машины, но нужен какой-то скриптовый язык вроде Lua (Python можно, но он неудобный с зависимостями).
Если появится возможность выполнять код по запросам, можно будет создавать сценарии или просить ИИ делать что-то своими руками: переименовывать файлы, удалять их и так далее.
Ещё неплохо было бы сделать окно-чат, которое вызывается и скрывается по хоткею, но это сложно — GUI всегда сложен.
Клон на голанге. В качестве ии используются консольные утилиты которые можно вызывать вручную или из своих скриптов как то так
ИИ по умолчанию - мистраль, у него есть ответы по картинкам, чистый OCR, чтение пдф и транскрибация. Всё что есть херовенькое но зато работает из рф без впн и лимиты огромные(были когда смотрел последний раз, а было это давно).
Еще есть groq и github.
У грока хороший транскрибатор на виспере, может очень быстро большой аудиофайл перевести в текст, почти безлимитно. Есть гугл поиск и виртуалка для вычислений. Лимиты на текстовые модели мелкие но несколько ключей должны решить проблему.
У гитхаба хорошие модельки от опенаи, лимиты там 50 запросов к большим моделям в день на 1 ключ, и 150 к мелким. Из рф вроде пускает без впн.
Ничего не нужно. Проверил сейчас, клиент на вин11, сервер на вин10-лайт(какая то кастрированная сборка на ржавом hdd).
В браузере хромиум(не хром) никаких расширений, видео 1080р на рутубе играет с идеальным качеством и трафик между клиентом и сервером меньше 10мбит колеблется так же как если бы клиент просто смотрел ютуб.
В плеере vlc аналогично, меньше 10 мбит идет на клиента, качество идеальное.
При чем тут макс. Никто не заставляет юзать алису.
Qwen3-235 + дообучение русским датасетом + поиск и тулзы от яндекса = должно получится что то очень хорошее по идее. Большой qwen сам по себе хорош, даже без добавок.
Из того что сразу видно - распознавание картинок хорошо прокачали, раньше что бы получить плохой результат достаточно было просто сфотать боком, а теперь рукопись сфотанная как угодно читается не хуже чем в джемини (ну почти, тайский язык оно читать отказалось, хотя оригинальный qwen умеет). Отличный результат.
А вот с распознаванием голоса (в телеграме) что то непонятное, толи показывает только первую строку распознанного текста, толи распознавание фейлится. Вообще телеграм версию надо сильно доработать до юзабельного состояния, ну хотя бы научить принимать больше чем 1 сообщение за раз, самый частый кейс - 2 сообщений, текст + картинка, когда картинку пересылают из другого места и добавляют подпись.
И не только вопросы. Почти во всех статьях этого "автора" есть дичайшие ошибки, и указывать на них бесполезно, ничего исправлено не будет.
Ботхаб вообще странная компания. У них в телеграме есть служба поддержки, люди приходят, пишут что неработает-спасите-помогите, и... тп может не отвечать несколько дней.
В нашей унылой северокорейской реальности джемини побеждает с огромным отрывом за счет гигантской халявы.
Гпт и клод сдыхают после 5 минут работы и переходят в режим вымогательства подписки, которую нормальным способом не купить.
Джемини в ai studio дает нахаляву очень много токенов (в переводе на баксы не меньше 20$ в день), и если не хватило просто переключаешься на другой аккаунт и продолжаешь.