Нормальные ответы по картинкам есть только у гугол джемини и чатгпт, большинство остальных фейлятся даже если картинка с текстом просто набок завалена.
Чатгпт с картинками доступен для великих россиян через перплексити (официальный бот есть в вотсапе и телеграме) и через копилот в телеграме (он перестал там требовать подтверждение по нерусскому телефону).
Контекст у моделей намного больше чем у разработчика Ж)
Ты же не можешь в уме держать 20т строк кода? А модель может.
Модель не знает что это за проект в целом и где у тебя любимый костыль зарыт, но что ей мешает пройтись по всему коду и составить карту? Надергать определения и описания, а если их нет то сгенерировать.
Вполне может выдать другой результат, добавить какие то слова типа вот ваша одна цифра - 4.
Для борьбы с этим явлением придумали структурированный вывод в джейсон. Модель специально тренируют что бы она отвечала джейсонами. Но и в них тоже бывают ошибки.
И там же можно взять ллм что бы добавить немного магии, переписать полученный после транскрибации текст, добавить переносы строк итп.
Легким движением руки телебота можно сделать "асинхронным" так что бы долгое выполнение команды не блокировало бота и он мог делать несколько запросов одновременно
добавить декоратор перед хендлерами
def async_run_with_limit(max_threads: int):
"""
Decorator to run a function in a separate thread asynchronously,
with a limit on the number of concurrent threads.
Args:
max_threads: The maximum number of threads allowed to run concurrently.
"""
semaphore = threading.Semaphore(max_threads)
def decorator(func):
@functools.wraps(func)
def wrapper(*args, **kwargs):
def task():
try:
func(*args, **kwargs)
finally:
semaphore.release()
semaphore.acquire()
thread = threading.Thread(target=task)
thread.start()
return thread # Optionally return the thread object
return wrapper
return decorator
Попробуй скопировать с сайта в телеграм. Оба способа дают другой результат для таблиц, если просто копировать то никакого обрамления у таблиц, если через функцию копирования на сайте то другое оформление получается.
Дела разные бывают. Допустим ты репортер. Ты возвращаешься с места событий с материалами на руках, у тебя есть аудиозаписи - интервью, фотографии документов итп. Твоё дело - написать репортаж.
Для этого тебе надо загрузить в чатгпт собранные аудиозаписи, фотографии, документы, обсудить. Пока пишешь репортаж у тебя возникают вопросы, а что тот чувак сказал по поводу качество бетона в интервью, а как его звали кстати, и ты это спрашиваешь у чатагпт, он уже прослушал все записи, прочитал все документы и может тебе быстро ответить. На самом деле он и написать за тебя может а тебе останется только сказать ему где что переделать.
Для выполнения задания тебе потребуется сделать, скажем, 20 запросов. Бесплатная версия остановится на 10ом и потребует заплатить. Ограничения могут быть не на количество запросов а на глубину памяти, в ограниченный контекст могут не поместится все материалы, модель может отказаться обрабатывать пачки фоток больше чем по 3шт итд итп.
Всмысле не помнят? Если "память" подключена то нормально всё работает.
Вот здесь на втором запросе в модель передали 2 запроса а не один, поэтому она отвечает адекватно.
Ей показали всю историю переписки из 2 запросов что бы она не потеряла нить разговора.
Модель можно представить себе как черный ящик у которого есть приемник данных и выход для результатов. Ты кладешь свои данные, то есть текст запроса в приемник, нажимаешь педальку и он начинает их все разом обрабатывать, и в конце выплевывает результат. Никакой памяти у него нет, её надо эмулировать каждый раз вручную обновляя историю переписки и добавляя в данные которые подаются в приемник.
Технически, под капотом, это выглядит так, при каждом новом запросе модели передается вся предыдущая переписка, и предлагается ответить на последний запрос, с учётом предыдущих. Чем дольше идет разговор тем больше становится переписка, а у модели есть техническое ограничение на размер входящих данных. В нее нельзя засунуть больше чем ХХХ слов, из за этого переписку приходится автоматически подрезать - отбрасывать самые старые записи, или сжимать - заменять длинный хвост на короткий пересказ того о чем говорили или еще какие то аналогичные трюки делать.
Часть входящих данных может быть дополнена временными данными, например человек спросил что то чего модель не знает и она решила сделать запрос в гугол или в свою базу и получила оттуда ответ, этот ответ временно или постоянно добавляется в историю переписки, ты этого не видишь но размер входящих данных сильно вырос.
Чем больше данных на входе (и выходе) у модели тем дольше всё это работает и больше жрёт денег. Дополнительные запросы которые делаются в процессе тоже жрут время и деньги, гугол бесплатно ищет только у себя на сайте а если хочешь засунуть его в своё приложение - придется платить. Даже калькулятор для роботов, если он ИИшный, стоит денег, его обычно делают через виртуальные машины а это дорого и сложно.
В бесплатных версиях обычно сильно обрезают переписку, например убирают то что было больше 10 запросов назад, отключают дополнительные инструменты типа гугла и калькулятора итд.
У chatgpt тебе не дают бесплатно некоторые модели вообще. Те что дают ограничены таким образом что бы с одной стороны показать тебе как можно больше возможностей а с другой не дать тебе закончить свои дела до конца.
Примерно такая же история у всех остальных за редким исключением, причина банальная - это всё стоит немалых денег и бесплатно даётся из расчёта что ты попробуешь и захочешь купить.
Токены это сложно, на них обычно смотрят как на размер памяти модели(сколько текста можно подать на вход и получить в ответ) или на цену запросов, чем больше токенов тем дольше работает арендованный суперкомпьютер, и тем больше денег тратит.
Память модели это тоже сложно, у нее на самом деле нет памяти а эффект достигается с помощью трюка - при каждом новом запросе незаметно для человека добавляется история переписки и поэтому кажется что модель помнит о чем говорили недавно.
Это вызывает проблемы с расходами, ты спрашиваешь сколько будет 2+2, получаешь ответ 4 и думаешь что с тебя спишут ~10 токенов, но на самом деле спишут несколько тысяч потому что вы недавно говорили о чем то и это всё ещё висит в памяти у модели и повторно прокручивается каждый раз при следующих запросах.
По количеству халявы ничего подобного ни у кого больше нет, по качеству его недавно подвинули на 2ое место но это условности, он всё равно один из лучших.
Где брать прокси?
Это микропредприятие с 1 сотрудником.
Школьникам нужна Ж) Типичная картинка с вопросом от них выглядит как то так
Надо распознать картинку сделанную криво косо в темноте под партой, и написать решение.
Нормальные ответы по картинкам есть только у гугол джемини и чатгпт, большинство остальных фейлятся даже если картинка с текстом просто набок завалена.
Чатгпт с картинками доступен для великих россиян через перплексити (официальный бот есть в вотсапе и телеграме) и через копилот в телеграме (он перестал там требовать подтверждение по нерусскому телефону).
Контекст у моделей намного больше чем у разработчика Ж)
Ты же не можешь в уме держать 20т строк кода? А модель может.
Модель не знает что это за проект в целом и где у тебя любимый костыль зарыт, но что ей мешает пройтись по всему коду и составить карту? Надергать определения и описания, а если их нет то сгенерировать.
Вполне может выдать другой результат, добавить какие то слова типа вот ваша одна цифра - 4.
Для борьбы с этим явлением придумали структурированный вывод в джейсон. Модель специально тренируют что бы она отвечала джейсонами. Но и в них тоже бывают ошибки.
Сохранять на диск скаченный файл не обязательно, можно скачать его в оперативку и так использовать.
Тут можно взять почти безлимитный очень быстрый и стабильный whisper https://console.groq.com
Ему не нужно будет конвертировать звук, он поддерживает большинство форматов и так
Скрытый текст
Размер модели: Оптимизированная архитектура для скорости
Скорость: Фактор скорости 216x
Аудиоконтекст: Оптимизирован для 30-секундных аудиосегментов, с минимумом 10 секунд на сегмент
Поддерживаемое аудио: FLAC, MP3, M4A, MPEG, MPGA, OGG, WAV или WEBM
Язык: Поддерживается более 99 языков
И там же можно взять ллм что бы добавить немного магии, переписать полученный после транскрибации текст, добавить переносы строк итп.
Легким движением руки телебота можно сделать "асинхронным" так что бы долгое выполнение команды не блокировало бота и он мог делать несколько запросов одновременно
добавить декоратор перед хендлерами
Делом займись и быстро нарвешься на бесплатные лимиты.
Программисты с claude code-ом легко доходят до лимитов даже на подписке за 200 долларов.
https://habr.com/ru/news/938290/
По стилю сразу видно что не оригинальный чатгпт.
Попробуй скопировать с сайта в телеграм. Оба способа дают другой результат для таблиц, если просто копировать то никакого обрамления у таблиц, если через функцию копирования на сайте то другое оформление получается.
Не парочка а несколько десятков.
Дела разные бывают. Допустим ты репортер. Ты возвращаешься с места событий с материалами на руках, у тебя есть аудиозаписи - интервью, фотографии документов итп. Твоё дело - написать репортаж.
Для этого тебе надо загрузить в чатгпт собранные аудиозаписи, фотографии, документы, обсудить. Пока пишешь репортаж у тебя возникают вопросы, а что тот чувак сказал по поводу качество бетона в интервью, а как его звали кстати, и ты это спрашиваешь у чатагпт, он уже прослушал все записи, прочитал все документы и может тебе быстро ответить. На самом деле он и написать за тебя может а тебе останется только сказать ему где что переделать.
Для выполнения задания тебе потребуется сделать, скажем, 20 запросов. Бесплатная версия остановится на 10ом и потребует заплатить. Ограничения могут быть не на количество запросов а на глубину памяти, в ограниченный контекст могут не поместится все материалы, модель может отказаться обрабатывать пачки фоток больше чем по 3шт итд итп.
Всмысле не помнят? Если "память" подключена то нормально всё работает.
Вот здесь на втором запросе в модель передали 2 запроса а не один, поэтому она отвечает адекватно.
Ей показали всю историю переписки из 2 запросов что бы она не потеряла нить разговора.
Модель можно представить себе как черный ящик у которого есть приемник данных и выход для результатов. Ты кладешь свои данные, то есть текст запроса в приемник, нажимаешь педальку и он начинает их все разом обрабатывать, и в конце выплевывает результат. Никакой памяти у него нет, её надо эмулировать каждый раз вручную обновляя историю переписки и добавляя в данные которые подаются в приемник.
Технически, под капотом, это выглядит так, при каждом новом запросе модели передается вся предыдущая переписка, и предлагается ответить на последний запрос, с учётом предыдущих. Чем дольше идет разговор тем больше становится переписка, а у модели есть техническое ограничение на размер входящих данных. В нее нельзя засунуть больше чем ХХХ слов, из за этого переписку приходится автоматически подрезать - отбрасывать самые старые записи, или сжимать - заменять длинный хвост на короткий пересказ того о чем говорили или еще какие то аналогичные трюки делать.
Часть входящих данных может быть дополнена временными данными, например человек спросил что то чего модель не знает и она решила сделать запрос в гугол или в свою базу и получила оттуда ответ, этот ответ временно или постоянно добавляется в историю переписки, ты этого не видишь но размер входящих данных сильно вырос.
Чем больше данных на входе (и выходе) у модели тем дольше всё это работает и больше жрёт денег. Дополнительные запросы которые делаются в процессе тоже жрут время и деньги, гугол бесплатно ищет только у себя на сайте а если хочешь засунуть его в своё приложение - придется платить. Даже калькулятор для роботов, если он ИИшный, стоит денег, его обычно делают через виртуальные машины а это дорого и сложно.
В бесплатных версиях обычно сильно обрезают переписку, например убирают то что было больше 10 запросов назад, отключают дополнительные инструменты типа гугла и калькулятора итд.
У всех по разному.
У chatgpt тебе не дают бесплатно некоторые модели вообще. Те что дают ограничены таким образом что бы с одной стороны показать тебе как можно больше возможностей а с другой не дать тебе закончить свои дела до конца.
Примерно такая же история у всех остальных за редким исключением, причина банальная - это всё стоит немалых денег и бесплатно даётся из расчёта что ты попробуешь и захочешь купить.
Токены это сложно, на них обычно смотрят как на размер памяти модели(сколько текста можно подать на вход и получить в ответ) или на цену запросов, чем больше токенов тем дольше работает арендованный суперкомпьютер, и тем больше денег тратит.
Память модели это тоже сложно, у нее на самом деле нет памяти а эффект достигается с помощью трюка - при каждом новом запросе незаметно для человека добавляется история переписки и поэтому кажется что модель помнит о чем говорили недавно.
Это вызывает проблемы с расходами, ты спрашиваешь сколько будет 2+2, получаешь ответ 4 и думаешь что с тебя спишут ~10 токенов, но на самом деле спишут несколько тысяч потому что вы недавно говорили о чем то и это всё ещё висит в памяти у модели и повторно прокручивается каждый раз при следующих запросах.
Лучше там где тебе удобнее.
Если не выбирать то отвечать будет первый в списке.
gemini 2.5 pro доступен через того тг бота, он там только по размеру памяти ограничен, не дает весь миллион токенов
GPT 5
Это машинально происходит, когда 20ый раз за день видишь надпись покупайте наших ботхабов рука сама тянется к нагану.
Просто посмотри новостную ленту, 6 из 10 последних записей - спам от ботхаба.
Самый лучший из доступных бесплатно - gemini pro на сайте https://aistudio.google.com/app/prompts/new_chat
По количеству халявы ничего подобного ни у кого больше нет, по качеству его недавно подвинули на 2ое место но это условности, он всё равно один из лучших.