Конкретно DeepSeek сейчас выигрывает только по цене. Но со дня на день грозится выпустить новую версию.
Если в обычном режиме чата, без агентов, с какими-нибудь мини-моделями давать им сложные алгоритмические задачи, то не стоит ожидать чего-то впечатляющего.
Попросить LLM: "Что-то всё тормозит. Сделай, чтобы не тормозило". На будущее добавить, чтобы при разработке максимально оптимизировала код всеми известными человечеству способами оптимизации.
Такие задачи решаются без проблем. А вот что делать, когда LLM просто не может одолеть какой-то баг из-за недостатка контекста или просто в силу ограниченного интеллекта, пока не ясно. Обычно просто выходит новая версия Клода \ GPT \ Gemini и на какое-то время поднимает эту планку.
Мне непонятно одно - как система контролирует, что тесты написаны правильно и действительно проверяют работу алгоритма? Что если все тесты PASSED, а ничего не работает? В этом состоит основная претензия к вайбкодерам (что потом надо будет ковыряться вручную и пытаться понять, почему не работает).
Вот бы ещё закрытие счетов / карт прикрутили. А то, видите ли, в Почта Банк нужно пешочком идти в их отделение (которых на весь мегаполис аж целых два), чтобы закрыть накопительный счёт. Который открывается в любом почтовом отделении.
Ему дали ссылки либо на платные корпоративные решения, либо на сервисы с ограничениями. Про Lenza и Revolt он сам упомянул, остальные сервисы имеют серверы за границей, либо требуют поднятия своего сервера. Конкретно того, что сделал автор, там нет. Поэтому и выглядят такие комменты немного странно.
Вот я не понимаю комментаторов выше. Человек сделал аналог дискорда для игр. И предлагает им воспользоваться забесплатно. Без танцев с бубном. Без ограничений на 15 человек в голосовом канале, как у Lenza. Нет, всё равно какой-то непонятный хейт.
Если не хочется, чтобы ваши чаты читал кто-то ещё, то включайте оконечное шифрование, т. е. общайтесь через приватные чаты.
Они в принципе закрыты для большинства людей с материальной точки зрения, вне зависимости от того, согласные они или несогласные.
Все эти проблемы прекрасно видны, если просто написать LLM-ке "привет" в режиме рассуждения.
Так в чём преимущество Телеги перед Максом?
Такое ощущение, что вы описываете ChatGPT уровня 2023 года. Если пользуетесь обычными чатами на сайте, то попробуйте https://aistudio.google.com/apps
Для ChatGPT есть десктопное приложение Codex - https://apps.microsoft.com/detail/9plm9xgg6vks?hl=en-US&gl=US
Ну а у Клода есть Claude Code \ Cowork, только не бесплатно.
В случае с китайцами есть такие:
https://agent.minimax.io/
https://www.kimi.com/agent
https://chat.z.ai/
https://chat.qwen.ai/ (режим "веб-разработка" через плюсик слева)
Конкретно DeepSeek сейчас выигрывает только по цене. Но со дня на день грозится выпустить новую версию.
Если в обычном режиме чата, без агентов, с какими-нибудь мини-моделями давать им сложные алгоритмические задачи, то не стоит ожидать чего-то впечатляющего.
Попросить LLM: "Что-то всё тормозит. Сделай, чтобы не тормозило". На будущее добавить, чтобы при разработке максимально оптимизировала код всеми известными человечеству способами оптимизации.
Такие задачи решаются без проблем. А вот что делать, когда LLM просто не может одолеть какой-то баг из-за недостатка контекста или просто в силу ограниченного интеллекта, пока не ясно. Обычно просто выходит новая версия Клода \ GPT \ Gemini и на какое-то время поднимает эту планку.
Просто 90% галлюцинаций - как-то уж слишком многовато.
Чем, если не секрет?
Вы включали у перечисленных моделей режим рассуждения?
Вы его в рассуждающем режиме проверяли или в обычном?
А Макс чем вас тогда не устраивает?
Мне непонятно одно - как система контролирует, что тесты написаны правильно и действительно проверяют работу алгоритма? Что если все тесты PASSED, а ничего не работает? В этом состоит основная претензия к вайбкодерам (что потом надо будет ковыряться вручную и пытаться понять, почему не работает).
Но можно при желании полностью отключить нейроны, рождающие галлюцинации - https://github.com/thunlp/H-Neurons
Он говорит, что дал тем, кто потом расщепился.
Да так и сделали. Просто и у некоммерческой структуры, и у коммерческой название почти совпадает:
OpenAI Foundation
OpenAI Group PBC
Вот бы ещё закрытие счетов / карт прикрутили. А то, видите ли, в Почта Банк нужно пешочком идти в их отделение (которых на весь мегаполис аж целых два), чтобы закрыть накопительный счёт. Который открывается в любом почтовом отделении.
Ему дали ссылки либо на платные корпоративные решения, либо на сервисы с ограничениями. Про Lenza и Revolt он сам упомянул, остальные сервисы имеют серверы за границей, либо требуют поднятия своего сервера. Конкретно того, что сделал автор, там нет. Поэтому и выглядят такие комменты немного странно.
Вот я не понимаю комментаторов выше. Человек сделал аналог дискорда для игр. И предлагает им воспользоваться забесплатно. Без танцев с бубном. Без ограничений на 15 человек в голосовом канале, как у Lenza. Нет, всё равно какой-то непонятный хейт.
Идея шикарная! Странно, что сам YouTube её до сих пор не реализовал.
Так проблемы начались как раз при прошлой команде.