Обновить
25
151
Андрей Пешков@runaway_llm

Пользователь

Отправить сообщение

Появились примеры работы Nano Banana Pro

Время на прочтение1 мин
Охват и читатели13K

Сайт TestingCatalog, не раз публиковавший подтверждавшиеся утечки на тему ИИ, выпустил подборку изображений, созданных в новой модели Google — Nano Banana Pro. Все изображения были созданы в 4K, но уменьшены с целью экономии трафика.

Читать далее

OpenAI выпустила GPT-5.1-Codex-Max — новый лидер в программировании

Время на прочтение1 мин
Охват и читатели9.7K

OpenAI представила GPT-5.1-Codex-Max - версию GPT-5.1 Thinking, специально заточенную под задачи программирования внутри кодинг-агента Codex. Модель раскатывается во всех версиях Codex для планов ChatGPT Plus, Pro, Edu и Enterprise. Выход в API ожидается позднее.

Читать далее

«Дочка» Alibaba запустила ИИ-сервис, создающий приложения за 30 секунд

Время на прочтение2 мин
Охват и читатели8.9K

Ant Group запустила собственного мультимодального ИИ-ассистента LingGuang, которого позиционируют как инструмент для быстрого прототипирования простых приложений. Сервис может за 30-60 секунд собрать так называемые flash apps — мини-программы вроде счетчика калорий, простой аркады в духе Pac-Man или тренажера для запоминания китайских иероглифов.

Читать далее

OpenAI готовит GPT-5.1-Codex-Max — ответ Gemini 3 Pro

Время на прочтение1 мин
Охват и читатели7K

В коде агента для программирования Codex нашли упоминание новой модели, GPT-5.1-Codex-Max. Из короткого текстового описания нельзя сделать вывод о возможностях новинки, но указывается, что модель предназначена специально для больших проектов и инженерных задач требующих долгого времени автономной работы.

Читать далее

Gemini 3 Pro стала первой в дизайне и еще нескольких важных бенчмарках

Время на прочтение1 мин
Охват и читатели5.3K

Вслед за вчерашним запуском Gemini 3 Pro начали появляться первые независимые оценки ИИ в бенчмарках. Одним из самых интересных стал бенчмарк Design Arena. Это слепое исследование: пользователь пишет промпт на написание кода с элементами дизайна (например, интерфейсом), видит два варианта, выбирает лучший - и только после этого ему сообщается, какие ИИ участвовали. Gemini 3 Pro заняла первое место в этом бенчмарке, победив в четырех из пяти категорий - веб-дизайн, 3D дизайн, компоненты интерфейса и гейм-дизайн. Уступила модель только в визуализации графиков.

Читать далее

Google представила Gemini 3.0 Deep Think — мощный ИИ для сложных задач

Время на прочтение1 мин
Охват и читатели13K

Одновременно с запуском Gemini 3.0 Pro в Google рассказали про режим Gemini 3.0 Deep Think, который сейчас проходит финальное тестирование. Это экспериментальный режим параллельных глубоких рассуждений, в котором модель специально заточена под самые сложные задачи в математике, программировании и научном анализе. Отметим, что предыдущая версия — Gemini 2.5 Deep Think — смогла показать результат уровня золотой медали в международной математической олимпиаде.

Читать далее

Google запустила Antigravity — бесплатную среду для вайб-кодинга на базе Gemini 3 Pro

Время на прочтение2 мин
Охват и читатели26K

Одновременно с запуском Gemini 3 Pro представлена среда для программирования на базе этой модели — Antigravity. Это бесплатный инструмент для разработчиков, который строится вокруг агентного подхода: вместо одного ассистента здесь целый набор ИИ, умеющих работать с кодом, терминалом и браузером.

Читать далее

Вышла Gemini 3 Pro — модель можно попробовать бесплатно

Время на прочтение1 мин
Охват и читатели27K

Google Gemini 3 Pro Perview вышла в Google AI Studio, где ей можно пользоваться бесплатно в том случае, если вы готовы, чтобы Google использовала ваши диалоги для обучения ИИ. Далее ожидается запуск в приложении Gemini, Vertex AI и Google API.

Читать далее

Gemini 3.0 Pro показала сильный прогресс в сложных бенчмарках

Время на прочтение1 мин
Охват и читатели6.8K

Несмотря на то, что официальный анонс Gemini 3.0 Pro еще не состоялся, на сайте Google уже опубликована карточка новой модели с основными характеристиками и цифрами по бенчмаркам. Новая модель поддерживает контекстное окно до 1M токенов, а также выход до 64K токенов. В большинстве бенчмарков она показывает существенный прирост как в сравнении с предыдущей 2.5 Pro, так и с основными конкурентами.

Читать далее

xAI выпустила Grok 4.1 — новый ИИ сразу доступен бесплатно

Время на прочтение1 мин
Охват и читатели35K

xAI выпустила Grok 4.1, обновленную модель своего ведущего ИИ, который уже доступен в веб-версии и мобильных приложениях на iOS и Android. Модель доступна в быстром и рассуждающем режиме — переключение происходит автоматически, но при необходимости можно нажать Think Harder и включить рассуждения вручную. Grok 4.1 сразу же доступен бесплатно, конкретные лимиты xAI не раскрывает, но в первых отзывах на Reddit говорят, что беседовали с моделью десятки минут, не получив никаких ограничений.

Читать далее

GPT-5.1 Thinking заняла первое место в одном из самых сложных бенчмарков для ИИ

Время на прочтение2 мин
Охват и читатели8.7K

GPT-5.1 Thinking пришла первой в бенчмарках ARC-AGI-1 и ARC-AGI-2, которые считаются одними из самых сложных и важных для ИИ. Суть этих бенчмарков в том, что они пытаются замерить не знания модели, а ее способность к абстрактному мышлению в духе человека и способности решать задачи, которые он никогда не видел.

Читать далее

В новом бенчмарке на галлюцинации лишь три ИИ чаще отвечают правильно, чем ошибаются

Время на прочтение2 мин
Охват и читатели6.7K

Artificial Analysis представила новый бенчмарк AA-Omniscience, который оценивает уровень галлюцинаций не только по количеству правильных ответов, но и по умению моделей говорить "не знаю". Первые три места занимают ИИ из линейки Claude: маленькая Claude 4.5 Haiku показывает около 26% неверных ответов среди всех неудачных попыток, а Claude 4.5 Sonnet и Claude 4.1 Opus делят второе и третье место с результатом 48%. Важно добавить, что в бенчмарке моделям отключили возможность поиска в сети и задавали максимально сложные вопросы — в реальных задачах количество ошибок существенно ниже, а бенчмарк в первую очередь должен показать разработчикам ИИ слабые места в текущих схемах тренировки.

Читать далее

DeepSeek, Qwen и Kimi вытесняют американский ИИ из Кремниевой долины

Время на прочтение2 мин
Охват и читатели11K

Обозреватель Bloomberg Opinion Кэтрин Торбек пишет о развороте в Кремниевой долине: все больше местных компаний строят свои сервисы на ИИ из Китая, в первую очередь — DeepSeek, Qwen и Kimi. Несмотря на то, что США и Китай ведут практически открытую ИИ-гонку, американский бизнес предпочитает китайские модели за дешевизну, производительность и открытость, которая упрощает дообучение под нужные задачи.

Читать далее

ИИ Qwen научили проходить Genshin Impact как человек

Время на прочтение2 мин
Охват и читатели5.5K

Опубликован рассказ об ИИ-агенте Lumine на базе Qwen2-VL-7B, которого научили играть в Genshin Impact. Агент способен пройти основную сюжетную линию региона Мондштадт, которая у живых игроков занимает около пяти часов, с эффективностью, сопоставимой с человеком. Также Lumine проходит следующие регионы, на которых он не обучался, и даже переносит навыки на другие похожие игры.

Читать далее

OpenAI готовит к выпуску ИИ олимпиадного уровня

Время на прочтение2 мин
Охват и читатели5.6K

OpenAI работает над тем, чтобы открыть обычным пользователям доступ к модели, основанной на экспериментальном ИИ, который ранее в этом году достиг уровня золотой медали сразу на нескольких престижных соревнованиях: международных школьных олимпиадах по математике и информатике (IMO 2025 и IOI 2025), а также студенческой олимпиаде по программированию (ICPC World Finals 2025). Об этом сообщил Джерри Творек — вице-президент по исследованиям в OpenAI.

Читать далее

GPT-5.1 Thinking назвали самым умным ИИ. Разбираем бенчмарки новинки

Время на прочтение1 мин
Охват и читатели11K

Опубликован обновленный Artificial Analysis Intelligence Index, сводный индекс, который оценивает эффективность ИИ по целом ряду популярных бенчмарков. Первое место в нем заняла GPT-5.1 Thinking High (70 баллов), которая обошла GPT-5 Thinking High (68 баллов), Kimi K2 Thinking (67 баллов), Grok 4 (65 баллов) и Claude Sonnet 4.5 (63 балла).

Читать далее

Новый Grok с огромным контекстным окном испытывают на OpenRouter

Время на прочтение1 мин
Охват и читатели13K

На OpenRouter стартовало тестирование сразу двух новых моделей: "быстрой" Sherlock Dash Alpha и "рассуждающей" Sherlock Think Alpha. Из характеристик раскрыто контекстное окно: 1,84M токенов, что является одним из лучших результатов для ИИ — например, у Gemini 2.5 Flash и Pro контекстное окно достигает 1M токенов.

Читать далее

ИИ Google DeepMind приблизил ученых к разгадке вековой загадки газов и жидкостей

Время на прочтение2 мин
Охват и читатели8K

Когда самолет разгоняется по взлетной полосе, вокруг крыла и фюзеляжа рождаются сложные вихри. Мы привыкли считать, что инженеры давно научились описывать эти потоки уравнениями, но у этих уравнений есть собственная загадка: уже больше ста лет математики спорят, могут ли в идеальной модели газа или жидкости ни с того ни с сего возникать "разрывы" — сингулярности, где скорости и градиенты формально устремляются к бесконечности. От ответа зависят и наше понимание турбулентности, и знаменитая задача о трехмерных уравнениях Навье–Стокса, за решение которой обещана награда в миллион долларов от Математического институт Клэя.

Читать далее

Глава Google намекнул на выход Gemini 3.0 Pro на следующей неделе

Время на прочтение1 мин
Охват и читатели11K

В сети появляется все больше намеков на скорый выход Gemini 3.0 Pro — как от профессионалов рынка, так и от представителей Google. Начнем с твитов Васумана Моцы, бывшего ML-инженера в Meta* (признана экстремисткой в РФ), а сейчас главы стартапа Varick Agents, который разрабатывает кастомных агентов для бизнеса.

Читать далее

В новом бенчмарке ни один ИИ не выставил правильно стрелки на часах

Время на прочтение1 мин
Охват и читатели19K

Брайан Мур запустил бенчмарк AI World Clocks, в котором девять ИИ разных поколений — от GPT-3.5 до Grok 4 и GPT-5 — пытаются создать в html часы с правильно показанным временем. К сожалению, задача оказалась не под силу даже лучшим моделям.

Читать далее

Информация

В рейтинге
38-й
Зарегистрирован
Активность

Специализация

Директор по контенту
Ведущий
Управление проектами
Планирование
Стратегическое планирование
Построение команды
Бюджетирование проектов
Организация бизнес-процессов