All streams
Search
Write a publication
Pull to refresh
24
84.4
Андрей Пешков @runaway_llm

User

Send message

В полтора раза лучше ChatGPT o3? В сети обсуждают возможные бенчмарки Grok 4

Reading time2 min
Views5.3K

X-аккаунт legit_api, опубликовал бенчмарки Grok 4, якобы обнаруженные тестерами модели в консоли xAI. Аккаунт legit_api уже публиковал позднее подтвердившиеся утечки на тему ИИ — например, касательно модели генерации видео Sora от OpenAI. Поэтому неудивительно, что бенчмарки Grok 4 стали бурно обсуждаться в X и на Reddit. Вот цифры:

Читать далее

Для нового дата-центра xAI на 1 млн GPU приобретут электростанцию и перевезут в США

Reading time1 min
Views5.1K

Основатель аналитической фирмы SemiAnalysis Дилан Патель, рассказал, что по его данным для нового дата-центра xAI на 1 миллион ускорителей Nvidia Blackwell планируется приобрести газовую электростанцию и перевезти ее в США через океан. Чуть позже данную информацию подтвердил в соцсети X основатель xAI Илон Маск.

Читать далее

Еврокомиссия не стала откладывать AI Act. Штраф за нарушение составит 7% выручки

Reading time2 min
Views1.5K

Несмотря на просьбы лоббистов, в Еврокомиссии решили не откладывать намеченное на 2 августа вступление в силу новых положений AI Act. Начиная с этой даты для всех выходящих в ЕС моделей потребуется предоставить подробную карточку, информацию по энергопотреблению и обучающим данным, а также список известных "нежелательных применений" и принятых для их устранения мер. В случае крупных инцидентов с моделью разработчик обязан в течение 72 часов уведомить регулятора.

Читать далее

1,8 млрд фанатов и один Copilot. Английская Премьер-лига перешла на ИИ-технологии Microsoft

Reading time1 min
Views1.5K

Английская премьер-лига подписала 5-летнее соглашение с Microsoft на предоставление облачных и ИИ-технологий. На основе Microsoft Copilot запущено приложение Premier League Companion, в котором поклонники футбола получат доступ к статистике за 30 последних сезонов, информации из 300 тысяч архивных статей и 9 тысяч видео — все в режиме чата с ИИ. Приложение уже запущено для смартфонов и в веб-версии.

Читать далее

ChatGPT o3 оказалась лучшей ИИ-моделью для ответов на вопросы ученых

Reading time1 min
Views5.3K

В Allen Institute представили площадку SciArena для оценки полезности ИИ-моделей для ученых и поделились первыми результатами. Принципы работы SciArena похожи на то, как устроена Chatbot Arena, но с учетом более серьезной специфики запросов. К работе на площадке допущены только ученые с минимум двумя собственными публикациями, а прежде чем начать тестировать модели, они проходят часовой инструктаж.

Читать далее

В четыре раза точнее врача. В Microsoft создали «консилиум» из ИИ для постановки диагноза

Reading time2 min
Views3.1K

Microsoft AI рассказали о MAI Diagnostic Orchestrator — медицинской ИИ-системе для постановки максимально точного диагноза. Основная идея Orchestrator в чем-то напоминает медицинский консилиум: ИИ назначается несколько разных ролей, отвечающих за отдельные этапы. При этом роли могут быть назначены как одной языковой модели, так и разным - например, с пациентом могут работать ChatGPT o3, Gemini 2.5 Pro, Claude Opus 4 и так далее.

Читать далее

Runway разработала ИИ-генератор игр. Публичное демо обещают в ближайшие дни

Reading time2 min
Views1.1K

The Verge сообщает, что стартап Runway, известный по AI-модели генерации видео, планирует расширение на индустрию видеоигр. В ближайшие дни компания откроет доступ к тестовой версии своего первого ИИ-конструктора игр под названием Game Worlds. На старте в нем можно будет создавать лишь текстовые приключения: как в старые добрые 80-е, игрок будет видеть текстовое описание ситуации, иллюстрацию, характеристики своего персонажа, а также сможет описать действие, которое он хочет совершить. Только в отличие от классических квестов прошлого, в проекте Runway сюжет и графика будут генерироваться на лету при помощи ИИ — а значит, каждый игрок получит полностью уникальное приключение.

Читать далее

Для ChatGPT тестируют режим совместной работы. Его запуск усложнит отношения с Microsoft

Reading time2 min
Views2.7K

The Information раскрыл подробности режима совместной работы в Canvas, который прямо сейчас тестируется в ChatGPT. По данным издания, первые макеты были показаны еще в июле 2024 года, но тогда проект отложили из-за недостатка ресурсов. К разработке вернулись осенью, а уже в марте был готов первый прототип.

Читать далее

Anthropic назначила Claude управлять торговым автоматом. ИИ-агент провалился за месяц

Reading time2 min
Views3.6K

В блоге Anthropic появился рассказ об эксперименте, который компания провела совместно с Andon Labs, фирмой, занимающейся безопасностью ИИ. В нем ИИ-агент на базе Claude Sonnet 3.7 управлял небольшим торговым киоском в офисе Anthropic в Сан-Франциско. Для Claude был написан специальный промпт, в котором объяснялась суть его работы и основная цель - приносить прибыль. Также модель получила возможность искать в сети новые товары и заказывать их, запрашивать помощь живых сотрудников в обслуживании киоска, отдельный инструмент для хранения информации (чтобы важное не терялось из-за контекстного окна) и возможность с помощью Slack взаимодействовать с сотрудниками компании, изучая их пожелания.

Читать далее

3,4 трлн евро на кону. Лоббисты просят власти Евросоюза отложить вступление AI Act

Reading time2 min
Views2.6K

Технологическая ассоциация CCIA Europe направила лидерам ЕС просьбу отложить намеченное на 2 августа вступление в силу новых положений AI Act — общеевропейского закона, регулирующего искусственный интеллект. Лоббисты группы, в которую входят Alphabet, Apple и Meta* (признана экстремистской организацией в России) предупреждают, что Еврокомиссия до сих пор не опубликовала финальные разъяснения закона, без которых представителям индустрии просто не ясно, как работать дальше. Это подтверждает проведенный AWS и Strand Partners опрос: 68% представителей индустрии не понимают, какие обязанности на них накладывает AI Act.

Читать далее

Grok 3.5 переименован в Grok 4 и выйдет после 4 июля — Илон Маск

Reading time2 min
Views2K

Илон Маск продолжает исполнять роль менеджера по маркетингу Grok и поделился в своем X подробностями о статусе новой версии модели. По словам бизнесмена, работа в xAI идет круглосуточно, а впереди еще один большой прогон обучения, в ходе которого будут тренировать модель для написания кода. Официальное название новинки — Grok 4 (ранее фигурировало название Grok 3.5). Выход — сразу после 4 июля.

Читать далее

Сотрудники просят ChatGPT, а не Copilot — в Microsoft злятся и снижают цену

Reading time2 min
Views17K

В свежем материале Bloomberg рассказано, как OpenAI теснит своего главного инвестора в секторе корпоративных продаж, где Microsoft традиционно сильна. По данным издания, в Microsoft испытывают большие трудности при продажах своего ИИ-ассистента потому что сотрудники компаний-клиентов привыкли использовать ChatGPT и не хотят с него переходить.

Читать далее

Google представила Gemma 3n — мультимодальный ИИ, который пойдет на смартфоне и ноутбуке

Reading time2 min
Views9.3K

В компании рекламируют Gemma 3n как первую компактную модель, которая достигла рейтинга 1300 на LMArena. Модель доступна в двух базовых версиях E2B и E4B на 5 и 8 млрд «сырых» параметров и 2 и 4 миллиарда эффективных параметров, которые размещаются в памяти устройства. Благодаря этой и прочим оптимизациям, модели требуют 2 и 3 ГБ видеопамяти соответственно — то есть, их можно запускать на среднем смартфоне.

Читать далее

Google выпустила Gemini CLI — бесплатный open source ИИ-ассистент для командной строки

Reading time1 min
Views17K

Представлен Gemini CLI — бесплатный ИИ-помощник с открытым исходным кодом, который работает прямо в командной строке. Ассистент основан на модели Gemini 2.5 Pro и обладает всеми ее основными характеристиками, в том числе гигантским контекстным окном в 1 миллион токенов.

Gemini CLI понимает живой язык, может писать код, искать информацию и работать с файлами. Ассистент работает по типичной для AI-агентов схеме ReAct: планирует шаги, исполняет команды и проверяет результат. Встроена поддержка Model Context Protocol и собственных расширений.

Читать далее

Суд США признал законным обучение ИИ Claude на книгах, но за хранение пиратских копий разработчикам грозит штраф

Reading time2 min
Views2.3K

Федеральный суд Сан-Франциско вынес частичное решение по коллективному иску писателей Андреа Бартц, Чарльза Грейбера и Кёрка Уоллеса Джонсона, которые обвиняли Anthropic в том, что компания без разрешения использовала пиратские копии их книг для обучения языковой модели Claude. Судья Уильям Алсап признал такое обучение добросовестным использованием: в его процессе модель извлекает статистические закономерности, а не создает цифровые копии книг для чтения.  Однако факт хранения более 7 млн пиратских книг в датасете для обучения признан нарушением авторских прав. Суд назначил отдельный судебный процесс на декабрь 2025 г. для расчета компенсации. 

Читать далее

Инвесторы подали на Apple в суд за задержку Apple Intelligence и обновленной Siri

Reading time2 min
Views1.8K

Группа инвесторов во главе с Эриком Такером обратилась в федеральный суд Северного округа Калифорнии с коллективным иском к Apple, которую обвиняют в искажении информации относительно Apple Intelligence и новой «более персональной» Siri. Истцы считают, что 10 июня 2024 года компания представила Apple Intelligence и обновленную Siri в качестве ключевых особенностей будущего iPhone 16, хотя тогда уже должна была знать, что готового прототипа не существует. Тем самым Apple «искусственно разогрела» спрос на акции.

7 марта 2025 года компания отложила выход новых функций на год, а 9 июня на конференции WWDC 2025 и вовсе не стала показывать некоторые ключевые функции Siri. По мнению истцов, именно ажиотаж вокруг ИИ-функций и дальнейший перенос сроков их выхода стали причиной существенного падения акций компании — по оценке Reuters, с пика 26 декабря 2024 г. капитализация Apple упала примерно на $900 млрд (примерно 25%).

Читать далее

Илон Маск: Grok 3.5 перепишет «все человеческие знания» — в них много мусора. Затем модель переобучат

Reading time1 min
Views12K

Илон Маск сделал в X достаточно необычный анонс касательно будущего Grok 3.5. По его словам, сейчас модель, используя функцию продвинутых размышлений, будет использована для того, чтобы переписать "весь корпус человеческих знаний", добавив в него недостающую информацию и исправив ошибки. Затем модель будет переобучена — и, возможно, получит название Grok 4. По словам Маска, в любой базовой модели, обученной на неисправленных данных, сейчас слишком много мусора.

Читать далее

«Продвинутые языковые модели начали понимать, что их тестируют на безопасность» — отчет Apollo Research

Reading time2 min
Views7.8K

Независимая исследовательская группа Apollo Research выпустила отчет о тестировании на безопасность новейших языковых моделей, в том числе Claude Opus 4, ChatGPT o4-mini и Gemini 2.5 Flash/Pro. Из отчета следует, что эти модели, по сравнению с предыдущими версиями LLM, стали чаще прибегать к «контекстному скрытному планированию» — умению тайно разрабатывать стратегию достижения своей цели, оставаясь внешне послушными запросам человека. Например, в ходе проверки ранней версии Claude Opus 4 модель пыталась подделывать юридические документы, копировать себя в безопасное место с целью самосохранения, оставлять заметки для своих более поздних версий и так далее. При этом, будучи "пойманными за руку", модели пытались врать о своих истинных намерениях. В отчете Apollo Research также говорится, что финальная версия Claude Opus 4 стала значительно реже проявлять подобное поведение, что говорит о том, что предпринятые Anthropic меры по дополнительной безопасности пока приносят нужный результат.

Читать далее

Google выпустила самую быструю и дешевую версию ИИ Gemini 2.5 (и обновила статус остальных)

Reading time1 min
Views6.9K

Подразделение Google DeepMind представило Gemini 2.5 Flash Light - самую легкую и дешевую модель в семействе Gemini 2.5. Она доступна в Gemini API, Google AI Studio и Vertex AI и предназначена в первую очередь для сервисов, где нужны быстрые и недорогие ответы на не сложные вопросы. Цена модели в API: 10 центов за миллион входящих токенов (50 центов - за миллион входящих аудио-токенов) и 40 центов за миллион исходящих токенов. В приложение Gemini App модель добавлять не планируется. На данный момент модель находится в preview-статусе.

Читать далее

ChatGPT o3 прошла Pokemon Red — но до человеческих игроков все равно далеко

Reading time1 min
Views2.9K

На Reddit появилась новость о том, что модель ChatGPT o3 успешно завершила прохождение Pokemon Red. Игровая партия стартовала 27 мая, прохождение заняло 388 часов, в ходе которых модель выполнила 18 тысяч действий. Это примерно в два раза лучше, чем Gemini 2.5 Pro, которая предыдущей прошла Pokemon, но все равно значительно хуже результата среднего игрока, у которого уходит менее 30 часов.

При этом для прохождения использовались дополнительные инструменты, чтобы модель могла понять, что происходит в игре: карта-черновик, на которой o3 рисовала мир Pokemon, блокнот со списком задач, а также вторая память, куда модель, например, могла записать, сколько у нее осталось зелий. Этот инструментарий проще, чем использовался Gemini 2.5 Pro, но все равно далек от ситуации, когда модель сама бы "видела" все, что происходит в игре, как это делает человек. Такие попытки прохождения уже проводятся, но в них результаты ИИ намного скромнее: пока что лидируют Claude 3.7 и 4.0, у которых получилось собрать по 3 значка.

ChatGPT o3 построила свою стратегию вокруг прокачки Нидокинга, в то время как остальные покемоны отставали на 8-10 уровней. Также опытные игроки подметили, что модель не перестраховывалась на случай критов и играла скорее по средним шансам — это не тот стиль, который выбрал бы грамотный человек. Но при этом o3 стала делать меньше глупых действий, чем предыдущие модели: она больше не путала зелья, не впадала в долгие циклы повторяющихся бессмысленных действий и научилась эффективно планировать долгие маршруты.

Читать далее

Information

Rating
82-nd
Registered
Activity

Specialization

Content Director
Lead
Project management
Planning
Strategic planning
Building a team
Budgeting projects
Organization of business processes