News / Profile of runaway_llm / Habr

Андрей Пешков @runaway_llm

User

ProfileArticles18PostsNews286Comments83

runaway_llm Jul 6 at 21:55

В полтора раза лучше ChatGPT o3? В сети обсуждают возможные бенчмарки Grok 4

2 min

5.3K

Artificial IntelligenceMachine learning *

X-аккаунт legit_api, опубликовал бенчмарки Grok 4, якобы обнаруженные тестерами модели в консоли xAI. Аккаунт legit_api уже публиковал позднее подтвердившиеся утечки на тему ИИ — например, касательно модели генерации видео Sora от OpenAI. Поэтому неудивительно, что бенчмарки Grok 4 стали бурно обсуждаться в X и на Reddit. Вот цифры:

Читать далее

+7

runaway_llm Jul 5 at 18:19

Для нового дата-центра xAI на 1 млн GPU приобретут электростанцию и перевезут в США

1 min

5.1K

Artificial IntelligenceMachine learning *

Основатель аналитической фирмы SemiAnalysis Дилан Патель, рассказал, что по его данным для нового дата-центра xAI на 1 миллион ускорителей Nvidia Blackwell планируется приобрести газовую электростанцию и перевезти ее в США через океан. Чуть позже данную информацию подтвердил в соцсети X основатель xAI Илон Маск.

Читать далее

+8

runaway_llm Jul 4 at 14:07

Еврокомиссия не стала откладывать AI Act. Штраф за нарушение составит 7% выручки

2 min

1.5K

Artificial IntelligenceMachine learning *

Несмотря на просьбы лоббистов, в Еврокомиссии решили не откладывать намеченное на 2 августа вступление в силу новых положений AI Act. Начиная с этой даты для всех выходящих в ЕС моделей потребуется предоставить подробную карточку, информацию по энергопотреблению и обучающим данным, а также список известных "нежелательных применений" и принятых для их устранения мер. В случае крупных инцидентов с моделью разработчик обязан в течение 72 часов уведомить регулятора.

Читать далее

+1

runaway_llm Jul 3 at 18:38

1,8 млрд фанатов и один Copilot. Английская Премьер-лига перешла на ИИ-технологии Microsoft

1 min

1.5K

Artificial IntelligenceMachine learning *

Английская премьер-лига подписала 5-летнее соглашение с Microsoft на предоставление облачных и ИИ-технологий. На основе Microsoft Copilot запущено приложение Premier League Companion, в котором поклонники футбола получат доступ к статистике за 30 последних сезонов, информации из 300 тысяч архивных статей и 9 тысяч видео — все в режиме чата с ИИ. Приложение уже запущено для смартфонов и в веб-версии.

Читать далее

0

runaway_llm Jul 1 at 18:37

ChatGPT o3 оказалась лучшей ИИ-моделью для ответов на вопросы ученых

1 min

5.3K

Machine learning * Artificial Intelligence

В Allen Institute представили площадку SciArena для оценки полезности ИИ-моделей для ученых и поделились первыми результатами. Принципы работы SciArena похожи на то, как устроена Chatbot Arena, но с учетом более серьезной специфики запросов. К работе на площадке допущены только ученые с минимум двумя собственными публикациями, а прежде чем начать тестировать модели, они проходят часовой инструктаж.

Читать далее

+1

runaway_llm Jun 30 at 21:36

В четыре раза точнее врача. В Microsoft создали «консилиум» из ИИ для постановки диагноза

2 min

3.1K

Artificial IntelligenceMachine learning *

Microsoft AI рассказали о MAI Diagnostic Orchestrator — медицинской ИИ-системе для постановки максимально точного диагноза. Основная идея Orchestrator в чем-то напоминает медицинский консилиум: ИИ назначается несколько разных ролей, отвечающих за отдельные этапы. При этом роли могут быть назначены как одной языковой модели, так и разным - например, с пациентом могут работать ChatGPT o3, Gemini 2.5 Pro, Claude Opus 4 и так далее.

Читать далее

+2

runaway_llm Jun 30 at 17:53

Runway разработала ИИ-генератор игр. Публичное демо обещают в ближайшие дни

2 min

1.1K

Games and game consolesMachine learning * Artificial Intelligence

The Verge сообщает, что стартап Runway, известный по AI-модели генерации видео, планирует расширение на индустрию видеоигр. В ближайшие дни компания откроет доступ к тестовой версии своего первого ИИ-конструктора игр под названием Game Worlds. На старте в нем можно будет создавать лишь текстовые приключения: как в старые добрые 80-е, игрок будет видеть текстовое описание ситуации, иллюстрацию, характеристики своего персонажа, а также сможет описать действие, которое он хочет совершить. Только в отличие от классических квестов прошлого, в проекте Runway сюжет и графика будут генерироваться на лету при помощи ИИ — а значит, каждый игрок получит полностью уникальное приключение.

Читать далее

-3

runaway_llm Jun 29 at 21:16

Для ChatGPT тестируют режим совместной работы. Его запуск усложнит отношения с Microsoft

2 min

2.7K

Artificial IntelligenceMachine learning *

The Information раскрыл подробности режима совместной работы в Canvas, который прямо сейчас тестируется в ChatGPT. По данным издания, первые макеты были показаны еще в июле 2024 года, но тогда проект отложили из-за недостатка ресурсов. К разработке вернулись осенью, а уже в марте был готов первый прототип.

Читать далее

+1

runaway_llm Jun 29 at 10:26

Anthropic назначила Claude управлять торговым автоматом. ИИ-агент провалился за месяц

2 min

3.6K

Artificial IntelligenceMachine learning *

В блоге Anthropic появился рассказ об эксперименте, который компания провела совместно с Andon Labs, фирмой, занимающейся безопасностью ИИ. В нем ИИ-агент на базе Claude Sonnet 3.7 управлял небольшим торговым киоском в офисе Anthropic в Сан-Франциско. Для Claude был написан специальный промпт, в котором объяснялась суть его работы и основная цель - приносить прибыль. Также модель получила возможность искать в сети новые товары и заказывать их, запрашивать помощь живых сотрудников в обслуживании киоска, отдельный инструмент для хранения информации (чтобы важное не терялось из-за контекстного окна) и возможность с помощью Slack взаимодействовать с сотрудниками компании, изучая их пожелания.

Читать далее

+5

runaway_llm Jun 28 at 17:18

3,4 трлн евро на кону. Лоббисты просят власти Евросоюза отложить вступление AI Act

2 min

2.6K

Machine learning * Artificial Intelligence

Технологическая ассоциация CCIA Europe направила лидерам ЕС просьбу отложить намеченное на 2 августа вступление в силу новых положений AI Act — общеевропейского закона, регулирующего искусственный интеллект. Лоббисты группы, в которую входят Alphabet, Apple и Meta* (признана экстремистской организацией в России) предупреждают, что Еврокомиссия до сих пор не опубликовала финальные разъяснения закона, без которых представителям индустрии просто не ясно, как работать дальше. Это подтверждает проведенный AWS и Strand Partners опрос: 68% представителей индустрии не понимают, какие обязанности на них накладывает AI Act.

Читать далее

0

runaway_llm Jun 28 at 10:21

Grok 3.5 переименован в Grok 4 и выйдет после 4 июля — Илон Маск

2 min

2K

Artificial IntelligenceMachine learning *

Илон Маск продолжает исполнять роль менеджера по маркетингу Grok и поделился в своем X подробностями о статусе новой версии модели. По словам бизнесмена, работа в xAI идет круглосуточно, а впереди еще один большой прогон обучения, в ходе которого будут тренировать модель для написания кода. Официальное название новинки — Grok 4 (ранее фигурировало название Grok 3.5). Выход — сразу после 4 июля.

Читать далее

+1

runaway_llm Jun 27 at 16:36

Сотрудники просят ChatGPT, а не Copilot — в Microsoft злятся и снижают цену

2 min

17K

Machine learning * Artificial Intelligence

В свежем материале Bloomberg рассказано, как OpenAI теснит своего главного инвестора в секторе корпоративных продаж, где Microsoft традиционно сильна. По данным издания, в Microsoft испытывают большие трудности при продажах своего ИИ-ассистента потому что сотрудники компаний-клиентов привыкли использовать ChatGPT и не хотят с него переходить.

Читать далее

+5

runaway_llm Jun 26 at 17:38

Google представила Gemma 3n — мультимодальный ИИ, который пойдет на смартфоне и ноутбуке

2 min

9.3K

Artificial IntelligenceMachine learning *

В компании рекламируют Gemma 3n как первую компактную модель, которая достигла рейтинга 1300 на LMArena. Модель доступна в двух базовых версиях E2B и E4B на 5 и 8 млрд «сырых» параметров и 2 и 4 миллиарда эффективных параметров, которые размещаются в памяти устройства. Благодаря этой и прочим оптимизациям, модели требуют 2 и 3 ГБ видеопамяти соответственно — то есть, их можно запускать на среднем смартфоне.

Читать далее

+14

runaway_llm Jun 25 at 16:57

Google выпустила Gemini CLI — бесплатный open source ИИ-ассистент для командной строки

1 min

17K

Artificial IntelligenceMachine learning *

Представлен Gemini CLI — бесплатный ИИ-помощник с открытым исходным кодом, который работает прямо в командной строке. Ассистент основан на модели Gemini 2.5 Pro и обладает всеми ее основными характеристиками, в том числе гигантским контекстным окном в 1 миллион токенов.

Gemini CLI понимает живой язык, может писать код, искать информацию и работать с файлами. Ассистент работает по типичной для AI-агентов схеме ReAct: планирует шаги, исполняет команды и проверяет результат. Встроена поддержка Model Context Protocol и собственных расширений.

Читать далее

+14

runaway_llm Jun 24 at 19:02

Суд США признал законным обучение ИИ Claude на книгах, но за хранение пиратских копий разработчикам грозит штраф

2 min

2.3K

Machine learning * Artificial Intelligence

Федеральный суд Сан-Франциско вынес частичное решение по коллективному иску писателей Андреа Бартц, Чарльза Грейбера и Кёрка Уоллеса Джонсона, которые обвиняли Anthropic в том, что компания без разрешения использовала пиратские копии их книг для обучения языковой модели Claude. Судья Уильям Алсап признал такое обучение добросовестным использованием: в его процессе модель извлекает статистические закономерности, а не создает цифровые копии книг для чтения. Однако факт хранения более 7 млн пиратских книг в датасете для обучения признан нарушением авторских прав. Суд назначил отдельный судебный процесс на декабрь 2025 г. для расчета компенсации.

Читать далее

+3

runaway_llm Jun 22 at 21:01

Инвесторы подали на Apple в суд за задержку Apple Intelligence и обновленной Siri

2 min

1.8K

Artificial IntelligenceMachine learning *

Группа инвесторов во главе с Эриком Такером обратилась в федеральный суд Северного округа Калифорнии с коллективным иском к Apple, которую обвиняют в искажении информации относительно Apple Intelligence и новой «более персональной» Siri. Истцы считают, что 10 июня 2024 года компания представила Apple Intelligence и обновленную Siri в качестве ключевых особенностей будущего iPhone 16, хотя тогда уже должна была знать, что готового прототипа не существует. Тем самым Apple «искусственно разогрела» спрос на акции.

7 марта 2025 года компания отложила выход новых функций на год, а 9 июня на конференции WWDC 2025 и вовсе не стала показывать некоторые ключевые функции Siri. По мнению истцов, именно ажиотаж вокруг ИИ-функций и дальнейший перенос сроков их выхода стали причиной существенного падения акций компании — по оценке Reuters, с пика 26 декабря 2024 г. капитализация Apple упала примерно на $900 млрд (примерно 25%).

Читать далее

+1

runaway_llm Jun 21 at 10:00

Илон Маск: Grok 3.5 перепишет «все человеческие знания» — в них много мусора. Затем модель переобучат

1 min

12K

Artificial IntelligenceMachine learning *

Илон Маск сделал в X достаточно необычный анонс касательно будущего Grok 3.5. По его словам, сейчас модель, используя функцию продвинутых размышлений, будет использована для того, чтобы переписать "весь корпус человеческих знаний", добавив в него недостающую информацию и исправив ошибки. Затем модель будет переобучена — и, возможно, получит название Grok 4. По словам Маска, в любой базовой модели, обученной на неисправленных данных, сейчас слишком много мусора.

Читать далее

-6

runaway_llm Jun 20 at 17:21

«Продвинутые языковые модели начали понимать, что их тестируют на безопасность» — отчет Apollo Research

2 min

7.8K

Information Security * Machine learning * Artificial Intelligence

Независимая исследовательская группа Apollo Research выпустила отчет о тестировании на безопасность новейших языковых моделей, в том числе Claude Opus 4, ChatGPT o4-mini и Gemini 2.5 Flash/Pro. Из отчета следует, что эти модели, по сравнению с предыдущими версиями LLM, стали чаще прибегать к «контекстному скрытному планированию» — умению тайно разрабатывать стратегию достижения своей цели, оставаясь внешне послушными запросам человека. Например, в ходе проверки ранней версии Claude Opus 4 модель пыталась подделывать юридические документы, копировать себя в безопасное место с целью самосохранения, оставлять заметки для своих более поздних версий и так далее. При этом, будучи "пойманными за руку", модели пытались врать о своих истинных намерениях. В отчете Apollo Research также говорится, что финальная версия Claude Opus 4 стала значительно реже проявлять подобное поведение, что говорит о том, что предпринятые Anthropic меры по дополнительной безопасности пока приносят нужный результат.

Читать далее

+10

runaway_llm Jun 17 at 17:20

Google выпустила самую быструю и дешевую версию ИИ Gemini 2.5 (и обновила статус остальных)

1 min

6.9K

Artificial IntelligenceMachine learning *

Подразделение Google DeepMind представило Gemini 2.5 Flash Light - самую легкую и дешевую модель в семействе Gemini 2.5. Она доступна в Gemini API, Google AI Studio и Vertex AI и предназначена в первую очередь для сервисов, где нужны быстрые и недорогие ответы на не сложные вопросы. Цена модели в API: 10 центов за миллион входящих токенов (50 центов - за миллион входящих аудио-токенов) и 40 центов за миллион исходящих токенов. В приложение Gemini App модель добавлять не планируется. На данный момент модель находится в preview-статусе.

Читать далее

+5

runaway_llm Jun 15 at 13:13

ChatGPT o3 прошла Pokemon Red — но до человеческих игроков все равно далеко

1 min

2.9K

Artificial IntelligenceMachine learning *

На Reddit появилась новость о том, что модель ChatGPT o3 успешно завершила прохождение Pokemon Red. Игровая партия стартовала 27 мая, прохождение заняло 388 часов, в ходе которых модель выполнила 18 тысяч действий. Это примерно в два раза лучше, чем Gemini 2.5 Pro, которая предыдущей прошла Pokemon, но все равно значительно хуже результата среднего игрока, у которого уходит менее 30 часов.

При этом для прохождения использовались дополнительные инструменты, чтобы модель могла понять, что происходит в игре: карта-черновик, на которой o3 рисовала мир Pokemon, блокнот со списком задач, а также вторая память, куда модель, например, могла записать, сколько у нее осталось зелий. Этот инструментарий проще, чем использовался Gemini 2.5 Pro, но все равно далек от ситуации, когда модель сама бы "видела" все, что происходит в игре, как это делает человек. Такие попытки прохождения уже проводятся, но в них результаты ИИ намного скромнее: пока что лидируют Claude 3.7 и 4.0, у которых получилось собрать по 3 значка.

ChatGPT o3 построила свою стратегию вокруг прокачки Нидокинга, в то время как остальные покемоны отставали на 8-10 уровней. Также опытные игроки подметили, что модель не перестраховывалась на случай критов и играла скорее по средним шансам — это не тот стиль, который выбрал бы грамотный человек. Но при этом o3 стала делать меньше глупых действий, чем предыдущие модели: она больше не путала зелья, не впадала в долгие циклы повторяющихся бессмысленных действий и научилась эффективно планировать долгие маршруты.

Читать далее

+4

1 2 ...

14