Как стать автором
Обновить
85.95

Гибридный Claude 3.7 Sonnet, ребрендинг OpenAI: главные события февраля в сфере ИИ

Время на прочтение22 мин
Количество просмотров542

Марафон ИИ-гигантов постепенно превращается в настоящий спринт. Anthropic наконец-то проснулась от спячки и вернулась в строй, выпустив достойного конкурента для OpenAI и DeepSeek. Google также ворвался с целой пачкой свежих моделей Gemini 2.0. Ну и конечно же, релиз GPT-4.5 под конец месяца как вишенка на торте.

На фоне этой гонки вооружений особенно любопытно наблюдать за «побочными эффектами»: от сразу нескольких инструментов Deep Research до прорывных чипов из новых типов материалов. 

Рассказываем, какими событиями был наполнен самый короткий месяц года. Спойлер: будет много интересного!

Оглавление

Новые модели

Новости от лидеров индустрии

Интересные открытия и анонсы

Новые инструменты

Исследования на почитать

Заключение

Новые модели

Anthropic: Claude 3.7 Sonnet и первый агент для кодинга

Claude с reasoning: думает столько, сколько вы захотите

Anthropic наконец-то порадовала обновлением флагманской модели. Claude 3.7 Sonnet стал первой гибридной reasoning-моделью на рынке: он может как выдавать мгновенные ответы, так и демонстрировать развернутый процесс размышлений. Причем в API можно точно указать, сколько токенов модель «потратит на раздумья» — удобно для оптимизации баланса между скоростью и качеством.

Главный фокус обновления — улучшенные возможности для разработки. На бенчмарке SWE Bench модель обходит o1, R1 и даже o3-mini high на 12–13 процентных пунктов. Особенно впечатляют результаты в реальных задачах: от работы со сложными кодовыми базами до создания веб-приложений с нуля. В тестировании Cursor отметил, что Claude стал лучшим в своем классе для реальных задач программирования, а Replit успешно использует модель для создания сложных веб-приложений и дашбордов.

Anthropic сделала цепочки рассуждений модели полностью открытыми, хоть и отмечается, что в них отражается только 20–30% факторов, влияющих на итоговое решение. Также заметно улучшился элаймент: количество избыточных отказов (когда модель перестраховывается) снизилось с 23.8% до 12.5%, при этом уровень необходимой защиты остался прежним.

Приятный сюрприз — цены в API остались на уровне предыдущей версии: $3 за миллион входящих и $15 за миллион исходящих токенов. При этом модель доступна даже на бесплатном тарифе, правда, без режима расширенного мышления.

Claude Code: персональный ассистент для разработчиков

Вместе с обновленной моделью Anthropic выпустила Claude Code — инструмент для работы с кодом прямо из терминала. Агент умеет читать и редактировать файлы, запускать тесты, делать коммиты в GitHub и использовать командную строку. По результатам внутреннего тестирования, Claude Code способен выполнять задачи, обычно занимающие 45+ минут ручной работы, за один проход.

(Источник изображения)

В ближайшие недели команда обещает улучшить надежность инструментальных вызовов, добавить поддержку длительных команд и улучшить рендеринг в приложении. Пока инструмент доступен в режиме ограниченного превью, но его можно установить через Node Package Manager: 

npm install -g @anthropic-ai/claude-code
cd your-project-directory
$ claude

OpenAI: глубокие исследования и новая версия GPT

GPT-4.5: мощнее, умнее, человечнее

OpenAI буквально с ноги залетела в препоследний день февраля и анонсировала исследовательское превью GPT-4.5 — крупнейшей и самой совершенной модели компании на сегодняшний день. Главный фокус обновления — масштабирование предварительного обучения, позволившее улучшить распознавание паттернов и генерацию креативных идей без использования механизмов рассуждения.

По результатам тестирования, взаимодействие с GPT-4.5 стало заметно естественнее. Расширенная база знаний, улучшенное понимание намерений пользователя и повышенный «эмоциональный интеллект» делают модель особенно эффективной для работы с текстом, программирования и решения практических задач. На тесте SimpleQA модель показала точность 62.5% против 38.2% у GPT-4o, а уровень галлюцинаций снизился до 37.1%.

(Источник изображения)

Интересно, что OpenAI решила пойти другим путем, чем в случае с моделями o1 и o3-mini. Вместо обучения рассуждениям акцент сделан на масштабировании обучения без учителя (unsupervised learning) для улучшения общего понимания мира. Так сказать, не ризонингом единым. В будущем компания планирует объединить оба подхода.

Deep Research: автономный исследователь

OpenAI представила новый инструмент для Pro-подписчиков — Deep Research, способный проводить многоэтапные исследования с полным сохранением цепочки рассуждений. В отличие от обычного чат-бота, агент показывает процесс поиска информации в боковой панели, включая цитаты и объяснение, как он пришел к выводам.

(Источник изображения)

Система может работать с текстом, изображениями, PDF-файлами и таблицами, а время анализа варьируется от 5 до 30 минут. В будущем появится возможность генерировать графики и встраивать изображения прямо в ответы. На тесте Humanity's Last Exam модель достигла точности 26.6% — впечатляющий скачок по сравнению с 3.3% у GPT-4o.

Пока инструмент доступен только Pro-пользователям ($200/месяц) с лимитом в 100 запросов и 10 запросов Plus-пользователям ($20/месяц). Позже доступ откроют по API и даже юзерам без подписки (в планах 2 бесплатных запроса к инструменту) и увеличат лимиты, но постепенно — Deep Research требует серьезных вычислительных ресурсов.

Google: обновление линейки Gemini и новые специализированные модели

Семейство Gemini 2.0 расширяется

Google выкатил масштабное обновление линейки Gemini. Флагманский релиз — Gemini 2.0 Flash, доступный через API, Google AI Studio и Vertex AI. Модель отличается высокой скоростью работы и впечатляющим контекстным окном в 1 миллион токенов, оставаясь при этом самой доступной по цене в своей категории. 

(Источник изображения)

Следом появилась облегченная версия Flash-Lite, которая превосходит по качеству предыдущую 1.5 Flash при той же стоимости. Для продвинутых пользователей доступна экспериментальная Gemini 2.0 Pro с контекстом до 2 миллионов токенов — она особенно хороша для работы с кодом и сложными промптами. В компании отмечают, что Pro-версия уже превзошла последние версии Claude и GPT-4 по ряду ключевых бенчмарков.

Параллельно Google интегрирует возможности Gemini в свои сервисы. В Meet появились «умные» заметки с автоматическим формированием списка следующих шагов на основе расшифровки звонка. А в мобильном приложении Gemini теперь доступна бесплатная версия 2.0 Flash Thinking Experimental, которая лидирует на бенчмарке LLMSYS.

Alpha Geometry 2: математический вундеркинд

Google представил вторую версию Alpha Geometry — нейро-символьной системы для решения геометрических задач. Новая версия справляется с 84% задач по геометрии с Международной Математической Олимпиады 2000–2024 годов, что на порядок превосходит результаты других моделей, включая o1. Система не только решает задачи, но и генерирует поясняющие чертежи к своим решениям.

Система состоит из трех компонентов: файнтюненной версии Gemini для анализа задач, символьного движка DDAR2 для строгих доказательств и оптимизированных деревьев поиска SKEST. Благодаря новому алгоритму скорость решения увеличилась в 300 раз по сравнению с прошлой версией. 

В отличие от классических LLM, Alpha Geometry 2 не просто предлагает возможные решения, но и строго доказывает каждый шаг, что делает ее крутым инструментом для математиков и исследователей.

Veo 2: видеогенерация становится доступнее

Google объявил цены на использование Veo 2 — своей новой модели для генерации видео. Стоимость составит 50 центов за секунду готового видео ($30 за минуту). Для сравнения: производство «Мстителей: Финал» обошлось примерно в $32 000 за секунду экранного времени. Хотя Veo 2 пока не создает трехчасовые блокбастеры, модель уже способна генерировать ролики длительностью более двух минут.

xAI: Grok 3 с рассуждениями и собственный поисковый агент

Grok-3: новый претендент на корону

xAI представила Grok-3 — обновленную версию своего ИИ-ассистента, которая выходит сразу в двух вариантах. Младшая версия, Grok-3 mini, по показателям находится на уровне DeepSeek 3, GPT-4o и Gemini Pro. А вот полноразмерный Grok-3 установил новый рекорд на LMSYS, первым преодолев отметку в 1400 баллов и став лидером во всех категориях: от кодинга до сложных промптов. 

(Источник изображения)

Хотя модель не является чисто reasoning-моделью, в ней появился режим рассуждений (пока в бете для полной версии) с двумя уровнями: Thinking и Thinking Hard. Интересный момент — xAI сделала процесс размышлений почти полностью прозрачным, добавив лишь «небольшую обфускацию». На сложных математических бенчмарках Math24 и Math25 в режиме Hard модель превосходит R1, o1 и даже o3-mini high.

За впечатляющими результатами стоит серьезное наращивание вычислительной мощности: для обучения Grok-3 использовали 200 000 GPU — в 10 раз больше, чем для предыдущей версии. И хотя эксперты вроде Гэри Маркуса сомневаются, что простое масштабирование продолжит давать такие результаты, прогресс xAI за два года существования впечатляет.

Конечно, на пьедестале продержался он недолго, но кто там сейчас задерживается дольше недели.

Deep (Re)Search: быстрый ответ OpenAI

Параллельно с новой моделью xAI запустила DeepSearch — встроенного агента для глубокого поиска, работающего аналогично Deep Research от OpenAI. Главное отличие — скорость: если инструмент OpenAI тратит на исследование до 30 минут, то агент xAI справляется примерно за минуту, при этом умея перепроверять источники и корректировать план поиска на ходу.

В качестве неожиданного бонуса компания открыла бесплатный доступ к Grok-3 для всех желающих, правда, с оговоркой «пока серверы не упадут». 

Microsoft: новые модели и прорыв в игровой индустрии

Phi-4 учится видеть и слышать

Microsoft решила не отставать от конкурентов и выложила в открытый доступ новое поколение своего семейства Phi. Главный сюрприз — Phi-4 научилась работать не только с текстом, но и с аудио и видео, причем делает это на уровне закрытых моделей от гигантов индустрии. На мультимодальных бенчмарках новинка обходит GPT-4o, Gemini-2.0 Flash и даже 1.5 Pro, став первой открытой моделью с таким уровнем понимания речи и распознавания символов (OCR).

(Источник изображения)

Обучение строилось так: сначала модель прошла предварительное обучение на текстовых данных, затем освоила мультимодальность через vision, audio и vision-speech, и наконец — научилась рассуждать благодаря Chain of Thought и обучению с подкреплением. Младшая версия, Phi-4-Mini с поддержкой рассуждений, не отстает от своих «старших братьев» и показывает результаты на уровне o1-mini и дистиллированных версий R1.

Magma: фундамент для мультимодальных агентов

Следом компания представила Magma — первую базовую модель для мультимодальных ИИ-агентов. В отличие от обычных vision-language моделей, Magma не только понимает визуальный контент, но и умеет планировать действия в реальном мире: от навигации по интерфейсам до управления роботами.

Наше внимание особенно привлекли две инновации в архитектуре: Set-of-Mark (SoM) для привязки действий к конкретным объектам в пространстве и Trace-of-Mark (ToM) для планирования последовательности действий. Благодаря этому Magma может определять кликабельные элементы интерфейса или планировать движения робота, превосходя специализированные решения в обеих областях. И что важно — модель делает это «с нуля», без дополнительной настройки под конкретные задачи.

Пример работы Trace-of-Mark (источник изображения)
Пример работы Trace-of-Mark (источник изображения)

Muse: ИИ добрался до Xbox

Microsoft и студия Ninja Theory создали Muse — первую генеративную модель, способную создавать игровой процесс на основе визуальных подсказок или действий игрока. Модель обучили на миллиарде пар «изображение-действие» из игры Bleeding Edge — это эквивалент семи лет человеческого геймплея.

Пример геймплея, сгенерированного Muse
Пример геймплея, сгенерированного Muse

Пока Muse работает в скромном разрешении 300×180 пикселей и 10 кадров в секунду, но Microsoft уже видит в ней большой потенциал. Например, модель можно использовать для сохранения классических игр без необходимости запускать оригинальный движок на старом железе. А разработчики смогут быстрее прототипировать новые игровые механики.

Perplexity: бесплатный конкурент Deep Research и «декоммунизация» R1

Perplexity вслед за OpenAI и Google выпустила собственную версию Deep Research. И если названием компания особо не заморачивалась, то к ценовой политике подошла куда креативнее: пять бесплатных запросов в день для всех пользователей и 500 запросов для подписчиков за $20. Для сравнения: OpenAI просит $200 за 100 запросов в месяц — в 150 раз меньше за в 10 раз большую цену.

(Источник изображения)

По скорости и качеству агент тоже не подкачал. На бенчмарке Humanity's Last Exam он набрал 21.1%, обойдя o1-mini high, R1 и o1 (хотя сравнение не совсем корректное — все-таки разные продукты). Большинство задач система выполняет за 3 минуты против 10–30 минут у конкурента от OpenAI.

В основе Deep Research от Perplexity лежит фреймворк test time compute (TTC), который имитирует человеческий процесс исследования: разбивает запрос на подзадачи, выполняет десятки поисковых запросов, оценивает сотни источников и синтезирует выводы через вероятностные модели рассуждений.

А чтобы пользователи не скучали, пока ждут результаты своих ресерчей, компания выпустила R1 1776 — «декоммунизированную» версию DeepSeek-R1. Модель прошла дополнительное обучение на 40 тысячах запросов по «чувствительным» темам, которые обычно блокируются китайской цензурой. При этом математические и reasoning-способности модели остались на прежнем уровне, а ответы стали более объективными и фактологически точными.

Hugging Face: маленькая модель, большой магазин и опенсорсный Deep Research

SmolLM2: размер не имеет значения

Hugging Face представила SmolLM2 — компактную языковую модель, которая несмотря на свои скромные размеры (1.7B параметров) обходит более крупных конкурентов вроде Qwen2.5-1.5B и Llama3.2-1B по многим показателям. Секрет успеха — тщательно подобранный датасет из 11 триллионов токенов и методичный подход к обучению с использованием специализированных наборов данных для математики и программирования.

(Источник изображения)

Команда также выпустила две еще более компактные версии на 360 и 135 миллионов параметров, которые показывают впечатляющие результаты для своего размера. И что особенно важно — компания придерживается полностью открытого подхода, делая доступными не только веса моделей, но и данные для обучения.

Deep Research: от идеи до реализации за сутки

Hugging Face не перестает удивлять скоростью разработки: всего через день после релиза Deep Research от OpenAI команда представила собственную опенсорсную версию инструмента. Главная инновация — замена стандартной JSON-структуры агента на кодовую базу: вместо обмена JSON-командами, LLM напрямую пишет и выполняет код с помощью встроенного веб-браузера и инструментов для работы с файлами.

(Источник изображения)

Такой подход оказался весьма эффективным: на бенчмарке GAIA агент достиг результата в 55% против 67% у оригинального Deep Research от OpenAI. Весь код проекта уже доступен на GitHub, а попробовать инструмент можно в онлайн-демо.

AI App Store: 400 тысяч приложений в одном месте

Параллельно Hugging Face запустила собственный магазин ИИ-приложений, в котором уже доступно более 400 тысяч различных инструментов. От транскрибации видео до анализа данных — теперь не нужно искать отдельные сервисы по всему интернету, все собрано в одном месте на huggingface.co/spaces.

Особенность платформы в том, что это и не магазин вовсе: все приложения опенсорсные и бесплатные — можно использовать их прямо в браузере или скачать исходный код для собственных проектов. А разработчики могут добавлять свои инструменты, расширяя экосистему открытого ИИ.

Новости от лидеров индустрии

OpenAI: ребрендинг, рост и новая стратегия

Февраль стал месяцем больших перемен для OpenAI. Компания провела первый в своей истории ребрендинг, представив новый фирменный шрифт OpenAI Sans:

Вдобавок к шрифту обновили еще и логотип: 

Слева старое лого OpenAI, а справа — новое. Где-то сейчас улыбается один Герман Греф.
Слева старое лого OpenAI, а справа — новое. Где-то сейчас улыбается один Герман Греф.

Впрочем, одним ребрендингом дело не ограничилось — компания анонсировала радикальные изменения в стратегии развития продуктов. Сэм Альтман объявил о грядущем упрощении линейки моделей: GPT-4.5 станет последней классической моделью, а GPT-5 объединит различные подходы к рассуждениям в единую систему. 

Что особенно важно — базовая версия GPT-5 будет доступна даже бесплатным пользователям. Это решение выглядит щедрым, но логичным на фоне растущей конкуренции со стороны DeepSeek и других компаний, выпускающих открытые модели.

Меняется и подход OpenAI к «безопасности» своих моделей. Новая политика обучения делает акцент на «интеллектуальной свободе» и нейтральности в спорных вопросах. 

При этом компания уделяет особое внимание тестированию убедительности своих моделей — как выяснилось из системной карты o3-mini, для этого используется популярный сабреддит r/ChangeMyView. Последние версии моделей показывают уровень убедительности выше, чем у 80–90% людей.

(Источник изображения)

Громкие заявления от Илона Маска

Илон Маск преподнес рынку сразу два сюрприза в феврале. Первый — амбициозное предложение о покупке некоммерческого подразделения OpenAI за $97.4 миллиарда. Для этой цели он собрал внушительную коалицию инвесторов, включая свою компанию xAI, Valor Equity Partners и венчурную фирму Джо Лонсдейла 8VC. 

Впрочем, предложение быстро было отозвано, как только стало ясно, что совет директоров OpenAI не откажется от планов преобразования в коммерческую структуру. Сэм Альтман отреагировал в своем стиле, написав в X: «Нет, спасибо, но мы готовы купить Twitter за $9.74 миллиарда, если хотите».

Второй сюрприз оказался более серьезным. После девяти лет уверений, что все автомобили Tesla имеют необходимое оборудование для полного автопилота, Маск признал ошибку. Машины с Hardware 3, выпущенные с 2019 по 2023 год, требуют обновления компьютера для поддержки беспилотного вождения. «Это будет болезненно и сложно, но мы это сделаем», — заявил он на конференц-колле. Особенно показательно это признание на фоне того, что еще в 2016 году Маск обвинял СМИ в «убийственной» критике автопилота Tesla, а теперь сам подтверждает наличие ошибок в оценке возможностей системы.

DeepSeek: пять дней опенсорса

Команда DeepSeek устроила настоящий праздник для разработчиков и выложила в открытый доступ пять ключевых репозиториев из своей внутренней экосистемы. Рассказываем, что было представлено:

День 1: Представлен проект FlashMLA — оптимизированные GPU-ядра для multi latent attention. Решение поддерживает bfloat16 и работает со всей линейкой Hopper (H100, H800), позволяя существенно сократить потребление памяти в трансформерах. 

День 2: Выпущена библиотека DeepEP для работы с Mixture of Experts (MoE). Главная фишка — оптимизированный обмен данными между GPU с поддержкой FP8 и hook-based overlapping, позволяющий выполнять передачу данных параллельно с вычислениями. 

День 3: Релиз DeepGEMM — библиотеки для ускорения умножения матриц. Компактное решение (всего 300 строк кода) с JIT-компиляцией и двухуровневым накоплением показывает ускорение от 1.1x до 2.7x по сравнению с популярными альтернативами. 

День 4: Представлена библиотека DualPipe для эффективной параллелизации. Инструмент минимизирует простои оборудования, позволяет выполнять прямой и обратный проход одновременно и оптимизирует использование памяти благодаря симметричному распределению микробатчей. 

День 5: Представлена файловая система 3FS (Fire-Flyer File System) для оптимизации работы с данными в ML-системах. С помощью умной параллельной сортировки, цепочной репликации и параллельного чекпоинтинга система достигает пропускной способности 6.6 ТиБ/с на 180 узлах. 

Бонусный день: DeepSeek раскрыла детали онлайн-инференса моделей V3/R1. Процесс разделен на Prefilling (параллельное формирование эмбеддингов) и Decoding (генерация токенов). Особенность архитектуры — пул из 256 экспертов на каждом слое модели, из которых активируются только 8, что обеспечивает эффективную балансировку нагрузки и отказоустойчивость. В сочетании с DualPipe это позволяет оптимизировать обмен данными между процессорами и экспертами MoE. 

Meta: ИИ-ассистент получил доступ к данным пользователей

Meta объявила о значительном обновлении своего ИИ-ассистента. Теперь Meta AI может использовать информацию из Facebook, Instagram и других приложений компании для персонализации ответов. Например, если в профиле Facebook указан домашний адрес или недавно просматривались определенные видео в Instagram, ассистент будет учитывать эти данные при формировании рекомендаций.

Помимо этого, появилась функция «памяти» — бот может запоминать важные детали из разговоров, такие как предпочтения в еде или увлечения. Как объяснил Марк Цукерберг: «Когда я прошу Meta AI придумать сказку на ночь, он помнит, что мои дочери обожают русалок». 

(Источник изображения)

Обновление уже доступно пользователям в США и Канаде, причем отключить использование персональных данных нельзя. Учитывая неоднозначное отношение публики к тому, как Meta обращается с пользовательскими данными, особенно в Facebook, такое решение может вызвать очередную волну дискуссий о приватности.

Мира Мурати запускает Thinking Machines Lab

Бывший технический директор OpenAI Мира Мурати наконец-то раскрыла карты: она создает новый ИИ-стартап Thinking Machines Lab, и у него уже появился лендинг. К проекту уже присоединились другие выходцы из OpenAI — сооснователь компании Джон Шульман в роли главного научного сотрудника и экс-директор по исследованиям Баррет Зоф в должности CTO.

(Источник изображения)

Команда намерена создавать «более понятные, настраиваемые и универсальные» ИИ-системы, которые смогут адаптироваться под уникальные потребности пользователей. Особый акцент делается на мультимодальности и совместной работе с людьми. При этом компания обещает уделять серьезное внимание безопасности ИИ: предотвращать неправильное использование моделей и делиться лучшими практиками с индустрией.

В штате Thinking Machines Lab уже 29 сотрудников из OpenAI, Character AI и Google DeepMind, и компания продолжает активно нанимать специалистов по машинному обучению. По слухам, Мурати ведет переговоры о привлечении более $100 миллионов венчурного финансирования, хотя официально эта информация пока не подтверждена.

Интересные открытия и анонсы

Как общаться с reasoning-моделями: гайд от OpenAI

OpenAI решила поделиться мудростью и выпустила подробный гайд по работе с reasoning-моделями. Оказывается, эти модели — не просто улучшенная версия GPT, а совершенно отдельный инструмент, который особенно хорош для решения неоднозначных, многошаговых задач в математике, инженерии и финансах.

Главный сюрприз — многие привычные приемы промптинга здесь не работают или даже вредят. Забудьте про «думай шаг за шагом» и «сделай глубокий вдох» — reasoning-моделям нужны четкие инструкции, хорошо структурированный текст с разделителями и маркдауном, а примеры лучше добавлять только при необходимости. И если модель не справилась с первого раза, можно попросить ее «подумать еще» — никакой магии, только четкость и структура.

Влияют ли интернет и ИИ на нашу память?

Исследователи из разных университетов изучили, как интернет и ИИ влияют на нашу память. Распространенное мнение о том, что технологии разрушают память, оказалось не совсем верным. Хотя некоторые исследования показывают, что использование GPS ухудшает способность запоминать маршруты, а поиск в Google создает завышенную оценку собственных знаний, убедительных доказательств общего ухудшения памяти нет.«внешней памяти». Люди все чаще прибегают к «когнитивной разгрузке», перекладывая задачи запоминания на устройства. И это не обязательно плохо: освобождая мозг от рутинной информации, мы получаем больше ресурсов для других задач. 

Но с появлением генеративного ИИ ситуация может измениться более радикально. В отличие от обычных заметок или фотографий, чат-боты генерируют новый контент и могут галлюцинировать, создавая ложные воспоминания. Как отмечают исследователи, они только начинают изучать эти эффекты, а технологии развиваются быстрее, чем наше понимание их влияния.

Microsoft создает квантовый чип на основе топопроводников

Microsoft представила прорывную технологию, которая может приблизить эру квантовых компьютеров. Компания разработала первый в мире топопроводник — революционный материал, который может стать для квантовых вычислений тем же, чем полупроводники Фарадея стали для классической электроники в 1833 году. На его основе создан чип Majorana 1, названный в честь особого типа частиц, которые раньше никогда не удавалось обнаружить или создать.

(Источник изображения)

Главное преимущество новой технологии — решение двух ключевых проблем квантовых вычислений: масштабируемости и ошибок. Обычно увеличение числа кубитов ведет к экспоненциальному росту ошибок, но топопроводники позволяют масштабировать систему до миллионов кубитов без потери надежности. При этом вся система умещается на чипе размером меньше ладони.

Разработка заняла у ученых Microsoft 20 лет, но результат того стоил: агентство DARPA уже выбрало технологию как один из двух перспективных путей к созданию промышленного квантового компьютера к 2033 году. 

Индийский стартап создал ИИ для слежки за сотрудниками — и вызвал скандал

Студенты из Университета Дьюка Виван Байд и Кушал Мохта создали стартап Optifye.ai — систему контроля работников в режиме реального времени с помощью ИИ. Программа использует компьютерное зрение для оценки продуктивности каждого сотрудника на производственной линии и, по заявлениям разработчиков, может повысить эффективность до 30%.

(Источник изображения)

Однако промо-ролик, в котором основатели показали возможности системы на примере швейной фабрики, вызвал шквал критики. Пользователи назвали разработку «ИИ-платформой для оптимизации потогонных производств», а венчурный фонд Y Combinator, профинансировавший проект, поспешил удалить посты с поздравлениями стартапу. 

Любопытно, что это не единичный случай: по данным TechCrunch, инвесторы продолжают вкладываться в подобные разработки. При этом более половины американцев выступают против использования ИИ для слежки за сотрудниками.

Не отправляйте Operator за яйцами

Джеффри Фаулер из The Washington Post провел эксперимент с новым ИИ-агентом Operator от OpenAI, который умеет самостоятельно выполнять задачи в реальном мире через веб-браузер. Агент успешно справился с бронированием ресторана и даже помог разобраться со счетом за интернет, но затем случился конфуз: получив задание найти самые дешевые яйца с доставкой, ИИ сломался о финансовую грамотность и оформил заказ на $31.43, включая все сборы и чаевые.

(Источник изображения)

OpenAI признала, что это сбой в системе безопасности — Operator должен запрашивать подтверждение перед любыми «значимыми» действиями вроде покупок или отправки email. Хотя дорогие яйца — не самая страшная ошибка, случай поднимает серьезный вопрос: что будет, когда ИИ-агенты получат доступ к более критичным системам вроде рабочей почты, умного дома или автомобиля? Как отмечает журналист, это первый раз, когда компьютер самовольно принял решение, стоившее реальных денег, но явно не последний.

Модель уровня o1 за $50: что на самом деле стоит за громким заголовком

Исследователи из Стэнфорда и Университета Вашингтона создали ИИ-модель s1, которая показывает результаты на уровне OpenAI o1 и DeepSeek R1 в задачах математики и программирования. Новость о том, что на обучение потратили всего $50, взорвала соцсети, но реальность оказалась сложнее.

На самом деле исследователи не обучали модель с нуля, а использовали уже готовую Qwen2.5-32B-Instruct, дообучив ее на тысяче тщательно отобранных примеров с разметкой от Gemini Flash Thinking. Процесс занял 26 минут на 16 GPU H100 — отсюда и скромная сумма в $50 за аренду оборудования. Ключевым стало не само обучение, а инновационный подход к тестовой оптимизации Budget Forcing: исследователи научились управлять «размышлениями» модели, принудительно ограничивая или продлевая их добавлением слова «wait».

Budget Forcing в s1-32B на примере задачи с подсчетом r в raspberry: модель пытается остановиться после «...равно 2», но стоп-токен конца размышления подавляется, а вместо этого добавляется «подожди, подумай еще», после которого нейросеть корректирует ответ.
Budget Forcing в s1-32B на примере задачи с подсчетом r в raspberry: модель пытается остановиться после «...равно 2», но стоп-токен конца размышления подавляется, а вместо этого добавляется «подожди, подумай еще», после которого нейросеть корректирует ответ.

Хотя результат действительно впечатляет, он был бы невозможен без использования дорогих предобученных моделей. Значимость работы скорее в том, что она показывает путь к созданию доступных открытых моделей, а не к радикальному снижению стоимости их разработки.

Spotify и ElevenLabs научат книги говорить

Похоже, скоро на Spotify станет гораздо больше аудиокниг с ИИ-озвучкой. Стриминговый гигант объединился с ElevenLabs — одним из лидеров в области синтеза речи. И хотя платформа и раньше принимала книги с цифровой озвучкой через сервис Findaway Voices, именно этот альянс может стать поворотным моментом для индустрии.

(Источник изображения)

ElevenLabs уже умеет говорить на 29 языках разными голосами, но есть нюанс — бесплатная версия позволяет сгенерировать всего 10 минут аудио в месяц. Для создания полноценной аудиокниги придется раскошелиться на Pro-подписку за $99, которая дает 500 минут генерации. В Spotify обещают честно помечать такие книги как озвученные «цифровым голосом» и подчеркивают, что по-прежнему верят в магию человеческой начитки. Но компания видит в ИИ шанс для небольших авторов попасть на полку аудиокниг, а еще возможность вдохнуть новую жизнь в забытые произведения прошлого.

Google и Kaggle снова запускают бесплатный интенсив по генеративному ИИ

Google опять радует начинающих разработчиков: с 31 марта по 4 апреля пройдет бесплатный недельный курс по генеративным моделям. В программе все самое вкусное: от базовых архитектур глубокого обучения до устройства LLM, работы с векторными базами данных и основ MLOps. Курс готовили ML-исследователи и инженеры из Google.

Формат максимально практичный: ежедневные онлайн-лекции, домашние задания и живые обсуждения в Discord. А в финале участников ждет соревновательный проект с возможностью получить заветную медаль Kaggle. Для регистрации нужен только аккаунт Google — никаких других требований или оплаты. Записываемся тут.

Новые инструменты

Для работы с данными

  • Mathesar: интуитивный интерфейс для работы с Postgres в стиле электронных таблиц. Опенсорсный инструмент для пользователей любого уровня.

  • Datadex: открытая платформа для совместной работы с Open Data, объединяющая существующие инструменты в единую экосистему.

  • SQLite Page Explorer: визуальный инструмент для постраничного исследования SQLite-баз. Показывает структуру хранения данных на диске.

  • MegaParse: универсальный парсер файлов для LLM, оптимизированный для работы с PDF, Docx и PPTx без потери данных.

(Источник изображения)
  • Validoopsie: простая Python-библиотека для валидации данных.

  • Kreuzberg: библиотека для извлечения текста из PDF, изображений и офисных документов.

  • tmap: R-пакет для создания тематических карт с синтаксисом в стиле ggplot2.

  • tinyplot: легковесный R-пакет для создания сложных и красивых графиков с простым синтаксисом.

  • exactplot: R-пакет для создания научных графиков с точным контролем над внешним видом.

  • Air: сверхбыстрый форматтер для R.

(Источник изображения)

Разработка и продуктивность

  • Softr: платформа для создания мощных бизнес-приложений без кода (CRM, клиентские порталы).

  • Preswald: легкий инструмент для создания интерактивных дата-приложений на Python.

  • Scripton: Python IDE со встроенной визуализацией в реальном времени.

  • Tana: приложение для заметок с возможностями управления проектами и календарем.

  • github-backup: инструмент для резервного копирования GitHub-организаций, репозиториев или аккаунтов.

  • OCRmyPDF: добавляет слой OCR-текста к отсканированным PDF для возможности поиска.

  • Toolfinder: поиск программного обеспечения и интеграций с помощью естественного языка.

Другие инструменты

  • GPT Researcher: автономный агент для комплексного поиска в интернете и локальных источниках.

  • AI Hub: маркетплейс от Lightning AI для моделей и приложений искусственного интеллекта.

(Источник изображения)
  • Concierge: интеграция с популярными приложениями (Jira, Slack, Notion) через естественный язык.

  • Phedra X: Chrome-расширение для мгновенного редактирования изображений с помощью ИИ.

Исследования на почитать

Сквозь сложность: как data science помогает политикам понимать мир 

О чем: Артур Туррелл исследует, как наука о данных может помочь политикам преодолеть сложность принятия решений и улучшить качество государственных услуг. 

Ссылка на исследование

Искусственный интеллект: исследовательские тренды и взгляд в будущее 

О чем: обзор исследовательских трендов и будущих направлений развития ИИ в сфере гостеприимства и туризма. 

Ссылка на исследование

Укрепляя защиту: исследование методов тестирования генеративных моделей 

О чем: масштабный обзор более 120 работ по red teaming генеративных моделей с новой таксономией стратегий атак и фреймворком «searcher» для автоматизации тестирования. 

Ссылка на исследование

Иллюстрация стратегий защиты, реализуемых на разных этапах жизненного цикла языковой модели. Защита во время обучения включает такие методы, как RLHF и тонкая настройка; защита во время вывода использует системные подсказки, фильтрацию небезопасного содержимого и систему ограничений для направления поведения модели.
Иллюстрация стратегий защиты, реализуемых на разных этапах жизненного цикла языковой модели. Защита во время обучения включает такие методы, как RLHF и тонкая настройка; защита во время вывода использует системные подсказки, фильтрацию небезопасного содержимого и систему ограничений для направления поведения модели.

Конституционные классификаторы: новый метод обучения языковых моделей 

О чем: Anthropic представила новый метод защиты LLM, основанный на классификаторах, обученных на синтетических данных. В масштабном хакатоне с призом $15 тыс. никто не смог обойти защиту. 

Ссылка на исследование

Маммография и искусственный интеллект: комплексный обзор 

О чем: систематический обзор 13 исследований показал, что ИИ-ассистенты в маммографии работают на уровне или лучше традиционной двойной проверки рентгенологами. 

Ссылка на исследование

Крупнейшая биологическая модель ИИ создает ДНК по запросу 

О чем: создана крупнейшая биологическая модель, способная писать ДНК по запросу. Обучена на 128 000 геномах от людей до бактерий. 

Ссылка на исследование

Библиометрический анализ публикаций об ИИ в здравоохранении 

О чем: библиометрический анализ публикаций об ИИ в медицине за последние 30 лет показывает эволюцию слияния медицины и искусственного интеллекта. 

Ссылка на исследование

Изображение из исследования: анализ сети совпадений в названиях статей об искусственном интеллекте в здравоохранении.
Изображение из исследования: анализ сети совпадений в названиях статей об искусственном интеллекте в здравоохранении.

Масштабирование вычислений без верификации: почему это неоптимально 

О чем: Исследование показало преимущество методов на основе RL и поисковых алгоритмов при масштабировании вычислений во время тестирования.

Ссылка на исследование

Игры со спецификацией в моделях рассуждения 

О чем: демонстрация того, как reasoning-модели используют «игры со спецификацией» для решения сложных задач. 

Ссылка на исследование

SWE-Bench+: улучшенный набор тестов для оценки языковых моделей 

О чем: SWE-Bench+ улучшает тестирование LLM в задачах программирования, устраняя утечки данных и слабые тест-кейсы. 

Ссылка на исследование

S: масштабирование во время тестирования для генерации кода

О чем: новый гибридный фреймворк масштабирования для улучшения генерации кода, сочетающий параллельное и последовательное масштабирование. 

Ссылка на исследование

Понимание интуитивной физики через самообучение на видео 

О чем: исследование показало, что нейросети могут развить понимание интуитивной физики через самообучение на видео. 

Ссылка на исследование

SongGen: единый авторегрессивный трансформер для создания песен 

О чем: SongGen представляет одноэтапный авторегрессивный трансформер для генерации песен, объединяющий вокал и аккомпанемент. 

Ссылка на исследование

От мозга к тексту: неинвазивный подход к чтению мыслей 

О чем: Meta представила неинвазивный подход Brain2Qwerty для декодирования текста из мозговой активности с точностью до 81% на MEG-данных. 

Ссылка на исследование

ИИ может (или не может) превзойти человечество: анализ рисков 

О чем: анализ потенциальных рисков превосходства ИИ над человеческим интеллектом и возможных последствий. 

Ссылка на исследование

Заключение

Новый месяц — новые тенденции и прорывы. Февраль продолжил тренд на демократизацию ИИ-технологий, а соревнование между лидерами индустрии продолжает набирать обороты. К счастью, для нас, конечных пользователей, это только на руку, ведь это значит, что нам будет доступно все больше и больше прорывных инструментов и технологий.

А на сегодня у нас все! Расскажите, что вам запомнилось больше всего в феврале и чего вы ждете в ближайшем будущем?

Теги:
Хабы:
+10
Комментарии0

Публикации

Информация

Сайт
magnus-tech.ru
Дата регистрации
Дата основания
2017
Численность
201–500 человек
Местоположение
Россия

Истории