Илон Маск: SpaceX немедленно выводит из эксплуатации корабль Dragon, который НАСА используют для доставки грузов на МКС. Фактически, это полный разрыв контрактов, которые принесли Маску больше $10 млрд.
Представлен ультимативный бесплатный гайд по вайб-кодингу, в котором есть всё. Автор — ведущий инженер Google. Внутри проекта описаны лучшие техники промптинга, готовые шаблоны, фреймворки, сценарии — всё продумано до мелочей. Там нет устаревших советов, всё подогнано под новейшие модели и ИИ-сервисы.
Представьте: вы стоите по горло в море текста — полезного и не очень, от души разбавленного водой, может быть написанного сложным языком, — а времени у вас в обрез. Да даже и представлять не надо — знакомая ведь ситуация? Кто из нас ни разу не тонул в этом текстовом океане, ну? Но вместо того, чтобы тонуть, можно научиться ходить по воде — а надёжными проводниками станут нейросети‑суммаризаторы.
Стили и задачи текста бывают разные, и их соотнесением с наиболее сильными сторонами нейросетей мы и займёмся.
В Единой перфоманс-кампании (ЕПК) Яндекс Директа появилась новая функция для стратегии «Максимум конверсий» с оптимизацией по стоимости конверсии. Теперь рекламодатели могут указывать сразу несколько целей, по которым система будет проводить оптимизацию. Это позволит алгоритмам собирать больше данных и эффективнее обучаться, а бизнесу — быстрее добиваться нужных результатов.
Новая возможность доступна в двух вариантах стратегии:
Разработка чат-приложения с нуля может показаться довольно сложной задачей. Но при наличии правильных инструментов все становится намного проще, чем вы думаете.
В этой серии из трех частей мы подробно рассмотрим процесс создания клона веб-версии Telegram с использованием Next.js, TailwindCSS и Stream SDK. В первой части мы настроим все необходимые инструменты для нашего проекта, добавим аутентификацию и создадим макет приложения с помощью TailwindCSS.
Фантастическая новость для тех, кто не успевает регулярно проходить скрининг рака шейки матки или плохо переносит осмотры при помощи гинекологического зеркала! А также для врачей, которые ведут таких пациенток. Осталось дождаться более широкого распространения
Google выпустила Gemini 2.5 Pro Preview 06-05 - обновленную версию своей самой мощной LLM, которая по-совместительству является одной из самых мощных нейросетей на рынке. В компании утверждают о лидерстве в большинстве известных рейтингов, причем в некоторых модель соревновалась с прошлой версией самой себя.
Модель набирает 1443 очка в WebDev Arena - рейтинге, который показывает успешность нейросетей в веб-разработке.
В начале был датасет, и был он в уме дата-инженера, и имя ему было Хаос...
В мире машинного обучения термин «датасет» звучит примерно из каждого утюга, и даже если ваша сфера не ML, вы наверняка догадываетесь: это какой-то набор данных. Вот только какой именно — сильно зависит от задачи. Порой один датасет похож на другой примерно как кактус на ёлку: что-то зелёное и колется.
Часто в начале данных нет вовсе, и их приходится создавать вручную, искать в открытых источниках или генерировать синтетически, а иногда комбинировать подходы. Упорядочить хаос — задача не из лёгких, особенно если вы создаёте кастомный датасет под конкретную модель.
От чего зависит структура датасета? Если коротко: буквально от всего.
Поставленная задача, тип данных, структура, формат аннотаций, объём, качество, наличие разметчиков или доступа к "умным" моделям и даже количество «мусора» — всё это влияет на итоговую структуру. Например, даже для такой относительно несложной задачи, как обучение чатбота для покупок товаров, мы иногда работаем с:
Парами «вопрос–ответ». Такой вариант был хорош на раннем этапе разработки.
Триплетами (вопрос + хороший и плохой ответ, чтобы модель точно знала, что НЕ нужно отвечать) - такой формат хорошо заходит reasoning-моделям, когда мы ожидаем от модели более сложного поведения и умения задать вопрос, быстро "отсекающий" нерелевантный товар или неважные признаки.
Пользователь: хочу морковь
Ответ A: вам мытую или обычную? Ответ B: скока вешать в граммах?
Предпочтение: ответ A
Примеры разных типов датасетов
📸 Computer Vision
Датасеты для задач компьютерного зрения. Картинки котиков, людей и машин (ImageNet) и (MS COCO). Учим ИИ отличать милую чихуахуа от маффина. Например, ImageNet содержит более 14 млн размеченных фотографий, а MS COCO — изображения с детальными аннотациями сцен.
Новый релиз от Яндекса — YAMBDA на Hugging Face, анонсирован в посте на Хабре. Это 500 млн взаимодействий с музыкальным контентом, включая признаки и флаги «рекомендовано/нет».
Чем он интересен:
Использует эмбеддинги вместо аудио
Подходит для обучения RecSys моделей в «индустриальных» условиях
Поддерживает архитектуры с input context (история прослушиваний)
🩺 Медицина
MIMIC-CXR — крупный публичный датасет рентгеновских снимков грудной клетки с диагнозами и метками. Один из главных бенчмарков в медицинском CV.
Проблемы: сложная лексика, разнообразие патологий, неполные аннотации. Такие датасеты часто требуют пост-обработки, аннотации врачами и серьёзного контроля качества.
📊 Табличные данные для задач логистической регрессии
UCI Adult — классика для бинарной классификации (доход >50K или нет). Здесь встречаются числовые и категориальные признаки. Часто используется для обучения простых моделей и feature engineering.
Именно такие данные лежат в основе скоринговых систем банков. Да-да, когда вы подаёте заявку на ипотеку, зачастую не человек, а модель принимает первичное решение на основе ваших параметров. ИИ тихо решает судьбу вашего жилья и кошелька.
🤖 Робототехника и сенсоры
KITTI Dataset — реальная дорожная обстановка с камеры, лидара и GPS. Используется в задачах:
Детекции объектов
3D реконструкции
SLAM и навигации
Датасеты для роботов — одни из самых тяжёлых по объёму, синхронизации и сложности синтеза сигналов.
По мере развития технологий модели обретают мультивозможности, и датасеты тоже усложняются…А как же понять, какой датасет подойдёт именно для вашей задачи?
Готовясь к обучению модели, важно помнить: 80% успеха — это грамотный датасет, причём не только по составу данных, но и по их комбинации и оформлению, подходящий под задачу. Гонка за модными тенденциями или применение готовых шаблонов тут вряд ли помогут.
В следующих постах разберу:
Можно ли полностью нагенерировать диалоговые датасеты синтетически - умными моделями типа О3 без проверки человеком.
Остальные 20% успеха в обучении модели;) Это будет не совсем про ML.
Пока гиганты вроде GitHub Copilot и его аналоги пытаются угодить всем и сразу, французский вундеркинд Mistral AI решил сыграть на поле корпораций. Их новый продукт — Mistral Code — это не просто ещё один ассистент с автодополнением. Это целый арсенал для контролируемой разработки, заточенный под нужды больших компаний, где безопасность и интеграция стоят во главе угла.
Представьте: инструмент, который не просто подсказывает следующую строку, а способен взять тикет в Jira и довести его до коммита почти автономно — открыть файлы, создать модули, обновить тесты, даже выполнить команды в терминале! Звучит как фантастика? Пока это тестовые возможности в приватной бете (JetBrains и VS Code), но вектор задан амбициозный.
Минцифры поддержало необходимость предустановки российских операционных систем Alt Linux, Astra Linux и РЕД ОС на новые ноутбуки, доступные в продаже в РФ. По словам представителей отрасли, это шанс показать, что отечественные ОС могут быть не просто формальностью, а реальной альтернативой.
Новую технологию, позволяющую создавать лёгкие аккумуляторы, не уступающие по техническим характеристикам литийионным батареям в смартфонах, создали учёные СПбГУ. Результаты исследования опубликованы в Journal of Materials Chemistry A, сообщили в пресс-службе РНФ.
Широко используемые в планшетах, смартфонах и другой электронике литийионные аккумуляторы ограничены по эксплуатационным характеристикам, достаточно долго заряжаются от бытовых электросетей и взрывоопасны, пояснили в Российском научном фонде (РНФ). К тому же, по прогнозам экспертов, к 2050 году мир ожидает кризис добычи лития.
Свежий технодетектив на горизонте, и в центре внимания снова наш старый знакомый — китайская AI‑лаборатория DeepSeek. На прошлой неделе они выпустили обновлённую версию своей reasoning‑модели R1 (R1-0528), которая впечатляет в математике и кодинге. Но вот вопрос: что именно её так хорошо натренировало? Ответа от DeepSeek пока нет, зато появились подозрительные совпадения, указывающие на Google Gemini.
Помните, как мы часто говорим, что современные ИИ — умные, но… застывшие? Обучили на терабайтах данных, запустили — и всё, дальнейший рост без докрутки разработчиками почти маловероятен. Человек‑то учится всю жизнь, а ИИ как будто заперт в клетке.
Именно такую метафору использует Ричард Корнелиус Суванди (Китайский университет Гонконга) в своем блоге, разбирая свежую наработку от японской Sakana AI — Darwin‑Gödel Machine. Суть? ИИ, который сам переписывает свой код, чтобы становиться умнее.
На официальном маркетплейсе Nvidia появилась на некоторое время страница с несуществующей видеокартой Acme GeForce RTX 4040 8 GB Brick Edition за $0,00 и картинкой кирпича с указанием, что устройство распродано.
Согласно описанию товара, подобный адаптер можно даже сравнить с RTX 5060 с точки зрения объёма памяти — 8 ГБ. Сейчас эта страница недоступна.
Подразделение МТС MWS AI (ранее MTS AI) потратила 1 млрд рублей в 2024 году на дообучение больших языковых моделей (LLM). Об этом сообщил генеральный директор MWS AI Денис Филиппов на форуме ЦИПР-2025. Деньги направили на адаптацию моделей под бизнес-задачи и запуск в промышленную эксплуатацию.
MWS AI работает с открытыми LLM. В 2024 году компания выпустила первое поколение моделей Cotype на базе французской модели Mistral. В 2025 году появилось второе поколение — Cotype Pro 2 на основе Qwen 2.5 от Alibaba Cloud. У МТС также есть модели Kodify — помощник по написанию кода.
Всем привет! Подводим итоги ушедшего месяца дайджестом самых интересных ИБ-новостей. В мае прогремела история со взломом мессенджера, стоявшего на устройствах топовых чиновников США. Взломали также и инфраструктуру LockBit, добавив минусов в репутацию группировки.
Кроме того, в мае масштабная операция Endgame по перехвату киберпреступной инфраструктуры принесла неплохие результаты и всё ещё продолжается. Общедоступная ИИ-модель впервые нашла критический нулевой день. WhatsApp выиграла беспрецедентное дело против разработчика спайвари Pegasus. А исследователь публично раскрыл старую сетку сайтов для связи ЦРУ с агентурой, среди которых порталы про Star Wars и онлайн-игры в России нулевых. Об этом и других ключевых новостях последнего весеннего месяца читайте под катом!
Идёт ли речь о глобальной торговле, новых технологиях или научных исследованиях, кажется, что наше окружение становится сложнее с течением времени. В прошлом существовали эрудиты, хорошо разбиравшиеся в нескольких дисциплинах и вносивших важный вклад в каждую из них. Но сегодня человеку гораздо сложнее преуспеть в нескольких областях, отчасти из-за большей специализации.
Это не разглагольствования на тему «раньше всё было лучше». Это просто трезвое наблюдение: раньше мир был проще. И это верно даже с математической точки зрения. Физик и философ Людвиг Больцман понял это ещё в 1872 году.
Больцман изучал, в частности, поведение газов и жидкостей. За несколько десятилетий до этого было выдвинуто предположение, что всё в мире состоит из крошечных строительных блоков — а именно, атомов и молекул.
Привет, Хабр! Меня зовут Саприн Семён. Я занимаюсь анализом данных и машинным обучением в компании ПГК Диджитал. Сегодня мы продолжаем серию статей, в которой я рассказываю о том, как мы с командой разрабатывали ИИ-помощника. В прошлой статье мы обсудили, почему стандартные подходы к работе с документами не всегда работают, и какие шаги помогли нам повысить качество поиска без существенных затрат памяти на GPU.
Сегодня речь пойдёт о следующем этапе: дообучении (fine-tuning) модели эмбеддингов для улучшения качества поиска в RAG-системе. Это позволило нам получить более точные представления документов и пользовательских запросов, что напрямую сказалось на релевантности финальных ответов. Давайте перейдём к деталям.
В мире разработки принятие правильных решений требует взвешенного подхода и понимания — где можно идти на компромиссы, а где необходимо проявить максимальную осторожность. Как управлять проектами, когда данные неполные, приоритеты изменяются, а время ограничено? В этой статье мы рассмотрим шесть тактик, которые помогают сохранять фокус в условиях неопределенности и принимать обоснованные решения, не теряя контроля над процессом. Эти подходы могут стать важным инструментом для каждого технического лидера, который сталкивается с необходимостью принимать ключевые решения в масштабных проектах.
Мы всё ещё строим поезда по принципам рельсы рельсы шпалы шпалы, которым сто лет, хотя нам обещали вакуум-трубопроводы под 1 200 км/ч. А ИИ? Он уже побеждает людей в шахматы, но до управления компанией ему ещё далеко.
Давайте развеем главные мифы «вау-волны» цифровой революции и выясним, что реально движет технологии вперёд и почему будущее не приходит по нажатию кнопки «Пуск», а рождается в пыли инженерных ночей и бумажных отчётов. Детали внутри.