Привет! Меня зовут Павел Саликов, я Senior ML-инженер в команде Дубликатов Товаров Wildberries. В этой статье расскажу про наше решение матчинга товаров на маркетплейсе и про то, как удалось сделать его быстрым.
Машинное обучение *
Основа искусственного интеллекта
Новости
Как мы обучили беспилотники в симуляции для гонок в смешанной реальности
Привет, Хабр! Меня зовут Андрей, я технологический предприниматель и более 9 лет занимаюсь разработкой и внедрением ИИ-решений в различных компаниях, включая стартапы в области беспилотников. Сегодня хочу поделиться с вами своим опытом создания фреймворка для обучения беспилотных машин в симуляции с использованием обучения с подкреплением (RL).
Если вам интересна тема ИИ, подписывайтесь на мой телеграм-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес и запуску ИИ-стартапов, объясняю как работают все эти ИИ-чудеса и рассуждаю о будущем индустрии.
Один год вместе с LLM в кибербезопасности: как ИИ менял индустрию
В 2024 году большие языковые модели (LLM) кардинально изменили многие сферы, включая кибербезопасность. LLM научились не только помогать в поиске уязвимостей, но и предлагать их исправления. От симуляции атак и анализа уязвимостей до создания правил детектирования — LLM постепенно становятся незаменимым инструментом для разработчиков и специалистов по безопасной разработке.
Меня зовут Денис Макрушин, и в Yandex Infrastructure в команде SourceCraft я создаю платформу для безопасной разработки, которая помогает разрабатывать ПО и управлять процессом его производства на всех этапах жизненного цикла с использованием AI‑технологий. Вместе с коллегами я регулярно слежу за исследованиями, которые повышают производительность процессов безопасной разработки.
Команда нашего продукта изучает технологии, которые позволяют снизить когнитивную нагрузку на разработчика и AppSec‑инженера. В частности, мы исследуем технологии AutoFix и фреймворки для их оценки, чтобы адаптировать работающие практики и инструменты для наших задач.
NDR – следующий уровень развития сетевой безопасности
Привет Хабр, меня зовут Станислав Грибанов, я руководитель продукта NDR группы компаний «Гарда». В информационной безопасности работаю с 2010 года, с 2017 года занимаюсь развитием продуктов для сетевой безопасности, автор блога «Кибербезопасность и продуктовая экспертиза для бизнеса».
Это вторая статья из цикла, в котором я помогаю разобраться, что скрывается за аббревиатурами IDS и NTA, NDR, SOAR, XDR и EDR. В первой статье я рассказал об IDS и переходном этапе в виде NTA. Закономерным этапом развития сетевой защиты стали системы класса NDR, и в этой статье я остановлюсь на особенностях работы технологии подробнее: рассмотрю ключевые проблемы детектирования и реагирования на киберугрозы, отличие NDR от систем сетевой безопасности на базе сигнатурного анализа.
Статья будет полезна специалистам по информационной безопасности, инженерам сетевой безопасности, аналитикам и IT-руководителям, которые хотят глубже разобраться в различных технологиях обнаружения и предотвращения угроз. Кроме того, статья будет интересна тем, кто изучает современные подходы к защите и планирует внедрять NDR в инфраструктуру своей компании.
Истории
ИИ на путях: как решить задачу перепланирования расписания движения поездов
Привет, Хабр. Я Артур Саакян, главный специалист по анализу данных и машинному обучению в ПГК Диджитал. Мы разрабатываем уникальные цифровые продукты для железнодорожных перевозок, такие как оптимизация ЖД перевозок, навигатор, ЖД карты, цифровой вагон и так далее.
В этой статье опишу подход к оптимизации расписания поездов в реальном времени при помощи обучения с подкреплением (RL), который применим и к российским грузовым ж/д перевозкам, но пока не используется. Тезисы статьи:
1. Перепланирование расписания движения поездов (Train Timetable Rescheduling)
2. Коротко об RL и Q-learning
3. Моделирование железнодорожной среды
4. Заключение
Данные для обучения моделей иссякли. Что будет дальше?
В последнее время в медиаполе было много сообщений о том, что закончились данные для обучения новых больших языковых моделей. Не просто размеченные данные, а новые, с которыми можно работать, включая их разметку. Проще говоря: большие модели теперь знают все, что есть в интернете. И это серьезный вызов как для отрасли AI, так и для развития нашей цивилизации в целом.
С вами Павел Бузин из Cloud.ru, я каждый день работаю с данными для машинного обучения, и сегодня мы разберемся, что будем делать, когда у моделей закончится «еда».
Один тест, чтобы покрыть весь код, или краткий ликбез о точности библиотек математических функций
Привет, Хабр! Эта статья посвящена тестированию точности библиотек математических функций (libm). Мы обсудим, где эти библиотеки используются, почему они должны быть не только высокопроизводительными, но и высокоточными. Поймем, откуда в корректных, на первый взгляд, вычислениях берутся ошибки и как их избежать. Узнаем, как устроено большинство тестов в стандартных математических библиотеках и почему они не всегда работают. И наконец, ответим на вопрос, как одним тестом полностью покрыть код математической функции. Без воды, регистрации и громоздких формул.
Обзор и карта рынка платформ для защиты ML
Security Vision
С ростом распространенности искусственного интеллекта (ИИ) и машинного обучения (ML) в бизнесе и промышленности, вопросы безопасности этих технологий становятся все более актуальными. Например, согласно отчету «Яков и Партнеры», всего треть опрошенных компаний в РФ находятся на стадии погружения в область ИИ, 23% уже экспериментируют с этой технологией, а 17% в своих стратегических целях отметили масштабирование показавших себя решений. В отчете McKinsey, для сравнения, говорится, что среди стратегических целей развитие и масштабирование ИИ имеют от 15% до 19% опрошенных компаний.
Современные модели машинного обучения обладают огромным потенциалом, но в то же время они открыты для множества угроз, включая кражу интеллектуальной собственности, атаки на конфиденциальные данные, манипуляции моделями и многое другое. В связи с этим, на рынке появляются специализированные платформы и решения, направленные на защиту ML-систем, особенно заметно это в зарубежном пространстве. В этой статье мы рассмотрим ключевые концепции и решения в области безопасности машинного обучения, а также приведем примеры некоторых продуктов и платформ. Некоторые из мер противодействия угрозам ИИ и видов продуктов безопасности будет возможно реализовать на основе платформы Security Vision, о чем мы более подробно скажем в конце статьи.
Концепции безопасности машинного обучения
Безопасность ML систем – это комплексная задача, требующая применения различных методов и технологий на разных стадиях жизненного цикла модели: от разработки и обучения до эксплуатации и обновления. Разработка делится на такие шаги, как сбор данных, их исследование и изыскание подходящей архитектуры модели, обучение, и валидация модели, а эксплуатация — это автоматизация этих процессов, вкупе с системой мониторинга и оптимизации кода для эффективного потребления ресурсов. Подробнее о практических аспектах практического машинного обучения — тут и тут. А исходная спецификация процесса разработки и внедрения в эксплуатацию ML описана в данной статье.
Внедряем AI Code Assistant в разработку бесплатно и без вендорлока — Инструкция
По разным данным, code assistant'ы позволяют ускорить процесс написания кода до 25%, а это очень существенно. И в этой статье я хотел бы развеять мифы о том, что кодинг-ассистент и их внедрение это что-то далекое от реальности. Более того, это не всегда привязка к определенному вендору LLM или определенной среде разработки (IDE), а также я развею миф о том, что внедрение такого ассистента это очень дорого и для этого нужно очень много ресурсов. Ну что ж, поехали.
МРТ для DataScience. Часть 2
«Ликбез по устройству МР‑томографа» — вторая часть цикла статей. Содержание цикла и первая часть «МРТ и другие виды медицинской визуализации» здесь.
Еще один разбор документа про AGI от исследователя из OpenAI
Вот, на мой взгляд, одно из лучших описаний того, что произойдет в области ИИ в ближайшие 10 лет, написанное Леопольд Ашенбреннер из OpenAI.
Я настоятельно рекомендую прочитать весь текст, но если вы ленивы, как я, вот несколько ключевых выводов.
Короче говоря, очень скоро по нашим улицам будут гулять терминаторы.
Заменяем хабраюзеров ИИ-агентами. Гайд по browser-use
TLDR: видео с результатом в конце статьи
Библиотека browser-use невероятно стрельнула практически в день релиза, на текущий момент это около 16 тысяч звезд на Гитхабе, и сотни восторженных отзывов на Reddit, в Твиттере, и так далее. Команду, создавшую browser-use даже приняли в YC. У неё революционная точность по сравнению с другими "ИИ агентами использующий браузер" (89% против Runner H с 67%).
Я очень удивился, что на Хабре всё ещё нет статьи с описание того, что это, и как это использовать. Сегодня мы это исправим: мы сделаем ИИ, который будет читать статьи на Хабре, и писать комментарии о том, почему продукт, описанный в статье, никому не нужен.
Оценка систем LLM: основные метрики, бенчмарки и лучшие практики
Оценка LLM-систем вручную — это утомительное, времязатратное и порой раздражающее занятие. Поэтому, если вам приходилось многократно прогонять набор промптов, чтобы вручную проверять каждый вывод LLM, вас обрадует, что эта статья научит вас всему необходимому для правильной оценки LLM и обеспечения долгосрочной эффективности вас и вашего приложения на основе LLM.
Оценка LLM относится к процессу обеспечения соответствия выходных данных LLM человеческим ожиданиям, которые могут варьироваться от этических и безопасных соображений до более практических критериев, таких как правильность и релевантность выходных данных LLM. С инженерной точки зрения эти выходные данные LLM часто можно найти в форме тестовых кейсов, в то время как критерии оценки формализуются в виде метрик оценки LLM.
На повестке дня:
В чем разница между оценкой LLM и оценкой системы LLM, а также их преимущества
Офлайн-оценки, что такое бенчмарки системы LLM, как создавать наборы данных для оценки и выбирать правильные метрики оценки LLM, а также распространенные ошибки
Оценки в реальном времени и их польза для улучшения наборов данных для офлайн-оценок
Реальные примеры использования систем LLM и как их оценивать, включая chatbotQA и Text-SQL
Ближайшие события
Основы очистки данных в data science
В реальной жизни данные, к сожалению, не идеальны и требуют тщательной предобработки. Проблемы с данными могут возникать по разным причинам: из-за их природы, способа сбора или ошибок при вводе.
Очистка данных позволит сделать анализ более точным, а в случае машинного обучения — улучшить качество моделей.
Давайте рассмотрим пять задач, с которыми можно столкнуться в рамках очистки данных. Это не исчерпывающий список, но он послужит хорошим ориентиром при работе с реальными датасетами.
Все примеры мы будем рассматривать на Ames Housing Dataset, который содержит информацию о продажах жилой недвижимости в городе Эймс, штат Айова, США
Человек в тени авторегрессии
Я работаю в области машинного обучения и слежу за развитием технологий. Кажется, еще лет пять назад мало кто мог представить такой резкий рост качества генерации контента нейронными сетями. Сейчас нейронные сети консультируют, пишут программы, музыку, стихи и даже помогают соблазнять девушек.
Попробуем порассуждать над следующим вопросом:
Какие изменения в обществе потребуются, чтобы принять и адаптироваться к новым технологиям, которые нас ожидают (и отчасти уже есть сейчас), если сохранятся текущие тенденции в развитии ИИ?
Калькулятор на персептронах
Привет, Хабр!
В этой дебютной статье мы попробуем создать совершенно бесполезный калькулятор на многослойном персептроне. Что-бы он считал правильно, его необходимо обучить. Этим мы и займемся...
Гайд «как начать выступать на ML-конференциях и митапах»
Всем привет! Меня зовут Даниил Самойлов, я работаю в AI VK на позиции Senior ML Engineer и учусь на втором курсе магистратуры ИТМО по направлению Искусственный интеллект. В VK я работаю уже более 3 лет и время от времени выступаю на конференциях и митапах по ML. В этой статье я хотел бы поделиться своим опытом и лайфхаками по подготовке к выступлениям. Я ни в коем случае не претендую на звание эксперта по публичным выступлениям, мне определенно есть куда расти и совершенствоваться. Но мне кажется, что именно такой опыт может помочь ребятам, которые только хотят выступать, но не знают с чего начать.
Масштабирование: как увеличение количества ресурсов сделало искусственный интеллект более способным
Масштабирование: как увеличение количества ресурсов сделало искусственный интеллект более способным
Путь к созданию современных передовых систем искусственного интеллекта был в большей степени связан с созданием более крупных систем, чем с совершением научных прорывов.
Сравнение AI-инструментов для прототипирования: v0, Bolt и Lovable
Здравствуйте! Меня зовут Богдан, я являюсь автором телеграм канала про нейросети в телеграме, посчитал эту статью очень интересной для перевода, приятного прочтения
На переполненном рынке инструментов разработки с поддержкой ИИ выделяются три платформы для прототипирования компонентов и приложений: v0 от Vercel, Bolt от StackBlitz и Lovable. В этой статье рассматриваются их практическое применение для начальной загрузки MVP, ограничения и компромиссы с инженерной точки зрения.
Обзор: v0, Bolt, Lovable
Основная задача, которую пытаются решить эти инструменты, не нова: уменьшить трение между идеей и реализацией. Однако их подходы существенно различаются как по архитектуре, так и по исполнению.
v0.dev преуспел в быстром прототипировании пользовательского интерфейса, и несколько компаний используют его для поддержки библиотек компонентов и дополнения своих дизайн-систем. Он хорошо работает с популярными UI-фреймворками, такими как Tailwind или Material-UI. v0 теперь поддерживает генерацию не только UI-компонентов, но и серверных служб, включая интеграцию с базами данных и API-маршрутами, демонстрируя стремление Vercel к разработке полного стека. Хотя эта поддержка полного стека находится на ранней стадии, в будущем она может стать конкурентоспособной.
Я часто предоставляю v0 макет (загружаю изображение или выбираю входные данные Figma), а затем предлагаю интерактивную версию, которая меня устраивает. Он также хорошо работает с чистым текстом, если вам удобно отложить дизайн. Если вам нужна дополнительная поддержка бэкенда, например, БД для хранения данных, v0 также может работать с такими поставщиками, как Prisma, создавая для вас схему.
Топ 6 идей для ваших ML pet-проектов в 2025 году
Новый год — это идеальное время для перезагрузки и новых начинаний. Это уникальная возможность не только подвести итоги прошедшего года, но и заложить фундамент для будущих достижений. Если вы давно мечтали о собственном проекте в области машинного обучения, сейчас самое подходящее время, чтобы воплотить эту идею в жизнь.
Вклад авторов
ZlodeiBaal 1678.0snakers4 1643.0stalkermustang 1437.0Leono 1346.8alizar 1318.2BarakAdama 1247.33Dvideo 958.0averkij 853.0man_of_letters 734.0m1rko 694.0