Все потоки
Поиск
Написать публикацию
Обновить
763.14

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

No-code-разработка и ML-помощники – инструменты аналитиков SOC нового поколения

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров1.4K

Давайте представим, как могло бы выглядеть рабочее место SOC-аналитика будущего. В том числе рассмотрим, какие были бы полезны в реагировании и расследовании ML-помощники: некоторые из упомянутых в статье мы уже внедрили в наши продукты, а некоторые – еще в планах или могут послужить в качестве идеи для тех, кто сталкивается с подобными задачами.

Читать далее

ICLR-2025: что нового в мультимодальном ранжировании

Время на прочтение16 мин
Количество просмотров1.3K

Всем привет! Недавно мы — Алексей Спасёнов и Кирилл Никоров из ML‑команды Мультимедиа Поиска Яндекса (Картинки и Видео) — и ещё 90 яндексоидов побывали на конференции ICLR-2025 и рады рассказать о свежих направлениях исследований в области мультимодального ранжирования.

С каждым годом эта область ML приобретает всё более важной. Люди всё чаще предпочитают получать информацию из визуальных медиа и кратких ИИ‑выжимок, а не привычных текстовых статей. При этом область мультимодального ранжирования является довольно сложной и интересной, так как она постоянно использует разные данные (тексты, аудио, изображения) и требует высокой вычислительной эффективности.

В этой статье мы хотели бы поделиться самыми интересными и перспективными для нашей области работами, которые мы выделили на конференции.

Читать далее

Кросс-валидация на временных рядах: как не перемешать время

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.3K

Привет, Хабр!

Сегодня рассмотрим то, что чаще всего ломает даже круто выглядящие модели при работе с временными рядами — неправильная кросс‑валидация. Разберем, почему KFold тут не работает, как легко словить утечку будущего, какие сплиттеры реально честны по отношению ко времени, как валидировать фичи с лагами и агрегатами.

Читать далее

ML Q & AI. Глава 1. Эмбеддинги, латентные пространства и представления

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров3.5K

Следующая глава →

Известный эксперт в области машинного обучения и ИИ Себастьян Рашка был добр бесплатно поделиться с миром своей уникальной книгой о фундаментальных вопросах в области современного машинного обучения, которая рассматривает и изучает вопросы создания эффективных архитектур для глубинного обучения. В книге рассматриваются 30 важных аспектов этой сферы в максимально доступной и понятной форме: каждый вопрос рассмотрен как небольшая, но интересная статья подобно тем, что мы читаем здесь, на Хабре. Отсутствие такой книги в русскоязычном сегменте - большое упущение, поэтому верю, что серия переводов этой книги будет полезна хабровчанам.

Читать далее

Hello self driving world! (Carla Simulator) — часть 2

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров1.1K

Всем привет! Продолжаем наш путь в захватывающий мир беспилотных технологий. В первой части статьи мы познакомились с симулятором Carla, создали собственный беспилотный автомобиль и научили его ехать прямо.

Во второй части мы займемся улучшением плавности хода при помощи PID-контроллера, освоим алгоритм Stanley для точного управления рулём и научим машину реагировать на внезапные препятствия. Готовы погрузиться глубже и сделать ваш виртуальный беспилотный автомобиль ещё умнее и безопаснее? Тогда пристёгивайтесь и поехали!

Читать далее

16 промптов, которые выжимают максимум из памяти ChatGPT

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров68K

В апреле OpenAI запустили расширенную память для ChatGPT: если раньше ИИ запоминал только определенные факты из беседы, выбирая их далеко не всегда верно, то с новым функционалом он (теоретически!) собирает важную информацию из всех чатов вообще и использует ее, чтобы давать ответы, максимально настроенные под пользователя.

Я много экспериментировал с функцией памяти и решил поделиться опытом.

Читать далее

GigaConf. GenAI растёт и крепнет

Время на прочтение10 мин
Количество просмотров19K

25 июня на креативной площадке «Хлебзавод №9» прошла ежегодная технологическая конференция Сбера. Меня зовут Олег Плотников и я занимаюсь развитием перспективных цифровых проектов. Конечно, я не мог пропустить такое мероприятие. Тем более, что ИИ на промпредприятиях уже давно никого не удивляют. А GigaChat вообще плотно обосновался в этой сфере. Но обо всем по порядку — под катом.

Читать далее

Часть 3: Diffusion Transformer (DiT) — Stable Diffusion 3 как она есть

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.6K

В этой статье погрузимся в мир генерации изображений с Diffusion Transformer (DiT) — сердцем Stable Diffusion 3. Разберем как она устроена и как работает

Читать далее

Нейросети для создания изображений: обзор топовых ИИ-генераторов для генерации картинок

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров17K

Нейросети для генерации изображений развиваются очень быстро, при этом количество пользователей генераторов для создания изображений каждый день становится больше. В этой статье я расскажу про 9 топовых нейросетей для создания изображений, которые вам обязательно нужно попробовать.

Две недели назад я написал про лучшие нейросети для создания видео, чтобы помочь своей аудитории решить, какие ИИ-генераторы стоят их времени и денег. Список я составил на основе собственного опыта, а также на основе того, что это одни из самых обсуждаемых в ИИ-сообществе нейросетей.

Поэтому я подумал, почему бы не сделать то же самое для нейросетей для генерации изображений и картинок?

За последние пару месяцев ИИ-модели были значительно усовершенствованы, и в интернете появились сотни платформ и нейросетей для создания изображений. Становится все труднее сравнивать каждую платформу и выяснять, какая из них лучше всего подходит в вашем случае.

Давайте начнем.

Читать далее

Как мы научили нейросеть узнавать 10 000 лошадей «в лицо» и чуть не сошли с ума

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров3.8K

В нашей работе хватает безумных задач. Мы собирали датасеты с уличными драками, где сами вживались в роль дебоширов перед камерами, и делали много чего еще, о чем не всегда можно рассказать. В общем, мы в своей работе привыкли к странным задачам. Но когда к нам пришли с просьбой научить искусственный интеллект узнавать «в лицо» 10 000 лошадей, мы поняли — будет интересно...

Читать далее

Meta* запускает лабораторию суперИИ: Цукерберг собирает звездную команду

Время на прочтение2 мин
Количество просмотров749

Марк Цукерберг объявил о создании Meta* Superintelligence Labs (MSL) - нового подразделения, которое возглавят экс-гендиректор Scale AI Александр Ванг и бывший глава GitHub Нат Фридман. Эта команда станет эпицентром разработки суперИИ, который, по словам Цукерберга, откроет новую эру для человечества.

Читать далее

Карты Tenstorrent для DIY-сервера с локальной LLM

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров9.9K

В апреле 2025 года компания Tenstorrent начала принимать заказы на PCIe-карты Blackhole и Wormhole (на фото). Ускорители TPU на открытой архитектуре RISC-V с 28−32 ГБ видеопамяти предназначены непосредственно для разработчиков, которые желают запускать LLM на домашнем ПК или небольшом DIY-сервере. Это реальная альтернатива в сегменте, где пока доминирует Nvidia.

Во главе Tenstorrent стоит легендарный инженер Джим Келлер, ветеран Intel и AMD, создатель микроархитектуры AMD Zen и соавтор x86-64.

Благодаря радикальной открытости своих решений Tenstorrent уже привлекла небольшую армию фанатов среди LLM-энтузиастов.

Читать далее

ТОП-10 нейросетей для создания презентаций по теме и готовому тексту

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров15K

Рынок создания презентаций переживает кардинальную трансформацию. Если раньше качественная презентация требовала часов работы дизайнера, то современные нейросети создают профессиональный контент за 2-3 минуты...

Читать далее

Ближайшие события

5 идей для повышения эффективности производства

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.4K

Для повышения эффективности управления производством часто предлагают ввести жёсткий контроль за каждым работником, сократить количество перекуров и повысить уровень дисциплины. Однако сотрудники — не бездушные механизмы, которые могут постоянно поддерживать одинаковый уровень производительности. Подобное отношение к людям может привести к их переутомлению и эмоциональному выгоранию. В результате они потеряют мотивацию и желание хорошо выполнять свою работу.

Тогда какие действия можно предпринять, что добиться той самой эффективности?

Мы убеждены, что минимизация человеческого фактора и автоматизация бизнес‑процессов — лучшее решение для повышения эффективности производства и работы предприятия в целом.

Читать далее

Как мы построили свой инструмент для работы с LLM

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров3.2K

Привет, Habr! Меня зовут Алексей Рудак, и я основатель компании Lingvanex — компании, которая уже 7 лет делает решения для машинного перевода и распознавания речи.

В этой статье я бы хотел рассказать про наш инструмент для тренировки языковых моделей, который шесть лет назад родился из простого набора скриптов. Но постепенно усложняяcь, он стал включать в себя функции разметки данных, фильтрации датасетов, генерации данных и тестирования. В какой-то момент инструмент стал настолько функциональный, что я решил сделать ему красивый UI и назвать его - Data Studio.

Итак, что же такое Data Studio ?

Data Studio — это инструмент для работы с задачами обработки естественного языка (NLP), который мы используем в основном для улучшения качества перевода текста.

С помощью Data Studio можно обучать модели перевода, настраивать различные параметры для этих тренировок, токенизировать данные, фильтровать их по различным параметрам, собирать метрики, создавать данные для обучения, тестирования и валидации и многое другое.

Общий процесс создания языковой модели для перевода выглядит так:

1) Предобработка данных: этап подготовки данных перед обучением модели.

2) Фильтрация с использованием структурных и семантических фильтров.

3) Сбор общего набора данных: удаление избыточности, равномерное распределение тем и длин, сортировка.

4) Тегирование для классификации данных.

5) Загрузка общего набора данных в Data Studio для проверки.

6) Создание данных для валидации и тестирования модели.

7) Обучение модели.

Читать далее

Почему идеальные ИИ-тексты убивают понимание

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров4.2K

Как чистая информация без эмоциональной ткани превращает нас в безмолвных библиотекарей собственного разума

Читать далее

От традиционных LLM-агентов к Agentic AI: будущее автоматизации бизнеса + реализация вашего ассистента по темам

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров3.9K

В последние месяцы термин Agentic AI всё чаще мелькает в статьях, репозиториях и продуктовых обновлениях крупных компаний. Но что он на самом деле означает? В чем вообще отличие от обычного LLM агента, на которого я накручу все, что мне нужно? И соответственно, как это может помочь бизнесу?

Сегодня расскажу про все это, а также расскажу какие существуют реальные примеры интеграции в бизнес и сделаем мини примерчик на базе langgraph, который поможет вам понять примитивы концепции в которой у нас будет небольшой оркестратор в виде Qwen3:4b и его маленькие подопечные в виде Qwen3:1.7b. И сравним решения, если мы будем использовать стандартный пайплайн из LLM-агентов.

Читать далее

Как создать свой Perplexity: Архитектура AI для глубокого исследования на Next.js и OpenAI

Время на прочтение24 мин
Количество просмотров4.1K

Многие программисты в ближайшие годы потеряют работу из-за ИИ. Ваша задача — самому стать тем, кто строит Perplexity, а не тем, кто только ими пользуется.

К концу статьи у вас будет четкое понимание того, как построить self-hosted SaaS для глубокого исследования, который можно встроить в любой продукт.

Переходите, копируйте репозиторий, поднимайте и вы сможете в полном мере насладиться экспериментами и изучить логи.

Читать далее

Зоопарк версий питона в ИИ, какую версию лучше выбрать в 2025 для большинства задач?

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров1.9K

Разработка в области искусственного интеллекта развивается стремительно. Каждый месяц появляются новые модели и фреймворки, и часто возникает вопрос: какую версию Python использовать для локальной разработки и экспериментов, чтобы обеспечить максимальную совместимость и избежать «ада зависимостей»? Но, можете не тратить время на чтение. СРАЗУ ВЫВОД: Рекомендуемая версия: Python 3.10.x.

Неправильный выбор версии Python может привести к часам отладки, проблемам с компиляцией пакетов и несовместимости с ключевыми библиотеками, такими как PyTorch или TensorFlow. В этой статье мы проведем глубокий анализ совместимости более 30 популярных AI-моделей и 30+ библиотек, чтобы дать однозначный и обоснованный ответ.

Читать далее

Классификация документов: гайд для обхода граблей

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров1.5K

У всех на слуху библейское изречение «отделять зерна от плевел» и его грубый аналог «отделять мух от котлет». В обычной жизни мы также сталкиваемся с необходимостью разделять схожие предметы. В машинном обучении задача разделить объекты по определенным классам, например, «зерна» и «плевелы», называется классификация. Классификация лежит в основе современных технологий искусственного интеллекта и играет ключевую роль в машинном обучении.

Читать далее

Вклад авторов