Все потоки
Поиск
Написать публикацию
Обновить
772.15

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Период
Уровень сложности

Организация ML-проекта с примерами

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров3K

Организация - это важно. То же относится к ML-проектам. Из каких компонент он должен состоять? Как оформить проект, чтобы всего хватало и было удобно это масштабировать? Рассмотрим организацию по шаблону CookieCutter с примерами.

Читать далее

Зачем моему бизнесу нейросети: гайд для не-программистов

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров4.4K

Как мне применить нейросети в своем бизнесе?

Если ваша область деятельности напрямую не связана с разработкой, то этот вопрос легко может поставить вас в тупик. Действительно – из каждого утюга трубят про новые удивительные технологии и их достижения, а как их использовать, не ясно.

На днях я общался с человеком, который огорченно рассказывал, что нейросеть (так он назвал ChatGPT) не справляется даже с самой простой задачей (найти в интернете все доступные стиралки и отсортировать их по техническим характеристикам из документации). Дескать для человека это было бы не сложно, так пусть робот этим занимается.

Если вы понимаете, почему такая задача может представлять некоторые трудности, то эта статья не для вас.
Всем остальным – добро пожаловать, сейчас я поясню вам основы.

Читать далее

Топ самых реалистичных генераторов изображений: сравниваем DALL·E 3, Midjourney, FLUX и Stable Diffusion

Время на прочтение3 мин
Количество просмотров5.9K

Искусственный интеллект уже умеет создавать изображения, которые сложно отличить от реальных фотографий. Но какой генератор работает лучше? 

Мы протестировали ведущие нейросети, сравнили их сильные и слабые стороны и разобрали, в каких сценариях их лучше использовать.

Читать далее

Знакомимся с SciPy

Время на прочтение6 мин
Количество просмотров8.7K

Научные и технические вычисления — неотъемлемая часть работы инженеров, аналитиков и специалистов по машинному обучению. В этой статье мы разберём, чем полезна библиотека SciPy, какие задачи она помогает решать и как дополняет возможности NumPy. Покажем на примерах, как работать с константами, кластеризацией и преобразованием сигналов.

Читать далее

SPL – мультиязычный вычислительный граф и локальный FaaS на вашем ноутбуке

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров527

Привет, Хабр!

Хочу рассказать вам про пет-проект, над которой мы сейчас работаем с товарищем.  Основная идея заключается в создании мультиязычного вычислительного графа с возможностью быстрого развертывания собственной мини-FaaS (Function as a Service) платформы прямо на локальной машине. То есть возможность совмещать наработки из разных источников (на самом деле не только их, а еще и различные сторонние утилиты) посредством локального фреймворка и сервера. Сейчас мы называем этот проект SPL (Smart Pipe Lime).

Читать далее

AutoEncoders and hidden states Analysis

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров863

Привет, друзья!

Я продолжаю цикл статей по туториалам, посвященным области explainable AI. Так, уже были разобраны метод Logit Lens на примере ViT, зондирование gpt2, CAM на примере Yolo NAS — всё можно найти по статьям в профиле. В этом же туториале мы разберем идею применения автокодировщиков для анализа и извлечения признаков из скрытых состояний модели.

Читать далее

ИИ читает мысли во время просмотра «Теории Большого Взрыва» с помощью фМРТ и ЭЭГ

Время на прочтение6 мин
Количество просмотров977

Привет, Хабр! Сегодня разберем интересную научную работу, которая находится на стыке нейронаук и искусственного интеллекта. Исследователи создали уникальный датасет и модель для декодирования активности мозга человека во время просмотра видео. Давайте посмотрим, как это работает.

Читать далее

LLM red teaming: полное руководство [+советы экспертов]

Время на прочтение12 мин
Количество просмотров1.2K

Давайте представим стратегию, зародившуюся в военной сфере, где команды притворяются врагами друг друга, чтобы проверить оборонительные механизмы. Этот подход, известный как red teaming, оказался чрезвычайно ценным и теперь нашёл новое применение. Сегодня, когда искусственный интеллект занимает всё больше места в нашей повседневной жизни, использование метода red teaming для тестирования этих систем становится необходимым. Red teaming для моделей-LLM помогает убедиться, что они не только эффективны в работе, но и безопасны и надежны.

Читать далее

Нативная генерация изображений в GPT-4o: как получить доступ, примеры генерации и редактирования изображений

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров13K

Когда Google представила Gemini 2.0 Flash, я думал, что она на некоторое время займет трон лучшей ИИ-модели для редактирования изображений, но я ошибся. Сегодня OpenAI выпустила GPT-4o с нативной генерацией изображений. Эта новая модель позволяет генерировать изображения, редактировать одно изображение с помощью текстовых промптов и даже объединять несколько изображений в одно.

В отличие от предыдущего генератора изображений в ChatGPT на базе Dall-E 3, новый генератор изображений является частью модели GPT-4o. Да, GPT-4o - это «омнимодальная» модель, способная обрабатывать и генерировать текст, аудио и изображения.

Переход от отдельных моделей к встроенной интеграции в GPT-4o - это огромное достижение, которое повышает производительность и возможности за счет более тесной связи понимания языка и визуального синтеза.

Первоначальный доступ к этой новой функции будет открыт для пользователей Plus, Pro, Team и Free ChatGPT начиная с марта 2025 года. Ожидается, что в скором времени появится доступ для корпоративных пользователей и пользователей образовательных учреждений, а также доступ к API для разработчиков.

Читать далее

Как интегрировать Gemini 2.0 Flash в ваше веб-приложение

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров4.2K

Компания Google выпустила Gemini 2.0 Flash со встроенными возможностями редактирования изображений, и это одна из самых революционных моделей, выпущенных Google в этом году. Я немного необъективен, потому что меня очень интересуют модели изображений с тех пор, как я запустил свое веб-приложение для генерации изображений.

Известно, что технологический гигант плохо разбирается в документации по API, поэтому последние несколько дней я испытывал трудности с интеграцией Gemini 2.0 Flash в Flux Labs. К счастью, Логан Килпатрик, ведущий инженер по продуктам Google AI Studio, недавно опубликовал обновленную документацию, которая значительно облегчает работу.

Так что если вы планируете создавать приложения с нуля или интегрировать Gemini 2.0 Flash в существующее веб-приложение, то сейчас я расскажу вам, как это сделать.

Читать далее

Модели машинного обучения: что могут спросить на интервью

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров3.9K

Привет, Хабр!

Сегодня рассмотрим некоторые вопросы, которые могут попасться на собеседовании на ML позиции.

Читать далее

Группировка объявлений в карточки: как мы разметили 20 000 товаров

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров601

Казалось бы, стандартная задача: взять 20 000 объявлений, определить в них модель товара и сгруппировать по карточкам – легкий проект, который можно закрыть за пару месяцев.

Но на деле все усложняют многоязычные названия, аббревиатуры, субъективные решения аннотаторов и нюансы классификации. Как мы выстроили процесс, чтобы обеспечить точность группировки, как мы валидировали данные и какие решения помогли нам справиться с вызовами? Рассказываем в этой статье.

Читать далее

Как научить нейросеть запоминать вас: технология персонального контекста

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.6K

Привет, Хабр!

Если вы, как и я, регулярно общаетесь с нейросетями, то наверняка сталкивались с ситуацией, когда приходится раз за разом объяснять ИИ одни и те же вещи: кто вы, чем занимаетесь, какие у вас предпочтения и цели. Каждый новый чат — это знакомство с чистого листа.

Сегодня я хочу рассказать о технологии, которая решает эту проблему — персональном контексте для LLM. Объясню простыми словами, что это такое, как это работает и почему это важное направление в развитии взаимодействия человека с ИИ.

Как создать цифровую память для нейросети

Ближайшие события

Почему релиз Agents SDK от OpenAI изменит рынок корпоративного ИИ

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров2.6K

Во вторник OpenAI кардинально изменил ландшафт корпоративного ИИ, представив свою комплексную платформу для создания агентов — пакет, включающий обновлённый Responses API, мощные встроенные инструменты и открытый исходный код Agents SDK.

Хотя эта новость могла затеряться среди других громких новостей в сфере ИИ — таких как презентация Google открытой модели Gemma 3 или появление китайского стартапа Manus с его автономной платформой агентов, поразившей наблюдателей, — оно несомненно является важным событием для бизнеса. OpenAI объединяет ранее разрозненную и сложную экосистему API в единый, готовый к промышленному использованию каркас.

Читать далее

n8n. Создаём AI Telegram agent с установкой и настройкой

Время на прочтение6 мин
Количество просмотров48K

Всем привет!

В этой статье будет рассматриваться n8n — open source платформа для автоматизации рабочих процессов, которая поддерживает более 400 интеграций, в том числе LMM, векторные базы данных и все, что нужно, чтобы создать ИИ-агентов и RAG-приложений.

Итак, сегодня мы развернем n8n c RAG-агентом и покажем, как им пользоваться на простых примерах, среди которых будет telegram чат-бот для работы с БД PostgreSQL.

Читать далее

Состояние моделей рассуждения LLM

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров4.1K

Часть 1: Методы масштабирования вычислительной мощности во время вывода

Улучшение способностей к рассуждению больших языковых моделей (LLM) стало одной из самых обсуждаемых тем в 2025 году – и не без оснований. Улучшенные навыки рассуждения позволяют моделям решать более сложные задачи, что делает их полезными в самых разных областях, интересных пользователям.

За последние несколько недель исследователи предложили множество новых методов для улучшения рассуждений. Среди них – увеличение вычислительных ресурсов во время вывода, обучение с подкреплением, контролируемая донастройка и дистилляция. При этом многие методы комбинируют эти подходы для достижения ещё лучших результатов.

В этой статье рассматриваются последние достижения в разработке LLM, оптимизированных для рассуждений, с особым вниманием к методам увеличения вычислительной мощности во время вывода, появившимся после выпуска DeepSeek R1.

Я уже описывал четыре основные категории построения моделей рассуждения в статье «Понимание LLM для рассуждений». Здесь же речь пойдёт именно о методах масштабирования вычислений во время вывода.

Поскольку большинство читателей уже знакомы с моделями рассуждения на базе LLM, определимся кратко. Модель рассуждения на базе LLM – это такая LLM, которая решает многошаговые задачи, генерируя промежуточные шаги или структурированный процесс «мыслей». В отличие от простых моделей, дающих лишь конечный ответ, такие модели либо явно показывают свой процесс размышлений, либо выполняют его внутри, что помогает им лучше справляться с головоломками, задачами по программированию и математикой.

Читать далее

LLM для кодинга и локальный тест открытых моделей на AMD

Время на прочтение7 мин
Количество просмотров8.2K

LLM кодеры уже показывают отличные результаты на бенчмарках и в реальных задачах. Кажется, сейчас хорошее время, чтобы начать пробовать ими пользоваться.

В статье разберем открытые LLM для кодинга. Сравнимы ли они с подписочными моделями? Можно ли их использовать для работы? А есть ли вариант начать локально?

В части туториала:
1. Запустим через docker с помощью llama.cpp.
2. Сделаем замеры скорости генерации.
3. Ускорим за счет спекулятивного декодинга.
4. Подключим в vscode, заставим работать локально и через ssh.

Читать далее

LLM обычно так не используют. А мы попробуем

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров4.9K

Насколько LLM хорошо понимают юмор и способны уместно и ненавязчиво его использовать в процессе общения?
От этого сильно зависит тональность диалога и вовлеченность в него нас самих. Мы получим от него больше удовольствия и будем общаться свободнее. Наш стиль общения станет естественнее, а эмоциональное состояние — комфортным.

Поэтому давайте напрямую попробуем проверить именно эти качества моделей и оценим результаты чисто субъективно.

Попросим разные модели для начала просто придумать анекдот. И пусть это будет, для нашего большего удовольствия, анекдот про программистов с элементами чёрного юмора.

Читать далее

Встретились как-то диффузионная модель и LLM —  получилось Diffusion Forcing. Как оно устроено и зачем нужно?

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров2.7K

“Встречу” придумали авторы из MIT, их идея была в том, чтобы попробовать объединить лучшее из двух, пока что редко пересекающихся, вселенных — диффузионных моделей с Full-Sequence Diffusion и нейросетей с Teacher Forcing. На пересечении этих названий и получилось Diffusion Forcing.

Принудительное обучение (teacher forcing) хорошо зарекомендовало себя в моделях, которые последовательно угадывают токены по одному, основываясь на предыдущей последовательности (она при этом считается опорной истиной). Таким способом получается генерировать, вообще говоря, бесконечное число токенов, если добавить сюда авторегрессию. При этом нет возможности каким-то образом направить выборку, чтобы, допустим, минимизировать какую-то дополнительную целевую функцию. И конечно, всё это хорошо работает только на дискретных данных, а на непрерывных быстро теряет устойчивость. Авторегрессионная генерация видео через несколько кадров начинает уходит куда-то не туда. Вероятно, поэтому авторегрессионая модель Cosmos от NVIDIA выдает не больше 32 кадров. Есть и другой подход, где последовательно генерируются не кадры, а всё лучшее разрешение, но об этом, возможно, расскажем отдельно.

С задачей генерации видео прекрасно справляются диффузионные модели. Если в успехах teacher forcing уже давно можно убедиться на примере ChatGPT, то в последний год-два и генерация видео вышла на такой же невероятный уровень. Эти модели используют фиксированный размер токенов, которые искажены одним и тем же шумом. Предполагается, что если в достаточной степени зашумить любую последовательность токенов, то получится один и тот же, абсолютный, белый шум. Из этого абсолютного шума с помощью  diffusion guidance (направленного управления, которого как раз и не хватало в teacher forcing) модель восстанавливает нужную картинку. Минусы подхода следуют сразу же из его основы: условия одинаковы для всех токенов, размер последовательности тоже одинаков. Словом, фиксированы все параметры и кроме diffusion guidance управлять процессом особо не получится. 

Читать далее

От ресторанов до банков: какие компании доверяют ИИ важные задачи

Время на прочтение5 мин
Количество просмотров686

Нейросети – мощный инструмент, который уже меняет бизнес. Но обычно все сводится к общим словам: «ИИ помогает в маркетинге», «Нейросети улучшают сервис»… Звучит красиво, но где конкретика? Мы нашли реальные кейсы: как крупные компании уже используют искусственный интеллект, что из этого вышло и какие технологии стоят за успехом.

Читать далее

Вклад авторов