Обновить
757.41

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Борьба с несбалансированными данными

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров25K

Привет,Хабр!

Почему несбалансированные данные - это такая большая проблема? Все начинается с того, что в реальном мире классы могут быть не равномерно представлены в наших данных. Например, в задаче обнаружения мошенничества с кредитными картами, обычные транзакции будут составлять большую часть данных, в то время как мошеннические операции будут редкими. Если модель обучается на таких данных, она склонна к смещению в сторону более представленного класса, и это может привести к плохим результатам в реальном мире.

Борьба с несбалансированными данными - это не просто задача улучшения производительности моделей, это вопрос надежности и безопасности.

Что же делает борьбу с несбалансированными данными такой сложной задачей?

Читать далее

Как экспертиза в области мониторинга событий ИБ помогает создавать качественные продукты. Часть 3

Время на прочтение6 мин
Количество просмотров3K

Друзья, и снова привет. Меня зовут Алексей Потапов, я представляю отдел обнаружения атак экспертного центра безопасности Positive Technologies (PT Expert Security Center). Продолжу историю о том, как наши знания обогащают продукты Positive Technologies, чтобы они обеспечивали конечную цель — результативную кибербезопасность. Ранее мы уже рассказывали вам о нашем подходе к обнаружению атак в SIEM-системах и, не побоюсь этого слова, киллер-фиче — механизме построения цепочек запускаемых процессов на основе нормализованных событий.

В этот раз поговорим о том, как в продукты для кибербезопасности проникают технологии machine learning (ML, машинное обучение) — на примере использования ML-модуля для поведенческого анализа в MaxPatrol SIEM. О некоторых технических аспектах работы отдельно взятых моделей мы недавно рассказали на Positive Hack Days — запись можно посмотреть тут (также есть в формате статьи). Еще больше подробностей читайте в другом материале на Хабре.

Читать далее

Предсказание остановок оборудования с использованием LSTM и Байесовского подхода

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров4.6K

Привет, дорогие читатели Хабра! 

Исследования выполнено в рамках выпускного проекта на курсе Machine Learning Advanced в OTUS. Рецензенты проекта - @bekemax, @stureiko

Данные были предоставлены ПАО «Северсталь» для хакатона ЛИДЕРЫ ЦИФРОВОЙ ТРАНСФОРМАЦИИ 2023

В проекте развиты и реализованы в коде идеи Давида Пагано (Davide Pagano) из статьи A predictive maintenance model using Long Short-Term Memory Neural Networks and Bayesian inference, опубликованные в Decision Analytics Journal в марте 2023. Из-за соглашения о неразглашении никакие подробности о компании, а также ее данные и какой-либо код для иллюстрации исследования автором в статье предоставлены не были.

Читать далее

Как получить полезную информацию из своих категориальных признаков?

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров13K

В этой статье я выскажу свою точку зрения о том, что из себя представляют категориальные признаки. Расскажу про способы работы с ними, которыми пользуюсь сам как антифрод-аналитик в Каруне.

Читать далее

12 лучших инструментов аннотирования изображений на 2023 год

Время на прочтение11 мин
Количество просмотров4.7K

С развитием сферы искусственного интеллекта (AI) увеличивается и спрос на высококачественные инструменты аннотирования изображений. Аннотирование изображений — это процесс добавления в изображения метаданных, например, меток или тэгов, чтобы их было проще распознавать и выполнять по ним поиск машинам. Этот процесс критически важен для обучения моделей ИИ, чтобы они могли точно распознавать и классифицировать изображения.

При таком большом количестве имеющихся инструментов аннотирования изображений может быть сложно понять, какие из них лучше подходят под ваши потребности. Чтобы помочь вам сделать более обоснованное решение, мы составили список двенадцати лучших инструментов аннотирования изображений на 2023 год.

В этой статье мы обсудим критерии, использованные для оценки этих инструментов, их плюсы и минусы, а также сравним их между собой. Также мы приведём отзывы и рейтинги пользователей, варианты цен и тарифов и информацию об интеграции с другим ПО и платформами.
Читать дальше →

Работа с временными рядами в Python. Часть 2

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров17K


Добро пожаловать во вторую часть нашей серии статей "Работа с временными рядами в Python." В первой части, мы ознакомились с основами работы с временными рядами и научились анализировать и визуализировать их. Теперь мы переходим к более продвинутым аспектам этой увлекательной темы.
Читать дальше →

Выявление схожести между произведением искусства из коллекции музея и работами автора методами ML

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров1.6K

Идею работы: «Похоже ли произведение искусства из коллекции музея на работы автора?» я придумала под датасет Музея MoMa. Конечно, хотелось бы установить: оригинал или подделка? Но для ответа на такой категоричный вопрос данных оказалось недостаточно.

У проекта было несколько целей. Разработка модели машинного обучения, способной оценить схожесть произведения искусства из коллекции музея на основе анализа её характеристик и работ автора, её создавшего. Исследование различных моделей машинного обучения для выявления схожести работ, таких как Logistic Regression, Decision Tree, Random Forest, LightGBM, CatBoost. Оценка точности и эффективности моделей, выбор лучшей. Выработка рекомендаций для дальнейшего улучшения системы выявления схожести, чтобы сделать её более точной и полезной для анализа произведений искусства.

Читать далее

Как выбрать GPU для машинного обучения

Время на прочтение5 мин
Количество просмотров18K

Машинное обучение позволяет компьютерам извлекать данные, находить закономерности и принимать решения на их основе в различных отраслях. Например, в медицине его используют для анализа рентгеновских снимков и МРТ. Автономные транспортные средства с их помощью строят маршруты, а в финансисты прогнозируют рыночные тенденции.

Центральные процессоры не подходят для таких сложных задач из-за отсутствия возможности параллельной обработки данных, длительного времени обучения и ограниченной пропускной способности. Поэтому организации все чаще приобретают графические процессоры или арендуют облачные сервисы с GPU.

В этом материале мы рассказали, на какие параметры графических ускорителей стоит обращать внимание, если планируете работать с машинным обучением.

Читать далее

Диффузионные модели в CV. Что за зверь?

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров10K

Всех приветствую! Статья посвещена диффузионным моделям в компьютерном зрение. Цель статьи сформировать понимания (надеюсь) работы данного типа моделей. Попытаемся разобраться что это такое и как это устроено.

Если объяснять в двух словах, то идея заключается в следующем: берем картинку, постепенно добавляем к ней шум в течении некоторого количества шагов, а после обучаем нейронку восстанавливать из зашумленной картинки исходную.

Если хочется узнать побольше, то welcome!

Продолжение смотреть в источнике....

Разработан инструмент, позволяющий художникам «отравлять» свой контент для ИИ

Время на прочтение4 мин
Количество просмотров12K

С тех пор, как год назад вышел ChatGPT, индустрия генерации цифрового контента находится в суматохе. Всех постепенно начинает вытеснять ИИ. Ряд художников, авторов, исполнителей, и даже звукозаписывающие компании подали многочисленные иски против компаний, занимающихся искусственным интеллектом, в основном против OpenAI. Все они касаются одного: обучающих данных. Компании ходят по всему интернету и собирают миллиарды фрагментов текста/звука, а также миллионы изображений в дата-сеты для тренировки своих моделей ИИ. Естественно, авторам или владельцам контента за это никто не платит, и их даже вообще никак не нотифицируют. Развитие технологии превыше всего.

Чтобы пресечь такой сбор данных, Reddit и X этим летом запретили доступ к своим API сторонним приложениям. Но обычные дизайнеры и цифровые художники не имели никакой возможности противостоять использованию их работ для обучения новых коммерческих ИИ. Теперь в их руках появляется более радикальный инструмент: система Nightshade. Которая отравляет любое изображение, которое ИИ просканировал без твоего разрешения.

Читать далее

Без работы не останемся: к 2030 году ИИ добавит семь новых профессий

Время на прочтение9 мин
Количество просмотров15K

ChatGPT стремительно захватывает весь мир. Уже сейчас у нейросети более 100 миллионов пользователей — ни у какого другого приложения не было таких темпов роста. Без сомнения, с его появлением мы будем работать по-другому. 


Другие компании тоже почти не отстают от OpenAI — каждый день мы видим революционные достижения генеративного ИИ. За этими инновациями стоят не только NVIDIA, Midjourney и другие ИТ-гиганты, но и стартапы, и Open-Source-сообщество. В ближайшие годы рынок труда ждут кардинальные перемены. ИИ заменит самые разные работы, но, думаю, он же предложит нам новые очень интересные профессии. 

Читать дальше →

LLM'ы в преобразовании запроса на естественном языке в SQL (text2sql)

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров11K

Привет, Хабр! На связи участница профессионального сообщества NTA Марина Коробова.

Данные занимают центральное место в информационном обществе. Именно информация является основой для принятия решений, развития бизнеса и научных исследований. Многие организации инвестируют огромные средства в системы, способные хранить, обрабатывать и анализировать данные.

Одной из главных проблем, с которыми сталкиваются компании, это непосредственная работа с базами данных с помощью языка SQL (Structured Query Language). Не все знают этот язык, и не у всех есть время изучать его. Поэтому на рынке появляются инструменты, позволяющие писать запрос на естественном языке и получать ответ на языке запросов.

В посте познакомлю вас с двумя AI-инструментами для генерации SQL-запросов: SQLCoder Defog и SQLthroughAI.

Читать далее

Как применять метод PCA для уменьшения размерности данных

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров25K

Одной из ключевых задач при работе с данными является уменьшение размерности данных, чтобы улучшить их интерпретируемость, ускорить алгоритмы обучения машин и, в конечном итоге, повысить качество решений. Сегодня мы поговорим о методе, который считается одним из наиболее мощных инструментов в арсенале данных разработчиков — методе главных компонент, или PCA (Principal Component Analysis).

Читать далее

Ближайшие события

Как провести анализ рекламных креативов с помощью генеративных сетей

Время на прочтение13 мин
Количество просмотров1.7K

Привет, Хабр!

На связи Сергей и Григорий - Data Scientist'ы.

Сегодня расскажем, как заняли 2 место в общем зачете AI Generative Product Hackathon, инициированного Napoleon IT,  и 1 место в кейсе по анализу рекламных креативов для крупной российской фармацевтической компании.

Читать далее

Почему важна разметка данных: в основе ChatGPT лежит труд людей

Время на прочтение4 мин
Количество просмотров3.4K

Чат-боты стали неотъемлемой частью жизни, они в равной степени помогают нам и в работе, и в развлечениях. Одним из примеров таких ботов является ChatGPT компании OpenAI — обученная в беспрецедентных масштабах языковая модель, способная генерировать похожие на человеческие ответы на широкий спектр промтов. ChatGPT быстро набрал популярность, продемонстрировав мощь ИИ, и привлёк внимание общественности к этой сфере. Однако хотя его успех часто связывают с лежащими в его основе современными технологиями, многие недооценивают человеческий труд, вложенный в создание ChatGPT.
Читать дальше →

«Большие вызовы» в «Сириусе», или как мы обычно проводим лето

Время на прочтение6 мин
Количество просмотров2.8K

Привет, Хабр! Третий год подряд летом мы в ВТБ снаряжаем команду IT-специалистов менторить школьников, которые пробуют себя в роли разработчиков на конкурсе «Большие вызовы» в образовательном центре «Сириус». В этом году на «Больших вызовах» побывали наши дата-сайентисты — они помогали команде подростков сделать сервис геоаналитики.

В этой статье мы расскажем, как устроено менторство в «Сириусе» и чем это полезно взрослым компаниям. Так, однажды мы нашли на конкурсе талантливого разработчика себе в команду. Но обо всём по порядку. Добро пожаловать под кат.

Читать далее

Русский LLM-помощник (saiga) с кэшем, используя RAG (Retrieval-Augmented Generation)

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров30K

Используя технику Retrieval-Augmented Generation ("Поисковая расширенная генерация"), мы настроим русскоязычного бота, который будет отвечать на вопросы потенциальных работников для выдуманного свечного завода в городе Градск.

Читать далее

Делаем 10-минутную задачу за 2 часа с помощью ChatGPT

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров73K

Все мы видели много статей, где с помощью AI-инструментов за минуты выполняется работа, на которую раньше мог легко уйти день. Особенно впечатляют примеры, где работа (успешно) идет вне зоны компетенции человека (т.е. когда AI позволяет делать то, что человек в принципе один сделать не мог бы). Но сегодня у меня получился несколько другой случай:

Читать далее

Как Data Science помогает разрабатывать лекарства

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров2.6K

На протяжении более чем десяти лет я профессионально занимаюсь анализом медицинских данных и участвую в разработке инновационных препаратов. Не скрою, меня приятно удивляет, что в данный момент наука о данных (Data Science) привлекает все больше внимания и захватывает умы максимально широкой аудитории. Тем не менее, меня как ученого несколько расстраивает тот факт, что воображение коллективного разума видит это направление как работу волшебных «black-box» алгоритмов, почти магическим образом заменяющих труд ученых и врачей в поисках панацеи. После моих докладов на различных мероприятиях я все чаще слышу вопросы: зачем все так усложнять? почему бы не накинуть нейросеточку на эти данные? Такие ситуации и подтолкнули меня написать эту статью о методах Data Science, которые действительно востребованы при разработке лекарственных препаратов.

Поиск виновных

Стоит сказать, что разработка инновационных препаратов – долгий, дорогой и очень сложный процесс. Так, из 10 000 молекул, предложенных химиками, для тестирования на людях отберут не более 10, из которых лишь одна дойдет до пациентов. Средняя стоимость разработки препарата составит более двух миллиардов долларов, а весь процесс займет не менее 15 лет. За это время накопится огромное количество разнородной информации, которую фармкомпании будут использовать для принятия самых разных решений. Давайте посмотрим, что это за информация, как и какие решения она помогает принимать, начиная с разработки фундаментальной идеи и вплоть до этапа реальной помощи пациенту.

Читать далее

Исследование рыночной корзины на основе данных розничной торговли в Стамбуле

Время на прочтение5 мин
Количество просмотров2.2K

Всем привет! Вот и я добралась до Хабра :).
Хочу поделиться своей проектной работой, которую написала в рамках курса OTUS "Machine Learning.Basic".

Итак, нас ждет путешествие в увлекательный мир шопинга в Стамбуле!

Целью работы было получить представление о тенденциях и моделях покупок в Стамбуле и определить наиболее оптимальную модель для анализа данных.
Языком разработки выступил Python, средой - Jupyter Notebook (anaconda3).

Для данной работы я использовала информацию о покупках в 10 различных торговых центрах в период с 2021 по 2023 год. Датасет содержит данные различных возрастных групп и полов, что дает комплексное представление о покупательских привычках в Стамбуле. Набор данных включает в себя важную информацию, такую ​​как номера счетов, идентификаторы клиентов, возраст, пол, способы оплаты, категории продуктов, количество, цена, даты заказа и расположение торговых центров.

Читать далее

Вклад авторов