Машинное обучение *

Основа искусственного интеллекта

СтатьиПостыНовостиАвторыКомпании

badcasedaily1 26 окт 2023 в 15:20

Борьба с несбалансированными данными

Средний

12 мин

25K

Блог компании OTUSPython * Программирование * Анализ и проектирование систем * Машинное обучение *

Обзор

Привет,Хабр!

Почему несбалансированные данные - это такая большая проблема? Все начинается с того, что в реальном мире классы могут быть не равномерно представлены в наших данных. Например, в задаче обнаружения мошенничества с кредитными картами, обычные транзакции будут составлять большую часть данных, в то время как мошеннические операции будут редкими. Если модель обучается на таких данных, она склонна к смещению в сторону более представленного класса, и это может привести к плохим результатам в реальном мире.

Борьба с несбалансированными данными - это не просто задача улучшения производительности моделей, это вопрос надежности и безопасности.

Что же делает борьбу с несбалансированными данными такой сложной задачей?

ptsecurity 26 окт 2023 в 11:23

Как экспертиза в области мониторинга событий ИБ помогает создавать качественные продукты. Часть 3

6 мин

Блог компании Positive TechnologiesИскусственный интеллектWindows * Машинное обучение * Информационная безопасность *

Друзья, и снова привет. Меня зовут Алексей Потапов, я представляю отдел обнаружения атак экспертного центра безопасности Positive Technologies (PT Expert Security Center). Продолжу историю о том, как наши знания обогащают продукты Positive Technologies, чтобы они обеспечивали конечную цель — результативную кибербезопасность. Ранее мы уже рассказывали вам о нашем подходе к обнаружению атак в SIEM-системах и, не побоюсь этого слова, киллер-фиче — механизме построения цепочек запускаемых процессов на основе нормализованных событий.

В этот раз поговорим о том, как в продукты для кибербезопасности проникают технологии machine learning (ML, машинное обучение) — на примере использования ML-модуля для поведенческого анализа в MaxPatrol SIEM. О некоторых технических аспектах работы отдельно взятых моделей мы недавно рассказали на Positive Hack Days — запись можно посмотреть тут (также есть в формате статьи). Еще больше подробностей читайте в другом материале на Хабре.

MaxRokatansky 25 окт 2023 в 12:39

Предсказание остановок оборудования с использованием LSTM и Байесовского подхода

Средний

6 мин

4.6K

Блог компании OTUSМашинное обучение *

Кейс

Привет, дорогие читатели Хабра!

Исследования выполнено в рамках выпускного проекта на курсе Machine Learning Advanced в OTUS. Рецензенты проекта - @bekemax, @stureiko

Данные были предоставлены ПАО «Северсталь» для хакатона ЛИДЕРЫ ЦИФРОВОЙ ТРАНСФОРМАЦИИ 2023

В проекте развиты и реализованы в коде идеи Давида Пагано (Davide Pagano) из статьи A predictive maintenance model using Long Short-Term Memory Neural Networks and Bayesian inference, опубликованные в Decision Analytics Journal в марте 2023. Из-за соглашения о неразглашении никакие подробности о компании, а также ее данные и какой-либо код для иллюстрации исследования автором в статье предоставлены не были.

pavel_shunkevich 25 окт 2023 в 11:28

Как получить полезную информацию из своих категориальных признаков?

Средний

9 мин

13K

Блог компании KarunaPython * Data Mining * Машинное обучение * Data Engineering *

Туториал

В этой статье я выскажу свою точку зрения о том, что из себя представляют категориальные признаки. Расскажу про способы работы с ними, которыми пользуюсь сам как антифрод-аналитик в Каруне.

+10

kucev 25 окт 2023 в 08:50

12 лучших инструментов аннотирования изображений на 2023 год

11 мин

4.7K

Big Data * Data Mining * Искусственный интеллектМашинное обучение * Обработка изображений *

Перевод

С развитием сферы искусственного интеллекта (AI) увеличивается и спрос на высококачественные инструменты аннотирования изображений. Аннотирование изображений — это процесс добавления в изображения метаданных, например, меток или тэгов, чтобы их было проще распознавать и выполнять по ним поиск машинам. Этот процесс критически важен для обучения моделей ИИ, чтобы они могли точно распознавать и классифицировать изображения.

При таком большом количестве имеющихся инструментов аннотирования изображений может быть сложно понять, какие из них лучше подходят под ваши потребности. Чтобы помочь вам сделать более обоснованное решение, мы составили список двенадцати лучших инструментов аннотирования изображений на 2023 год.

В этой статье мы обсудим критерии, использованные для оценки этих инструментов, их плюсы и минусы, а также сравним их между собой. Также мы приведём отзывы и рейтинги пользователей, варианты цен и тарифов и информацию об интеграции с другим ПО и платформами.

Читать дальше →

mvideo 25 окт 2023 в 07:27

Работа с временными рядами в Python. Часть 2

Простой

10 мин

17K

Блог компании М.Видео-ЭльдорадоPython * Машинное обучение *

Обзор

Добро пожаловать во вторую часть нашей серии статей "Работа с временными рядами в Python." В первой части, мы ознакомились с основами работы с временными рядами и научились анализировать и визуализировать их. Теперь мы переходим к более продвинутым аспектам этой увлекательной темы.

Читать дальше →

+21

Marfa-Marfa 24 окт 2023 в 10:15

Выявление схожести между произведением искусства из коллекции музея и работами автора методами ML

Простой

13 мин

1.6K

Блог компании OTUSИскусственный интеллектМашинное обучение * Открытые данные * Python *

Кейс

Из песочницы

✏️ Технотекст 2023

Идею работы: «Похоже ли произведение искусства из коллекции музея на работы автора?» я придумала под датасет Музея MoMa. Конечно, хотелось бы установить: оригинал или подделка? Но для ответа на такой категоричный вопрос данных оказалось недостаточно.

У проекта было несколько целей. Разработка модели машинного обучения, способной оценить схожесть произведения искусства из коллекции музея на основе анализа её характеристик и работ автора, её создавшего. Исследование различных моделей машинного обучения для выявления схожести работ, таких как Logistic Regression, Decision Tree, Random Forest, LightGBM, CatBoost. Оценка точности и эффективности моделей, выбор лучшей. Выработка рекомендаций для дальнейшего улучшения системы выявления схожести, чтобы сделать её более точной и полезной для анализа произведений искусства.

itglobalcom 24 окт 2023 в 09:00

Как выбрать GPU для машинного обучения

5 мин

18K

Блог компании ITGLOBAL.COMМашинное обучение *

Машинное обучение позволяет компьютерам извлекать данные, находить закономерности и принимать решения на их основе в различных отраслях. Например, в медицине его используют для анализа рентгеновских снимков и МРТ. Автономные транспортные средства с их помощью строят маршруты, а в финансисты прогнозируют рыночные тенденции.

Центральные процессоры не подходят для таких сложных задач из-за отсутствия возможности параллельной обработки данных, длительного времени обучения и ограниченной пропускной способности. Поэтому организации все чаще приобретают графические процессоры или арендуют облачные сервисы с GPU.

В этом материале мы рассказали, на какие параметры графических ускорителей стоит обращать внимание, если планируете работать с машинным обучением.

Kit_Cat 24 окт 2023 в 08:44

Диффузионные модели в CV. Что за зверь?

Простой

7 мин

10K

Машинное обучение * Искусственный интеллект

Обзор

Всех приветствую! Статья посвещена диффузионным моделям в компьютерном зрение. Цель статьи сформировать понимания (надеюсь) работы данного типа моделей. Попытаемся разобраться что это такое и как это устроено.

Если объяснять в двух словах, то идея заключается в следующем: берем картинку, постепенно добавляем к ней шум в течении некоторого количества шагов, а после обучаем нейронку восстанавливать из зашумленной картинки исходную.

Если хочется узнать побольше, то welcome!

Продолжение смотреть в источнике....

virtual_explorer 24 окт 2023 в 08:41

Разработан инструмент, позволяющий художникам «отравлять» свой контент для ИИ

4 мин

12K

Блог компании FirstVDSМашинное обучение * КопирайтИскусственный интеллект

С тех пор, как год назад вышел ChatGPT, индустрия генерации цифрового контента находится в суматохе. Всех постепенно начинает вытеснять ИИ. Ряд художников, авторов, исполнителей, и даже звукозаписывающие компании подали многочисленные иски против компаний, занимающихся искусственным интеллектом, в основном против OpenAI. Все они касаются одного: обучающих данных. Компании ходят по всему интернету и собирают миллиарды фрагментов текста/звука, а также миллионы изображений в дата-сеты для тренировки своих моделей ИИ. Естественно, авторам или владельцам контента за это никто не платит, и их даже вообще никак не нотифицируют. Развитие технологии превыше всего.

Чтобы пресечь такой сбор данных, Reddit и X этим летом запретили доступ к своим API сторонним приложениям. Но обычные дизайнеры и цифровые художники не имели никакой возможности противостоять использованию их работ для обучения новых коммерческих ИИ. Теперь в их руках появляется более радикальный инструмент: система Nightshade. Которая отравляет любое изображение, которое ИИ просканировал без твоего разрешения.

+26

shpringer 24 окт 2023 в 07:10

Без работы не останемся: к 2030 году ИИ добавит семь новых профессий

9 мин

15K

Блог компании VKBig Data * Искусственный интеллектМашинное обучение *

Перевод

ChatGPT стремительно захватывает весь мир. Уже сейчас у нейросети более 100 миллионов пользователей — ни у какого другого приложения не было таких темпов роста. Без сомнения, с его появлением мы будем работать по-другому.

Другие компании тоже почти не отстают от OpenAI — каждый день мы видим революционные достижения генеративного ИИ. За этими инновациями стоят не только NVIDIA, Midjourney и другие ИТ-гиганты, но и стартапы, и Open-Source-сообщество. В ближайшие годы рынок труда ждут кардинальные перемены. ИИ заменит самые разные работы, но, думаю, он же предложит нам новые очень интересные профессии.

Читать дальше →

+18

NewTechAudit 24 окт 2023 в 06:39

LLM'ы в преобразовании запроса на естественном языке в SQL (text2sql)

Средний

9 мин

11K

Блог компании СберМашинное обучение * SQL * Искусственный интеллект

Обзор

✏️ Технотекст 2023

Привет, Хабр! На связи участница профессионального сообщества NTA Марина Коробова.

Данные занимают центральное место в информационном обществе. Именно информация является основой для принятия решений, развития бизнеса и научных исследований. Многие организации инвестируют огромные средства в системы, способные хранить, обрабатывать и анализировать данные.

Одной из главных проблем, с которыми сталкиваются компании, это непосредственная работа с базами данных с помощью языка SQL (Structured Query Language). Не все знают этот язык, и не у всех есть время изучать его. Поэтому на рынке появляются инструменты, позволяющие писать запрос на естественном языке и получать ответ на языке запросов.

В посте познакомлю вас с двумя AI-инструментами для генерации SQL-запросов: SQLCoder Defog и SQLthroughAI.

+14

badcasedaily1 23 окт 2023 в 15:46

Как применять метод PCA для уменьшения размерности данных

Средний

9 мин

25K

Блог компании OTUSPython * Машинное обучение * Алгоритмы *

Обзор

Одной из ключевых задач при работе с данными является уменьшение размерности данных, чтобы улучшить их интерпретируемость, ускорить алгоритмы обучения машин и, в конечном итоге, повысить качество решений. Сегодня мы поговорим о методе, который считается одним из наиболее мощных инструментов в арсенале данных разработчиков — методе главных компонент, или PCA (Principal Component Analysis).

+15

NapoleonIT 23 окт 2023 в 13:26

Как провести анализ рекламных креативов с помощью генеративных сетей

13 мин

1.7K

Python * Машинное обучение *

Кейс

Recovery Mode

Привет, Хабр!

На связи Сергей и Григорий - Data Scientist'ы.

Сегодня расскажем, как заняли 2 место в общем зачете AI Generative Product Hackathon, инициированного Napoleon IT, и 1 место в кейсе по анализу рекламных креативов для крупной российской фармацевтической компании.

-2

kucev 23 окт 2023 в 13:17

Почему важна разметка данных: в основе ChatGPT лежит труд людей

4 мин

3.4K

Big Data * Data Mining * Искусственный интеллектМашинное обучение *

Перевод

Чат-боты стали неотъемлемой частью жизни, они в равной степени помогают нам и в работе, и в развлечениях. Одним из примеров таких ботов является ChatGPT компании OpenAI — обученная в беспрецедентных масштабах языковая модель, способная генерировать похожие на человеческие ответы на широкий спектр промтов. ChatGPT быстро набрал популярность, продемонстрировав мощь ИИ, и привлёк внимание общественности к этой сфере. Однако хотя его успех часто связывают с лежащими в его основе современными технологиями, многие недооценивают человеческий труд, вложенный в создание ChatGPT.

Читать дальше →

-1

VTB 23 окт 2023 в 07:44

«Большие вызовы» в «Сириусе», или как мы обычно проводим лето

6 мин

2.8K

Блог компании ВТБBig Data * Машинное обучение * Учебный процесс в ITIT-компании

Привет, Хабр! Третий год подряд летом мы в ВТБ снаряжаем команду IT-специалистов менторить школьников, которые пробуют себя в роли разработчиков на конкурсе «Большие вызовы» в образовательном центре «Сириус». В этом году на «Больших вызовах» побывали наши дата-сайентисты — они помогали команде подростков сделать сервис геоаналитики.

В этой статье мы расскажем, как устроено менторство в «Сириусе» и чем это полезно взрослым компаниям. Так, однажды мы нашли на конкурсе талантливого разработчика себе в команду. Но обо всём по порядку. Добро пожаловать под кат.

akocherovskiy 23 окт 2023 в 07:05

Русский LLM-помощник (saiga) с кэшем, используя RAG (Retrieval-Augmented Generation)

Средний

9 мин

30K

Natural Language Processing * Искусственный интеллектМашинное обучение * Программирование * Python *

Используя технику Retrieval-Augmented Generation ("Поисковая расширенная генерация"), мы настроим русскоязычного бота, который будет отвечать на вопросы потенциальных работников для выдуманного свечного завода в городе Градск.

BarsMonster 22 окт 2023 в 18:52

Делаем 10-минутную задачу за 2 часа с помощью ChatGPT

Простой

5 мин

73K

Искусственный интеллектМашинное обучение * Программирование *

Кейс

Все мы видели много статей, где с помощью AI-инструментов за минуты выполняется работа, на которую раньше мог легко уйти день. Особенно впечатляют примеры, где работа (успешно) идет вне зоны компетенции человека (т.е. когда AI позволяет делать то, что человек в принципе один сделать не мог бы). Но сегодня у меня получился несколько другой случай:

+61

pharma_is_my_karma 21 окт 2023 в 15:07

Как Data Science помогает разрабатывать лекарства

Простой

10 мин

2.6K

Машинное обучение * Математика *

Из песочницы

✏️ Технотекст 2023

На протяжении более чем десяти лет я профессионально занимаюсь анализом медицинских данных и участвую в разработке инновационных препаратов. Не скрою, меня приятно удивляет, что в данный момент наука о данных (Data Science) привлекает все больше внимания и захватывает умы максимально широкой аудитории. Тем не менее, меня как ученого несколько расстраивает тот факт, что воображение коллективного разума видит это направление как работу волшебных «black-box» алгоритмов, почти магическим образом заменяющих труд ученых и врачей в поисках панацеи. После моих докладов на различных мероприятиях я все чаще слышу вопросы: зачем все так усложнять? почему бы не накинуть нейросеточку на эти данные? Такие ситуации и подтолкнули меня написать эту статью о методах Data Science, которые действительно востребованы при разработке лекарственных препаратов.

Поиск виновных

Стоит сказать, что разработка инновационных препаратов – долгий, дорогой и очень сложный процесс. Так, из 10 000 молекул, предложенных химиками, для тестирования на людях отберут не более 10, из которых лишь одна дойдет до пациентов. Средняя стоимость разработки препарата составит более двух миллиардов долларов, а весь процесс займет не менее 15 лет. За это время накопится огромное количество разнородной информации, которую фармкомпании будут использовать для принятия самых разных решений. Давайте посмотрим, что это за информация, как и какие решения она помогает принимать, начиная с разработки фундаментальной идеи и вплоть до этапа реальной помощи пациенту.

MaxRokatansky 20 окт 2023 в 14:09

Исследование рыночной корзины на основе данных розничной торговли в Стамбуле

5 мин

2.2K

Блог компании OTUSМашинное обучение * Визуализация данных *

Всем привет! Вот и я добралась до Хабра :).
Хочу поделиться своей проектной работой, которую написала в рамках курса OTUS "Machine Learning.Basic".

Итак, нас ждет путешествие в увлекательный мир шопинга в Стамбуле!

Целью работы было получить представление о тенденциях и моделях покупок в Стамбуле и определить наиболее оптимальную модель для анализа данных.
Языком разработки выступил Python, средой - Jupyter Notebook (anaconda3).

Для данной работы я использовала информацию о покупках в 10 различных торговых центрах в период с 2021 по 2023 год. Датасет содержит данные различных возрастных групп и полов, что дает комплексное представление о покупательских привычках в Стамбуле. Набор данных включает в себя важную информацию, такую как номера счетов, идентификаторы клиентов, возраст, пол, способы оплаты, категории продуктов, количество, цена, даты заказа и расположение торговых центров.

1 2 ...

178 179

180

181 182 ...

472 473

Машинное обучение *

Борьба с несбалансированными данными

Как экспертиза в области мониторинга событий ИБ помогает создавать качественные продукты. Часть 3

Предсказание остановок оборудования с использованием LSTM и Байесовского подхода

Как получить полезную информацию из своих категориальных признаков?

12 лучших инструментов аннотирования изображений на 2023 год

Работа с временными рядами в Python. Часть 2

Выявление схожести между произведением искусства из коллекции музея и работами автора методами ML

Как выбрать GPU для машинного обучения

Диффузионные модели в CV. Что за зверь?

Разработан инструмент, позволяющий художникам «отравлять» свой контент для ИИ

Без работы не останемся: к 2030 году ИИ добавит семь новых профессий

LLM'ы в преобразовании запроса на естественном языке в SQL (text2sql)

Как применять метод PCA для уменьшения размерности данных

Ближайшие события

Как провести анализ рекламных креативов с помощью генеративных сетей

Почему важна разметка данных: в основе ChatGPT лежит труд людей

«Большие вызовы» в «Сириусе», или как мы обычно проводим лето

Русский LLM-помощник (saiga) с кэшем, используя RAG (Retrieval-Augmented Generation)

Делаем 10-минутную задачу за 2 часа с помощью ChatGPT

Как Data Science помогает разрабатывать лекарства

Исследование рыночной корзины на основе данных розничной торговли в Стамбуле

Вклад авторов