Все потоки
Поиск
Написать публикацию
Обновить
748.3

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Период
Уровень сложности

Апробация подхода для поиска аномалий на основе гибридных автоматов на датасете CIC Modbus 2023

Время на прочтение14 мин
Количество просмотров632

Современная система автоматизированного управления технологическими процессами (АСУ ТП) представляет собой киберфизическую систему, объединяющую информационные технологии (IT) и операционные технологии (OT). В таких системах OT-инфраструктура играет ключевую роль, обеспечивая управление производственными процессами. Однако именно атаки на OT-системы являются наиболее критичными и сложными для обнаружения, что делает их защиту одной из приоритетных задач в области кибербезопасности.

В данной статье речь пойдет о классе решений, разработанных с целью обеспечения защиты OT-инфраструктур, включая системы, о которых наши знания ограничены. Это достигается за счёт использования адаптивных механизмов обеспечения безопасности, способных эффективно реагировать на изменяющиеся угрозы.

Для оценки эффективности разработанного решения проведён эксперимент по выявлению аномальной сетевой активности в CIC Modbus dataset 2023.

Читать далее

Поднимаем DeepSeek llm локально

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров20K

Все уже слышали про новую модель deepseek r1, которая обогнала по бенчмаркам openai. Компания Deepseek выложила веса и дистилляты в открытый доступ, благодаря чему мы можем их запустить.

В статье поднимем дистилляты модели r1 используя llama.cpp - потребуются лишь базовые умения работы с bash, docker и python. Самостоятельный запуск проще простого.

Читать далее

Считаем по головам: как проверить пассажиропотоки с помощью искусственного интеллекта

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров1.8K

Привет, Habr! Это Сергей Пономаренко, я занимаюсь аналитикой данных в «МосТрансПроекте». Как и многие современные компании, мы применяем искусственный интеллект в нашей деятельности. Недавно мы впервые использовали машинное зрение для анализа пассажиропотоков на Большой кольцевой линии. Подробности расскажу в деталях под катом.

Читать далее

UEBA: как анализ поведения помогает защищать данные

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров3.5K

В последние годы утечки данных и торговля украденной информацией стали пугающе обыденными. Компании по всему миру ежедневно сталкиваются с атаками, а взломанные учетные данные и фишинг — уже не исключение, а главный вектор компрометации.

Классические методы защиты, основанные на статических правилах, всё чаще оказываются недостаточными. Здесь на сцену выходит UEBA (User and Entity Behavior Analytics) — технологии, анализирующие поведение пользователей, устройств и приложений в сети. Они позволяют обнаруживать аномалии и потенциально вредоносную активность ещё до того, как произойдёт инцидент.

Однако есть нюанс: коммерческие решения UEBA могут стоить дорого. Поэтому всё больше организаций задумываются над тем, как выстроить защиту самостоятельно, адаптируя доступные инструменты и подходы под свои реалии.

Как работают UEBA-системы? Какие есть open-source альтернативы? И можно ли создать собственную систему анализа поведения без миллионных бюджетов? Об этом — в моей статье.

Читать далее

МРТ для DataScience. Часть 4

Время на прочтение7 мин
Количество просмотров939

«Геометрия МРТ изображений» — продолжаем разбираться со особенностями МРТ-данных для обучения нейронных сетей. Сегодня: Размеры и значения пикселей\вокселей. Поле зрения (FOV). Системы координат.

Содержание и первые части цикла статей здесь.

Читать далее

Революция в математическом мышлении малых языковых моделей с rStar-Math

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров3.7K

В данной статье представлен метод rStar-Math, демонстрирующий способность малых языковых моделей (SLM) достигать конкурентоспособных результатов, сопоставимых и даже превосходящих показатели модели OpenAI o1 в задачах математического рассуждения, без использования дистилляции знаний из более крупных моделей. Ключевой особенностью rStar-Math является применение "глубокого мышления" посредством поиска по дереву Монте-Карло (MCTS), где SLM выступает в роли модели политики, генерируя последовательность шагов решения, а другая SLM оценивает их, действуя как модель вознаграждения за процесс. Представлены три ключевые инновации: метод синтеза данных CoT с расширением кода, новый подход к обучению модели предпочтения процессов (PPM) и стратегия саморазвития. Экспериментальные результаты показывают значительное улучшение математических способностей SLM, подтверждая эффективность предложенного подхода.

Читать далее

Данные для обучения моделей иссякли. Что будет дальше?

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров6.5K

В последнее время в медиаполе было много сообщений о том, что закончились данные для обучения новых больших языковых моделей. Не просто размеченные данные, а новые, с которыми можно работать, включая их разметку. Проще говоря: большие модели теперь знают все, что есть в интернете. И это серьезный вызов как для отрасли AI, так и для развития нашей цивилизации в целом. 

С вами Павел Бузин из Cloud.ru, я каждый день работаю с данными для машинного обучения, и сегодня мы разберемся, что будем делать, когда у моделей закончится «еда».

Читать дальше

Знакомство с AI, собеседование и основы DSP

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров1.2K

Пару месяцев назад я проходил собеседование, где требовался некоторый опыт в DSP, и на вопрос, является ли CIC фильтр БИХ или КИХ, я ответил, что КИХ, на что мне ответили, что раз там в структуре рекурсия, то он именно БИХ. Я несколько удивился, но понял ход рассуждений собеседующего и в принципе согласился с таким подходом. Мой давний опыт с CIC фильтрами касался программирования DDC GrayChip и Analog Devices и моделирования трактов SDR на С и в Octave, при этом в качестве имплементации CIC для моделей я использовал всем хорошо известную функцию скользящего прямоугольного окна.

Читая Хабр и отмечая постоянный рост сообщений об успехах AI - и микросхемы он разрабатывает, и программы пишет, и даже угрожает Stack Overflow, решил, что пора познакомиться c этой технологией в каким-нибудь проявлении.

Установив в Chrome Merlin, спросил его как сделать эхолот для рыбалки, какие датчики можно для него купить, какой многоканальный быстродействующий АЦП можно купить на Али для RaspberyPI и как посчитать ширину диаграммы направленности антенной решётки из 8 элементов. В целом я не узнал ничего нового, кроме предупреждения, что с АЦП могут быть проблемы подключения по SPI по быстродействию, зато этот бот одобрил применение режима DMA для ввода данных. Ну и программу для расчёта ДН на С мне показали достаточно правдоподобную. Ссылок на товары на Али я не получил, но получил набор фраз для поиска. В общем, несмотря на периодические упоминания сложности обсуждаемых вопросов и потенциальной нехватки квалификации у вопрошающего, общение было если и не очень плодотворным, но вполне профессиональным и дружелюбным.

Читать далее

Сэкономил на копирайтере: как GPT ведет канал по путешествиям на 20к подписчиков

Время на прочтение10 мин
Количество просмотров6.4K

Многие считают, что человечный текст с авторским слогом лучше потрепанного ИИ-ответа. Но это не правда. В каналах людям всегда интересен треш, халява, провокационные новости, в тематике "о путешествиях" Тайские обезьянки, ненависть к Omerica, разбившиеся Боинги или халява .

Поэтому мы написали своего ИИ-редактора, который подбирает картинки и постит новости за нас. Так мы сэкономили 20 тысяч на авторском контенте, не теряя в прибыли.

О том, как это провернули, рассказали в статье.

Читать далее

Данные — это ископаемое топливо для ИИ. Правда, что мы его исчерпали?

Время на прочтение5 мин
Количество просмотров4.8K

Илья Суцкевер, соучредитель и бывший главный ученый OpenAI, утверждает, что данные — это ископаемое топливо ИИ, и мы его исчерпали. Правда ли это?

Это заявление сделано в контексте объяснения того, что ограничение для ИИ (особенно для LLM) заключается в качестве данных, необходимых для имитации интеллекта, — ограничение, часто называемое «энтропийным разрывом».

Читать далее

Изобретаем polimer — фреймворк на Python для ускорения разработки научных прототипов

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров2K

Python — удобный инструмент для быстрого прототипирования и проверки гипотез. Он позволяет превратить оригинальную идею в рабочий MVP за считанные дни, но в условиях такой скорости разработчикам не всегда удается посвятить достаточное время тщательной проработке кода, что создает барьер на пути дальнейшего превращения прототипа в завершенный продукт.

Осознавая эти ограничения, авторы Python заложили в него специальные конструкции, позволяющие развивать язык под требования времени. Одна из таких конструкций — это аннотации типов, которые уверенно прижились в сообществе «питонистов». Сегодня мы рассмотрим новый подход к использованию аннотаций для ускорения разработки прототипов и попробуем применить его для демо‑задачи в области финтеха. Итак, поехали!

Читать далее

Контекстные бандиты в ценообразовании

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров2.8K

Всем привет! На связи команда аналитиков X5 Tech. Мы продолжаем исследовать подходы Reinforcement Learning для ценообразования. В этой статье мы рассмотрим применение контекстных многоруких бандитов на примере модельной задачи, опишем несколько реализаций и сравним их.

Читать далее

Как устроена Лаборатория Инноваций СИБУРа и зачем она нужна

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров3.3K

Создавать инновации быстро и гибко можно в стартапе или небольшой компании, но что, если ты промышленный гигант с более чем 25 заводами по всей стране, отлаженными процессами и бюджетированием, заточенными под беспрерывное производство, в котором каждая секунда на учёте и некогда экспериментировать? Как реализовывать смелые идеи в таких условиях?

Но тем не менее, мы одни из первых начали применять ИИ в промышленности и проводить цифровизацию процессов. То есть у нас активно внедряются современные технологии и реализуются смелые проекты. В портфеле СИБУРа сегодня более 30 реализованных кейсов на базе ИИ. В проработке 200+ гипотез и это число постоянно растет.

Для разработки и внедрения инноваций в СИБУРе есть Лаборатория Инноваций. А для разработок на базе искусственного интеллекта, мы организовали Лабораторию ИИ, но без пробирок и халатов, как многие могли представить, а с компами и дата-саентистами, занятыми тестированием гипотез, оценкой их потенциала, созданием и обучением моделей и многим другим интересным.

Узнать, как устроена Лаборатория ИИ

Ближайшие события

Автоматизация верификации кодовых датасетов подрядчиков с помощью LLM: снизили брак на 40% и сократили стоимость на 60%

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.9K

Привет, Хабр! Меня зовут Федор Горбунов, руковожу в Doubletapp направлением автоматизации бизнес-процессов с помощью LLM. В статье расскажу, как мы помогли клиенту автоматизировать одну из операций в производственной цепочке, как эта автоматизация ускорила поставку итогового продукта, уменьшила количество ошибок за счет сокращения ручного труда и в конечном итоге сэкономила заказчику деньги.

О чем текст:

Кодовые датасеты для обучения больших языковых моделей (LLM): как клиент работал до нас
Почему верификация данных критически важна?
Как автоматизация улучшила верификацию диалогов для больших языковых моделей
Автоматизируем процесс: что и как мы делали?
Результат в цифрах

Читать далее

Какие тренды в технологиях нас ждут в 2025 году

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров3.3K

Мобильная разработка продолжает активно развиваться по разным направлениям. Попробую выбрать несколько основных трендов развития в 2025 году:

1) ИИ

C выпуска Chat GPT осенью 2022 года и появления его аналогов у Yandex, Google и других компаний мы переживаем настоящий бум различных LLM. Спектр их использования довольно широк: ассистенты в чатах, помощники-анализаторы, генераторы контента и так далее.

Весной 2024 года Google представили ИИ-помощников, интегрированных как в саму ОС Android, так и в инструменты разработки Android Studio, а также SDK для подключения ИИ-помощников уже в своё собственное приложение. Примерно в то же время Apple объявили о создании своего ИИ-помощника на базе моделей OpenAI. Из-за разных ограничений, решения доступны не все пользователям, что делает крайне актуальной разработку аналогов (чем и занимается, в частности, Сбер). Также актуальным будет создание и обучение собственных ИИ-ассистентов на базе открытых LLM (например, известная и популярная Meta-LLama), чем уже заняты крупные компании.  

2) Кросс-платформенная разработка

Не секрет, что компания Google, разрабатывающая Flutter, в 2024 году сделала открыто ставку и на Kotlin Multiplatform, объявив совместимость с данной технологией одним из своих приоритетов. В этом году они активно занимались переводом Jetpack библиотек для разработки современного приложения Android и на кросс-платформу. Flutter также не сдаёт свои позиции и всё больше завоёвывает популярность во многих компаниях. Это хорошее решение для ускоренной разработки ряда клиентских приложений. Также он становится инструментом для удобного создания приложений под ОС Aurora.i

Читать далее

Как всё успеть к Новому году с ChatGPT

Время на прочтение3 мин
Количество просмотров2K

Обычно мы готовимся к праздникам так: оттягиваем до последнего момента, а потом впопыхах 31 числа ищем ту самую колбасу, которую раскупили. В статье расскажем, как делегировать почти всё нейросети — и наконец-то успеть.

Читать далее

Автоматизация ТОиР инженерных систем в ВТБ: кейс внедрения SAP PM для 100 000 единиц оборудования

Время на прочтение6 мин
Количество просмотров1.4K

В новостных сводках, каналах, изданиях мы все чаще наблюдаем за успехами оптимизации, автоматизации и внедрения новых систем ТОиР промышленного оборудования. На больших предприятиях оборудование принято называть активами, подчеркивая их важность для достижения целей компании.

Да, промышленное оборудование - безусловно критически важное оборудование инфраструктуры предприятия и от надежности такого оборудования во многом зависит доход компании.

А что же с активами банков? Нет, не теми финансовыми инструментами, которыми они пользуются, а «железными» активами, которые также помогают банкам работать. Как же быть с обслуживанием инженерного оборудования или оборудования противопожарных систем, а еще и кассовой техники? - зададимся мы вопросом. Почему про процессы обслуживания этого оборудования мы мало где можем найти информацию? Ведь оно также является немаловажным звеном основной цепочки бизнес-процесса предприятия, и от его бесперебойной работоспособности зависит многое.

Возьмем например банк. Инженерные системы и системы противопожарной безопасности банка – это «сердце», жизненно важный элемент объекта. Кассовая техника – это «стержень» кассового узла, центра пересчета. Исправное и безотказное состояние элементов инженерных систем обеспечивает удобство, уют и комфорт сотрудникам и клиентам банка, а кассовой техники – непрерывность процесса пересчета и, как следствие, напрямую влияет на прибыль.

Наша команда Банка ВТБ давно занимается этими вопросами и мы хотим рассказать об одной такой истории автоматизации процессов ТОиР в банковской сфере.

В 2020 году Банк ВТБ, как и положено крупным компаниям, обновлял программное обеспечение и переходил на обновленную версию SAP S4. Управление эксплуатации Административного департамента банка, проанализировав текущие процессы ТОиР, вынесла предложение включить в новую сборку программы SAP дополнительный модуль PM (ТОРО). Руководство компании поддержало идею цифровизации технического обслуживания и ремонта. Так началась история автоматизации ТОиР в Банке ВТБ.

Читать далее

Neural OCR при распознавании текста

Уровень сложностиСложный
Время на прочтение29 мин
Количество просмотров3.4K

Прогресс в машинном обучении и компьютерном зрении изменил подходы к оптическому распознаванию символов (OCR), обеспечив высокую точность оцифровки документов. Однако современные сверточные нейронные сети (CNN), используемые в большинстве OCR‑систем, сталкиваются с нехваткой качественных тренировочных данных. Эта проблема особенно затрагивает языки с ограниченными ресурсами, что создает трудности в разработке надежных систем распознавания текста. Ограниченные обучающие наборы часто снижают точность и устойчивость моделей при работе с различными форматами документов, нестандартными шрифтами и изображениями низкого качества.

Поэтому необходимо разрабатывать новые модели OCR, которые могут эффективно распознавать текст даже при недостатке данных. Такие модели должны быть гибкими и адаптивными, чтобы успешно обрабатывать документы разных стилей и форматов, а также оставаться устойчивыми к шумам и искажениям. Важно найти методы, которые обеспечат высокую точность распознавания независимо от объема обучающей выборки, что откроет возможности для применения OCR в многоязычных и многоформатных контекстах.

Исследования по улучшению эффективности и универсальности систем OCR имеют большое значение для повышения качества распознавания текста в разных условиях. В таких работах рассматриваются перспективные подходы, такие как аугментация данных, трансферное обучение и специализированные архитектуры нейронных сетей, адаптированные для работы с ограниченными данными. Эти исследования могут привести к созданию более совершенных и доступных систем OCR, что расширит их практическое применение. Улучшение качества распознавания текста позволит автоматизировать процессы обработки информации в бизнесе, образовании, архивировании, научных исследованиях и других областях, способствуя более эффективному взаимодействию с текстовыми данными в цифровую эпоху.

Читать далее

Саммаризация — Как помочь пользователям находить идеальный товар быстрее

Время на прочтение6 мин
Количество просмотров1.5K

Что, если бы все отзывы могли сокращаться в ясные и четкие выжимки, которые помогли бы пользователям быстрее находить информацию? Эту задачу называют саммаризацией, и как раз над таким проектом мы недавно закончили работать: команда Data Light должна была структурировать данные крупной платформы, чтобы сделать их доступными для автоматической обработки.

В этой статье мы поделимся деталями масштабного проекта по саммаризации, над которым команда работала уже больше года: с какими вызовами столкнулись, какие решения нашли — и что это значит для будущего обработки данных.

Читать далее

Создание плагина для IntelliJ IDE с подключением GigaChat для проверки качества кода

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров4.1K

При разработке рабочего проекта, локальный запуск которого дело достаточно ресурсоемкое, у меня возникла идея попробовать облегчить себе работу путем создания плагина, который налету при разработке может анализировать блок кода, тем самым выдавая рекомендации по оптимизации или находя ошибки.

Читать далее

Вклад авторов