Все потоки
Поиск
Написать публикацию
Обновить
765.13

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

О развитии предсказательного обслуживания на примере диагностики трансформатора

Уровень сложностиПростой
Время на прочтение15 мин
Количество просмотров8.5K

Предсказательное обслуживание – быстроразвивающийся подход к организации технического обслуживания и ремонта. Стремительное развитие и внедрение предсказательного обслуживания основано на современных достижениях цифровизации и четвертой промышленной революции. В основе технологии лежит использование возможностей Анализа Больших данных, Искусственного интеллекта, Интернета вещей, Облачных сервисов. 

Одним из наших проектов по теме предсказательного обслуживания является разработка системы диагностики трансформатора на основе цифрового двойника. Мы хотим поделиться частью этого проекта – этапом создания цифрового двойника и обучения моделей машинного обучения для решения задачи раннего обнаружения межвитковых замыканий и отклонений параметров трансформатора от номинальных. 

Читать далее

Как определить причины достижений и неудач футбольного клуба с помощью цифр

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров2.3K

Для того, чтобы с помощью цифр получить информацию о происходящих на футбольном поле событиях, предлагаю оценить как влияет тот или иной показатель на результат матча, а потом выяснить по каким из показателей команда недорабатывает и как это исправить.

В виде тепловой карты представлено влияние основных признаков на забитые мячи команды. Забитые мячи олицетворяют результаты любого футбольного коллектива, хотя можно экспериментировать и с другими целевыми переменными. Признаки представлены только основные. Конечно, существуют и другие, и их очень-очень много.

Читать далее

CI/CD в Data Science, MLOps в финтехе и тенденции в потоковой передаче данных

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров5.3K

Звание текста с лучшими мемами получила статья про антисоветы для работы с ML-экспериментами.

Привет, Хабр! Это уже четвертый выпуск дайджеста по ML и работе с данными для тех, кто тащит эти направления в своих компаниях. Сегодня в программе — антисоветы для работы с ML-экспериментами, обзор библиотеки для Pandas с примесью ChatGPT, очень сложная статья про Ray и многое другое. Еще больше полезных текстов по DataOps и MLOps — в Telegram-сообществе «MLечный путь».

Используйте навигацию, если не хотите читать текст полностью:

Теория
Практика
Мнение
Инструменты
Видео
Читать дальше →

Mini-ml-stand для бедных

Уровень сложностиПростой
Время на прочтение17 мин
Количество просмотров6.8K

Всем привет! Снова на связи General RJ45 с новым прекрасным решением, но на сей раз по теме ML и аналитики.

На моем счету уже два законченных ML проекта и за это время я достаточно много поработал с аналитиками и ML инженерами, да и вообще над созданием ML и аналитических решений и могу сказать что у меня сформировалось своё представление о данных решения и я вижу какие проблемы возникают в данных процессах и что нужно разработчикам для их более эффективной работы, как пример это прозрачность всего процесса чтобы они могли видеть весь процесс от начала до конца и контролировать его.

В рамках данной статьи хочу рассказать как можно максимально просто поднять ML стенд на котором можно будет вести полноценную разработку и ETL процессов, и различных обучений моделей и их переобучений.

Стек того что мы поднимем в рамках этой статьи, также будут и другие инструменты как Nginx, Postgresql но мы их учитываем как часть компонентов ниже:

Развернем свой стенд с мл и etl?

Обзор бесплатных ботов ChatGPT в телеграме

Время на прочтение5 мин
Количество просмотров264K


Недавно мы писали про бесплатные фронтенды к ChatGPT, созданные главным образом по причине блокировки ОpenAI в РФ. Но технологии не стоят на месте — и сейчас уже в ходу телеграм-боты того же предназначения. Их появление совершенно логично, так как многим людям удобнее работать в привычном мессенджере. А в последние месяцы количество пользователей ChatGPT выросло многократно (и это ещё учебный год не начался).
Читать дальше →

Решение задачи определения RUL трансформаторов с помощью машинного обучения на python

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров5K

Для качественного технического обслуживания и ремонта необходимо заранее знать о возможных неисправностях, а также об остаточном ресурсе трансформаторного оборудования. Необходимо разработать модель, которая будет определять остаточный ресурс оборудования по последним 420 точкам.

В данной статье рассмотрен распространенный подход решения задачи определения RUL силовых трансформаторов на основе моделей регрессии, так как у нас есть диагностические данные (временные ряды, сигналы) и разметка в виде значений длительности оборудования до отказа.

Читать далее

Взламывая ChatGPT: как мы участвовали в хакатоне по атакам на ИИ

Время на прочтение19 мин
Количество просмотров8.1K
Мы поучаствовали в хакатоне от LearnPrompting, посвященном атакам на ChatGPT, и заняли восьмое место среди около четырехсот команд. Если вам интересно, зачем мы провели несколько ночей за взломом чат-бота, как нам пригодился опыт борьбы с фишингом и умеют ли нейросети хранить секреты, — добро пожаловать под кат.



Читать дальше →

Фреймворк vtb_scorekit для разработки интерпретируемых скоринговых моделей

Уровень сложностиСредний
Время на прочтение14 мин
Количество просмотров3.6K

Всем привет! Меня зовут Сакович Руслан, я занимаюсь корпоративным риск-моделированием, и сегодня расскажу о построении скоринговых моделей. Эти модели позволяют оценивать кредитные риски и являются крайне важными в деятельности банка. К ним предъявляются высокие требования в плане точности, стабильности и интерпретируемости результатов, поэтому мы в основном не можем использовать методы «черные ящики» (как например бустинги или нейросети), и обычно вынуждены пользоваться логистической регрессией. Сам по себе метод логистической регрессии довольно простой с точки зрения математики, однако для построения хорошей модели он требует тщательной предварительной обработки и энкодинга исходных данных, а также последующего довольно трудоемкого отбора переменных в модель. Причем стандартные библиотеки вообще не предоставляют возможности построения хоть какой-нибудь адекватной модели прямо из коробки. Мы решили стандартизировать весь процесс разработки скоринговых моделей, собрали используемые нами алгоритмы и объединили в библиотеку vtb_scorekit.

Читать далее

Нейросеть распознает 15 документов за 1 секунду. А так можно было?

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров27K

Ковер-самолет, меч-кладенец, скатерть-самобранка, шапка-невидимка, молодильные яблоки, волшебный клубочек и… ? Правильно, решение для распознавания полнотекстовых документов от Smart Engines. Оно, как и все упомянутые предметы, совершенно уникально, неповторимо и обладает самым что ни на есть волшебным функционалом. Например, распознает текстовые данные со скоростью 15 страниц в секунду. А еще распознает текст на мятых листках. А еще распознает текст в темноте. А еще распознает текст на арабском. А еще на японском. А еще на иврите. И при этом всем существует не в сказках, не в 2030 году, а наяву. Рассказываем и показываем, как выглядит OCR без слабых мест.

Читать далее

Нейросеть «Жириновский» — на что способна новая нейросеть от Наносемантики

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров21K

Не так давно компания «Наносемантика» представила свою новую нейросеть - «Жириновский», способную на синтез текста, синтез речи, и компиляцию всего указанного в видеоряд (Lip Sync).

И в статье специалисты компании продемонстрировали возможности «Жириновского», задав несколько вопросов из разных сфер жизни, в которых проект может быть задействован в будущем.

Читать далее

Как превратить данные в продукт: выжать из данных максимум благодаря принципам продакт-менеджмента

Время на прочтение10 мин
Количество просмотров4.5K


Многие компании хотят, чтобы их технологии были не просто затратами, а конкурентными преимуществами. Это в том числе касается технологий работы с данными. Часто такое стремление выражается словами «Мы хотим воспринимать данные как продукт». Команда VK Cloud перевела статью, которая поможет применить принципы продакт-менеджмента к управлению дата-продуктами компании.
Читать дальше →

Как использовать Midjourney: подробный гайд, лайфхаки, промты

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров119K

Ранее мы рассказывали о своих впечатлениях и результатах тестирования приложений на основе нейросети. В своей работе на платформе «РСХБ в цифре» мы активно используем Midjourney и искусственный интеллект. В новой статье хотим поделиться советами, которые позволят с нуля разобраться в основных функциях и командах, чтобы приступить к созданию интересных изображений с помощью этого приложения.

Читать далее

GPT-4, азиатская разработка и зерокодинг: на что сейчас ориентироваться айтишникам

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров7.4K

Специалист по машинному обучению Игорь Котенков рассказывает, так ли страшен искусственный интеллект, как его малюют, и какие сферы разработки явно переоценены

Читать далее

Ближайшие события

Система распознавания COVID-19 по голосовым признакам

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров1.5K


Исследователи и медики признают ценность голоса как биометрического параметра, который может отражать не только индивидуальные особенности человека, но и его здоровье. Несмотря на то, что пандемия COVID-19 уже закончилась, болеть ковидом люди не перестали. Поэтому разработка и применение голосовых систем для распознавания заболевания может позволить быстрее диагностировать болезнь при появлении ее симптомов.

Традиционные методы диагностики Covid-19, такие как ПЦР-тесты и анализы на антитела, обеспечивают точные результаты, но они требуют времени, ресурсов и инфраструктуры. Голосовая система распознавания, с другой стороны, основывается на анализе изменений в голосе и речи, которые могут быть связаны с присутствием вируса.

Учась в Университете ИТМО, в рамках проекта я создал систему распознавания COVID-19, которая анализирует способности голосовых биометрических признаков в выявлении заболевания. В статье разберу подробнее, какие методы я использовал и, как это вообще работает.
Читать дальше →

Матирование изображений, или как получить фотореалистичный передний план

Время на прочтение7 мин
Количество просмотров4.2K

В последнее время в области компьютерного зрения произошло много революционных событий, но есть ряд классических задач, решение которых остается актуальным. Одна из них —  матирование, которое применяется для редактирования изображений и видео через извлечение нужных объектов с субпиксельной точностью. Решения этой задачи вы можете видеть в программах для кинопроизводства и фоторедакторах. В этой статье мы хотим познакомить вас с нашим новым подходом к матированию изображений. Изначально мы в SberDevices стремились решить задачу для портретов, но обобщающая способность модели позволяет использовать её и для изображений, выполненных в полный рост, для картинок с животными и так далее.

Читать далее

Заметки про увеличение картинок нейронными сетями

Уровень сложностиСложный
Время на прочтение28 мин
Количество просмотров7.9K


TLDR — это не готовое решение, это попытка самостоятельно разобраться, подобрать архитектуру и обучить генеративно-состязательную модель (GAN) для увеличения картинок в 2 или 4 раза. Я не претендую на то, что моя модель или путь рассуждений лучше каких-то других. Кроме того, относительно недавно стали популярны трансформеры и diffusion модели — заметки не про них.


С заметками не получилось линейной структуры повествования — есть отступления "в сторону" и уточнения. Можно пропускать нерелевантные заметки. Например, описание подготовки данных нужно, если вы хотите воспроизвести эксперименты — а в остальных случаях можно пропустить. Я написал каждую отдельную заметку по-возможности цельной и независимой от других.


Я уже был знаком со свёрточными сетками, но мне хотелось попробовать генеративно-состязательные сети. Понять, почему используют те или иные подходы. Попробовать свои идеи. Посмотреть, насколько быстро можно научить модель и насколько хорошо она будет работать.


Для обучения оказалось достаточно возможностей моего ПК. Какие-то простые эксперименты занимали десятки минут или несколько часов, самый длинный с обучением финальной большой модели — трое суток.

Читать дальше →

Как поговорить с компьютером, если у вас не поехала крыша

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров14K

Сейчас расскажу, как установить говорящего на английском ИИ локально и как попользоваться им в режиме прямого доступа. Понадобится компьютер средней паршивости, типа 16Гб памяти, проц на 8 ядер, а видюха любая и даже без.

Читать далее

Сквозная оптимизация в промышленности

Время на прочтение9 мин
Количество просмотров2.7K

В этом посте я хочу рассказать о своем опыте разработки технологии, которая управляет интеллектуальными решениями, используемыми в  промышленности, чтобы сделать их работу эффективнее и обнаружить скрытые выгоды для бизнеса.

Предыстория

Для начала приведу пример системы, которыми управляют классы продуктов, описываемых в статье.

Некоторое время назад я столкнулся с задачей оптимизации расхода ферросплавов (далее ФС). При производстве стали сталевары добавляют специальные вещества, ферросплавы, чтоб получить нужную марку с определенным химическим составом (см. схему с этапами ниже). Например, чтобы содержание Si в полученной стали было не менее 0.2 % (в технологической инструкции обычно указан диапазон, допустим от 0.2 до 0.3, но мы для простоты будем говорить только о нижней границе).

Читать далее

Как мы создаём новые языки в Yandex SpeechKit. Рассказываем на примере узбекского

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров6.4K

Всем привет! Меня зовут Антон Ермилов, я руковожу командой разработки эффективных моделей машинного обучения в Yandex Cloud. Самый популярный среди наших ML-сервисов — Yandex SpeechKit, сервис распознавания и синтеза речи. В SpeechKit мы уже создали модели распознавания речи для 10 европейских языков, турецкого и казахского, а также модели синтеза речи для пяти языков. Недавно мы добавили узбекский язык. 

В этой статье я расскажу на примере узбекского, как мы добавляем новый язык в сервис: как создаются технологии синтеза и распознавания речи, как мы обучаем модели, какие встречаются сложности.

Читать дальше

Data Fusion Contest. Издание 2-ое, переработанное и дополненное

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров1.3K

Соревнование Data Fusion Contest 2023 в этом году состоялось во второй раз и собрало  сильнейшие индустриальные команды и отдельных любителей моделей алгоритмов машинного обучения. Кто-то участвовал впервые, а кто-то, уже умудрённый прошлым опытом был явно настроен только на победу.

В этот раз мы решили принципиально изменить задание и придумали новый формат. Что произойдет, если столкнуть лицом к лицу участников, мотивированных атаковать модели машинного обучения, с другими участниками, мотивированными свои модели защищать? Кто победит, каким окажется тот стек моделей и подходов, который приведет к победе? Что важнее, знания и опыт, или гибкость ума или нестандартные подходы?

Мы задали себе все эти вопросы и решили найти ответы на практике, подготовив для участников Data Fusion Contest 2023 очень нестандартное и по теме и по формату соревнование по Adversarial ML с атаками на модели машинного обучения, а также с их защитой.

Давайте разбираться, что из этого получилось по факту, и какие решения предложили участники, чтобы оказаться в рядах победителей!

Читать далее

Вклад авторов