
Я регулярно участвую в различных хакатонах и конкурсах по программированию, и довольно часто удаётся выигрывать.Рассказываю о внутренней кухне, вспоминаю поучительные истории с хакатонов и делюсь секретами успеха.
Я регулярно участвую в различных хакатонах и конкурсах по программированию, и довольно часто удаётся выигрывать.Рассказываю о внутренней кухне, вспоминаю поучительные истории с хакатонов и делюсь секретами успеха.
Привет, Хабр! На связи Михаил Киселев, руководитель направления в отделе ИИ компании «Цифрум» (Росатом) и руководитель лаборатории нейроморфных вычислений в Чувашском государственном университете. Сегодня подниму тему импульсных нейронных сетей. Общее представление о том, что такое искусственные нейронные сети, есть, наверное, у всех. Многие представляют, зачем они нужны, как устроены, как работают. Речь пойдет об одной их разновидности – импульсных нейронных сетях (ИНС). Нейросети вообще мыслились их создателями как компьютерные модели ансамблей нервных клеток мозга – это и из их названия следует. У разных типов нейросетей степень этого сходства разная. Так вот, ИНС – это самый похожий на биологический мозг тип нейронных сетей.
За счет этой похожести достигаются немалые преимущества. Прежде всего – энергоэкономичность нейропроцессоров. Почему же тогда мы не видим вокруг себя эти импульсные сети – в смартфонах, камерах, умных часах, умных утюгах?
Атомная энергетика — отрасль наукоёмкая. Python со своими инструментами для анализа данных и построения ИИ как раз подходит АЭС, здесь с ним можно решать амбициозные задачи на острие науки о данных. Поэтому Хабр решил разузнать побольше про Python в Росатоме. И попросил меня помочь.
Меня зовут Тимур Тукаев, я IT-редактор. Начал писать о технологиях в 2007, когда поставил свой первый Linux. Увлечён идеями свободного ПО и open source, программирую на Kotlin, делаю о нём топики в JetBrains Academy.
Я пообщался с тремя инженерами Росатома и выяснил, для чего в корпорации используют Python. Рассказываю под катом.
Выгрузить данные, свести отчет, сделать рассылку… Эти рутинные задачи «съедают» часы рабочего времени, которые с гораздо большей пользой можно было бы потратить на анализ показателей, планирование и развитие. Все эти задачи можно быстро и малозатратно перекинуть на виртуальных ассистентов — программных роботов.
Программный робот, или RPA (Robotic process automation) — технология для быстрого создания и запуска приложений-«роботов», способных имитировать действия человека при работе с системами, программами, почтой, базами данных и другим софтом.
Главная цель разработки роботов — избавиться от повторяющихся задач, не требующих сложной аналитики и «творчества», избавиться от рутинных действий, на которые ежедневно или еженедельно уходит по несколько часов рабочего времени. Речь о внесении новой информации в базы данных, составлении рассылок, сведении и форматировании данных из разных систем. Конечно, есть системы, в которых часть этих задач автоматизирована, но, когда дело касается всего процесса или сразу нескольких процессов, в игру вступают системы с разным интерфейсом и возможностями. В итоге сводить все воедино все равно приходится человеку.
Проблемы можно было бы решить созданием единой системы, но проект ее разработки и внедрения будет долгим, дорогостоящим и вряд ли эффективным. Более того, в такой системе никогда не будут реализованы надстройки и доработки, упрощающие работу небольшой команде людей или даже одному человеку. Решение — программные роботы. Они могут быть индивидуальными, «мостиком» между огромными системами и задачами конкретного сотрудника.
Привет, Хабр! На связи снова Юрий Кацер, эксперт по ML и анализу данных в промышленности, а также руководитель направления предиктивной аналитики в компании «Цифрум» Госкорпорации “Росатом”.
До сих пор рамках рабочих обязанностей решаю задачи поиска аномалий, прогнозирования, определения остаточного ресурса и другие задачи машинного обучения в промышленности. В рамках рабочих задач мне приходится часто сталкиваться с проблемой правильной оценки качества решения задачи, и, в частности, выбора правильной data science метрики в задачах обнаружения аномалий.
Привет, Хабр! На связи Юрий Кацер, эксперт по ML и анализу данных в промышленности, а также руководитель направления предиктивной аналитики в компании «Цифрум» Госкорпорации “Росатом”. В рамках рабочих обязанностей я решаю задачи в промышленности с помощью машинного обучения.
Большую часть работы по созданию моделей составляет работа с промышленными данными. В условиях стремительного роста объема информации, собираемой на производственных предприятиях в связи с развитием интернета вещей (сбор и хранение данных), важным аспектом становится качество таких данных. В то же время проблемы и ошибки в них становятся препятствием для применения методов машинного обучения и построения моделей на основе законов физики или предметной области. Такие проблемы, как выбросы, пропуски, изменение частоты дискретизации, шум, искажают результаты или делают невозможным практическое использование данных для машинного обучения.
В этой статье мы посмотрим на часто встречающиеся проблемы в промышленных данных типа временных рядов. О том, что такое временной ряд, и о других особенностях задач в промышленности я рассказываю в других статьях на хабре, рекомендую познакомиться, а мы пока перейдем к сути! На схеме ниже приведен большой список проблем в данных, о которых мы поговорим в статье.
Привет, Хабр! На связи Юрий Кацер, эксперт ML и анализу данных в промышленности, а также руководитель направления предиктивной аналитики в компании «Цифрум» Госкорпорации “Росатом”.
Недавно я выступил с докладом о том, как в рамках проекта по предиктивной аналитике на производстве мы разрабатывали систему и алгоритмы контроля технического состояния электролизера. По сути, мы разработали систему предиктивной аналитики, возились с поиском работающих подходов, долго мучались с данными о состоянии оборудования и извлекали из умов технологического персонала информацию о работе установок.
Сегодня хочу поговорить на примере этого проекта о реализации data science проектов в промышленности. С подобным докладом я также выступал ранее, видео выступления доступно по ссылке. Обычно нашей основной задачей является разработка моделей на основе данных, но работает ли такой подход всегда? Давайте поговорим об основных этапах и проблемах таких проектов и посмотрим, как мы двигались к финальному результату на примере проекта по диагностике электролизеров.
Всем привет!
Сегодня хотим поговорить с вами об участии в чемпионатах, хакатонах, соревнованиях. Меня зовут Максим Межов, я аналитик отдела предиктивного анализа компании «Цифрум» (Госкорпорация «Росатом») и уже дважды участвовал в чемпионатах, построенных на концепции WorldSkills. Эти соревнования задают стандарты технической подготовки и квалификации специалистов. Кроме оригинального чемпионата, в ряде организаций проводятся ещё внутренние. Например, в Росатоме – это AtomSkills.
Зачем участвовать в чемпионатах?
В первую очередь, для самого себя. Не все чемпионаты подразумевают награду, могут грамоту выдать. Самое главное – это возможность перезагрузиться, заново взглянуть на привычные процессы, попробовать себя в новом и оценить свои силы. Стрессануть и получить заряд адреналина.
А ещё в соревнованиях такого типа участникам дают решать реальные задачи, настоящие проблемы, с которыми сталкиваются компании на производстве. Бывают также хакатоны, где участники работают с искусственными данными, проверяют подходы, смотрят, кто лучше сделает модель, такой опыт тоже полезен, но его сложнее потом применить в жизни.
Как проходят чемпионаты
Марафоны с окончанием «skills» построены по модели известного чемпионата Worldskills. Так, DigitalSkills-2021 длился 3 дня. Каждый день мы, участники, садились спиной к спине за компьютеры и в течение определенного времени решали модуль за модулем. По сути, это как сдать 6 экзаменов за 3 дня. К каждому дню надо готовиться, работать 2 модуля, по 3 часа. В середине модуля нам давали перерыв около 15 минут и один перерыв на обед между модулями. Мобильные телефоны, прочая собственная вычислительная техника запрещены. Только выданные компьютеры, у всех одинаковые.
Решал я как-то задачку по поиску сущностей в отсканированных документах. Чтобы работать с текстом, надо его сначала получить из картинки, поэтому приходилось использовать OCR. Выбор пал на одну из самых популярных и доступных библиотек Tesseract. С ее помощью задача решается очень неплохо и процент распознавания текста достаточно высокий, особенно на хороших сканах. Но нет предела совершенству, а так же ввиду наличия большого количества документов сомнительного качества, поулучшав пайплайн разными методами, было принято решение попробовать улучшить и сам тессеракт.
Инструкция от разработчиков https://tesseract-ocr.github.io/tessdoc/Home.html не всегда сразу понятна и очевидна, поэтому и появилась мысль записать свой опыт в эту статью.
У меня на компьютере стоит Linux Mint 20.2 Cinnamon, поэтому все действия происходят в этой системе и я не могу гарантировать, что все получится точно так же в Windows или Mac.
Для начала необходимо установить бибилиотеку tesseract на компьютер. Делается это достаточно просто. Сначала проверю версию, которая уже установлена (как правило в комплекте с Linux уже есть пакет tesseract). В терминале набираем
Уважаемые читатели, добрый день!
Многие представляют АЭС и ТЭС как некие сложные установки и системы малопонятных процессов, но пользу от работы атомных и тепловых электростанций понимают практически все. Чтобы повышать безопасность и эффективность работы на станции, оперативный персонал должен постоянно совершенствовать свою профессиональную подготовку. И если реальная станция здесь не помощник, то полномасштабные и аналитические тренажеры – как раз то, что надо. Настолько то, что все приборы, ключи управления точно воспроизводят аппаратуру по составу, цвету, размерам, форме. Информацию, которая отображается на мониторах и индикаторах, не отличить по величине и внешнему виду от той, которая дается на энергоблоке. Ловкость рук, и никакого мошенничества!