Pull to refresh
168
18
Send message

Автоматическое машинное обучение: когда data scientist’ы будут не нужны

Reading time7 min
Views9.3K


Уже третий год мы проводим форум по искусственному интеллекту RAIF (Russian Artificial Intelligence Forum), на котором спикеры из мира бизнеса и науки рассказывают о своей работе. Самыми интересными докладами мы решили поделиться. В этом посте Андрей Фильченков, руководитель лаборатории машинного обучения ИТМО, рассказывает всю правду об AutoML.

В рамках прошедшего в Сколково форума RAIF 2019, организованного «Инфосистемы Джет», я выступил с докладом, в котором рассказал об AutoML и перспективах его использования. Поскольку я ученый, мне не так уж часто приходится выступать на подобных мероприятиях: обычно я участвую в научных конференциях.

Одной из основных областей, которой мы занимаемся, является AutoML. Кроме того, я являюсь техническим директором двух небольших стартапов. Один из них – Statanly technologies – создает сервисы AutoML и занимается анализом данных. Фактически я являюсь тем человеком, который придумывает алгоритмы, внедряет их и пользуется ими. Наверное, я единственный человек, который может рассказать про AutoML со всех трех возможных позиций.
Читать дальше →

Интеграционная шина для Банка СОЮЗ (АО): проектирование и автотестирование

Reading time4 min
Views6.8K


Переоценить важность тестирования сложно, особенно когда речь заходит об интеграционной платформе для взаимодействия систем кредитного конвейера. В этом материале мы хотим рассказать о том, как наша команда сначала спроектировала такую шину, а потом запустила для нее автотесты.
Читать дальше →

17 мгновений IT. Личный опыт самоорганизации от руководителя отдела

Reading time4 min
Views15K


Почему 17, спросите вы? Потому что мой путь в ИТ начался именно 17 лет назад. При этом последнее десятилетие я работаю в компании «Инфосистемы Джет», где произошло мое профессиональное становление. Но сегодня я расскажу не о перипетиях корпоративной жизни, а о самовоспитании и литературе, которая мне помогала все эти годы.

Первая необходимость в осознанной самоорганизации у меня возникла, когда я еще работал бизнес-аналитиком в начале десятых. В какой-то момент у меня появилось очень большое количество задач, и я обратился за советом к одному коллеге, который всегда ходил с ежедневником. В ответ он предложил мне книгу о тайм-менеджменте. Так я и познакомился в 2012 году с книжкой Глеба Архангельского «Тайм драйв». Глеб достаточно подробно расписывает, как управлять временем, и предлагает свою собственную систему ведения и планирования времени. Я у него первого прочитал про «лягушек», которых надо «есть» по утрам. «Лягушкой» он (или, возможно, кто-то до него) называл задачи, которые тебе неприятны, но сделав с утра одну такую задачу и потом поняв, что у тебя больше нет таких задач, ты испытаешь невероятное удовольствие. Он же рассказал мне о том, что «слона надо есть по кускам»: то есть если у тебя есть громадная задача, ее надо порезать на части и «есть ее бифштексами». Так у меня на столе появились бумажные ежедневники (не путать с блокнотами, они были всегда и есть сейчас), а в них – записи.
Читать дальше →

Вредные советы про внедрение Machine Learning в бизнес

Reading time6 min
Views5.4K
Не стоит полагаться на искусственный интеллект,
если у вас нет глубокого понимания процесса.


Рэй Далио


В компании «Инфосистемы Джет» мы внедряем машинное обучение в самых разных отраслях, и на основе нашего опыта выделяем необходимые составляющие успешного внедрения:

  • постановка задачи, нацеленная на оптимизацию приоритетной для бизнеса метрики;
  • команда data scientist-ов, которые обладают компетенциями и готовы глубоко погружаться в технологический процесс;
  • данные, которые соответствуют бизнес-задаче;
  • адекватный выбор метода.

На практике все эти элементы вместе встречаются крайне редко, по статистике, только около 7% проектов с ML считаются успешными. Проекты, имеющие все перечисленные составляющие, можно смело относить к прорывным! Для иллюстрации, мы сформулировали несколько тезисов, которые можно назвать вредными советами про внедрение машинного обучения в бизнес.
Читать дальше →

AI для людей: простыми словами о технологиях

Reading time9 min
Views119K
Представляем исчерпывающую шпаргалку, где мы простыми словами рассказываем, из чего «делают» искусственный интеллект и как это все работает.

В чем разница между Artificial Intelligence, Machine Learning и Data Science?



Разграничение понятий в области искусственного интеллекта и анализа данных.
Читать дальше →

Как не утонуть в рутине, или Наш опыт сравнения AWR-дампов при проведении нагрузочного тестирования

Reading time8 min
Views9K
Всем привет! Меня зовут Людмила, я занимаюсь нагрузочным тестированием, хочу поделиться тем, как мы выполнили автоматизацию сравнительного анализа регрессионного профиля нагрузочного тестирования системы с БД под СУБД Oracle вместе с одним из наших заказчиков.

Целью статьи является не открытие «нового» подхода к сравнению производительности БД, а описание нашего опыта и попытка автоматизировать сравнение полученных результатов и
снизить количество обращений к DBA Oracle.


Читать дальше →

Обзор методов отбора признаков

Reading time7 min
Views47K


Правильный отбор признаков для анализа данных позволяет:

  • повысить качество моделей машинного обучения с учителем и без, 
  • уменьшить время обучения и снизить требуемые вычислительные мощности,
  • а в случае входных данных высокой размерности позволяет ослабить «проклятие размерности».

Оценка важности признаков необходима для интерпретации результатов модели.

Мы рассмотрим существующие методы отбора признаков для задач обучения с учителем и без. Каждый метод проиллюстрирован open source-реализацией на Python, чтобы вы могли быстро протестировать предложенные алгоритмы. Однако это не полная подборка: за последние 20 лет было создано множество алгоритмов, и здесь вы найдёте самые основные из них. Для более глубокого исследования ознакомьтесь с этим обзором.
Читать дальше →

Нейросеть для классификации спутниковых снимков с помощью Tensorflow на Python

Reading time9 min
Views15K


Это пошаговая инструкция по классификации мультиспектральных снимков со спутника Landsat 5. Сегодня в ряде сфер глубокое обучение доминирует как инструмент для решения сложных проблем, в том числе геопространственных. Надеюсь, вы знакомы с датасетами спутниковых снимков, в частности, Landsat 5 TM. Если вы немного разбираетесь в работе алгоритмов машинного обучения, то это поможет вам быстро освоить это руководство. А для тех, кто не разбирается, будет достаточным знать, что, по сути, машинное обучение заключается в установлении взаимосвязей между несколькими характеристиками (набором признаков Х) объекта с другим его свойством (значением или меткой, — целевой переменной Y). Мы подаём на вход модели много объектов, для которых известны признаки и значение целевого показателя/класса объекта (размеченные данные) и обучаем ее так, чтобы она могла спрогнозировать значение целевой переменной Y для новых данных (неразмеченных).
Читать дальше →

Кластеризуем лучше, чем «метод локтя»

Reading time4 min
Views53K


Кластеризация — важная часть конвейера машинного обучения для решения научных и бизнес-задач. Она помогает идентифицировать совокупности тесно связанных (некой мерой расстояния) точек в облаке данных, определить которые другими средствами было бы трудно.

Однако процесс кластеризации по большей части относится к сфере машинного обучения без учителя, для которой характерен ряд сложностей. Здесь не существует ответов или подсказок, как оптимизировать процесс или оценить успешность обучения. Это неизведанная территория.

Облако точек. Как мы развиваем цифровые технологии в строительстве

Reading time6 min
Views11K
Возможно, вы в курсе, а может быть и нет, но мы плотно занимаемся разработкой технологий Индустрии 4.0. IoT, машинное обучение на реальном производстве, цифровые двойники предприятий – со всеми этими вещами мы знакомы не понаслышке. Другими словами, мы знаем, как подружить «цифру» с брутальным тяжёлым машиностроением или нефтедобычей.

Но сегодня мы хотим рассказать о чуть менее героических разработках для не менее суровой строительной отрасли. Мы решили озаглавить свой рассказ «Облако точек», и совсем скоро вы поймёте, почему именно так.
Читать дальше →

Чат-боты — отстой

Reading time12 min
Views16K


Друзья, мы предлагаем вашему вниманию сокращённый перевод любопытного выступления, посвящённого проблематике создания чат-ботов: каковы особенности этой задачи, какие трудности встают на пути разработчиков и как их можно решать. А ещё мы попросили прокомментировать этот материал эксперта Центра машинного обучения «Инфосистемы Джет». Его мнение вы найдёте в конце статьи.
Читать дальше →

Почему мы решили развивать практику тестирования ML

Reading time5 min
Views6.7K


Прогнозные и оптимизационные сервисы на базе Machine Learning вызывают сегодня интерес у многих компаний: от крупных банков до небольших интернет-магазинов. Решая задачи различных клиентов мы столкнулись с рядом проблем, что послужило для нас почвой для рассуждений на тему особенности тестирования ML. Для тех, кому это интересно, — наш очередной пост от тест-менеджера компании «Инфосистемы Джет» Агальцова Сергея.
Читать дальше →

Анонимность – иллюзия. По данным из обезличенных датасетов можно идентифицировать реальных людей

Reading time3 min
Views26K


Theguardian.com опубликовал выводы из исследования, сделанного двумя именитыми вузами: Бельгийским университетом UCLouvain и Imperial College London: ученые подтверждают, что существует множество способов связать любые анонимные данные с реальными людьми.
К примеру, данные с 15 демографическими атрибутами «раскроет 99,98 % жителей Массачусетса». А для небольших популяций эта процедура ещё проще: к примеру, если речь идёт о маленьком городке, то «будет не сложно идентифицировать жителей Харвич Порт, Массачусетс, в котором живёт меньше 2000 человек».
Читать дальше →

Как продать SD-WAN бизнесу

Reading time4 min
Views5.5K
Помните, как в первой части фильма-блокбастера «Люди в черном» отличники боевой подготовки резво стреляют во все стороны по картонным чудищам, и только герой Уилла Смита, после непродолжительного обдумывания, «вынес мозги» картонной девочке, у которой в руках была книжка по квантовой физике? Причем тут, казалось бы, SD-WAN? А все очень просто: на сегодняшний день продажи решений этого класса в России отсутствуют. Мы занимаемся темой SD-WAN более трех лет, потратили на нее сотни человеко-дней, инвестировали в обучение инженеров, в лаборатории и стенды, пресейл, презентации, демонстрации, тесты, тесты, тесты… Но сколько внедрений? Нисколько!

Я хотел бы порассуждать о причинах этого факта и рассказать о выводах, которые мы сделали совместно с коллегами из Cisco на основании анализа нашего опыта.
Читать дальше →

Что упускают хакеры при взломе банка на PHDays

Reading time3 min
Views5.8K


Банк из года в год становится особенной сущностью для итогов «Противостояния» на PHDays. В 2017 хакеры смогли вывести из банка больше денег, чем в нем было. В 2018 году успешность финальной атаки на банк при отключенном нами антифроде (по замыслу организаторов) обеспечила победу одной из команд.

Ежегодно системы защиты банка в виртуальном городе F отражают тысячи попыток вывода денег со счетов «мирных» жителей, но каждый раз эти попытки скорее напоминают брутфорс на банковский API, чем попытку провести операцию в обход антифрод-системы, о наличии которой знает каждая команда атаки.

Какие тенденции можно заметить при сравнении атакующих и «законопослушных граждан» на The Standoff – тема этой небольшой заметки. Она же является скромной подсказкой нападающей стороне, хотя, быть может, она не будет прочитана в эти напряженные последние дни подготовки всех участников :)
Читать дальше →

Сравнение промышленных СОВ: ISIM vs. KICS

Reading time18 min
Views15K


Нашумевшие атаки на норвежского производителя алюминиевых изделий Norsk Hydro и энергосистему Венесуэлы лишний раз показали, что промышленные предприятия по-прежнему уязвимы для хакеров. Мы решили разобраться, какие специализированные СОВы – системы обнаружения вторжений – помогают бороться с подобными киберпреступлениями и способны «увидеть» злоумышленников в сетевых сегментах АСУ ТП. Выбирая из пяти решений, мы остановились на двух – KICS for Networks от «Лаборатории Касперского» и ISIM от Positive Technologies – и сравнили их по 40 критериям. Что у нас получилось, вы сможете узнать под катом.
Читать дальше →

Когда город засыпает…

Reading time3 min
Views6.7K


Отгремело открытие PHDays, через наш виртуальный город прошло несколько тысяч человек и чуть меньше людей послушало доклады. Зал опустел, хакеры пытались взломать защитников. Защитники в свою очередь старались увидеть атаки, чтобы отбиться от хакеров. И все было как-то грустно, если даже не сказать уныло.
Читать дальше →

Последний IRM — апгрейдим Siebel до IP17+

Reading time9 min
Views4.2K


Ну всё, шутки в сторону — поговорим о вечном. В этом посте вы не найдете брызг радости или намека на легкость бытия. Потому что он для тех, кто боролся и искал, проходя каждый новый круг апгрейда Siebel. Начиная с 2013 года, Oracle проводит кампанию по принципиальной модернизации CRM-системы. На текущий момент мы уже пережили семь (c IP13 до IP19) инновационных пакетов изменений (Innovation Packs). До 2013 года релизы выпускались раз в 2–3 года, последние 5–6 лет обновления Siebel публиковались намного чаще, выдерживая четкий график: минорные релизы (patchset) выходили ежемесячно, принципиально новые версии (major) — ежегодно и зачастую это означало для клиента необходимость глобальной переработки или даже «перевнедрения» своей системы. Для упрощения апгрейдов Siebel вендор разработал IRM (Incremental Repository Merge) — функционал облегчающий процесс установки новых версий c пакетами инноваций. О нем и пойдет речь.
Читать дальше →

Управляем непрерывностью бизнеса с ClearView

Reading time11 min
Views2.3K


Прочитав заголовок, многие наверняка подумали, что этот материал не для них. Но не торопитесь закрывать страницу! Вспомните знаменитое отключение электроэнергии в Москве, которое случилось больше 10 лет назад из-за аварии на подстанции в Чагино. Одного директора крупного издательского дома оно застало врасплох аккурат во время сдачи журнала в печать. До часа Х оставалось всего 3 дня, а тут энергетический коллапс!

Непрерывность бизнеса (НБ) — это возможности компании по планированию и реагированию на инциденты и нештатные ситуации для поддержания своих бизнес-процессов на оптимальном уровне. В современном обществе НБ не только можно, но и нужно уметь эффективно управлять. В этом посте я расскажу о платформе ClearView, которая создана для автоматизации управления всем жизненным циклом НБ.
Читать дальше →

Путь пресейл-инженера, или Стажировка, изменившая жизнь

Reading time8 min
Views12K
Шел 2014 год, доллар стоил 35 рублей, я заканчивала учебу в вузе. Специальность для девушки я выбрала довольно редкую – информационная безопасность. Приближалась последняя сессия, нужно было готовиться к госэкзаменам. Между парами я подрабатывала лаборантом на кафедре, да еще и записалась волонтером на Олимпиаду в Сочи. Скучать было совсем некогда, как вдруг мне на глаза попалось объявление о стажировке по специальности – в «Инфосистемы Джет» требовался пресейл-инженер по информационной безопасности. Решив, что такую возможность нельзя упускать, я бросила себе еще один вызов. Откликнулась на вакансию, выполнила тестовое задание, прошла собеседование – и продолжила покорять мир ИБ уже на практике.

Сегодня, спустя 5 лет, мне хочется поделиться, каково это – быть стажером и что происходит после. На моем пути было всякое: за первыми безмятежными днями последовали переживания, ошибки, слезы, выгорание, преодоление себя и попадание на доску почета. Но обо всем по порядку.


Читать дальше →

Information

Rating
438-th
Works in
Registered
Activity