Pull to refresh

Вебинар «Доступный AutoML: как оптимизировать работу с ML-моделями с помощью VK Cloud и FEDOT», 18 октября

VK corporate blog


Присоединяйтесь к вебинару — вы узнаете, как автоматизировать процесс работы с ML-моделями в облаке, используя преднастроенные сервисы с платой за использованные ресурсы. Познакомитесь с Cloud ML Platform, облачной платформой, которая содержит инструменты для работы с данными и моделями — JupyterHub и MLflow, а также с AutoML-фреймворком FEDOT.

Вебинар будет интересен Data Scientists, Data Engineers, аналитикам данных и ML-инженерам.
Читать дальше →
Total votes 2: ↑2 and ↓0 +2
Views 214
Comments 0

Новый сезон про Data Science уже в подкасте ВТБ

ВТБ corporate blog Big Data *Data Engineering *

ВТБ запустил новый сезон про Data Science в подкасте Деньги любят техно. Шесть выпусков уже доступны для прослушивания:

Выпуск 1. А/В-тестирование и Data Science: как и для чего совместить

Александр Сахнов, руководитель отдела мультивариативного анализа X5 Group и Артём Летин, руководитель подразделения разработки моделей для корпоративного сегмента клиентов ВТБ обсудили метод А/В-тестирования для оценки изменений в бизнесе. Где, кроме маркетинга, применяются A/B-тесты, на какие этапы делится этот процесс и когда начинается работа датасайентистов?

Выпуск 2. Сколько датасайентистов может заменить AutoML

О практической и философской стороне AutoML, изменениях в роли специалиста в Data Science, прошлом и будущем построения моделей и возможностях Искусственного интеллекта рассуждают профи — Денис Суржко, начальник управления перспективных алгоритмов машинного обучения ВТБ и Алексей Натёкин, основатель ODS.

Выпуск 3. MLOps: зачем вам всё это надо

Для чего сегодня применяется MLOps и в каких задачах без него не обойтись завтра? Помогает ли MLOps бизнесу развивать Data Science или, может быть, мешает? В чём заключается роль специалиста по ML, и как специализации будут дробиться в будущем? В конце-концов, кто всем этим должен заниматься, и где этому учат, обсуждаем с Юрием Каревым, руководителем управления процессов и стандартов моделирования и машинного обучения ВТБ, и Петром Ермаковым, ML Brand Director Яндекса.

Выпуск 4. Дата-сайентисты — современные предсказатели?

Экспериментальный выпуск, который поможет эффективнее бороться с категоричностью и с крайностями в суждениях. Такого ещё никто не делал, а мы попробовали. В новом выпуске постарались выяснить, является ли профессия дата-сайентиста одной из древнейших. 
В дискуссии приняли участие специалисты из самых разных областей: 
Бронислав Виногродский, китаевед, писатель, переводчик основополагающих китайских текстов; Константин Воронцов, доктор физико-математических наук, профессор РАН, МГУ и МФТИ; Дмитрий Доронин, социальный антрополог, этнограф, научный сотрудник РГГУ и РАНХиГС; Наталия Пузырникова, заместитель председателя правления, руководитель службы управления рисками Газпромбанка; Денис Суржко, начальник управления перспективных алгоритмов машинного обучения департамента анализа данных и моделирования ВТБ. Ведёт дискуссию Вадим Кулик, заместитель президента-председателя правления ВТБ.

Выпуск 5. Концепция Data Fusion: настоящее и будущее работы с данными

В России каждая четвертая компания использует технологии сбора и обработки больших данных, а в финансовой отрасли — почти каждая вторая компания. Обсуждаем тренды развития рынка данных: почему все чаще звучат идеи объединения данных из разных источников — естественно, безопасного и обезличенного. Нужно ли такое объединение данных бизнесу, и решения каких технологических задач оно потребует от дата-сайентистов. 
В новом выпуске подкаста «Деньги любят техно» серии Data Science на эти темы потеоретизировали вице-президент, заместитель руководителя департамента анализа данных и моделирования ВТБ Сергей Голицын и директор по разработке RnD центра Big Data МТС Никита Зелинский.

Выпуск 6. Злонамеренные атаки и ошибки обучения

Чем больше мы доверяем ИИ, тем чаще слышим о его ошибках и уязвимостях. Пробуем разобраться, какие с этим связаны риски сейчас и какие появятся в будущем. Почему многое зависит от входных данных на этапе обучения нейросети. И как часто в жизни встречаются адверсальные атаки. 
Дмитрий Берестнев, лидер стрима разработки моделей для партнеров и Платформы больших данных ВТБ, поговорил об этом с Григорием Кабатянским, д. ф.-м.н., вице-президентом по академическому сотрудничеству Сколтеха, и Иваном Фурсовым, специалистом в области разговорного искусственного интеллекта. Получилась одна из самых жарких дискуссий в специальной DS-серии нашего подкаста.

Слушайте новый сезон «Деньги любят техно» про Data Science на любой удобной для вас подкастерской площадке: Деньги любят техно – Podcast.ru.

Читать далее
Rating 0
Views 435
Comments 0

Ограничения глубинного обучения и будущее

Python *Programming *Machine learning *
Translation
Эта статья представляет собой адаптацию разделов 2 и 3 из главы 9 моей книги «Глубинное обучение с Python» (Manning Publications).

Статья рассчитана на людей, у которых уже есть значительный опыт работы с глубинным обучением (например, тех, кто уже прочитал главы 1-8 этой книги). Предполагается наличие большого количества знаний.



Ограничения глубинного обучения


Глубинное обучение: геометрический вид


Самая удивительная вещь в глубинном обучении — то, насколько оно простое. Десять лет назад никто не мог представить, каких потрясающих результатов мы достигнем в проблемах машинного восприятия, используя простые параметрические модели, обученные с градиентным спуском. Теперь выходит, что нужны всего лишь достаточно большие параметрические модели, обученные на достаточно большом количестве образцов. Как сказал однажды Фейнман о Вселенной: «Она не сложная, её просто много».
Читать дальше →
Total votes 22: ↑19 and ↓3 +16
Views 22K
Comments 13

Когда лучше не использовать глубинное обучение

Data Mining *Algorithms *Big Data *Mathematics *Machine learning *
Translation
Я понимаю, что странно начинать блог с негатива, но за последние несколько дней поднялась волна дискуссий, которая хорошо соотносится с некоторыми темами, над которыми я думал в последнее время. Всё началось с поста Джеффа Лика в блоге Simply Stats с предостережением об использовании глубинного обучения на малом размере выборки. Он утверждает, что при малом размере выборки (что часто наблюдается в биологии), линейные модели с небольшим количеством параметров работают эффективнее, чем нейросети даже с минимумом слоёв и скрытых блоков.

Далее он показывает, что очень простой линейный предиктор с десятью самыми информативными признаками работает эффективнее простой нейросети в задаче классификации нулей и единиц в наборе данных MNIST, при использовании всего около 80 образцов. Эта статья сподвигла Эндрю Бима написать опровержение, в котором правильно обученная нейросеть сумела превзойти простую линейную модель, даже на очень малом количестве образцов.

Такие споры идут на фоне того, что всё больше и больше исследователей в области биомедицинской информатики применяют глубинное обучение на различных задачах. Оправдан ли ажиотаж, или нам достаточно линейных моделей? Как всегда, здесь нет однозначного ответа. В этой статье я хочу рассмотреть случаи применения машинного обучения, где использование глубоких нейросетей вообще не имеет смысла. А также поговорить о распространённых предрассудках, которые, на мой взгляд, мешают действительно эффективно применять глубинное обучение, особенно у новичков.
Читать дальше →
Total votes 19: ↑18 and ↓1 +17
Views 15K
Comments 5

Системы ИИ научились создавать умные модели для ML: дайджест для начинающих

1cloud.ru corporate blog Programming *Machine learning *Reading room
В ноябре участники исследовательского проекта Google Brain опубликовали результаты эксперимента AutoML. Им удалось создать систему, которая порождает новые ИИ-модели, используя метод обучения с подкреплением. Реализованный таким образом алгоритм уже справляется с задачей лучше решений, полностью написанных человеком.

В этой статье мы расскажем об особенностях работы системы AutoML, а также приведем подборку книг и курсов по машинному обучению, которые помогут поближе познакомиться с технологиями искусственного интеллекта.

Читать дальше →
Total votes 19: ↑17 and ↓2 +15
Views 14K
Comments 7

Глубинное обучение с подкреплением пока не работает

Game development *Algorithms *Image processing *Machine learning *Robotics development *
Translation
Об авторе. Алекс Ирпан — разработчик из группы Brain Robotics в Google, до этого работал в лаборатории Berkeley Artificial Intelligence Research (BAIR).

Здесь в основном цитируются статьи из Беркли, Google Brain, DeepMind и OpenAI за последние несколько лет, потому что их работы наиболее заметны с моей точки зрения. Почти наверняка я что-то упустил из более старой литературы и от других организаций, так что прошу прощения — я всего лишь один человек, в конце концов.


Введение


Однажды в Facebook я заявил следующее.
Когда кто-то спрашивает, может ли обучение с подкреплением (RL) решить их проблему, я сразу отвечаю, что не может. Думаю, что это верно как минимум в 70% случаев.
Глубинное обучение с подкреплением сопровождается массой шумихи. И на то есть хорошие причины! Обучение с подкреплением (RL) — невероятно общая парадигма. В принципе, надёжная и высокопроизводительная система RL должна быть прекрасна во всём. Слияние этой парадигмы с эмпирической силой глубинного обучения очевидно само по себе. Глубинное RL — это то, что больше всего похоже на сильный ИИ, и это своего рода мечта, которая подпитывает миллиарды долларов финансирования.

К сожалению, в реальности эта штука пока не работает.

Но я верю, что она выстрелит. Если бы не верил, то не варился бы в этой теме. Но впереди куча проблем, многие из которых фундаментально сложны. Прекрасные демки обученных агентов скрывают всю кровь, пот и слёзы, что пролились в процессе их создания.
Читать дальше →
Total votes 59: ↑59 and ↓0 +59
Views 29K
Comments 34

ИИ от Google обучил дочерний ИИ, который превосходит все ИИ, созданные человеком

Software Artificial Intelligence


В мае 2017 года исследователи из Google Brain представили проект AutoML, который автоматизирует проектирование моделей машинного обучения. Эксперименты с AutoML показали, что эта система может генерировать маленькие нейросети с очень хорошими показателями — вполне сравнимые с нейросетями, которые спроектированы и обучены экспертами-людьми. Однако поначалу возможности AutoML были ограничены маленькими научными наборами данных вроде CIFAR-10 и Penn Treebank.

Инженеры Google задумались — а что если поставить перед генератором ИИ более серьёзные задачи? Способна ли эта система ИИ сгенерировать другую ИИ, которая будет лучше созданного человеком ИИ в какой-нибудь важной задаче вроде классификации объектов из базы ImageNet — самого известного из крупномасштабных наборов данных в машинном зрении. Так появилась нейросеть NASNet, созданная практически без участия человека.
Читать дальше →
Total votes 68: ↑66 and ↓2 +64
Views 72K
Comments 271

Обзор AI & ML решений в 2018 году и прогнозы на 2019 год: Часть 2 — Инструменты и библиотеки, AutoML, RL, этика в AI

Data Mining *Algorithms *Big Data *Machine learning *Artificial Intelligence
Translation
Всем привет! Представляю вам перевод статьи Analytics Vidhya с обзором событий в области AI / ML в 2018 году и трендов 2019 года. Материал довольно большой, поэтому разделен на 2 части. Надеюсь, что статья заинтересует не только профильных специалистов, но и интересующихся темой AI. Приятного чтения!


Читать сначала: Часть 1 — NLP, Computer Vision


Инструменты и библиотеки


Этот раздел понравится всем data science профессионалам. Инструменты и библиотеки — хлеб с маслом для ученых. Я участвовал во многих дебатах о том, какой инструмент лучше, какой фреймворк заменяет другой, какая библиотека является воплощением “экономичных” вычислений, и всё такое. Уверен, что многих из вас это тоже касается.

Но с одной вещью нельзя не согласиться — мы должны быть в курсе последних инструментов в этой области или рискуем остаться позади. Темпы, которыми Python обогнал конкурентов и зарекомендовал себя, как лидера отрасли, являются этому хорошей иллюстрацией. Конечно, многое сводится к субъективному выбору (какой инструмент использует ваша организация, совместимость с существующей инфраструктурой и прочее), но если вы не идете в ногу со временем, пора начинать прямо СЕЙЧАС.

Так что же попало в заголовки новостей в этом году [в 2018 году — прим. пер.]? Пошли разбираться!
Читать дальше →
Total votes 19: ↑18 and ↓1 +17
Views 15K
Comments 0

Что такое автоматизированное машинное обучение (AutoML)

Data Mining *Big Data *
Sandbox

Что такое автоматизированное машинное обучение (AutoML) и
собирается ли оно лишить специалистов по данным (Data Scientists) работы?


С того момента как стали появляться инструменты автоматизированного машинного обучения (AutoML), такие как Google AutoML, эксперты обсуждают вопрос — готовы ли они к полной корпоративной интеграции и применению. В описании инструментов AutoML утверждается, что каждый может взять на себя роль «исследователя данных» (data scientist), способного создавать готовые для промышленного применения модели машинного обучения без традиционно необходимого технического образования.



Хотя, безусловно, верно, что автоматизированные процессы машинного обучения меняют способы, с помощью которых предприятия могут выполнять задачи анализа данных, технология еще не готова оставить специалистов по данным без работы. Одно из главных утверждений технологии заключается в том, что автоматически созданные модели имеют схожее качество и производятся в кратчайшие сроки по сравнению с эквивалентной моделью, созданной группой исследователей данных.


Хотя модели AutoML создаются быстрее, они эффективны только в том случае, если проблема, которую они ищут, является постоянной и повторяющейся. Большинство моделей AutoML работают хорошо и достигают постоянного качества в этих условиях; но чем сложнее проблемы с данными, тем больше требуется вмешательство специалиста, чтобы понять, что запустила система AutoML, и превратить ее в нечто полезное. Чтобы понять некоторые из этих ограничений, давайте рассмотрим процесс AutoML более подробно.


Читать дальше →
Total votes 15: ↑11 and ↓4 +7
Views 13K
Comments 2

7 лет хайпа нейросетей в графиках и вдохновляющие перспективы Deep Learning 2020-х

Big Data *Machine learning *Statistics in IT Popular science Artificial Intelligence


Новый год все ближе, скоро закончатся 2010-е годы, подарившие миру нашумевший ренессанс нейросетей. Мне не давала покоя и лишала сна простая мысль: «Как можно ретроспективно прикинуть скорость развития нейросетей?» Ибо «Тот, кто знает прошлое — тот знает и будущее». Как быстро «взлетали» разные алгоритмы? Как вообще можно оценить скорость прогресса в этой области и прикинуть скорость прогресса в следующем десятилетии? 



Понятно, что можно примерно посчитать количество статей по разным областям. Метод не идеальный, нужно учитывать подобласти, но в целом можно пробовать. Дарю идею, по Google Scholar (BatchNorm) это вполне реально! Можно считать новые датасеты, можно новые курсы. Ваш же покорный слуга, перебрав несколько вариантов, остановился на Google Trends (BatchNorm)

Мы с коллегами взяли запросы основных технологий ML/DL, например, Batch Normalization, как на картинке выше, точкой добавили дату публикации статьи и получили вполне себе график взлета популярности темы. Но не у всех тем путь усыпан розами взлет такой явный и красивый, как у батчнорма. Некоторые термины, например регуляризацию или skip connections, вообще не получилось построить из-за зашумленности данных. Но в целом тренды собрать удалось.

Кому интересно, что получилось — добро пожаловать под кат!
Читать дальше →
Total votes 100: ↑99 and ↓1 +98
Views 32K
Comments 50

Гибкость и автоматизация в машинном обучении

Deutsche Telekom IT Solutions corporate blog Data Mining *Machine learning *Artificial Intelligence
В данной статье я хочу рассказать об основных сложностях автоматизации машинного обучения, ее природе и преимуществах, а также рассмотреть и более гибкий подход, позволяющий уйти от части недостатков.

image
Читать дальше →
Total votes 5: ↑4 and ↓1 +3
Views 2.8K
Comments 1

AutoML великий и могущественный

SAP corporate blog Machine learning *
Recovery mode
На текущий момент, пожалуй, нет ни одного человека, кто интересуется информационными технологиями и не слышал о том, что машинное обучение, интеллектуальный анализ данных, системы поддержки принятия решений являются одними из ключевых направлений для реализации сценариев цифровой трансформации.
Читать дальше →
Total votes 7: ↑6 and ↓1 +5
Views 3.7K
Comments 0

Аудит чат-ботов

Python *Programming *


В настоящее время чат-боты широко распространены в различных сферах бизнеса. Так, например, банки с их помощью могут оптимизировать работу своего контактного центра, мгновенно отвечая на популярные вопросы клиентов и предоставляя им справочную информацию. Для клиентов чат-боты также являются удобным инструментом: гораздо проще написать вопрос в чате, чем ожидать ответа, звоня в контактный центр.
Читать дальше →
Total votes 5: ↑3 and ↓2 +1
Views 2K
Comments 2

Как AutoML помогает создавать модели композитного ИИ — говорим о структурном обучении и фреймворке FEDOT

ITMO corporate blog Machine learning *

image


В лаборатории моделирования природных систем НЦКР ИТМО мы занимаемся разработкой и продвижением решений в области AutoML. Наши научные сотрудники Николай Никитин, Анна Калюжная, Павел Вычужанин и Илья Ревин рассказывают о трендах и задачах AutoML, плюс — о собственных open-source разработках в этой области.

Total votes 6: ↑6 and ↓0 +6
Views 5.5K
Comments 0

Прогнозирование временных рядов с помощью AutoML

Open source *Python *Algorithms *Machine learning *Artificial Intelligence


Хабр, привет!


В лаборатории моделирования природных систем Национального центра когнитивных разработок Университета ИТМО мы активно исследуем вопросы применения автоматического машинного обучения для различных задач. В этой статье мы хотим рассказать о применении AutoML для эффективного прогнозирования временных рядов, а также о том, как это реализовано в рамках open-source фреймворка FEDOT. Это вторая статья из серии публикаций, посвященной данной разработке (с первой из них можно ознакомиться по ссылке).


Все подробности — под катом!

Читать дальше →
Total votes 8: ↑7 and ↓1 +6
Views 15K
Comments 4

Автоматизация машинного обучения

Python *Programming *Machine learning *

Datascience – это не только fit-predict

Представим, что вы начали работать в компании, которая производит однообразные операции с бесконечными таблицами. Например, в крупном ретейлере или у ведущего оператора связи. Ежедневно перед вами ставят задачу выяснить, останется ли клиент с вами или хватит ли товара на полках до конца недели. Алгоритм выглядит просто. Вы берете выборку, изучаете бесконечные ряды признаков, удаляете мусор, генерируете новые признаки, собираете сводную таблицу. Подаете готовые данные в модель, настраиваете параметры и с нетерпением ждете заветных цифр итоговой метрики. Это повторяется день за днем. Затрачивая каждый день всего 60 минут на генерацию фич или подбор параметров, за месяц вы израсходуете минимум 20 часов. Это, без малого, целые сутки, за которые можно выполнить новую задачу, обучить нейросеть или прочесть несколько статей на arxiv’e.

Удобно, когда структура данных не меняется. Стабильный набор лейблов и признаков каждый день. Вы понимаете алгоритм обработки и выстраиваете пайплайн. Однообразные таблички со знакомыми признаками начинают обрабатываться без вашего участия. Сложности начинаются в момент, когда признаки в данных становятся разными от задачи к задаче. Или, что еще страшнее, фич становится мало и модель начинает выдавать низкие метрики. Надо снова тратить время на предобработку. Рутина поглощает, блеск в глазах пропадает, продуктивность падает. Вы не первый, кто сталкивался с такими проблемами. Разработчики выкладывают в открытый доступ библиотеки, которые помогают автоматизировать однообразные операции.

Читать далее
Total votes 4: ↑3 and ↓1 +2
Views 5.1K
Comments 1

Open source в Университете ИТМО: фреймворк для AutoML и библиотека алгоритмов выбора признаков

ITMO corporate blog Open source *Algorithms *Machine learning *

Мы рассказываем не только о личном опыте учеников, делимся практическими руководствами и публикуем истории студенческих стартапов, но и обсуждаем подходы к развитию карьеры — например, в области машинного обучения и проектирования алгоритмов. Сегодня раскроем последнюю тему с несколько иной стороны и представим вашему вниманию парочку open source фреймворков от представителей ИТМО — со ссылками на репозитории и понятным описанием.

Читать далее
Total votes 9: ↑8 and ↓1 +7
Views 3.3K
Comments 1

Почему дата-сайентиста невозможно заменить программой

SkillFactory corporate blog Project management *IT career Reading room
Translation

По мере роста популярности науки о данных и её определения как профессии возникла идея, что Data Science автоматизируема, потому что автоматизируется множество процессов: сравнение моделей, визуализация, очистка данных; но на других, ключевых этапах дата-сайентисты — самые ценные специалисты. К старту флагманского курса о Data Science делимся переводом статьи Senior Data Scientist в Favor Delivery о том, почему дата-сайентиста нельзя заменить машиной.

Читать далее
Total votes 8: ↑6 and ↓2 +4
Views 2.9K
Comments 10

Как мы “повернули реки вспять” на Emergency DataHack 2021, объединив гидрологию и AutoML

Open source *Python *Hackathon Machine learning *Artificial Intelligence

Хабр, привет! 

Под катом хотелось бы поговорить об опыте участия нашей команды из лаборатории моделирования природных систем Национального центра когнитивных разработок Университета ИТМО в хакатоне Emergency DataHack 2021. И победы в нём :)

Читать далее
Total votes 5: ↑5 and ↓0 +5
Views 2.3K
Comments 0

Искусство распознавания: как мы разрабатывали прототип AutoML для задачи Named Entity Recognition

ВТБ corporate blog Machine learning *

Процессы и продукты банка всё время совершенствуются, и в какой-то момент приходит понимание, что рутинные операции нужно автоматизировать. Так случилось и у нас: возникла необходимость в автоматизации обработки текстовой информации. Это не только банковская тенденция — во многих сферах бизнеса сейчас растёт спрос на подобные решения, поэтому мы подумали, что хабровчанам тоже могут быть интересны наши изыскания в этой сфере. Так что сегодня расскажем  о том, как работает наш прототип AutoML для распознавания именованных сущностей (named entity recognition, NER). Ну и о том, какие результаты в итоге показала обученная модель. 

Читать далее
Total votes 8: ↑8 and ↓0 +8
Views 2.8K
Comments 2
1