Pull to refresh
2
0
Николай Никитин @niclnno

Научный сотрудник

Send message

Как справиться с нехваткой открытых данных для обучения и тестирования ML-моделей

Reading time7 min
Views4.4K


Привет! Меня зовут Илларион, я аспирант ИТМО и член команды, которая занимается предсказанием временных рядов, порожденных графовыми структурами, и другими исследованиями. Однако в разработке новых методов для прогнозирования есть существенное препятствие — нехватка открытых данных для обучения и тестирования моделей.


Для решения проблемы мы создали открытый инструмент Time Series Generator. Я рассказал о нем на митапе, посвященном open source-разработке для научных задач. Под катом делюсь особенностями разработанного решения и рассматриваю реализуемые им задачи.

Читать дальше →
Total votes 30: ↑29 and ↓1+38
Comments5

Искусство README

Level of difficultyEasy
Reading time13 min
Views9.1K

Привет, Хабр!

На связи Андрей из сообщества ITMO.OpenSource. Мы считаем, что важно делать открытую науку, поэтому пишем об открытом коде, проводим митапы «Scientific Open Source» и разрабатываем научные решения с открытым кодом.

Мы убеждены, что открытая наука – это не просто код на github, но и совокупность факторов, которые позволяют этим кодом эффективно воспользоваться: запустить, модифицировать, внедрить в другие проекты. Поэтому я решил перевести популярную статью JS-разработчицы Киры Окли «Art of README». Несмотря на разницу в экосистемах (я пишу преимущественно на Python), мне кажется, многие идеи этой статьи актуальны для любого проекта на любом языке.

Читать далее
Total votes 17: ↑16 and ↓1+21
Comments2

Open Source в российском ИИ: исследование ландшафта

Level of difficultyEasy
Reading time7 min
Views2.6K

Привет, Хабр!

Это исследователи из NSS Lab ИТМО и создатели сообщества ITMO.OpenSource. Мы считаем, что важно делать не просто науку, а открытую науку, результатами которой можно легко воспользоваться. Поэтому пишем об открытом коде, проводим митапы «Scientific Open Source» и разрабатываем научные решения с открытым кодом. Эта статья написана на материале исследования, которое мы презентовали на последнем митапе. В ней поговорим об открытом научном коде, посмотрим, как с ним обстоят дела в разных организациях, и поделимся подборкой репозиториев, которые могут решать различные научные задачи.

Читать далее
Total votes 19: ↑19 and ↓0+19
Comments2

Sparkling: Открытая библиотека для автоматического решения задачи кластеризации табличных и мультимодальных данных

Reading time13 min
Views8.7K

Если вы полагаете, что фундаментальные исследования всегда скучны и с трудом находят применение на практике, то прочитайте эту статью. Старший научный сотрудник нашей лаборатории Сергей Муравьев, занимающийся автоматизацией решения задач кластеризации, рассказывает о собственном проекте, у которого, кажется, есть всё, что только можно пожелать: научная фундаментальность, хитрые задачи на пути к цели, а также впечатляюще широкие возможности применения.

Источник изображения: commons.wikimedia.org

Почему это круто

Кластерный анализ неформально можно определить как разбиение множества объектов так, чтобы похожие объекты попали в одно и то же подмножество, а объекты из разных подмножеств существенно различались. От обычной классификации по заданным признакам кластерный анализ отличается тем, что не алгоритм, а человек выявляет критерий кластеризации данных. Эта задача относится к классу «обучения без учителя» (англ. unsupervised learning), так как размеченного набора данных или какой-то заведомо известной информации о нём не предоставляется.

У задачи кластеризации нет общепризнанного математически корректного определения. Дело в количестве разнообразных применений: в маркетинге для сегментирования целевой аудитории, в медицине для классификации болезней, в рекомендательных системах при организации баз данных для поисковых запросов, при изучении социальной стратификации, для сегментирования изображений и распознавания образов, при обнаружении и сегментации артефактов различных периодов в археологии и много ещё для чего.

Читать далее
Total votes 9: ↑9 and ↓0+9
Comments0

Open-source библиотеки от команд ИТМО: оптимизация графовых структур, генеративный дизайн, оптимизация гиперпараметров

Reading time7 min
Views2.6K

Сфера искусственного интеллекта показательна тем, что здесь успешно развиваются множество проектов с открытым исходным кодом. Это отличная тенденция, поскольку позволяет сторонним исследователям лучше понять особенности работы моделей, использовать их в собственных разработках в области ИИ или применять для обработки данных в своей предметной сфере.

Уделяя много внимания подготовке специалистов и развитию проектов в области искусственного интеллекта, Университет ИТМО поддерживает этот курс на открытость. В этой статье мы собрали небольшую подборку уже реализованных библиотек с открытым исходным кодом, предназначенных для решения различных задач машинного обучения. Сотрудники лабораторий ИТМО создают универсальные решения, не ограниченные своей предметной областью. И готовы развивать их, расширяя спектр возможных применений.

Все эти проекты написаны на Python с использованием стандартного стека технологий для задач обработки данных и графов: numpy, scipy, networkx. Их можно найти на GitHub и даже поучаствовать в дальнейшем развитии.

Читать далее
Total votes 12: ↑12 and ↓0+12
Comments0

Про настройку гиперпараметров ансамблей моделей машинного обучения

Reading time13 min
Views5K

Привет Хабр!

Под катом хочется затронуть тему настройки гиперпараметров в моделях машинного обучения, получаемых при помощи блендинга. В таких ансамблях предсказания из одной модели машинного обучения становятся предикторами для другой (следующего уровня). На рисунке ниже представлены некоторые варианты ансамблей, где данные передаются слева направо. Называть такие ансамбли мы будем в рамках поста также пайплайнами или композитными моделями (композитные пайплайны). 

А мемы про гиперпараметры?
Total votes 4: ↑4 and ↓0+4
Comments0

Чистый AutoML для “грязных” данных: как и зачем автоматизировать предобработку таблиц в машинном обучении

Reading time14 min
Views8.3K

Обработка табличных данных средствами Python для использования в моделях машинного обучения - что может быть банальнее. Казалось бы. Иногда табличные данные бывают настолько "грязными", что их вычистка занимает гораздо больше времени, чем подготовка самой модели. Так зачем это делать самому, если с этим не хуже справится AutoML...

Ну и насколько они грязные
Total votes 12: ↑11 and ↓1+13
Comments2

Отмена SLS: разве мы просим слишком много?

Reading time37 min
Views36K

Хороший (хоть и слегка черезчур эмоциональный) пост сотрудника НАСА, собравший огромное количество фактов о истории и текущем состоянии американской программы флагманской ракеты-носителя SLS, с простым и понятным выводом: "Ангара" SLS абсолютно бессмысленна, опасна и должна быть закрыта.

Читать далее
Total votes 112: ↑112 and ↓0+112
Comments121

Открытый инструмент для аналитики бизнес-процессов и Process Mining’а

Reading time5 min
Views3.8K

В предыдущих хабрапостах мы поделились open source инструментом для сравнительного анализа метагеномных данных и рассказали об открытых проектах, которыми занимается наша лаборатория мультиагентных систем.

На этот раз представляем вашему вниманию Process Flow Optimization Tool от Национального центра когнитивных разработок Университета ИТМО.

Читать далее
Total votes 5: ↑5 and ↓0+5
Comments1

Как мы “повернули реки вспять” на Emergency DataHack 2021, объединив гидрологию и AutoML

Reading time17 min
Views2.8K

Хабр, привет! 

Под катом хотелось бы поговорить об опыте участия нашей команды из лаборатории моделирования природных систем Национального центра когнитивных разработок Университета ИТМО в хакатоне Emergency DataHack 2021. И победы в нём :)

Читать далее
Total votes 5: ↑5 and ↓0+5
Comments0

Две открытые библиотеки для обучения байесовских сетей и идентификации структуры данных

Reading time3 min
Views3.2K

В одном из предыдущих материалов мы рассказали о фреймворке для AutoML и библиотеке алгоритмов выбора признаков. На этот раз продолжаем делиться разработками специалистов, магистров и аспирантов Университета ИТМО и представляем вашему вниманию парочку open source инструментов для работы с данными. Как обычно — говорим о них простыми словами и делимся ссылками на публичные репозитории, предоставленными авторами проектов.

Читать далее
Total votes 6: ↑6 and ↓0+6
Comments1

Open source в Университете ИТМО: фреймворк для AutoML и библиотека алгоритмов выбора признаков

Reading time4 min
Views3.9K

Мы рассказываем не только о личном опыте учеников, делимся практическими руководствами и публикуем истории студенческих стартапов, но и обсуждаем подходы к развитию карьеры — например, в области машинного обучения и проектирования алгоритмов. Сегодня раскроем последнюю тему с несколько иной стороны и представим вашему вниманию парочку open source фреймворков от представителей ИТМО — со ссылками на репозитории и понятным описанием.

Читать далее
Total votes 8: ↑7 and ↓1+7
Comments1

Прогнозирование временных рядов с помощью AutoML

Reading time16 min
Views25K


Хабр, привет!


В лаборатории моделирования природных систем Национального центра когнитивных разработок Университета ИТМО мы активно исследуем вопросы применения автоматического машинного обучения для различных задач. В этой статье мы хотим рассказать о применении AutoML для эффективного прогнозирования временных рядов, а также о том, как это реализовано в рамках open-source фреймворка FEDOT. Это вторая статья из серии публикаций, посвященной данной разработке (с первой из них можно ознакомиться по ссылке).


Все подробности — под катом!

Читать дальше →
Total votes 7: ↑6 and ↓1+6
Comments4

Как AutoML помогает создавать модели композитного ИИ — говорим о структурном обучении и фреймворке FEDOT

Reading time9 min
Views8.5K

image


В лаборатории моделирования природных систем НЦКР ИТМО мы занимаемся разработкой и продвижением решений в области AutoML. Наши научные сотрудники Николай Никитин, Анна Калюжная, Павел Вычужанин и Илья Ревин рассказывают о трендах и задачах AutoML, плюс — о собственных open-source разработках в этой области.

Total votes 6: ↑6 and ↓0+6
Comments0

Information

Rating
4,620-th
Location
Санкт-Петербург, Санкт-Петербург и область, Россия
Registered
Activity