Articles / Bookmarks / Profile of niclnno / Habr

Николай Никитин @niclnno

Научный сотрудник

Profile Publications Comments 11Bookmarks 16

DeadSailor Jul 3 at 12:28

Как справиться с нехваткой открытых данных для обучения и тестирования ML-моделей

7 min

4.4K

Selectel corporate blogOpen source*Machine learning*Popular scienceProgramming*

Case

Привет! Меня зовут Илларион, я аспирант ИТМО и член команды, которая занимается предсказанием временных рядов, порожденных графовыми структурами, и другими исследованиями. Однако в разработке новых методов для прогнозирования есть существенное препятствие — нехватка открытых данных для обучения и тестирования моделей.

Для решения проблемы мы создали открытый инструмент Time Series Generator. Я рассказал о нем на митапе, посвященном open source-разработке для научных задач. Под катом делюсь особенностями разработанного решения и рассматриваю реализуемые им задачи.

Читать дальше →

+38

itmo_nsslab Apr 26 at 13:55

Искусство README

Easy

13 min

9.1K

Perl*Open source*Node.JS*GitHub*

Tutorial

Translation

Привет, Хабр!

На связи Андрей из сообщества ITMO.OpenSource. Мы считаем, что важно делать открытую науку, поэтому пишем об открытом коде, проводим митапы «Scientific Open Source» и разрабатываем научные решения с открытым кодом.

Мы убеждены, что открытая наука – это не просто код на github, но и совокупность факторов, которые позволяют этим кодом эффективно воспользоваться: запустить, модифицировать, внедрить в другие проекты. Поэтому я решил перевести популярную статью JS-разработчицы Киры Окли «Art of README». Несмотря на разницу в экосистемах (я пишу преимущественно на Python), мне кажется, многие идеи этой статьи актуальны для любого проекта на любом языке.

+21

itmo_nsslab Apr 4 at 17:04

Open Source в российском ИИ: исследование ландшафта

Easy

7 min

2.6K

ITMO corporate blogOpen source*GitHub*Machine learning*Artificial Intelligence

Analytics

Привет, Хабр!

Это исследователи из NSS Lab ИТМО и создатели сообщества ITMO.OpenSource. Мы считаем, что важно делать не просто науку, а открытую науку, результатами которой можно легко воспользоваться. Поэтому пишем об открытом коде, проводим митапы «Scientific Open Source» и разрабатываем научные решения с открытым кодом. Эта статья написана на материале исследования, которое мы презентовали на последнем митапе. В ней поговорим об открытом научном коде, посмотрим, как с ним обстоят дела в разных организациях, и поделимся подборкой репозиториев, которые могут решать различные научные задачи.

+19

itmo_mllab Dec 23 2023 at 18:47

Sparkling: Открытая библиотека для автоматического решения задачи кластеризации табличных и мультимодальных данных

13 min

8.7K

ITMO corporate blogMachine learning*

Tutorial

Если вы полагаете, что фундаментальные исследования всегда скучны и с трудом находят применение на практике, то прочитайте эту статью. Старший научный сотрудник нашей лаборатории Сергей Муравьев, занимающийся автоматизацией решения задач кластеризации, рассказывает о собственном проекте, у которого, кажется, есть всё, что только можно пожелать: научная фундаментальность, хитрые задачи на пути к цели, а также впечатляюще широкие возможности применения.

Источник изображения: commons.wikimedia.org

Почему это круто

Кластерный анализ неформально можно определить как разбиение множества объектов так, чтобы похожие объекты попали в одно и то же подмножество, а объекты из разных подмножеств существенно различались. От обычной классификации по заданным признакам кластерный анализ отличается тем, что не алгоритм, а человек выявляет критерий кластеризации данных. Эта задача относится к классу «обучения без учителя» (англ. unsupervised learning), так как размеченного набора данных или какой-то заведомо известной информации о нём не предоставляется.

У задачи кластеризации нет общепризнанного математически корректного определения. Дело в количестве разнообразных применений: в маркетинге для сегментирования целевой аудитории, в медицине для классификации болезней, в рекомендательных системах при организации баз данных для поисковых запросов, при изучении социальной стратификации, для сегментирования изображений и распознавания образов, при обнаружении и сегментации артефактов различных периодов в археологии и много ещё для чего.

itmo Mar 30 2023 at 10:23

Open-source библиотеки от команд ИТМО: оптимизация графовых структур, генеративный дизайн, оптимизация гиперпараметров

7 min

2.6K

ITMO corporate blogArtificial IntelligenceProgramming*Machine learning*Open source*

Сфера искусственного интеллекта показательна тем, что здесь успешно развиваются множество проектов с открытым исходным кодом. Это отличная тенденция, поскольку позволяет сторонним исследователям лучше понять особенности работы моделей, использовать их в собственных разработках в области ИИ или применять для обработки данных в своей предметной сфере.

Уделяя много внимания подготовке специалистов и развитию проектов в области искусственного интеллекта, Университет ИТМО поддерживает этот курс на открытость. В этой статье мы собрали небольшую подборку уже реализованных библиотек с открытым исходным кодом, предназначенных для решения различных задач машинного обучения. Сотрудники лабораторий ИТМО создают универсальные решения, не ограниченные своей предметной областью. И готовы развивать их, расширяя спектр возможных применений.

Все эти проекты написаны на Python с использованием стандартного стека технологий для задач обработки данных и графов: numpy, scipy, networkx. Их можно найти на GitHub и даже поучаствовать в дальнейшем развитии.

+12

itmo_nsslab Jun 21 2022 at 10:56

Про настройку гиперпараметров ансамблей моделей машинного обучения

13 min

Artificial IntelligenceMachine learning*Algorithms*Python*Open source*

Привет Хабр!

Под катом хочется затронуть тему настройки гиперпараметров в моделях машинного обучения, получаемых при помощи блендинга. В таких ансамблях предсказания из одной модели машинного обучения становятся предикторами для другой (следующего уровня). На рисунке ниже представлены некоторые варианты ансамблей, где данные передаются слева направо. Называть такие ансамбли мы будем в рамках поста также пайплайнами или композитными моделями (композитные пайплайны).

А мемы про гиперпараметры?

Dreamlone Mar 31 2022 at 14:01

Чистый AutoML для “грязных” данных: как и зачем автоматизировать предобработку таблиц в машинном обучении

14 min

8.3K

Open Data Science corporate blogOpen source*Python*Open data*Machine learning*

Обработка табличных данных средствами Python для использования в моделях машинного обучения - что может быть банальнее. Казалось бы. Иногда табличные данные бывают настолько "грязными", что их вычистка занимает гораздо больше времени, чем подготовка самой модели. Так зачем это делать самому, если с этим не хуже справится AutoML...

Ну и насколько они грязные

+13

ilvar Oct 1 2021 at 12:08

Отмена SLS: разве мы просим слишком много?

37 min

36K

Astronautics

Translation

Хороший (хоть и слегка черезчур эмоциональный) пост сотрудника НАСА, собравший огромное количество фактов о истории и текущем состоянии американской программы флагманской ракеты-носителя SLS, с простым и понятным выводом: ~~"Ангара"~~ SLS абсолютно бессмысленна, опасна и должна быть закрыта.

+112

121

itmo Sep 12 2021 at 13:07

Открытый инструмент для аналитики бизнес-процессов и Process Mining’а

5 min

3.8K

ITMO corporate blogOpen source*System Analysis and Design*Project management*Studying in IT

В предыдущих хабрапостах мы поделились open source инструментом для сравнительного анализа метагеномных данных и рассказали об открытых проектах, которыми занимается наша лаборатория мультиагентных систем.

На этот раз представляем вашему вниманию Process Flow Optimization Tool от Национального центра когнитивных разработок Университета ИТМО.

itmo_nsslab Sep 15 2021 at 12:26

Как мы “повернули реки вспять” на Emergency DataHack 2021, объединив гидрологию и AutoML

17 min

2.8K

Artificial IntelligenceMachine learning*HackathonPython*Open source*

Хабр, привет!

Под катом хотелось бы поговорить об опыте участия нашей команды из лаборатории моделирования природных систем Национального центра когнитивных разработок Университета ИТМО в хакатоне Emergency DataHack 2021. И победы в нём :)

itmo Jul 18 2021 at 16:55

Две открытые библиотеки для обучения байесовских сетей и идентификации структуры данных

3 min

3.2K

ITMO corporate blogOpen source*Algorithms*Mathematics*Machine learning*

В одном из предыдущих материалов мы рассказали о фреймворке для AutoML и библиотеке алгоритмов выбора признаков. На этот раз продолжаем делиться разработками специалистов, магистров и аспирантов Университета ИТМО и представляем вашему вниманию парочку open source инструментов для работы с данными. Как обычно — говорим о них простыми словами и делимся ссылками на публичные репозитории, предоставленными авторами проектов.

itmo Jul 11 2021 at 17:28

Open source в Университете ИТМО: фреймворк для AutoML и библиотека алгоритмов выбора признаков

4 min

3.9K

ITMO corporate blogOpen source*Algorithms*Machine learning*

Мы рассказываем не только о личном опыте учеников, делимся практическими руководствами и публикуем истории студенческих стартапов, но и обсуждаем подходы к развитию карьеры — например, в области машинного обучения и проектирования алгоритмов. Сегодня раскроем последнюю тему с несколько иной стороны и представим вашему вниманию парочку open source фреймворков от представителей ИТМО — со ссылками на репозитории и понятным описанием.

itmo_nsslab May 30 2021 at 13:17

Прогнозирование временных рядов с помощью AutoML

16 min

25K

Machine learning*Artificial IntelligenceAlgorithms*Python*Open source*

Хабр, привет!

В лаборатории моделирования природных систем Национального центра когнитивных разработок Университета ИТМО мы активно исследуем вопросы применения автоматического машинного обучения для различных задач. В этой статье мы хотим рассказать о применении AutoML для эффективного прогнозирования временных рядов, а также о том, как это реализовано в рамках open-source фреймворка FEDOT. Это вторая статья из серии публикаций, посвященной данной разработке (с первой из них можно ознакомиться по ссылке).

Все подробности — под катом!

Читать дальше →

itmo_nsslab May 23 2021 at 18:22

Как AutoML помогает создавать модели композитного ИИ — говорим о структурном обучении и фреймворке FEDOT

9 min

8.5K

ITMO corporate blogMachine learning*

В лаборатории моделирования природных систем НЦКР ИТМО мы занимаемся разработкой и продвижением решений в области AutoML. Наши научные сотрудники Николай Никитин, Анна Калюжная, Павел Вычужанин и Илья Ревин рассказывают о трендах и задачах AutoML, плюс — о собственных open-source разработках в этой области.