Комментарии / Профиль niclnno / Хабр

Николай Никитин@niclnno

Научный сотрудник

ПрофильСтатьиПостыНовостиКомментарии20

Как Европа развивает свою open source-экосистему — и какие новые возможности по кооперации появляются у стран БРИКС

niclnno 15 дек в 13:31

Тут как обычно: хорошо делать, а плохо не делать. Любой сценарий можно реализовать по-дурацки. Потому и "возможно".

niclnno 15 дек в 13:30

Запутался в словах, получается. Имел в виду "дублирования тематик и распыления усилий ". Попрошу автора поправить.

Дублирование тематик - это когда делается N экземпляров плюс-минус одного и того же.
Распыление усилий - когда делается куча мелких проектов, не доходящих в итоге до какой-то реально используемой версии.

Чем меньше количество потенциальных разработчиков и пользователей - тем сильнее негативный эффект от этих явлений. Идея высказывания была в этом.

«Яндекс» выбрал лучшие опенсорс‑проекты и вручил гранты

niclnno 19 мая в 16:48

В списке победителей потеряли прошивку для паяльников, которая есть в карточках)

Как организована поддержка open-source ИИ-проектов в Китае

niclnno 16 апр в 14:53

Поэкспериментировал - как будто всё-таки на практике DeepSeek не переходит по ссылкам. Если статья известная - то DeepSeek её узнает по ID, если нет - то галлюцинирует.

Николай Никитин, лидер «Научного опенсорса» Университета ИТМО: чем open source может помочь ученым

niclnno 27 янв в 14:53

Посмотрю, спасибо - не сталкивался с таким.

Николай Никитин, лидер «Научного опенсорса» Университета ИТМО: чем open source может помочь ученым

niclnno 27 янв в 13:42

Если не ошибаюсь, то в тех репозиториях, с которыми я имел дело (например, https://github.com/aimclub/FEDOT.Web), сборка фронтенда идет через npm/yarn.

Николай Никитин, лидер «Научного опенсорса» Университета ИТМО: чем open source может помочь ученым

niclnno 27 янв в 08:41

В чистом виде нет, только если где-то есть какой-то фронтенд.

Почему мы топим за открытый код в науке ― несколько слов о воспроизводимости результатов научных исследований

niclnno 18 дек 2024 в 15:13

Насчет лицензии текстов на хабре - опираюсь на текст пользовательского соглашения про "принимая условия настоящего Соглашения, Пользователь безвозмездно предоставляет Хабру простую (неисключительную) лицензию на использование Контента "

Третий пункт BSD-3-Clause - он вроде про "software". Мне для текстов такого рода оптимальной является CC-BY, но не эксперт в вопросе не-кодовых лицензий, хорошо если кто-то более знающих выскажется.

niclnno 18 дек 2024 в 13:51

Те что на Хабре - под его обычной лицензией, не вполне уверен как она в международных терминах называется. Вроде бы переиспользование текста с указанием авторства она разрешает.

Текстовые материалы в наших репозиториях (например, https://github.com/aimclub/open-source-ops) - под BSD-3.

ИТМО провёл исследование open source в сферах машинного обучения и анализа данных

niclnno 17 сен 2024 в 13:22

Исследование тут - https://opensource.itmo.ru/

UPD: вижу меня опередили)

Яндекс, Сбер и Т-Банк: ИТМО назвал лидеров Open Source в России

niclnno 16 сен 2024 в 13:46

Тематика исследования - про ML/Data, фокус на этой области. Заголовок действительно немного излишне обобщает.

>Вот, хотелось бы увидеть много, а не какую-то песочницу на целых два репо, которая вообще не для людей

Вот прямо по материалу по ссылке:

Сбер:
Kandinsky-2, ru-gpts, ru-dalle, ghost, Kandinsky-3, LightAutoML, Eco2AI, Py-Boost, gigachain
Т-Банк:
etna, CORL, katakomba

Причем это не все репо подряд (таковых гораздо больше, см. ссылки на github) - а отобранные по большому число звезд, скачиваний, пользователей, экспертным отзывам. Объективно же позиции сильные.

Если считаете, что кого-то в нишах ML или работы с данными забыли - пишите, учтём.

>которая вообще не для людей

Да в целом большинство инструментов в этой области - не для широкой публики, а для специалистов-разработчиков и DS-ов.

Open Source в российском ИИ: исследование ландшафта

niclnno 16 сен 2024 в 13:31

Для интересующихся - вышло продолжение исследования. Посмотреть можно тут - https://opensource.itmo.ru/.

Яндекс, Сбер и Т-Банк: ИТМО назвал лидеров Open Source в России

niclnno 16 сен 2024 в 13:28

Да вроде все ссылки на репо привели в исследовании.

Как примеры по банкам:

Сбер:
https://github.com/sb-ai-lab/LightAutoML - топовый AutoML-фреймворк, недавно их команда заняла первое место в AutoML Grand Prix, обыграв все SOTA.

Т-Банк:
https://github.com/etna-team/etna - мощная библиотека для временных рядов.

Другого опенсорса у них тоже много.

Что делать, если твой временной ряд растёт вширь

niclnno 31 окт 2022 в 19:50

>Как понимаю пока специального пресета для создания легковесных моделей нет?

Есть близкий по назначению пресет fast_train.

>Жаль нет сравнения с нейронками (хотя бы на сравнительно небольших наборах данных).

Есть статья (не наша, от зарубежных пользователей), где авторы сравнивают FEDOT с с DeepAR и TFT - решениям на основе RNN: https://link.springer.com/chapter/10.1007/978-3-031-16474-3_45

Получилось у них так:

Вывод при этом такой:

" Overall, the interesting results were obtained by the FEDOT AutoTSF tool. FEDOT obtained a low average forecasting error (around 4.58%), while requiring a reasonable computational effort, around 3 minutes to generate a new TSF model"

Что делать, если твой временной ряд растёт вширь

niclnno 31 окт 2022 в 16:40

>К примеру можно ли Федота настроить на получение быстрой и компактной модели (в ущерб качеству)?

Можно. Есть 2 варианта - или указать пул "легких" моделей, из которых будут строиться пайплпаны; или задать дополнительный критерий оптимизации (время обучения или предсказания, размер модели, etc).

>Правильно ли я понимаю, что на небольшом наборе данных Федот даст лучший результат, нежели трансформеры?

Скорее всего да - за счет того что данных для обучения трансформеров просто не хватит.

Прогнозирование временных рядов с помощью AutoML

niclnno 3 июн 2021 в 21:40

В первую очередь, sktime — это инструмент именно для «ручного» построения пайплайнов, без автоматизационной логики, которая имеется в AutoML (если не брать отдельные блоки вроде autoarima). Поэтому там качество решения прогностических задачи напрямую зависит от удачности выбора структуры модели.

Гиперпараметры, судя по примерам, можно настраивать используя инструменты sklearn — но описанный в документации способ выглядит громоздким и плохо подходящим для сложных пайплайнов со множеством моделей и блоков обработки данных.

Варианта использования нескольких вариантов размера окна предыстории в рамках одного пайплайна тоже там не увидел — хотя по нашему опыту, это довольно полезно.

Прогнозирование временных рядов с помощью AutoML

niclnno 30 мая 2021 в 14:49

>простое решение — самое лучшее
Это верно только для довольно простых процессов. В более сложных задачах прогностический пайплайн неизбежно усложняется: добавляются блоки предобработки (причем разные блоки могут применяться для различных рядов — основного и экзогенного, например), ансамблировать модели, применяться различные фильтры.

Мы поэкспериментировали и с дополнительными «каскадами» для коррекции ошибок одних моделей с помощью других — фактически, перенос идеи бустинга на уровень пайплайна.

Всё это неизбежно приводит к необходимости усложения структуры пайплайна и работе с ними как с графами. Собественно, если посмотреть экспертные решения на том же Kaggle — это хорошо видно.

Большой плюс подхода, реализованного в FEDOT — возможность получать как простые, так и сложные структуры в зависимости от данных и лежащего в их основе процесса. Это позволяет работать с довольно широким диапазоном задач.

Российские разработчики представили конструктор FEDOT для создания математических моделей

niclnno 27 ноя 2020 в 14:38

Можно — но пока преимущественно для работы, сводящейся к задачам классификации, регрессии и прогнозирования временных рядов.

Как один из разработчиков FEDOT-а, немного поясню не совсем понятные из новости детали. Упомянутая в ней платформа — лишь одно из решений, в которых FEDOT используется для автоматизации моделирования. В рамках же самого фреймворка решается задача, близкая к AutoML — но в более широкой постановке, потенциально позволяющая достичь более высокого качества моделирования для real-world задач. Вот тут в канале нашей лаборатории можно взглянуть на intro-ролик, показывающий основные идеи, лежащие в основе фреймворка. Также на github-странице репозитория есть ссылка на сайт с документацией и описанием прикладных примеров.

В ближайшее время мы (разработчики фреймворка) планируем опубликовать на «Хабре» пост, посвященный именно техническим подробностям (применения эволюционной оптимизации, работы с графами структуры моделей и т.д)."

Обзор PocketBook X – огромного 10,3-дюймового ридера с экраном E Ink Carta Mobius и металлическим корпусом

niclnno 17 дек 2019 в 14:50

Доставили сегодня сабж — не могу не заметить, что чехол-конверт очень тесный и нужно прилагать большое усилие, чтобы вставлять и извлекать оттуда книгу. В сочетании с сенсорным экраном и расположенными снизу кнопками, на которые в процессе доставания неизбежно нажимаешь, это очень неудобно.

Обзор PocketBook X – огромного 10,3-дюймового ридера с экраном E Ink Carta Mobius и металлическим корпусом

niclnno 10 дек 2019 в 19:23

Интересная штука, прямо задумался о покупке.

А к этом ридеру существуют более удобные чехлы, чем указанный на сайте конверт? Как-то совсем неудобен такой способ хранения для использования в дороге.

Среди видео в обзоре не хватает снятого крупным планом листания сплошного текста — видео и картинки конечно хорошо, но девайс всё-таки преимущественно для другого.