Обновить
4
0
Николай Никитин@niclnno

Научный сотрудник

Отправить сообщение

Тут как обычно: хорошо делать, а плохо не делать. Любой сценарий можно реализовать по-дурацки. Потому и "возможно".

Запутался в словах, получается. Имел в виду "дублирования тематик и распыления усилий ". Попрошу автора поправить.

Дублирование тематик - это когда делается N экземпляров плюс-минус одного и того же.
Распыление усилий - когда делается куча мелких проектов, не доходящих в итоге до какой-то реально используемой версии.

Чем меньше количество потенциальных разработчиков и пользователей - тем сильнее негативный эффект от этих явлений. Идея высказывания была в этом.

В списке победителей потеряли прошивку для паяльников, которая есть в карточках)

Поэкспериментировал - как будто всё-таки на практике DeepSeek не переходит по ссылкам. Если статья известная - то DeepSeek её узнает по ID, если нет - то галлюцинирует.

Посмотрю, спасибо - не сталкивался с таким.

Если не ошибаюсь, то в тех репозиториях, с которыми я имел дело (например, https://github.com/aimclub/FEDOT.Web), сборка фронтенда идет через npm/yarn.

В чистом виде нет, только если где-то есть какой-то фронтенд.

Насчет лицензии текстов на хабре - опираюсь на текст пользовательского соглашения про "принимая условия настоящего Соглашения, Пользователь безвозмездно предоставляет Хабру простую (неисключительную) лицензию на использование Контента "

Третий пункт BSD-3-Clause - он вроде про "software". Мне для текстов такого рода оптимальной является CC-BY, но не эксперт в вопросе не-кодовых лицензий, хорошо если кто-то более знающих выскажется.

Те что на Хабре - под его обычной лицензией, не вполне уверен как она в международных терминах называется. Вроде бы переиспользование текста с указанием авторства она разрешает.

Текстовые материалы в наших репозиториях (например, https://github.com/aimclub/open-source-ops) - под BSD-3.

Исследование тут - https://opensource.itmo.ru/

UPD: вижу меня опередили)

Тематика исследования - про ML/Data, фокус на этой области. Заголовок действительно немного излишне обобщает.

>Вот, хотелось бы увидеть много, а не какую-то песочницу на целых два репо, которая вообще не для людей

Вот прямо по материалу по ссылке:

Сбер:
Kandinsky-2, ru-gpts, ru-dalle, ghost, Kandinsky-3, LightAutoML, Eco2AI, Py-Boost, gigachain
Т-Банк:
etna, CORL, katakomba

Причем это не все репо подряд (таковых гораздо больше, см. ссылки на github) - а отобранные по большому число звезд, скачиваний, пользователей, экспертным отзывам. Объективно же позиции сильные.

Если считаете, что кого-то в нишах ML или работы с данными забыли - пишите, учтём.

>которая вообще не для людей

Да в целом большинство инструментов в этой области - не для широкой публики, а для специалистов-разработчиков и DS-ов.

Для интересующихся - вышло продолжение исследования. Посмотреть можно тут - https://opensource.itmo.ru/.

Да вроде все ссылки на репо привели в исследовании.

Как примеры по банкам:

Сбер:
https://github.com/sb-ai-lab/LightAutoML - топовый AutoML-фреймворк, недавно их команда заняла первое место в AutoML Grand Prix, обыграв все SOTA.

Т-Банк:
https://github.com/etna-team/etna - мощная библиотека для временных рядов.

Другого опенсорса у них тоже много.

>Как понимаю пока специального пресета для создания легковесных моделей нет?

Есть близкий по назначению пресет fast_train.

>Жаль нет сравнения с нейронками (хотя бы на сравнительно небольших наборах данных).

Есть статья (не наша, от зарубежных пользователей), где авторы сравнивают FEDOT с с DeepAR и TFT - решениям на основе RNN: https://link.springer.com/chapter/10.1007/978-3-031-16474-3_45

Получилось у них так:

Вывод при этом такой:

" Overall, the interesting results were obtained by the FEDOT AutoTSF tool. FEDOT obtained a low average forecasting error (around 4.58%), while requiring a reasonable computational effort, around 3 minutes to generate a new TSF model"

>К примеру можно ли Федота настроить на получение быстрой и компактной модели (в ущерб качеству)? 

Можно. Есть 2 варианта - или указать пул "легких" моделей, из которых будут строиться пайплпаны; или задать дополнительный критерий оптимизации (время обучения или предсказания, размер модели, etc).

>Правильно ли я понимаю, что на небольшом наборе данных Федот даст лучший результат, нежели трансформеры?

Скорее всего да - за счет того что данных для обучения трансформеров просто не хватит.

В первую очередь, sktime — это инструмент именно для «ручного» построения пайплайнов, без автоматизационной логики, которая имеется в AutoML (если не брать отдельные блоки вроде autoarima). Поэтому там качество решения прогностических задачи напрямую зависит от удачности выбора структуры модели.

Гиперпараметры, судя по примерам, можно настраивать используя инструменты sklearn — но описанный в документации способ выглядит громоздким и плохо подходящим для сложных пайплайнов со множеством моделей и блоков обработки данных.

Варианта использования нескольких вариантов размера окна предыстории в рамках одного пайплайна тоже там не увидел — хотя по нашему опыту, это довольно полезно.
>простое решение — самое лучшее
Это верно только для довольно простых процессов. В более сложных задачах прогностический пайплайн неизбежно усложняется: добавляются блоки предобработки (причем разные блоки могут применяться для различных рядов — основного и экзогенного, например), ансамблировать модели, применяться различные фильтры.

Мы поэкспериментировали и с дополнительными «каскадами» для коррекции ошибок одних моделей с помощью других — фактически, перенос идеи бустинга на уровень пайплайна.

Всё это неизбежно приводит к необходимости усложения структуры пайплайна и работе с ними как с графами. Собественно, если посмотреть экспертные решения на том же Kaggle — это хорошо видно.

Большой плюс подхода, реализованного в FEDOT — возможность получать как простые, так и сложные структуры в зависимости от данных и лежащего в их основе процесса. Это позволяет работать с довольно широким диапазоном задач.
Можно — но пока преимущественно для работы, сводящейся к задачам классификации, регрессии и прогнозирования временных рядов.

Как один из разработчиков FEDOT-а, немного поясню не совсем понятные из новости детали. Упомянутая в ней платформа — лишь одно из решений, в которых FEDOT используется для автоматизации моделирования. В рамках же самого фреймворка решается задача, близкая к AutoML — но в более широкой постановке, потенциально позволяющая достичь более высокого качества моделирования для real-world задач. Вот тут в канале нашей лаборатории можно взглянуть на intro-ролик, показывающий основные идеи, лежащие в основе фреймворка. Также на github-странице репозитория есть ссылка на сайт с документацией и описанием прикладных примеров.

В ближайшее время мы (разработчики фреймворка) планируем опубликовать на «Хабре» пост, посвященный именно техническим подробностям (применения эволюционной оптимизации, работы с графами структуры моделей и т.д)."
Доставили сегодня сабж — не могу не заметить, что чехол-конверт очень тесный и нужно прилагать большое усилие, чтобы вставлять и извлекать оттуда книгу. В сочетании с сенсорным экраном и расположенными снизу кнопками, на которые в процессе доставания неизбежно нажимаешь, это очень неудобно.
Интересная штука, прямо задумался о покупке.

А к этом ридеру существуют более удобные чехлы, чем указанный на сайте конверт? Как-то совсем неудобен такой способ хранения для использования в дороге.

Среди видео в обзоре не хватает снятого крупным планом листания сплошного текста — видео и картинки конечно хорошо, но девайс всё-таки преимущественно для другого.

Информация

В рейтинге
Не участвует
Откуда
Санкт-Петербург, Санкт-Петербург и область, Россия
Зарегистрирован
Активность