Комментарии / Профиль savvvan / Хабр

Пользователь

Профиль Публикации Комментарии 9Закладки 15

Sber.DS — платформа, которая позволяет создавать и внедрять модели даже без кода

savvvan 27 апр 2023 в 22:35

Вопрос писался более 3 лет назад, почему то опубликовали только сейчас. К слову, на базе knime Евраз построил свою платформу ml платформу, а вопрос про sas да, спустя 3 года звучит совсем иначе..

Посмотреть

Sber.DS — платформа, которая позволяет создавать и внедрять модели даже без кода

savvvan 25 апр 2023 в 09:56

"один экземпляр не должен потреблять больше 4-8 гигабайт оперативной памяти"©
Что происходит, если пользовательский датасет больше этих 4-8 гигабайт?
"наша команда разрабатывает sber.ds"©
Под словом "наша" имеются в виду заказчики в банке или интегратор на букву Е, который рекламирует свои услуги по созданию такого рода платформ, указывая в портфолио проект в Сбербанке?
"Многие возможности библиотеки продиктованы правилами регулятора, например, отчетность и хранение обучающих и валидационных выборок"
Если верить http://www.finmarket.ru/news/5107310, то в России всего 2 банка используют IRB подход. Сбербанк и Райффайзен. Причем ЦБ РФ предъявляет специфические требования только к небольшому числу моделей определенного класса.
Зачем загонять в это прокрустово ложе вообще все модели? И насколько этот подход будет востребован у потенциальных клиентов? Или в статье просто презентуется чисто внутренний проект банка исключительно для личного пользования?
Какое то сравнение с аналогичными data mining платформами, работающими в связке с hadoop, в следующих постах будет? Просто несколько лет назад на конференции по SAS Сбербанк рассказывал о внедрении платформы SAS HPA. Она еще используется?
Если она не устраивала, почему было не взять за основу готовое опенсорсное решение такого класса KNIME и не доработать его немного под свои требования? С hadoop KNIME работать умеет.
Насколько было оправдано создавать свое решение с нуля, да еще и силами стороннего подрядчика-бодишопа?
Возможно, я что то не понимаю, но небольшая статья порождает массу вопросов, главный из которых "зачем?"

Посмотреть

Как правильно готовиться к ШАД

savvvan 29 мар 2023 в 16:53

Московский Центр Искусственного интеллекта Samsung (SAIC- Moscow), R&D подразделения Сбера (Лаборатория ИИ, Институт ИИ итд) или Хуавей. Но вообще люди разные и в разных местах работают. Кому то ближе исследования, кому то технологические разработки, кому то хочется ближе к проду и бизнесу, кому то хочется большей стабильности в корпорациях, а кому то ближе работа в стартапах. Вообще, ШАД это некоторый бренд, но от человека многое зависит, да и на собеседованиях в интересных местах спрашивать в будущем будут не матан и не дискретную математику даже на собесах в исследовательские подразделения, не говоря уже о работе DS/ML инженером.

Плюс ШАД это не про ML в чистом виде, а скорее про ML, который нужен в первую очередь в самом Яндексе. Например, большой пласт знаний по задачам IR вне Яндекса мало востребован, разве что в Гугле или в специфических местах типа Девайсов Сбера (там есть отдел, который задачами информационного поиска для голосового помощника занимается). С другой стороны на RecSys в ШАД сравнительно слабо натаскивают, но это и про Россию в целом можно сказать, конкретно эта область в нашей стране сильно проседает, достаточно посмотреть сколько докладов от России на топовых RecSys конфах. Опять таки, в ШАД почти не дают задачи в сторону out-of-time валидации, а это не только кредитный скоринг, но и задачи в сторону экологии, биологии, социологии или эксплуатации сложных технических систем.

Примеров много привести можно, что не дают, но ради справедливости, нельзя объять необъятное.

В конце концов, кому интересен Kaggle, есть ПЗАД проф Дьяконова (или ММП МГУ, где он преподает), кому интересны нейробайесовские глубины и RL, есть ФКН ВШЭ и проф Ветров в частности, это самый простой путь в Deep Mind, про тензорные поезда и вот это все с DL во всем его разнообразии го ту Сколтех от проф Оселедца до проф Чиховского, за RecSys или наукой в области speech recognition стоит идти в ИТМО, а за вторым конкретно на кафедру ЦРТ итд

Смотря что надо.

Я ШАД закончил и ни разу не пожалел, хотя сейчас уровень требований на входе возрос так, что я не уверен, что сейчас бы туда пошел. Все таки, повторюсь, это в первую очередь кузница кадров для Яндекс, а не только хорошая техническая школа в классическом французском смысле этого слова.

Посмотреть

Зачем нам осваивать космос?

savvvan 11 янв 2023 в 09:49

Ближний космос в ближайшем будущем это:

Десятки, если не сотни тысяч спутников. Привет скоростной интернет и сверхточная навигация в любой точке мира, что создаст базу/снизит издержки для автономных авто и роботов помощников
Привет реклама с орбиты ((
Орбитальные паромы. Почему бы 3 ступень не держать на орбите? С учетом п 1?
Орбитальные маяки. Зачем жечь огромные мощности на освещение, если можно перенаправлять солнечный свет? При ЧП или во время мундиаля вообще незаменимо
А там и до добычи редких земель дойдет, особенно, если Китай кран перекроет, и до солнечных СЭС для обеспесчения энергиец 1, 3 и прочего.
Завтра? Нет, но на горизонте 20-30 лет скорее всего.
Лет через 70-80 может дойти и до добычи изотопов для термояда. Есть оценки, что это будет выгоднее, чем на земле. Будет ли? Кто его знает, но я верю что таки да. Через 80 или 180, но будет

Посмотреть

Венчурный бизнес поможет в импортозамещении программного обеспечения

savvvan 18 дек 2022 в 10:27

Это будут инвесторы какие надо инвесторы

Посмотреть

Как мы заняли первое место в хакатоне ВК «Машинное обучение на графах», где не было графов

savvvan 20 ноя 2022 в 01:08

Тру русский хакатон: Альфа банк на библиотеках Сбера выиграл хакатон VK )

P.S. молодцы

Lifestream + LAMA изначально задумывались как связка, когда после создания ET RNN мы поняли, что для end2end supervised NN даже у нас часто данных не хватает.

Впрочем, у нашей лабы несколько синергетичных разработок. Тот же pyboost, на котором недавно один из российских ds золотую медаль взял на kaggle на сореве по биоинформатике, это по сути один из кусков для lama (впрочем, у академической библиотеки для бустинга и большая самостоятельная ценность есть, так как индустриальные библиотеки типа CatBoost или LGBM плохо подходят для проверки новых гиротез и обучения исследователей, а не практиков)

Но изначально мы столкнулись с тем, что нормальных вариантов мультилейблинга/мультиаутпута для бустингов не было, так что пришлось самим пилить. Статью на NIPS 22 приняли в итоге.

Сейчас еще нейро лама появилась, режим прогона табличных нейронок.

С эмбеддингами это часто работает лучше, чем бустинг+линейка, последнее больше под классические табличные данные ориентировано, где фичи руками делаются.

Посмотреть

Про будущее авиации — электрические аппараты вертикального взлёта и посадки

savvvan 12 сен 2022 в 10:38

Если говорить про перспективы, то у нас и с обычными дронами проблемы, какие уж там роторопланы, мультикоптеры и вот это все. Проблемы в том числе из за высокой зарегулированности.

Единственное в чем соглашусь, что без технологического прорыва типа КВТСП (высокотемпературная сверхпроводимость при комнатной температуре), массовых флаеров/летающих авто и вот такого едва ли стоит ждать. Пример с ВТСП условный.

Но и утверждать, что этого не будет потому что не будет...
Если проводить аналогию с авиацией...Пока ДВС не появились технологичные и на доступном топливе (так то ДВС уже в середине 19 века были), что то тяжелее воздуха не очень то и летало. На примитивном паровом движке разве что подобие экраноплана одноразового сделать можно. Разгон, прыжок, шмяк, несите нового инноватора.

Но утверждения, что сделать летающие аппараты тяжелее воздуха в принципе невозможно... оказались не вполне верными.

Плюс мир вокруг нас не статичен, как бы кто то не жаждал обратного. Сейчас и вертикальных ферм нет, условно. Экономика не сходится. Но это ведь не значит, что мир останется таким же и через 50 или даже 10 лет? Кто в начале 80х и очередного обострения холодной войны мог бы всерьез воспринять рассказы об Интернете из 90х, когда холодная война закончилась? Мир умеет удивлять. Главное, чтобы среди тех, кто принимает решения, было достаточно людей, которые про это не забывали...

Иначе выйдет как с дронами или гражданской авиацией

Посмотреть

Что происходит внутри IT-отрасли прямо сейчас? IT нас спасет? А если спасет, то кого именно?

savvvan 7 мая 2022 в 07:57

Чтобы что то получилось, надо для начала этим чем то заняться. Крупный бизнес пока занимает скорее выжидательную позицию (в стиле от "а вдруг все само рассосется" до "если что, Китай нам поможет") да штопает дыры, где иначе ну совсем никак.

На государственном уровне пока скорее меморандумы составляют.

При этом мало кто задается вопросом, что системная разработка любого толка, тем паче разработка софта с серьезной инженерной составляющей, это совсем иные компетенции, в том числе в части организации производства, чем интеграционные проекты, разработка казуального и офисного софта или сборка форков условного Линукса.

Проблема ведь глобально не в том, что из России SAP ушел, Oracle или MS. Куда неприятнее, что из России ушли условные как бы российские же JetBrains, Acronis, Parallels и ClickHouse вместе с тимлидами, сеньорами, архитекторами и директорами проектов, свернув попутно НИРы/кафедры в условных ИТМО или МФТИ.

Посмотреть

NYT уточнило, как именно США собралось упростить получение виз российским высококвалифицированным специалистам

savvvan 2 мая 2022 в 09:18

Любое утверждение, доведенное до крайности, неверно и абсурдно.

Последних ежей доедаем, лаптем щи хлебаем - неверно.

Россия - родина слонов, мы всех шапками закидаем - тоже неверно.

Если брать то же машинное обучение, в России порядка 150-170 активно работающих исследователей мирового уровня, и еще человек 400 толковой молодежи, способных выдавать результат на конференции уровня А и А*. И десятки индустриальных команд, способных тягаться с западным бигтехом.

Да, в Штатах не 150 условно, а 5000+ топ спецов (точные цифры можно глянуть, но порядок примерно такой), и команд индустриальных (слаженных) не десятки, а тысячи, и да, это все печально, но вовсе не ужас ужас, особенно если вспомнить, что значительная часть этих сил работает по сути на рынок услуг и тратит силы временами на очень странные вещи, да и конкуренция в Штатах бешенная и за 1 нишу нередко полдюжины команд бьется, а то и больше, что имеет не только плюсы.

При нормальной организации с этим можно жить. Ударение на слове организация. Потому что по затратам на тот же ai (распиаренный и сравнительно недорогой) Россия на условном 12 или 14 месте, условно, что хуже, чем стоило бв надеяться, исходя из размера экономики, но в принципе неплохо и соответствует небольшой европейской стране в абсолютных цифрах, а по выхлопу в виде толковых статей, стартапов или патентов в середине третьего десятка, где то на уровне Бразилии или Малайзии

Посмотреть