Pull to refresh
162
16
Send message

Делать Data Vault руками? НЕТ! Подходы к автоматической генерации при построении Data Vault

Reading time8 min
Views4.8K

Привет, меня зовут Виктор Езерский, я работаю в центре управления данными «Инфосистемы Джет». Мы занимаемся построением хранилищ, Data Lake, платформ данных, ETL/EL-T и BI-систем. Последние 5–7 лет при построении хранилищ данных у наших заказчиков одна из часто встречаемых архитектур — Data Vault. Мы участвовали в доработке готовых хранилищ на базе Data Vault и делали Data Vault «с нуля».

Из опыта борьбы я вынес одно правило: Data Vault без фреймворка и автоматической генерации — большая беда. В этом посте расскажу, почему, а также поделюсь нашими подходами к созданию генератора. Сразу предупреждаю, что не дам готовых рецептов, но расскажу о наших основных подходах и что они нам дали.

Узнать всё!

Твоя работа в ИБ по мемасикам

Reading time3 min
Views5.7K

· Ты уважаемый CISO крупной нефтяной компании, но твой ребенок — блогер и зарабатывает больше тебя?
· Ты нашел уязвимость по программе Bug Bounty у мясомолочного завода, а у них нет денег, и они выплачивают тебе молочкой и мясом?
· Регулятор выдал новую порцию требований, а у тебя бюджет — три рубля и жвачка «Турбо»?

Эти и многие другие злободневные ситуации мы объединили в игре Jet Security Memes.

Переходи по кат и скачивай карточки!

Читать далее

От MITRE ATT&CK до форензики: видеозаписи ТОП-5 докладов CyberCamp 2022

Reading time2 min
Views3.9K

Вот и прошла онлайн-конференция CyberCamp 2022: итоги подведены, подарки и благодарности отправлены.

Под катом вы найдете пять лучших выступлений по итогам трех дней кэмпа. Выступления стали самыми популярными по итогам опроса зрителей. Enjoy!

Читать далее

5 способов, как взять домен с помощью PetitPotam

Reading time11 min
Views27K

В последнее время почти на каждом проекте по внутреннему пентесту я встречаю уязвимость PetitPotam. И почти всегда она помогает в получении привилегий администратора домена. При наличии доменной учетной записи (в некоторых случаях возможна эксплуатация уязвимости без аутентификации) атакующий может с помощью специально сформированного запроса заставить уязвимый хост выполнить обращение к произвольному хосту с передачей аутентификационных данных.

В этой статье я расскажу, как использую эту уязвимость и как мне удалось получить привилегии администратора домена пятью разными способами в реальных проектах.

Подробнее — под катом.

Читать далее

«Надо переехать с Oracle на PostgreSQL. Ты только не волнуйся!»

Reading time8 min
Views26K

С этого сообщения в мессенджере началось мое масштабное расследование вопроса, который давно не дает спать многим айтишникам — можно ли вот так взять и переехать с Oracle на «свободную» СУБД PostgreSQL?

Этот вопрос сначала бередил умы только тех, кто был в курсе стоимости закупок лицензий. В крупных компаниях бюджет на это мог составлять несколько десятков миллионов долларов. А потом каждый год поддержка вендора «съедала» ещё 22% от стоимости лицензий. Теперь та финансовая боль сменилась другой, и у компаний поменялся запрос: а можно ли заменить? И главное, можно ли организовать это в разумные сроки и по адекватной стоимости? 

Скажу сразу, что в этом посте не будет технических аспектов миграции с СУБД Oracle на PostgreSQL. Как это делать и как обходить сложности — разберем в следующий раз. Тут же больше поговорим о целесообразности и возможности миграции. С этим мы разбирались в ходе одного проекта, а заодно развенчали строй существующих иллюзий. 

Красная таблетка

Бэкдор в ML-моделях. Врага надо знать «в лицо»

Reading time4 min
Views3.8K

Основная опасность бэкдоров заключается в том, что их очень сложно вычислить — это не вложенный кусок вредоносного кода, а зашитый при обучении модели паттерн поведения. Open Source модели или даже модели, которые были разработаны для заказчика «вовне», могут быть опасны тем, что они содержат подобные уязвимости. Зачем они нужны и что из себя представляют, рассказывают дата-сайнтисты «Инфосистемы Джет».

Узнать все

Как мы сравнили «наиболее отечественный» Вaikal с Intel

Reading time7 min
Views41K

Снова про Baikal? Ну да, нам самим хотелось устроить тест-драйв, воочию оценить производительность, а заодно узнать, как процессор справляется с классическими офисными задачами. Спойлер: эта рабочая лошадка в основном не показала выдающихся результатов, но обошла Intel в одной задаче.

Клик!

Миграция в виде матрёшки: как мы перевозили систему-монстра из одного города в другой

Reading time5 min
Views2.9K

Переезд ИТ-инфраструктуры из одного дата-центра в другой — стандартная задача, с которой мы имеем дело постоянно. Но иногда особенности и условия проекта делают эту процедуру суперсложной. В этом посте расскажем о том, как наша команда однажды переселяла «тяжелую» бизнес-систему из одного ЦОД в другой, и почему эту миграцию на самом деле нужно умножить на десять.

Детали здесь!

Привет, Open Compute на 21 дюйме, или Обзор сервера GAGAR>N V1

Reading time6 min
Views7.7K

За последний месяц кругозор многих ИТ-специалистов серьёзно расширился. Вот и я, большую часть профессиональной жизни имевший дело с западным оборудованием, открываю для себя мир отечественного железа. Мне на тестирование достались серверы GAGAR>N V1, созданные в соответствии со стандартом Open Compute Project (ОСP) на основе архитектуры Tioga Pass.

Поехали!

Открытые алгоритмы Твиттер, к чему это приведет?

Reading time3 min
Views4K

Илон Маск заявил, что намерен открыть алгоритмы Twitter и превратить соц. сеть в модель с открытым исходным кодом. Если это произойдет, любой желающий сможет их изучать или использовать в своих целях. Мы (дата-сайнтисты из центра машинного обучения «Инфосистемы Джет») решили пофантазировать, какие возможности дает открытие алгоритмов. А у вас есть мнение на этот счет? Давайте попробуем предсказывать будущее! Присоединяйтесь к обсуждению в комментариях.

Интересно? Жми!

OCR за час? — Не думаю

Reading time4 min
Views24K

Одним прекрасным вечером коллега попросил подумать над алгоритмом поворота серийных номеров на металлических брусках. Но глобально задача предполагала именно распознавание номеров. Казалось бы, современные коробочные решения должны легко решить нашу задачу. О том, что было на самом деле, и пойдет речь в этой статье.

Читать далее

«Другие» рекомендации. Часть 1

Reading time15 min
Views5.4K

Сейчас в различных источниках имеется огромное количество статей, материалов конференций, телеграм-каналов и открытых репозиториев в GitHub на любую тему из сферы Data Science. В статье хочется обратить ваше внимание на отдельный класс задач, которому, по нашему мнению, уделяют меньше внимания и который не так часто встречается в рамках Data Science кейсов, соревнований или хакатонов.

Речь пойдет о «Других» рекомендациях -- ML-системах, которые уже нельзя отнести к рекомендательным в популярном/классическим смысле. Давайте разберемся, что для нас классика, а что — нет.

Читать далее

JET BI. Новый релиз отечественной BI-платформы

Reading time5 min
Views4.9K

Привет. Меня завут Альберт Нурутдинов, я архитектор в "Инфосистемы Джет". В этой статье я рассказывал, как и почему мы создали свою Business Intelligence платформу. Но время не стоит на месте, и мы стараемся не отставать. В конце 2021 года мы сделали новый релиз JET BI и сегодня расскажем вам о новых возможностях платформы, сложностях, с которыми мы столкнулись при их разработке, а также о перспективах развития.

Раскрываем секреты

«Местами больно». Как мы создавали облако в Росбанке на ManageIQ

Reading time8 min
Views6.9K

Никогда до этого наша облачная команда не сидела столько на GitHub. Мы разворачивали частное облако на базе ManageIQ в Росбанке и отхватили немало эээ… трудностей под названием «Open Source вживляется в Enterprise». Расскажем, по каким граблям пробежались, и даже берем на себя смелость сформулировать, «как делать не надо» — пригодится нам и тем, кто пойдет по нашим следам.

Читать далее

Подборка — «нейросеть мечты»

Reading time5 min
Views6.3K

Дата-сайнтисты в «Инфосистемы Джет» делают масштабные крутые проекты, которые помогают крупным компаниям получать прибыль. Сегодня мы решили обсудить, какие проекты интересно было бы сделать при наличии свободных ресурсов. Просто for fun или в благих целях.

Жми

MLOps. Зачем он нужен и как с ним работать? Обзор полезных инструментов

Reading time10 min
Views5.9K

Когда впервые сталкиваешься с понятием MLOps, нет абсолютно никакого понимания, а зачем это вообще нужно. В разного рода выступлениях, посвященных этой теме, рассказывают о важности воспроизводимости результатов, хранения зависимостей проекта, а зачем это нужно — обычно никто не объясняет. Все эти вещи становятся очевидными только после того, как пройдешь через весь ад создания и поддержания действительно крупного проекта.

В первой части этой статьи я расскажу о проблемах, с которыми можно столкнуться при работе над проектами, а во второй — об инструментах, которые помогут с ними справиться. Это будет интересно в первую очередь начинающим специалистам в области ML, которые еще не столкнулись с подобными проблемами в своей практике. Я не буду рассказывать об инструментах, которые и так пользуются популярностью в DevOps, а затрону специфичные для области вещи.

Интересно? Поехали!

Да будет бой! Сравнение технологий СХД

Reading time9 min
Views18K

Привет, Хабр! Давайте поговорим о технологиях для организации корпоративных хранилищ данных. А лучше — посмотрим на них в деле. На ринг приглашаются SSD и обычные жесткие диски. Второй бой проведут Fibre Channel и RoCE. Отдельно изучим «спортивное портфолио» протокола NVMe.

Выбор системы хранения данных (СХД), чтобы получилось надежно и эффективно решить задачу заказчика — не такая простая задача. Нужно предусмотреть стоимость обслуживания, сравнить по функционалу и выбрать решение без «узких мест», которые могут испортить впечатление от эксплуатации.

Идея этого поста появилась по итогам проведенного сравнения производительности и эффективности ряда технологий, их стоимости и оценки перспектив. В общем, на основе наших изысканий можно увидеть, какая архитектура СХД окажется оптимальной для каждого конкретного проекта.

Читать далее

Гибридная ИТ-инфраструктура: как прикрутить облака к реальности?

Reading time9 min
Views3.4K

Маркетинговые описания облаков обещают много благ: эти технологии оптимизируют расходы на ИТ, трансформируют инфраструктуру, делают ее более адаптивной. И это — чистая правда. Вот только на практике получить преимущества от облачных технологий в «кровавом Enterprise» оказывается непросто. Почему? Крупные компании ставят две основные задачи перед своей ИТ-инфраструктурой: защита критически важных данных и обеспечение высокой производительности. И чаще всего мечты об облаках налетают на них и разбиваются вдребезги. Так как же подружить облака и строгие стандарты крупных корпораций?

Читать далее

Как bias может повлиять на мир вообще и людей-пользователей в частности?

Reading time6 min
Views4K

В прошлом посте, посвященном ошибкам искусственного интеллекта, мы обсудили причины возникновения смещений данных и привели несколько примеров, по поводу которых велась оживленная дискуссия в профессиональных кругах. Сегодня Александра Царева, дата сайнтист "Инфосистемы Джет", раскроет тему возможного влияния bias на мир.

Готовы?

Рыцари несправедливости. Дата-сайнтисты против смещения данных

Reading time5 min
Views5.1K

Многие, наверное, уже видели фильм «Рыцари справедливости», где дата-сайнтисты на основе набора фактов о теракте чуть не раскрыли преступление, но совершили ошибку, вероятность которой была критически мала. Обсудим же некоторые аспекты смещения данных, которые чреваты принятием опасных решений.

Читать

Information

Rating
642-nd
Works in
Registered
Activity