Articles / Bookmarks / Profile of donjenya / Habr

@donjenya

User

Profile Publications 12Comments 52Bookmarks 55

datahandyman May 3 at 18:15

Data сontract: давайте попробуем договориться

Medium

10 min

5.9K

Python*Data Engineering*Домклик corporate blog

From sandbox

В последнее время всё чаще и чаще натыкаюсь на термин data contract. И чтобы не отставать от трендов на рынке data engineering, решил изучить эту тему и рассмотреть тенденции. Постараемся понять, с чем его кушать и стоит ли кушать вовсе.

+51

Cloudera Mar 16 2021 at 10:00

Apache Ozone: следующее поколение хранилища для платформы больших данных

8 min

7.8K

Apache*Big Data*Data storage*Data storages*Cloudera corporate blog

Translation

Apache Ozone: следующее поколение хранилища для платформы больших данных

Распределенная файловая система Apache Hadoop (HDFS) де-факто является файловой системой для больших данных. Верная своим корням big data, HDFS работает лучше всего, когда большинство файлов имеют большой размер - от десятков до сотен мегабайт.

Ozone - это распределенное хранилище, которое может управлять как малыми, так и большими файлами. Ozone разрабатывается и внедряется командой инженеров и архитекторов, имеющих значительный опыт управления большими кластерами Apache Hadoop. Это дало нам представление о том, что HDFS делает хорошо, и о некоторых вещах, которые можно делать по-другому.

indmitriev Mar 6 at 10:41

Путь от монолита к разделению Compute и Storage: пример поиска «хранилища мечты» для большой аналитической платформы

Medium

10 min

3.2K

VK corporate blogСбер corporate blogData storage*Data storages*Hadoop*

Case

Для запуска и эксплуатации высоконагруженных ИТ-решений с петабайтами данных в активе, нужно проработанное решение, позволяющее гибко управлять ресурсами. Одним из критичных аспектов этого решения, является разделение Compute & Storage — разделение ресурсов инфраструктуры под вычисление и хранение соответственно. Если не реализовать такое разделение в крупном проекте, инфраструктура рискует превратиться в «чемодан без ручки» — эффективность использования ресурсов будет низкой, а сложность управления ресурсами и средами будет высока. На примере команды SberData и их корпоративной аналитической платформы я расскажу, когда требуется разделение Compute & Storage и как это реализовать максимально нативно.

Статья подготовлена по мотивам доклада на VK Data Meetup «Как разделить Compute & Storage в Hadoop и не утонуть в лавине миграций».

+16

vasilevafb Jan 16 2023 at 11:10

10 инструментов ИИ с бесплатным тестовым доступом, которые пригодятся в работе

3 min

24K

Artificial Intelligence

Review

В этой статье собрано 10 инструментов на основе искусственного интеллекта, большинство из которых просты в использовании и бесплатны для тестирования.

Всем привет! Меня зовут Маруся, я аналитик данных, веду блог в телеграме Аналитика и growth mind-set.

Практически все инструменты я использовала и была с одной стороны вдохновлена тем, насколько они упрощают работу, с другой стороны я отчетливо увидела, что эти новые инструменты уже начинают видоизменять текущие профессии и рождать совершенно новые.

Первую часть с инструментами можно почитать тут.

SergioShpadi Sep 28 2021 at 20:50

Архитектура Вселенной, часть 1: Сознание

26 min

44K

Popular science

'По одной капле воды человек, умеющий мыслить логически, может сделать вывод о возможности существования Атлантического океана или Ниагарского водопада, даже если он не видал ни того, ни другого и никогда о них не слыхал' - Артур Конан-Дойль, «Этюд в багровых тонах».

Меня всегда восхищали древние философы, которые не имея никаких инструментов познания мира кроме собственного разума, бесстрашно погружались в пучины тайн мироздания. С помощью одних лишь только рассуждений они обретали исключительно глубокое понимание принципов работы механизма Вселенной, тем самым расширяя наши представления о мире.

Трудно переоценить влияние философии на науку, так как наука произошла именно от философии. Использующаяся для формализации процесса рассуждений математика стала первенцем философии. Даже сами слова "философия" и "математика" произошли из терминов религиозной школы одного из величайших философов античности - Пифагора. Физика, названию которой мы обязаны другому великому античному философу - Аристотелю, примерно до XVIII века именовалась натуральной философией. Ему же мы обязаны появлением логики - науки о мышлении. Кроме того, философы, изучавшие процесс познания и его ограничения, создали важнейший инструмент исследования природы - научный метод.

Даже многие научные открытия последних веков были вдохновлены философией. Иоганн Кеплер, Николай Коперник и Исаак Ньютон вдохновлялись теорией о гармонии мира Пифагора, о чем сами и писали в своих научных трудах. Альберт Эйнштейн был ярым приверженцем философии средневекового философа Бенедикта Спинозы, но также считал себя в некотором смысле платоником и пифагорейцем. Один из основоположников квантовой механики Эрвин Шрёдингер написал целую книгу о том, как его открытия в квантовой механике согласуются с индийской философией веданты.

До сих пор в западных университетах всем специалистам в точных и естественных науках, успешно защитившим свою диссертацию, присваивают почетное звание доктора философии - Philosophiæ Doctor, часто сокращаемое в речи и на письме до простого PhD. Тем самым университеты подчеркивают, что философия лежит в самом основании всего человеческого знания. Но чем именно занимается философия, в чем состоит её роль?

+20

314

SergeIndex Jun 16 2021 at 18:17

Дата-центрическая архитектура: «волшебная пуля» от интеграционных проблем

5 min

6.1K

Semantics*Cloud computing*Data storage*

Каждая организация использует множество приложений, каждое приложение имеет свою базу данных. В этих базах хранится описание одних и тех же объектов бизнес-процессов с разных точек зрения. Это порождает необходимость в сложных, дорогих и не всегда эффективных интеграционных решениях.

Мы расскажем о дата-центрической архитектуре — «волшебной пуле», позволяющей забыть об интеграции и открыть новые возможности для создания гибких и управляемых бизнес-приложений, аналитики и монетизации данных за счет их использования при принятии решений.

Evgeny_Chernyy Apr 4 2020 at 15:19

Переход от монолитного Data Lake к распределённой Data Mesh

25 min

40K

Big Data*Data storages*

From sandbox

Привет, Хабр! Представляю вашему вниманию перевод статьи «How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh» автора Zhamak Dehghani (Жамак Дегани)(все изображения взяты из этой же статьи).

Все крупные компании сейчас пытаются строить огромные централизованные хранилища данных. Или же ещё более огромные кластерные Data Lakes (как правило, на хадупе). Но мне не известно ни одного примера успешного построения такой платформы данных. Везде это боль и страдание как для тех, кто строит платформу данных, так и для пользователей. В статье ниже автор (Жамак Дегани) предлагает совершенно новый подход к построению платформы данных. Это архитектура платформы данных четвертого поколения, которая называется Data Mesh. Оригинальная статья на английском весьма объёмна и откровенно тяжело читается. Перевод так же получился немаленьким и текст не очень прост: длинные предложения, суховатая лексика. Я не стал переформулировать мысли автора, дабы сохранить точность формулировок. Но я крайне рекомендую таки продраться через этот непростой текст и ознакомиться со статьёй. Для тех, кто занимается данными, это будет очень полезно и весьма интересно.

Евгений Черный

Немало компаний инвестируют в следующее поколение Data Lake с надеждой упростить доступ к данным в масштабе всей компании и предоставить бизнесу инсайты и возможность принимать качественные решения автоматически. Но текущие подходы к построению платформ данных имеют схожие проблемы, которые не позволяют достигнуть поставленных целей. Чтобы решить эти проблемы нам необходимо отказаться от парадигмы централизованного Data Lake (или его предшественника – хранилища данных). И перейти к парадигме, основанной на современной распределённой архитектуре: рассматривать бизнес-домены как приоритет первого уровня, применять платформенное мышление для создания инфраструктуры с возможностью самообслуживания и воспринимать данные как продукт.

Читать дальше →

+12

grichik Jul 7 2020 at 16:29

Когда у вас сберовские масштабы. Использование Ab Initio при работе с Hive и GreenPlum

12 min

12K

Programming*SQL*Сбер corporate blogDatabase Administration*

Некоторое время назад перед нами встал вопрос выбора ETL-средства для работы с BigData. Ранее использовавшееся решение Informatica BDM не устраивало нас из-за ограниченной функциональности. Её использование свелось к фреймворку по запуску команд spark-submit. На рынке имелось не так много аналогов, в принципе способных работать с тем объёмом данных, с которым мы имеем дело каждый день. В итоге мы выбрали Ab Initio. В ходе пилотных демонстраций продукт показал очень высокую скорость обработки данных. Информации об Ab Initio на русском языке почти нет, поэтому мы решили рассказать о своём опыте на Хабре.

Ab Initio обладает множеством классических и необычных трансформаций, код которых может быть расширен с помощью собственного языка PDL. Для мелкого бизнеса такой мощный инструмент, вероятно, будет избыточным, и большинство его возможностей могут оказаться дорогими и невостребованными. Но если ваши масштабы приближаются к сберовским, то вам Ab Initio может быть интересен.

Он помогает бизнесу глобально копить знания и развивать экосистему, а разработчику — прокачивать свои навыки в ETL, подтягивать знания в shell, предоставляет возможность освоения языка PDL, даёт визуальную картину процессов загрузки, упрощает разработку благодаря обилию функциональных компонентов.

В посте я расскажу о возможностях Ab Initio и приведу сравнительные характеристики по его работе с Hive и GreenPlum.

Описание фреймворка MDW и работ по его донастройке под GreenPlum
Сравнительные характеристики производительности Ab Initio по работе с Hive и GreenPlum
Работа Ab Initio с GreenPlum в режиме Near Real Time

Читать дальше →

+10

AgileChange Jan 14 2020 at 10:41

«Красная» корпоративная культура — главная проблема российского бизнеса (Часть 1)

6 min

101K

Project management*Agile*Personnel Management*

«— Скажите, пожалуйста, куда мне отсюда идти? — А куда ты хочешь попасть? — ответил Кот. — Мне все равно… — сказала Алиса. — Тогда все равно, куда и идти, — заметил Кот.» (С) «Алиса в стране чудес»

Низкая производительность труда в России

Думаю, что те из вас, кто был в Греции, ни за что не согласятся, что греки работают лучше россиян. Тем не менее, по исследованиям Организации экономического сотрудничества и развития (ОСЭР) Россия со своим показателем производительности труда на уровне $26,5 в час уступает всем странам ОЭСР (по сути все развитые страны), включая Грецию, кроме Мексики, где он составляет $21,6. Средний для ОЭСР показатель — $54,8, а у лидеров — Ирландии и Люксембурга — на уровне $99 в час.

Читать дальше →

+108

524

chudnovskiy Jun 17 2019 at 09:00

Зачем мы делаем Enterprise Service Mesh

8 min

35K

IT Infrastructure*Сбер corporate blogCloud services*Distributed systems*Microservices*

Service Mesh — известный архитектурный паттерн для интеграции микросервисов и перехода на облачную инфраструктуру. Сегодня в облачно-контейнерном мире обойтись без него довольно сложно. На рынке уже доступны несколько open-source реализаций service mesh, но их функциональности, надежности и безопасности далеко не всегда достаточно, особенно когда речь идет о требованиях больших финансовых компаний масштаба всей страны. Поэтому мы в Сбертехе решили кастомизировать Service Mesh и хотим рассказать о том, что в Service Mesh круто, что не очень и что мы с этим собираемся сделать.

Читать дальше →

+12

SLY_G Oct 17 2016 at 22:59

Как фотоны воспринимают время?

5 min

64K

Popular sciencePhysics

Translation

У каждого есть мечта; я хотел бы дожить до рассвета, но знаю, что мне осталось менее трёх часов. Будет ночь, но это неважно. Умирать просто. Для этого не нужен свет. Так тому и быть: я умру при свете звёзд.
— Виктор Гюго

Перемещаясь со скоростью света, фотоны, испущенные Солнцем, достигают Земли примерно за 8 минут. Путь в 150 миллионов километров по пустому космосу – это не препятствие для света, но для нас это значит, что глядя на Солнце, мы видим его таким, каким оно было незадолго до этого, а не таким, какое оно в данный момент является. Если бы Солнце мгновенно исчезло прямо сейчас, мы не узнали бы об этом – ни из-за света, ни из-за гравитации – пока не прошли бы восемь минут. Но как это выглядит с точки зрения фотона? Известно, что если перемещаться со скоростью, приближающейся к скорости света, включается СТО Эйнштейна, время замедляется, а длина уменьшается. Однако же фотоны двигаются со скоростью не близкой, а равной скорости света. И насколько же тогда стареет фотон, испущенный Солнцем, к тому времени, как он достигает Земли?

Читать дальше →

+29

175

Sberbank Apr 26 2018 at 09:00

Дао интеграции Сбербанка: от локальных сетей к Kafka и потоковой разработке

25 min

28K

System Analysis and Design*IT Infrastructure*Сбер corporate blogBig Data*Development of communication systems*

Привет, Хабр! Меня зовут Михаил Голованов, в Сбертехе я занимаюсь технической архитектурой и перспективными разработками. У нас, как и у любого современного банка, есть множество систем, которые поддерживают разные стороны работы банка: вклады, счета, зачисление денег, кредитование, финансовые рынки, акции и т.д. Всякий раз, когда появляется какая-то новая система, мы начинаем следующий уровень увлекательной игры под названием «Интеграция». И каждый следующий уровень сложнее предыдущего — ведь систем нужно охватывать все больше и больше. Этот пост — то, что в геймерских кругах именуется walkthrough: сначала мы пробежимся по локальным сетям и затем через очереди сообщений перейдем к масштабному этапу потоковых вычислений посредством Apache Kafka в широко распределенных сетях.

Читать дальше →

+41

nmivan May 11 2018 at 09:29

Дурилка картонная. Цифровая

9 min

8.1K

System Analysis and Design*Data visualization*Development Management*Sales management*IT career

Первый

– Продажи – по продуктам, по регионам, по клиентам. Приход денег. – Первый зачитывал заголовки отчетов на распечатках, и по одной передавал мне.

– Приход денег в той же аналитике? – с умным видом спросил я.

– А ты можешь приход денег по продуктам посчитать? – на лице Первого расплылась улыбка.

– Хм… Нет, вообще-то. Да, тупанул. – мне стало немного не по себе. Ну его, лучше молчать буду.

– Вот-вот. Дальше – приход и расход денег по статьям. Маржинальная прибыль, без налогов и косвенных, только транспортные оставь и менеджерские проценты. По продуктам, клиентам, регионам. Все вроде. – Первый передал мне последнюю бумажку, сложил руки на столе и уставился на меня.

– Все? Раз, два, три, четыре. Четыре отчета? Больше ничего не надо?

– А что еще надо? Вроде этого достаточно для контроля ситуации. Остальное – если потребуется, предоставят экономисты и бухгалтерия. – Первый говорил спокойно и уверенно.

Читать дальше →

ВТБ corporate blog March 12 2018

Как в ВТБ меняли парадигму доступа к данным

Big Data-мания имеет под собой реальное основание. Объемы данных, которые собирают компании, стремительно растут, и бизнес при их грамотном анализе может получить большое конкурентное преимущество. Как «причесать» систему, в которой распределенные по разным хранилищам данные соседствуют с зоопарком малофункциональных инструментов для их обработки? Мы в банке ВТБ перешли на Hadoop, внедрив единую экосистему от Teradata по технологии QueryGrid. Нашей болью, муками, собственно интеграцией и результатами мы хотим с вами поделиться.

Под катом - наш опыт внедрения единой экосистемы от Teradata по технологии QueryGrid и Presto.

+26

olegchir Jan 30 2018 at 15:16

Спецпроекты в Сбербанк-Технологиях: как в банках готовят Hadoop, Spark, Kafka и прочую Big Data

27 min

32K

Java*Big Data*JUG Ru Group corporate blogMachine learning*Hadoop*

Все мы любим посмеяться над дремучим legacy на Java, которое якобы живёт в банках. После прочтения этой статьи у вас появится понимание другой грани этой истории. Оказывается, конкретно в Сбербанк-Технологиях есть целые большие отделы, занимающиеся прорывными технологиями и направлениями, включая Big Data и Machine Learning. Более того, скоро мы можем оказаться в мире, где Machine Learning встроен чуть ли не в каждую кофеварку. К добру или к худу, но Internet of Things, следящий за нами тысячью глаз из каждого банкомата, — куда более актуальное прочтение этой старой шутки.

Как вы, наверное, заметили, я пишу на Хабре про виртуальные машины, внутренности OpenJDK, JVM и другую системную разработку. Почему эта статья — о банковском софте? Потому что это актуально как никогда. Вот представьте, вы такой весь в белом, дважды Data Scientist и четырежды важный гуру JIT-компиляции. Что дальше? Кому всё это может быть нужно прямо здесь и сейчас? Часто слышу рассуждения на тему: «Вот сейчас ты ковыряешься в своей любимой Java, а завтра никто тебя на работу не возьмёт». Это очень забавное и опасное заблуждение. Благодаря таким товарищам, о которых пойдёт речь в этой статье, работа у нас будет всегда.

Конечно, на слово мне никто верить не должен, поэтому специально для Хабра я сорвался на самолёт в Москву, чтобы пообщаться с начальником отдела разработки спецпроектов в Сбербанк-Технологиях. Вадим Сурпин потратил на меня чуть больше часа, а в этом интервью будут только самые важные мысли из нашего разговора. Кроме того, удалось уговорить Вадима подать заявку на участие в нашей конференции JBreak. Более того, Вадим — первый человек, который показался мне достойным инвайта на Хабр: vadsu (инвайт был честно заработан статьей про хакинг ChromeDriver).

Читать дальше →

+34

it_man Dec 24 2017 at 11:55

Hadoop 3.0: краткий обзор новых возможностей

2 min

12K

High performance*IT Infrastructure*MWS corporate blogBig Data*Hadoop*

Apache Software Foundation объявили о выходе новой версии открытого фреймворка для разработки и выполнения распределённых программ — Hadoop 3.0. Это первый крупный релиз с момента выпуска Hadoop 2 в 2013 году. Подробнее о некоторых новых возможностях Hadoop 3.0 и о том, что предложат последующие версии, расскажем далее.

Читать дальше →

+16

Orest_ua Dec 8 2017 at 15:01

Oracle Open World 2017: анонсы «Автономного AI»

10 min

Oracle*Cloud computing*МУК corporate blogMachine learning*

Oracle Executive Chairman и CTO Ларри Эллисон (Larry Ellison) хочет, чтобы глобальную конференцию Oracle Open World 2017, которая прошла в октябре в Сан-Франциско, запомнили именно по этим анонсам. Oracle сегодня выдвигает на первый план обучение машин (machine learning, ML) и искусственный интеллект (artificial intelligence, AI) для облачных сервисов, а также поставку «умных приложений» (smart applications) и решений, управляемых данными (data-driven decisions).

Читать дальше →

tguev Jul 29 2013 at 00:00

Знай сложности алгоритмов

2 min

Algorithms*

Translation

Эта статья рассказывает о времени выполнения и о расходе памяти большинства алгоритмов используемых в информатике. В прошлом, когда я готовился к прохождению собеседования я потратил много времени исследуя интернет для поиска информации о лучшем, среднем и худшем случае работы алгоритмов поиска и сортировки, чтобы заданный вопрос на собеседовании не поставил меня в тупик. За последние несколько лет я проходил интервью в нескольких стартапах из Силиконовой долины, а также в некоторых крупных компаниях таких как Yahoo, eBay, LinkedIn и Google и каждый раз, когда я готовился к интервью, я подумал: «Почему никто не создал хорошую шпаргалку по асимптотической сложности алгоритмов? ». Чтобы сохранить ваше время я создал такую шпаргалку. Наслаждайтесь!

Читать дальше →

+280

nanton Nov 10 2017 at 13:25

За пять дней я прошел собеседования в пяти компаниях Силиконовой долины и получил пять предложений о работе

12 min

118K

Studying in ITIT careerInlyIT corporate blog

Translation

За пять дней, с 24 по 28 июля 2017 года, я прошел собеседования в LinkedIn, Salesforce Einstein, Google, Airbnb и Facebook; все пять компаний предложили мне работу. Это был замечательный опыт и я понимаю, как мне повезло, что мои усилия оправдали себя, поэтому решил написать об этом. Здесь я расскажу о том, как готовился к собеседованиям, как они проходили и какое впечатление произвели на меня компании.

Как все началось

Я отработал в Groupon почти три года. Это моя первая работа, там были и прекрасные люди, и отличные проекты. Мы делали всякие интересные штуки, вводили перемены внутри компании, публиковали материалы и все в таком духе. Но со временем я стал ощущать, что темп моего самообразования стал затухать (попросту говоря, замедляться), мне не хватало пищи для ума. К тому же, как и всякого разработчика ПО из Чикаго, меня тянуло в Область залива Сан-Франциско — ведь там столько известных компаний.

Жизнь коротка, а профессиональная жизнь еще короче. Обговорив все с женой и заручившись ее полной поддержкой, я решил сделать решительный шаг и в первый раз в жизни поменять работу.

Читать дальше →

+81

olegbunin Oct 16 2017 at 13:42

Введение в архитектуры нейронных сетей

31 min

196K

High performance*Data Mining*Конференции Олега Бунина (Онтико) corporate blogBig Data*Machine learning*

Григорий Сапунов (Intento)

Меня зовут Григорий Сапунов, я СТО компании Intento. Занимаюсь я нейросетями довольно давно и machine learning’ом, в частности, занимался построением нейросетевых распознавателей дорожных знаков и номеров. Участвую в проекте по нейросетевой стилизации изображений, помогаю многим компаниям.

Давайте перейдем сразу к делу. Моя цель — дать вам базовую терминологию и понимание, что к чему в этой области, из каких кирпичиков собираются нейросети, и как это использовать.

План доклада такой. Сначала небольшое введение про то, что такое нейрон, нейросеть, глубокая нейросеть, чтобы мы с вами общались на одном языке.

Дальше я расскажу про важные тренды, что происходит в этой области. Затем мы углубимся в архитектуру нейросетей, рассмотрим 3 основных их класса. Это будет самая содержательная часть.

После этого рассмотрим 2 сравнительно продвинутых темы и закончим небольшим обзором фреймворков и библиотек для работы с нейросетями.

Читать дальше →

+48

2 3