Pull to refresh
0
Алексей Ярыгин @Alexey_Yaryginread⁠-⁠only

Аналитик

Send message

Большие данные мертвы. Это нужно принять

Level of difficultyMedium
Reading time17 min
Views72K

Уже более десяти лет тот факт, что люди с трудом извлекают из своих данных полезную информацию, сбрасывают на чересчур большой размер этих данных. «Объем собираемой информации слишком велик для ваших хилых систем», — такой нам ставили диагноз. А лекарство, соответственно, заключалось в том, чтобы купить какую‑нибудь новую причудливую технологию, которая сможет работать в больших масштабах. Конечно, после того, как целевая группа по Big Data покупала новые инструменты и мигрировала с устаревших систем, компании снова обнаруживали, что у них по‑прежнему возникают проблемы с пониманием своих данных.

В результате постепенно некоторые начинали понимать, что размер данных вообще не был проблемой.

Мир в 2023 году выглядит иначе, чем когда зазвенели первые тревожные звоночки по поводу Big Data. Катаклизм обработки информации, который все предсказывали, не состоялся. Объемы данных, возможно, немного возросли, но возможности аппаратного обеспечения росли еще быстрее. Поставщики услуг все еще продвигают свои возможности масштабирования, но люди, которые сталкиваются с ними на практике, начинают задаваться вопросом, как они вообще связаны с их реальными проблемами.

А дальше будет и того интереснее.

Читать далее
Total votes 115: ↑110 and ↓5+140
Comments76

Таск-менеджмент для выживания в цейтноте

Level of difficultyEasy
Reading time3 min
Views6.4K

Я большой любитель тайм-менеджмента и всяких систем управления задачами. Но заметил, что иногда эти системы ломаются. Работаю-работаю, составляю долгосрочные цели, декомпозирую в планы на неделю и всё идёт хорошо, пока в какой-то момент не начинается цейтнот. Как правило, это случается на стыке кварталов, полугодий или годов. Нужно одновременно спешно доделать недоделанное, запланировать работу команды на следующий квартал (а для этого собрать требования с заказчиков и договориться со смежными командами, которые тоже в это время строят свои планы), подвести итоги прошедшего квартала, написать обоснование для запроса новых ставок, подготовиться к перформанс-ревью подчинённых и т.д. Казалось бы, это то, ради чего нужен тайм-менежмент. Но что-то идёт не так. Почему?

Читать далее
Total votes 15: ↑13 and ↓2+16
Comments13

Как избавиться от прокрастинации до того, как она разрушит вашу карьеру

Reading time9 min
Views88K

Прокрастинацию принято считать разновидностью лени и ерундой, а эффективным лекарством от нее грозный окрик: «Соберись, тряпка!» На деле прокрастинация — опасная проблема, сродни зависимости, которая вызывает много вины и стыда, и способна со временем разрушить личность. Почему она так опасна, редко лечится попыткой «взять себя в руки» и как ее одолеть?

Читать далее
Total votes 57: ↑51 and ↓6+57
Comments96

Что такое JSON

Reading time11 min
Views653K

JSON (англ. JavaScript Object Notation) — текстовый формат обмена данными, основанный на JavaScript. Но при этом формат независим от JS и может использоваться в любом языке программирования.

JSON используется в REST API. По крайней мере, тестировщик скорее всего столкнется с ним именно там.

И если в SOAP API возможен только формат XML, REST поддерживает как XML, так и JSON. Разработчики предпочитают JSON — он легче читается человеком и меньше весит.

 

Читать далее
Total votes 42: ↑12 and ↓30-16
Comments24

DevOps + Data: Синергия двух миров = DataOps

Reading time4 min
Views5.3K

Что-то последнее время становится много Ops-ов: DevOps, MLOps, DataOps. ЧТО ты такое ?

Последнее время работа с большими данными становится все более доступной и распространенной, а самих данных становится все больше и растут они с огромной скоростью. Инженерное мышление любит оптимизации, поэтому

DataOps - это новая парадигма, которая использует принципы, лучшие практики DevOps и применяет их к управлению данными.

Эта заметка будет полезна для людей незнакомых с направлением DataOps, для новичков, кто слышал об этом подходе и захотел узнать о чем это.

Читать далее
Total votes 14: ↑12 and ↓2+10
Comments0

Разработка платформы управления данными. Доклад Яндекса

Reading time25 min
Views10K
Яндекс Go разрабатывает платформу управления данными (DMP) как сервис для офлайн- и near real-time-обработки данных. Я постарался рассказать, какая мотивация нужна для создания собственного ETL-инструмента, как ETL и Data Warehouse превратить в DMP, какие проблемы возникают в процессе разработки и как мы их решаем.

— Меня зовут Владимир Верстов, я руковожу разработкой DMP в Яндекс Go — той частью, которая относится к платформе. Не контентной частью, а универсальными инструментами, которые мы переиспользуем, чтобы удобным образом выстроить внутри Такси, Еды и Лавки потоки данных и другие процессы, связанные с дата-инжинирингом. Чтобы сделать сущность, позволяющую дата-инженерам, аналитикам и разработчикам бэкенда коммуницировать на уровне данных и процессов.

Начать рассказ проще всего с вопроса, что вообще такое DMP, потому что каждый под этим может понимать что-то свое: нет устоявшихся паттернов. Расскажу, как мы вообще пришли к текущему состоянию, покажу несколько примеров использования нашей платформы для Greenplum, для Spark, и постараюсь успеть подвести итоги.
Читать дальше →
Total votes 7: ↑6 and ↓1+8
Comments1

Бутстреп и А/Б тестирование

Reading time10 min
Views54K

Привет, Хабр! В этой статье разберёмся, как с помощью бутстрепа оценивать стандартное отклонение, строить доверительные интервалы и проверять гипотезы. Узнаем, когда бутстреп незаменим, и в чём его недостатки. 

Читать далее
Total votes 12: ↑12 and ↓0+12
Comments9

Инструменты Data Governance

Reading time6 min
Views29K

В двадцать первом веке миром правит информация и для того, чтобы оставаться конкурентоспособным на рынке предприятию необходимо не только владеть информацией, а также уметь грамотно ей распоряжаться. На данный момент существуют разные системы управления данными для эффективного управления компанией.

Разберем понятие Data Governance, что это и для чего оно предприятию.

Data Governance – это совокупность процессов определения наиболее важных данных для использования сотрудниками, присвоение им прав доступа и управления для отлаженной работы бизнес-процесса, а также защита данных от внешних воздействий.

Стоит отметить, что многие путают понятия Data Governance и Data Management.

Data Management это процесс сбора, хранения и обновления данных.

Можно сказать, что Data Governance формирует стратегию управления данными, а Data Management напрямую осуществляет управление данными согласно определенной стратегии.

Читать далее
Total votes 1: ↑1 and ↓0+1
Comments6

«Почему мне так плохо?» Частая причина депрессии, о которой мало кто подозревает

Reading time5 min
Views74K

Иногда причины депрессии очевидны, а иногда неуловимы. Особенно если все хорошо — работа нравится, личная жизнь тоже, СВО еще не началась, солнышко светит, а на душе тошно. В чем может быть причина? А вот в чем.

Читать далее
Total votes 71: ↑48 and ↓23+41
Comments338

Как я построил процесс образовательных митингов в отделе и заработал на этом денег

Reading time8 min
Views5.5K

Я — Денис, Android-разработчик в «Лайв Тайпинге». В этой статье расскажу о своём опыте внедрения нового процесса в отделе. Мы поговорим о важности образовательных митингов, а также найдем решения проблем, с которыми можно столкнутся во время его внедрения. У этой истории нетипичная концовка: я поделюсь тем, как митинги помогли мне выпустить собственную книгу. Так что в качестве бонуса — несколько советов о том, как опубликовать книгу на «ЛитРес: Самиздат».

Поехали!
Total votes 4: ↑3 and ↓1+3
Comments6

Изучаем Python за 6 месяцев. Подробный план обучения

Level of difficultyEasy
Reading time5 min
Views212K

Простой и красивый синтаксис, множество библиотек под самые разные задачи и большое комьюнити делают Python одним из самых популярных языков программирования на сегодняшний день, который активно используется в data science и машинном обучении, веб-разработке и других областях программирования.

Когда я начал изучать питон, у меня возникло несколько вопросов.

Читать далее
Total votes 47: ↑26 and ↓21+8
Comments87

Разделяй и властвуй, или Зачем управлять данными

Reading time16 min
Views9K

Хабр, привет! Сегодня, в предпраздничный день, публикую статью Кирилла Евдокимова, директора практики Data Governance GlowByte. В области данных и аналитики он работает уже около 20 лет, последние 7 лет основной фокус – это Data Governance. Как говорит Кирилл, история с управлением данными всё еще остаётся terra incognita. В статье под катом он разбирает наиболее частые ошибки, проблемы, с которыми приходится сталкиваться компаниям, вступающим на тернистый путь управления данными.

Читать статью Кирилла
Total votes 16: ↑13 and ↓3+12
Comments0

Математика для Data Science и машинного обучения за 8 месяцев. Подробный план обучения

Level of difficultyEasy
Reading time7 min
Views83K

Беспилотные автомобили, продвинутые голосовые ассистенты, рекомендательные системы – это только малая часть тех классных продуктов, которые создаются с помощью инженеров по машинному обучению и, думаю, не для кого не секрет, что за кулисами сего чуда стоит математика. Именно она играет главную роль в понимании алгоритмов машинного и глубокого обучения.

Машинное обучение держится на трёх основных столпах:

Читать далее
Total votes 19: ↑18 and ↓1+22
Comments44

«Чем я могу помочь?» или нетрадиционная парадигма управления

Reading time8 min
Views8.9K

«Управлять – это значит не мешать хорошим людям работать» говорил Сергей Петрович Капица. Некоторым кажется, что в этой цитате управление представляется в негативном свете, вроде активность менеджера больше препятствует достижению намеченной цели или же просто не добавляет ценности, а управление — это и не работа вовсе: хорошие люди - работают, а руководители, стало быть, нет. Я смотрю на это, как на конструктивный совет руководителям via negativа. Типа «первая заповедь менеджера – не мешай». Я кое-чего написал об этом ранее, но сейчас хотелось бы углубиться не в то, как не надо, а в то, как надо бы. Итак, ловите очередную упаковку magic pills, а уж там - сами разбирайтесь: какая из них синяя, а какая показывает глубину кроличьей норы.

Читать далее
Total votes 19: ↑16 and ↓3+16
Comments18

Нельзя так просто взять и всё успеть: как работать с задачами

Reading time10 min
Views34K

Два года назад я задался вопросом "Как мне все успевать?". Вопрос пришел в веселой компании усталости, прокрастинации и выгорания...

Читать далее
Total votes 25: ↑22 and ↓3+22
Comments20

Семь прогнозов: что ждет data-инжиниринг в 2023 году

Reading time7 min
Views4.9K


Команда VK Cloud перевела статью о том, что ждет дата-инжиниринг в новом 2023 году. Предсказания на грядущий год редко претендуют на серьезность, но и у них есть своя цель. Они помогают нам отвлечься от повседневности и задуматься о том, на что стоит ставить в долгосрочной перспективе.
Читать дальше →
Total votes 9: ↑8 and ↓1+15
Comments2

Создаем аватарки с помощью нейросети Stable Diffusion и DreamBooth

Reading time6 min
Views43K

"Портрет, сделанный нейросетью" - все чаще читаем в новостной ленте, и каждый хотел бы сделать себе подобный, но удобные сервисы, просящие монету, или желание разбираться самому, отталкивают. Не нужно ничего скачивать. Час времени и каждый сможет сделать себе аватарку!

Читать далее
Total votes 14: ↑12 and ↓2+13
Comments2

Как бы я изучал Data Science, если бы начал пару лет назад, или Руководство по эффективному изучению науки о данных

Reading time5 min
Views30K
Когда я только начал своё путешествие к науке о данных, я потратил много времени на то, чтобы понять, с чего начать, что я должен узнать в первую очередь и какие ресурсы должен использовать. За последние два года я узнал несколько вещей, о которых хотел знать раньше, например о том, стоит ли сначала сосредоточиться на программировании или статистике, какие ресурсы я должен использовать для изучения новых навыков, как я должен подходить к изучению этих навыков и так далее. Таким образом, эта статья написана, чтобы дать направления и идеи для тех, кто изучает Data Science.

Приятного чтения!
Total votes 30: ↑29 and ↓1+35
Comments3

Книга «Python для сложных задач: наука о данных и машинное обучение»

Reading time13 min
Views46K
imageПривет, Хаброжители! Данная книга — руководство по самым разным вычислительным и статистическим методам, без которых немыслима любая интенсивная обработка данных, научные исследования и передовые разработки. Читатели, уже имеющие опыт программирования и желающие эффективно использовать Python в сфере Data Science, найдут в этой книге ответы на всевозможные вопросы, например: как считать этот формат данных в скрипт? как преобразовать, очистить эти данные и манипулировать ими? как визуализировать данные такого типа? как при помощи этих данных разобраться в ситуации, получить ответы на вопросы, построить статистические модели или реализовать машинное обучение?

Ниже под катом обзор книги и отрывок «Гистограммы, разбиения по интервалам и плотность»
Читать дальше →
Total votes 20: ↑19 and ↓1+18
Comments20

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity