Как стать автором
Обновить
0
Алексей Ярыгин @Alexey_Yaryginread⁠-⁠only

Аналитик

Отправить сообщение

Большие данные мертвы. Это нужно принять

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров72K

Уже более десяти лет тот факт, что люди с трудом извлекают из своих данных полезную информацию, сбрасывают на чересчур большой размер этих данных. «Объем собираемой информации слишком велик для ваших хилых систем», — такой нам ставили диагноз. А лекарство, соответственно, заключалось в том, чтобы купить какую‑нибудь новую причудливую технологию, которая сможет работать в больших масштабах. Конечно, после того, как целевая группа по Big Data покупала новые инструменты и мигрировала с устаревших систем, компании снова обнаруживали, что у них по‑прежнему возникают проблемы с пониманием своих данных.

В результате постепенно некоторые начинали понимать, что размер данных вообще не был проблемой.

Мир в 2023 году выглядит иначе, чем когда зазвенели первые тревожные звоночки по поводу Big Data. Катаклизм обработки информации, который все предсказывали, не состоялся. Объемы данных, возможно, немного возросли, но возможности аппаратного обеспечения росли еще быстрее. Поставщики услуг все еще продвигают свои возможности масштабирования, но люди, которые сталкиваются с ними на практике, начинают задаваться вопросом, как они вообще связаны с их реальными проблемами.

А дальше будет и того интереснее.

Читать далее
Всего голосов 115: ↑110 и ↓5+140
Комментарии76

Визуализация данных с помощью Python Dash

Время на прочтение8 мин
Количество просмотров24K

В этом руководстве вы получите представление о том, на что способен Dash, и как интегрировать его в свой рабочий процесс.

Читать далее
Всего голосов 5: ↑4 и ↓1+4
Комментарии2

Таск-менеджмент для выживания в цейтноте

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров6.4K

Я большой любитель тайм-менеджмента и всяких систем управления задачами. Но заметил, что иногда эти системы ломаются. Работаю-работаю, составляю долгосрочные цели, декомпозирую в планы на неделю и всё идёт хорошо, пока в какой-то момент не начинается цейтнот. Как правило, это случается на стыке кварталов, полугодий или годов. Нужно одновременно спешно доделать недоделанное, запланировать работу команды на следующий квартал (а для этого собрать требования с заказчиков и договориться со смежными командами, которые тоже в это время строят свои планы), подвести итоги прошедшего квартала, написать обоснование для запроса новых ставок, подготовиться к перформанс-ревью подчинённых и т.д. Казалось бы, это то, ради чего нужен тайм-менежмент. Но что-то идёт не так. Почему?

Читать далее
Всего голосов 15: ↑13 и ↓2+16
Комментарии13

Как избавиться от прокрастинации до того, как она разрушит вашу карьеру

Время на прочтение9 мин
Количество просмотров89K

Прокрастинацию принято считать разновидностью лени и ерундой, а эффективным лекарством от нее грозный окрик: «Соберись, тряпка!» На деле прокрастинация — опасная проблема, сродни зависимости, которая вызывает много вины и стыда, и способна со временем разрушить личность. Почему она так опасна, редко лечится попыткой «взять себя в руки» и как ее одолеть?

Читать далее
Всего голосов 57: ↑51 и ↓6+57
Комментарии96

Что такое JSON

Время на прочтение11 мин
Количество просмотров665K

JSON (англ. JavaScript Object Notation) — текстовый формат обмена данными, основанный на JavaScript. Но при этом формат независим от JS и может использоваться в любом языке программирования.

JSON используется в REST API. По крайней мере, тестировщик скорее всего столкнется с ним именно там.

И если в SOAP API возможен только формат XML, REST поддерживает как XML, так и JSON. Разработчики предпочитают JSON — он легче читается человеком и меньше весит.

 

Читать далее
Всего голосов 42: ↑12 и ↓30-16
Комментарии24

DevOps + Data: Синергия двух миров = DataOps

Время на прочтение4 мин
Количество просмотров5.3K

Что-то последнее время становится много Ops-ов: DevOps, MLOps, DataOps. ЧТО ты такое ?

Последнее время работа с большими данными становится все более доступной и распространенной, а самих данных становится все больше и растут они с огромной скоростью. Инженерное мышление любит оптимизации, поэтому

DataOps - это новая парадигма, которая использует принципы, лучшие практики DevOps и применяет их к управлению данными.

Эта заметка будет полезна для людей незнакомых с направлением DataOps, для новичков, кто слышал об этом подходе и захотел узнать о чем это.

Читать далее
Всего голосов 14: ↑12 и ↓2+10
Комментарии0

Разработка платформы управления данными. Доклад Яндекса

Время на прочтение25 мин
Количество просмотров10K
Яндекс Go разрабатывает платформу управления данными (DMP) как сервис для офлайн- и near real-time-обработки данных. Я постарался рассказать, какая мотивация нужна для создания собственного ETL-инструмента, как ETL и Data Warehouse превратить в DMP, какие проблемы возникают в процессе разработки и как мы их решаем.

— Меня зовут Владимир Верстов, я руковожу разработкой DMP в Яндекс Go — той частью, которая относится к платформе. Не контентной частью, а универсальными инструментами, которые мы переиспользуем, чтобы удобным образом выстроить внутри Такси, Еды и Лавки потоки данных и другие процессы, связанные с дата-инжинирингом. Чтобы сделать сущность, позволяющую дата-инженерам, аналитикам и разработчикам бэкенда коммуницировать на уровне данных и процессов.

Начать рассказ проще всего с вопроса, что вообще такое DMP, потому что каждый под этим может понимать что-то свое: нет устоявшихся паттернов. Расскажу, как мы вообще пришли к текущему состоянию, покажу несколько примеров использования нашей платформы для Greenplum, для Spark, и постараюсь успеть подвести итоги.
Читать дальше →
Всего голосов 7: ↑6 и ↓1+8
Комментарии1

Бутстреп и А/Б тестирование

Время на прочтение10 мин
Количество просмотров55K

Привет, Хабр! В этой статье разберёмся, как с помощью бутстрепа оценивать стандартное отклонение, строить доверительные интервалы и проверять гипотезы. Узнаем, когда бутстреп незаменим, и в чём его недостатки. 

Читать далее
Всего голосов 12: ↑12 и ↓0+12
Комментарии9

Инструменты Data Governance

Время на прочтение6 мин
Количество просмотров29K

В двадцать первом веке миром правит информация и для того, чтобы оставаться конкурентоспособным на рынке предприятию необходимо не только владеть информацией, а также уметь грамотно ей распоряжаться. На данный момент существуют разные системы управления данными для эффективного управления компанией.

Разберем понятие Data Governance, что это и для чего оно предприятию.

Data Governance – это совокупность процессов определения наиболее важных данных для использования сотрудниками, присвоение им прав доступа и управления для отлаженной работы бизнес-процесса, а также защита данных от внешних воздействий.

Стоит отметить, что многие путают понятия Data Governance и Data Management.

Data Management это процесс сбора, хранения и обновления данных.

Можно сказать, что Data Governance формирует стратегию управления данными, а Data Management напрямую осуществляет управление данными согласно определенной стратегии.

Читать далее
Всего голосов 1: ↑1 и ↓0+1
Комментарии6

«Почему мне так плохо?» Частая причина депрессии, о которой мало кто подозревает

Время на прочтение5 мин
Количество просмотров75K

Иногда причины депрессии очевидны, а иногда неуловимы. Особенно если все хорошо — работа нравится, личная жизнь тоже, СВО еще не началась, солнышко светит, а на душе тошно. В чем может быть причина? А вот в чем.

Читать далее
Всего голосов 71: ↑48 и ↓23+41
Комментарии338

Как я построил процесс образовательных митингов в отделе и заработал на этом денег

Время на прочтение8 мин
Количество просмотров5.5K

Я — Денис, Android-разработчик в «Лайв Тайпинге». В этой статье расскажу о своём опыте внедрения нового процесса в отделе. Мы поговорим о важности образовательных митингов, а также найдем решения проблем, с которыми можно столкнутся во время его внедрения. У этой истории нетипичная концовка: я поделюсь тем, как митинги помогли мне выпустить собственную книгу. Так что в качестве бонуса — несколько советов о том, как опубликовать книгу на «ЛитРес: Самиздат».

Поехали!
Всего голосов 4: ↑3 и ↓1+3
Комментарии6

Изучаем Python за 6 месяцев. Подробный план обучения

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров217K

Простой и красивый синтаксис, множество библиотек под самые разные задачи и большое комьюнити делают Python одним из самых популярных языков программирования на сегодняшний день, который активно используется в data science и машинном обучении, веб-разработке и других областях программирования.

Когда я начал изучать питон, у меня возникло несколько вопросов.

Читать далее
Всего голосов 47: ↑26 и ↓21+8
Комментарии87

Разделяй и властвуй, или Зачем управлять данными

Время на прочтение16 мин
Количество просмотров9.2K

Хабр, привет! Сегодня, в предпраздничный день, публикую статью Кирилла Евдокимова, директора практики Data Governance GlowByte. В области данных и аналитики он работает уже около 20 лет, последние 7 лет основной фокус – это Data Governance. Как говорит Кирилл, история с управлением данными всё еще остаётся terra incognita. В статье под катом он разбирает наиболее частые ошибки, проблемы, с которыми приходится сталкиваться компаниям, вступающим на тернистый путь управления данными.

Читать статью Кирилла
Всего голосов 16: ↑13 и ↓3+12
Комментарии0

Математика для Data Science и машинного обучения за 8 месяцев. Подробный план обучения

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров86K

Беспилотные автомобили, продвинутые голосовые ассистенты, рекомендательные системы – это только малая часть тех классных продуктов, которые создаются с помощью инженеров по машинному обучению и, думаю, не для кого не секрет, что за кулисами сего чуда стоит математика. Именно она играет главную роль в понимании алгоритмов машинного и глубокого обучения.

Машинное обучение держится на трёх основных столпах:

Читать далее
Всего голосов 19: ↑18 и ↓1+22
Комментарии45

«Чем я могу помочь?» или нетрадиционная парадигма управления

Время на прочтение8 мин
Количество просмотров9K

«Управлять – это значит не мешать хорошим людям работать» говорил Сергей Петрович Капица. Некоторым кажется, что в этой цитате управление представляется в негативном свете, вроде активность менеджера больше препятствует достижению намеченной цели или же просто не добавляет ценности, а управление — это и не работа вовсе: хорошие люди - работают, а руководители, стало быть, нет. Я смотрю на это, как на конструктивный совет руководителям via negativа. Типа «первая заповедь менеджера – не мешай». Я кое-чего написал об этом ранее, но сейчас хотелось бы углубиться не в то, как не надо, а в то, как надо бы. Итак, ловите очередную упаковку magic pills, а уж там - сами разбирайтесь: какая из них синяя, а какая показывает глубину кроличьей норы.

Читать далее
Всего голосов 19: ↑16 и ↓3+16
Комментарии18

Нельзя так просто взять и всё успеть: как работать с задачами

Время на прочтение10 мин
Количество просмотров34K

Два года назад я задался вопросом "Как мне все успевать?". Вопрос пришел в веселой компании усталости, прокрастинации и выгорания...

Читать далее
Всего голосов 25: ↑22 и ↓3+22
Комментарии20

Семь прогнозов: что ждет data-инжиниринг в 2023 году

Время на прочтение7 мин
Количество просмотров4.9K


Команда VK Cloud перевела статью о том, что ждет дата-инжиниринг в новом 2023 году. Предсказания на грядущий год редко претендуют на серьезность, но и у них есть своя цель. Они помогают нам отвлечься от повседневности и задуматься о том, на что стоит ставить в долгосрочной перспективе.
Читать дальше →
Всего голосов 9: ↑8 и ↓1+15
Комментарии2

Создаем аватарки с помощью нейросети Stable Diffusion и DreamBooth

Время на прочтение6 мин
Количество просмотров43K

"Портрет, сделанный нейросетью" - все чаще читаем в новостной ленте, и каждый хотел бы сделать себе подобный, но удобные сервисы, просящие монету, или желание разбираться самому, отталкивают. Не нужно ничего скачивать. Час времени и каждый сможет сделать себе аватарку!

Читать далее
Всего голосов 14: ↑12 и ↓2+13
Комментарии2

Как бы я изучал Data Science, если бы начал пару лет назад, или Руководство по эффективному изучению науки о данных

Время на прочтение5 мин
Количество просмотров30K
Когда я только начал своё путешествие к науке о данных, я потратил много времени на то, чтобы понять, с чего начать, что я должен узнать в первую очередь и какие ресурсы должен использовать. За последние два года я узнал несколько вещей, о которых хотел знать раньше, например о том, стоит ли сначала сосредоточиться на программировании или статистике, какие ресурсы я должен использовать для изучения новых навыков, как я должен подходить к изучению этих навыков и так далее. Таким образом, эта статья написана, чтобы дать направления и идеи для тех, кто изучает Data Science.

Приятного чтения!
Всего голосов 30: ↑29 и ↓1+35
Комментарии3

Книга «Python для сложных задач: наука о данных и машинное обучение»

Время на прочтение13 мин
Количество просмотров46K
imageПривет, Хаброжители! Данная книга — руководство по самым разным вычислительным и статистическим методам, без которых немыслима любая интенсивная обработка данных, научные исследования и передовые разработки. Читатели, уже имеющие опыт программирования и желающие эффективно использовать Python в сфере Data Science, найдут в этой книге ответы на всевозможные вопросы, например: как считать этот формат данных в скрипт? как преобразовать, очистить эти данные и манипулировать ими? как визуализировать данные такого типа? как при помощи этих данных разобраться в ситуации, получить ответы на вопросы, построить статистические модели или реализовать машинное обучение?

Ниже под катом обзор книги и отрывок «Гистограммы, разбиения по интервалам и плотность»
Читать дальше →
Всего голосов 20: ↑19 и ↓1+18
Комментарии20

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность