Как стать автором
Обновить
4
0

Пользователь

Отправить сообщение

40 Полезных инструментов Дата Саентиста

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров16K

В мире науки о данных существует бесчисленное множество библиотек и инструментов, которые помогают ускорить работу и повысить эффективность анализа.

Но что если я расскажу вам о некоторых полезных библиотеках, о которых вы скорее всего не слышали? В списке не будет всем известных библиотек таких, как Pandas, Polars, Scipy и тд

Сегодня, благодаря активному сообществу разработчиков, практически для любой задачи на Python можно найти готовый и полезный инструмент, который поможет вам в решении самых сложных задач.

Надеюсь, вы найдете что-то полезное для себя.

Читать
Всего голосов 27: ↑21 и ↓6+15
Комментарии6

Как подойти к внедрению DWH, чтобы не было «больно»? Какие методологии использовать и какой стек выбрать?

Время на прочтение9 мин
Количество просмотров3.7K

В статье рассказываем о том, кому стоит задуматься о внедрении DWH, как сократить вероятность ошибок на этапе разработки проекта, выбрать стек, методологию и сэкономить ИТ-бюджеты. 

Читать далее
Всего голосов 9: ↑8 и ↓1+7
Комментарии0

Apache NiFi. Как быстро подружиться с LDAP и Registry

Уровень сложностиПростой
Время на прочтение17 мин
Количество просмотров2.1K

Казалось бы, про Apache NiFi уже писали не раз. Но если ты только знакомишься с инструментом, разобраться в таких статьях бывает нелегко. Обычно с тобой говорят так, будто ты уже давно в теме, да и задачи чаще решают явно не твои. С официальной документацией тоже все сложно: она есть, но для быстрого погружения явно не подходит.

Вот почему я решил подготовить свой гайд для новичка. Попробуем максимально быстро разобраться с первичной настройкой NiFi и NiFi Registry, подключить авторизацию по LDAP, протестировать работоспособность, рассмотреть возможные ошибки настройки и отдебажить их. 

Читать далее
Всего голосов 9: ↑8 и ↓1+7
Комментарии6

Алертинг состояния выполения DAG`ов Apache Airflow в Telegram за 1 минуту

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров3K

Коллеги, здарова! Часто бывает что нужно отправить сообщение в мессенджер к разработчикам, в случае возникновения различных проблем.

Представляю небольшое решение, которое позволит отправить сообщение в Telegram с информацией о состоянии DAG`а Apache Airflow

Читать далее
Всего голосов 10: ↑8 и ↓2+6
Комментарии8

Типичные задачи аналитика. Часть 2. А есть ли тренд?

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров9.2K

В первой части статьи на Habr мы рассмотрели классические подходы к оценке изменений метрики при условии ее стационарности. В этом контексте статистические критерии, применяемые в A/B тестировании, оказались весьма эффективными.

Однако, если существует стабильный тренд, например, среднемесячная аудитория увеличивается из года в год, оценка разницы средних за два смежных периода времени может быть некорректной. В таком случае среднее значение предыдущего периода всегда будет отличаться от среднего постпериода, и это часто может быть не связано с исследуемым функционалом.

Одна из причин — тренд не всегда зависит от действий компании и часто является следствием внешних условий. Например, рост аудитории может быть связан с увеличением благосостояния населения, масштабированием бизнеса или сезонными факторами.

Таким образом, наличие или отсутствие тренда является важным аспектом анализа данных. Рассмотрим несколько успешных и неудачных подходов, которые можно применять для решения этой задачи.

Читать далее
Всего голосов 22: ↑22 и ↓0+22
Комментарии3

Использование Jupyter Notebook для разведочного анализа данных ⬝ Методические рекомендации

Уровень сложностиПростой
Время на прочтение19 мин
Количество просмотров11K

Блокноты Jupyter — это, уже довольно давно, один из самых неоднозначных инструментов в среде дата‑сайентистов. Одни яро критикуют Jupyter, другие горячо поддерживают этот проект. Но, тем не менее, многие согласятся с тем, что блокноты Jupyter, при правильном их использовании, могут быть очень ценным инструментом. Именно этому и посвящена данная статья — вторая в серии моих материалов про науку о данных и машинное обучение. Я поделюсь здесь методическими рекомендациями по использованию Jupyter Notebook для разведочного анализа данных.

Но для начала нам надо ответить на вопрос о том, почему блокноты Jupyter обосновались именно в научном сообществе. Когда тема Data Science была у всех на слуху, блокноты Jupyter ещё ничего из себя не представляли. До них у нас был IPython, интерактивная оболочка для Python, которую встраивали в различные IDE, вроде Spyder. Эти IDE пытались подражать работе RStudio или Matlab. Подобные инструменты получили широкое распространение среди исследователей.

В 2014 году из среды IPython вырос проект Jupyter. Масштабы его использования очень быстро стали просто огромными, чему, в основном, способствовали исследователи, которые перенесли в бизнес‑среду то, чем пользовались, занимаясь наукой. Но те подходы к использованию блокнотов, которые хороши для научных учреждений, не всегда нормально переносятся на анализ данных, проводимый в обычных организациях. Часто бывает так, что дата‑сайентистам, взятым на работу сразу после университета, очень сложно выдать то, что от них ожидают в бизнесе. Речь идёт о структуре аналитических разработок и об оформлении их результатов.

Читать далее
Всего голосов 23: ↑22 и ↓1+21
Комментарии0

Два сапога — пара, а три — уже community: как алгоритмы на графах помогают собирать группы товаров

Время на прочтение14 мин
Количество просмотров22K

Привет, Хабр! Меня зовут Иван Антипов, я занимаюсь ML в команде матчинга Ozon. Наша команда разрабатывает алгоритмы поиска одинаковых товаров на сайте. Это позволяет покупателям находить более выгодные предложения, экономя время и деньги.

В этой статье мы обсудим кластеризацию на графах, задачу выделения сообществ, распад карате-клуба, self-supervised и unsupervised задачи — и как всё это связано с матчингом.

Читать далее
Всего голосов 127: ↑127 и ↓0+127
Комментарии33

Apache Spark и PySpark для аналитика. Учимся читать и понимать план запроса в SparkUI

Время на прочтение7 мин
Количество просмотров14K

Продолжаем выводить ваши знания о PySpark на новый уровень :) В этот раз расскажем, что такое план запроса, как его смотреть, и что делать, чтобы уточнить узкие места в расчётах.

Читать далее
Всего голосов 10: ↑9 и ↓1+8
Комментарии0

Инструменты продуктового аналитика VK, или Как мы работаем с большими данными

Уровень сложностиСредний
Время на прочтение15 мин
Количество просмотров8.4K

Принятие решений на основе данных является неотъемлемой частью работы аналитика. Данные помогают сделать это быстро. Но что если объём данных достигает десятков петабайт? Подобная задача становится не такой тривиальной, как может показаться на первый взгляд. Как масштабировать работу с данными в продуктовых командах? Как быстро найти инсайты в куче данных? Какие инструменты могут быть полезны для аналитика?

Заинтригованы? Добро пожаловать в мир аналитики больших данных.

Читать далее
Всего голосов 42: ↑38 и ↓4+34
Комментарии2

Главное из книги Fundamentals of Data engineering — фундаментального труда о дата-инжиниринге

Время на прочтение10 мин
Количество просмотров9.3K


Команда VK Cloud перевела статью, в которой автор кратко излагает основные мысли книги Джо Рейса и Мэтта Хаусли Fundamentals of Data engineering. Здесь приводится краткий конспект глав и самые важные моменты, которые полезно знать любому человеку, работающему с данными.
Читать дальше →
Всего голосов 25: ↑25 и ↓0+25
Комментарии0

Как мы научили заводчан строить красивые инженерные отчеты из Jupyter Notebook на Python

Время на прочтение14 мин
Количество просмотров29K

Была у нас тут история, когда легкий перфекционизм помог привести в порядок конструкторскую документацию и регулярно экономить инженерам кучу дней на прохождение бюрократических процедур. В ее основе – создание системы управления расчетными данными и переход от трудночитаемых и трудноинтегрируемых отчетов Mathcad к гибкой связке Jupyter Notebook с Python и Teamcenter. Но основной рассказ будет про то, как преобразовывать и экспортировать математические формулы, таблицы и другие элементы из Jupyter в красивый и удобный вид.

Читать далее
Всего голосов 96: ↑96 и ↓0+96
Комментарии18

Полное руководство по сезонной депрессии (SAD). 7 видов светотерапии

Время на прочтение26 мин
Количество просмотров59K


Я проделал большую работу по исследованию англоязычной литературы на тему «рекуррентное депрессивное расстройство (F33) с сезонным паттерном». В этой статье я системно изложу всю найденную информацию.

Почему эта статья важна:

  1. Лучшая книга по сезонной депрессии (Winter Blues) за все 27 лет её существования не была переведена на русский язык, а англоязычную версию не найти в открытом доступе. Я купил и прочитал книгу через Kindle, а также внедрил 70% описанных в ней методик в жизнь. Моя статья будет, по сути, пересказом книги и её адаптации под российские реалии
  2. Полное непонимание сезонной депрессии как обывателями, так и некоторыми профессиональными врачами в России, хотя эта страна находится в группе риска
  3. Низкое качество статей рунета в целом и статей по здоровью в частности. А статьи на Хабре, имеющие отношение к SAD, можно пересчитать по пальцам, и они не дают общей картины
  4. Производители ламп яркого света используют хитрые манипуляции, маркируя слабенькие лампы как дающие 10 000 люкс, но достигая этой яркости на расстоянии около 10 сантиметров от лампы до хрусталика глаза
Читать дальше →
Всего голосов 19: ↑18 и ↓1+17
Комментарии93

Kandinsky Video — первая российская модель генерации видео по тексту

Уровень сложностиСложный
Время на прочтение8 мин
Количество просмотров12K

Если несколько предметов, постоянно меняющих форму и положение, будут последовательно возникать перед глазами через очень короткие промежутки времени и на маленьком расстоянии друг от друга, то изображения, которые они вызывают на сетчатке, сольются, не смешиваясь, и человеку покажется, что он видел предмет, постоянно меняющий форму и положение.

Жозеф Плато, август 1833 года

В недавней статье мы рассказали о возможности создания анимированных видеороликов на основе комбинации синтеза изображений и различных способов преобразования этих изображений (сдвиги в стороны, масштабирование и т. д.). Сегодня же речь пойдёт про нашу новую технологию синтеза полноценного видео по текстовому описанию, которую мы назвали Kandinsky Video (для затравки пара примеров приведена на рисунке 1).

Читать далее
Всего голосов 38: ↑37 и ↓1+36
Комментарии11

Введение в архитектуру MLOps

Уровень сложностиПростой
Время на прочтение13 мин
Количество просмотров7K

Привет, Хабр!

MLOps, или Machine Learning Operations, это практика объединения машинного обучения и операционных процессов. Она направлена на упрощение и ускорение цикла разработки, тестирования, развертывания и мониторинга моделей машинного обучения. В MLOps применяются принципы DevOps, такие как автоматизация, непрерывная интеграция и доставка, для создания более эффективных и масштабируемых решений в области машинного обучения.

Объемы данных растут экспоненциально, способность быстро и эффективно обрабатывать эти данные становится ключевой для успеха. MLOps позволяет не просто создавать модели машинного обучения, но и быстро адаптироваться к изменениям, обновлять модели и поддерживать их работоспосоность на высоком уровне. Это важно, поскольку модель, которая работала хорошо вчера, может устареть сегодня из-за изменения данных или условий окружающей среды.

Читать далее
Всего голосов 11: ↑10 и ↓1+9
Комментарии3

«ИИ без границ»: как научить Transformer обрабатывать длинные тексты

Уровень сложностиСложный
Время на прочтение12 мин
Количество просмотров7.3K

Разносторонний системный рассказ о том, какими способами можно научить модель работать с длинными последовательностями. Для специалистов, занимающихся обучением LLM, и всех, кто хочет разобраться в теме.

Читать далее
Всего голосов 30: ↑30 и ↓0+30
Комментарии3

Дежурный data-инженер: рабочие хроники

Время на прочтение15 мин
Количество просмотров4K


Команда VK Cloud перевела серию статей о том, как data-инженер принимает вызовы технической команды по работе с платформой данных. Он рассказывает о реальных неисправностях, которые возникают в процессе работы, и о том, как команда работы с данными их устраняет.
Читать дальше →
Всего голосов 12: ↑11 и ↓1+10
Комментарии0

Как автоматизировать проверки данных в Airflow с Great Expectations

Время на прочтение7 мин
Количество просмотров2.7K

Привет, меня зовут Дима Курганский, и я - MLOps инженер в команде машинного обучения в Банки.ру. Эта статья будет интересна, тем кто понимает принципы работы с Great Expectations и его составляющие компоненты и хочет вывести его на прод с использованием Apache Airflow.

Читать далее
Всего голосов 9: ↑8 и ↓1+7
Комментарии0

Нейронные сети для новичков и профи: топ бесплатных курсов по ИИ

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров50K

Нейронные сети - одна из самых популярных и быстроразвивающихся областей в IT-обучении. Количество курсов и материалов по этой теме растет с каждым днем. К сожалению, не все из них качественные и действительно полезные.

В этой статье мы собрали только лучшие бесплатные онлайн курсы по нейронным сетям и машинному обучению. Это курсы от известных IT-компаний, которые предоставляют полное погружение в тему, а не являются просто прогревом перед каким-то платным продуктом. Здесь вы найдете курсы разного уровня сложности - от базовых для новичков до продвинутых. Некоторые из них на русском языке, другие - на английском. Но каждый сможет подобрать для себя что-то полезное и интересное.

Давайте вместе разберем подробнее, какие бесплатные онлайн курсы стоит пройти для изучения нейронных сетей и машинного обучения.

Приглашаем к прочтению!

Читать далее
Всего голосов 10: ↑9 и ↓1+8
Комментарии9

Клетка X. Старение организма

Уровень сложностиПростой
Время на прочтение21 мин
Количество просмотров11K

На Земле обнаружено первое и пока единственное многоклеточное бессмертное существо. Это медуза Turritopsis dohrnii (туритопсис нутрикула). Она живет пока ее кто‑нибудь не съест или не разрушит. Медуза в благоприятных для жизни условиях обладает фантастическими способностями — может превращаться из взрослой особи в юную и проделывать такой фокус неограниченное количество раз.

Американский физик, лауреат Нобелевской премии Р. Фейнман заметил: «Если бы человек вздумал соорудить вечный двигатель, он столкнулся бы с запретом в виде физического закона. В отличие от этой ситуации в биологии нет закона, который утверждал бы обязательную конечность жизни каждого индивида».

У медузы Turritopsis dohrnii действительно есть механизм вечной жизни, который называется трансдифференциация клеток. Она может размножаться и при этом не умирать.

Её уникальность в том, что после продолжения рода она не стареет, а молодеет и запускает новый цикл жизни. Клетки медузы могут сразу превращаться из одного типа в клетки другого типа, минуя стадию типа стволовых клеток («болванки»). Это и есть трансдифференциация.

Надо сказать, есть ещё одно живое существо, которому приписывают бессмертие. Это пресноводный полип Hydra vulgaris — гидра обыкновенная. Это открытие доказывает, что вечная жизнь существует. А природа ничего никому не должна.

Читать далее
Всего голосов 26: ↑21 и ↓5+16
Комментарии35

Разработка веб-приложения на Python с использованием FastAPI и Docker

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров15K

Целью данной лабораторной работы является создание веб-приложения для работы с абстрактными элементами (items). Для достижения этой цели мы будем использовать язык программирования Python, веб-фреймворк FastAPI и контейнеризацию с помощью Docker. Работа включает в себя установку необходимых инструментов, написание кода приложения, и контейнеризацию для обеспечения удобства развертывания.

Читать далее
Всего голосов 14: ↑9 и ↓5+4
Комментарии12
1
23 ...

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Зарегистрирован
Активность