Обновить
-1
Карма
0
Рейтинг
Станислав @superstarstas306

Аналитика, ML

  • Подписчики 2
  • Подписки
  • Публикации
  • Комментарии

Лучшие вопросы средней сложности по SQL на собеседовании аналитика данных

Блог компании Дата-центр «Миран» PostgreSQL *Программирование *SQL *Карьера в IT-индустрии
Перевод
Первые 70% курса по SQL кажутся довольно простыми. Сложности начинаются на остальных 30%.

С 2015 по 2019 годы я прошёл четыре цикла собеседований на должность аналитика данных и специалиста по анализу данных в более чем десятке компаний. После очередного неудачного интервью в 2017 году — когда я запутался в сложных вопросах по SQL — я начал составлять задачник с вопросами по SQL средней и высокой сложности, чтобы лучше готовиться к собеседованиям. Этот справочник очень пригодился в последнем цикле собеседований 2019 года. За последний год я поделился этим руководством с парой друзей, а благодаря дополнительному свободному времени из-за пандемии отшлифовал его — и составил этот документ.

Есть множество отличных руководств по SQL для начинающих. Мои любимые — это интерактивные курсы Codecademy по SQL и Select Star SQL от Цзы Чон Као. Но в реальности первые 70% из курса SQL довольно просты, а настоящие сложности начинаются в остальных 30%, которые не освещаются в руководствах для начинающих. Так вот, на собеседованиях для аналитиков данных и специалистов по анализу данных в технологических компаниях часто задают вопросы именно по этим 30%.

Удивительно, но я не нашёл исчерпывающего источника по таким вопросам среднего уровня сложности, поэтому составил данное руководство.
Читать дальше →
Всего голосов 29: ↑27 и ↓2 +25
Просмотры 49K
Комментарии 17

Python микросервисы с Kafka без боли

Python *API *Data Engineering *
Из песочницы

В этой статье я бы хотел поделиться способом написания асинхронных микросервисов на Python, в основе которых библиотека Faust. А в качестве брокера сообщений Kafka. Ну и немного мониторинга с Prometheus и Grafana.

Читать далее
Всего голосов 23: ↑23 и ↓0 +23
Просмотры 10K
Комментарии 7

Тук-тук. Откройте

Блог компании Юнидата Информационная безопасность *

Коллеги, обычно мы пишем на Хабр технические статьи. В частности, мы уже писали о работе с дубликатами в системе управления данными, про Activiti BPM в разработке бизнес-процессов, про работу с отчетностью в MDM

Однако реалии времени заставили нас поднять тему, напрямую не связанную с техникой дела и с управлением данными, но тему острую, важную, и многим очень интересную. Речь идет о ситуации, когда многие члены ИТ-сообщества допрашиваются Следственными комитетом из-за громких дел о злоупотреблениях – и зачастую, с весьма неприятными последствиями. Мы расскажем о ситуации, в которую попали наши коллеги из «Таскдаты Рус» и о том, что нужно делать, если к тебе пришли на допрос.

IT под ударом

В мае вышла статья CNews. Параллельно с этим целый ряд сотрудников «ТаскДата Рус», наших ближайших коллег, был вызван на допрос с конфискацией ноутбуков и прочего. Ситуация неприятная, совершенно неожиданная, а главное – совершенно непривычная. Другое дело, что СК РФ ведет такую практику по отношению многих ИТ-компаний довольно давно. В апреле этого года все на том же СNews вышла статья, в которой Министр цифрового развития, связи и массовых коммуникаций Российской Федерации Максут Шадаев сообщил, что почти все крупные российские ИТ-компании в настоящее время являются фигурантами уголовных дел.

Читать далее
Всего голосов 96: ↑93 и ↓3 +90
Просмотры 30K
Комментарии 110

Мой уход из Яндекса, как не потерять мотивацию за полгода подготовки в FAANG и реджект в Google

Карьера в IT-индустрии
Из песочницы

Мой уход из Яндекса, как не потерять мотивацию за полгода подготовки в FAANG и реджект в Google.

Читать далее
Всего голосов 168: ↑158 и ↓10 +148
Просмотры 86K
Комментарии 297

Цензура в интернете. Надо что-то делать

Сетевые технологии *DNS *Браузеры Законодательство в IT Настольные компьютеры
Tutorial

Интернет сегодня как воздух. Его никто не замечает и принимает как должное до тех пор, пока его кто-то не испортит или не отключат вовсе (привет горячему августу 2020 в РБ). В данной статье я расскажу, какие меры можно предпринять, имея в руках только браузер. Каждый инструмент вне браузера -- это тема для отдельной публикации

PS: а ещё вангую реакцию: "О, прикольно. Добавлю в закладки. Почитаю как-нибудь потом". Ага, когда интернет пропадёт?

Читать далее
Всего голосов 60: ↑46 и ↓14 +32
Просмотры 30K
Комментарии 148

MS SQL + Telegram =?

Мессенджеры *Microsoft SQL Server *

image Привет, Хабр!


Мы с моим приятелем fedoref занимаемся разработкой и поддержкой решений на MS SQL.


Одной из наших проблем при работе с MS SQL было то, что без MS SQL Management Studio невозможно что-то сделать или проверить. А значит — всегда нужен под рукой компьютер и VPN в сеть клиента (или что посложнее). Нас это не устраивало — мы не всегда сидим перед монитором, а ситуации ингода требуют оперативности, особенно когда дело касается высоких нагрузок в real-time системах. Поэтому мы решили сделать телеграм-бота SQL. (Поискали готовые варианты на Github, но, увы, не нашли того, что нам подошло бы).

У нас получилось
Всего голосов 11: ↑11 и ↓0 +11
Просмотры 8K
Комментарии 17

Восемь интересных возможностей PostgreSQL, о которых вы, возможно, не знали

Блог компании OTUS PostgreSQL *SQL *Администрирование баз данных *
Перевод

Привет, Хабр! Приглашаем на бесплатный Demo-урок «Параллельный кластер CockroachDB», который пройдёт в рамках курса «PostgreSQL». Также публикуем перевод статьи Тома Брауна — Principal Systems Engineer at EnterpriseDB.

В этой статье рассмотрим несколько полезных советов по работе с PostgreSQL: ссылка на всю строку целиком, сравнение нескольких столбцов, общие табличные выражения, пользовательские параметры конфигурации, сравнение логических значений без "равно", изменение типа столбца без лишних затрат, информация о секции, в которой находится строка, таблицы — это типы.

Читать далее
Всего голосов 42: ↑39 и ↓3 +36
Просмотры 18K
Комментарии 8

Формат таблиц в pandas

Python *
Из песочницы

Если вы пока ещё не знаете как транслировать данные напрямую заказчику в подсознание или, на худой конец, текст сообщения в slack, вам пригодится информация о том, как сделать процесс интерпретации таблиц более быстрым и комфортным.


Например, в excel для этого используется условное форматирование и спарклайны. А в этой статье мы посмотрим как визуализировать данные с помощью Python и библиотеки pandas: будем использовать свойства DataFrame.style и Options and settings.

Читать дальше →
Всего голосов 13: ↑13 и ↓0 +13
Просмотры 15K
Комментарии 14

Заметки Дата Сайентиста: персональный обзор языков запросов к данным

Блог компании RUVDS.com Python *Data Mining *Big Data *Data Engineering *

Рассказываю из личного опыта, что где и когда пригодилось. Обзорно и тезисно, чтобы понятно было, что и куда можно копать дальше — но тут у меня исключительно субъективный личный опыт, у вас, может быть, все совсем по-другому.

Почему важно знать и уметь обращаться с языками запросов? По своей сути в Data Science есть несколько важнейших этапов работы и самый первый и важнейший (без него уж точно ничего работать не будет!) — это получение или извлечение данных. Чаще всего данные в каком-то виде где-то сидят и их нужно оттуда «достать». 

Языки запросов как раз и позволяют эти самые данные извлечь! И сегодня я расскажу, о тех языках запросов, которые мне пригодились и расскажу-покажу, где и как именно — зачем оно нужно для изучения.

Всего будет три основных блока типов запросов к данным, которые мы разберем в данной статье:

  • «Стандартные» языки запросов — то, что обычно понимают, когда говорят о языке запросов, как, например, реляционная алгебра или SQL.
  • Скриптовые языки запросов: например, питоновские штучки pandas, numpy или shell scripting.
  • Языки запросов к графам знаний и графовым базам данных.

Все написанное здесь — это просто персональный опыт, что пригодилось, с описанием ситуаций и «зачем оно было нужно» — каждый может примерить, насколько подобные ситуации могут встретиться вам и попробовать подготовиться к ним заранее, разобравшись с этими языками до того, как придется их в (срочном порядке) применять на проекте или вообще попасть на проект, где они нужны.
Читать дальше →
Всего голосов 45: ↑42 и ↓3 +39
Просмотры 10K
Комментарии 8

Apache Airflow: делаем ETL проще

Python *Big Data *Хранение данных *Data Engineering *
Tutorial

Привет, я Дмитрий Логвиненко — Data Engineer отдела аналитики группы компаний «Везёт».


Я расскажу вам о замечательном инструменте для разработки ETL-процессов — Apache Airflow. Но Airflow настолько универсален и многогранен, что вам стоит присмотреться к нему даже если вы не занимаетесь потоками данных, а имеете потребность периодически запускать какие-либо процессы и следить за их выполнением.


И да, я буду не только рассказывать, но и показывать: в программе много кода, скриншотов и рекомендаций.



Что обычно видишь, когда гуглишь слово Airflow / Wikimedia Commons

Читать дальше →
Всего голосов 13: ↑12 и ↓1 +11
Просмотры 61K
Комментарии 25

Как мы научились делить видео на сцены с помощью хитрой математики

Блог компании Онлайн-кинотеатр IVI Работа с видео *Алгоритмы *
🔥 Технотекст 2020
За 10 лет существования ivi мы собрали базу из 90000 видео разной длины, размера и качества. Каждую неделю появляются сотни новых. У нас есть гигабайты метаданных, которые полезны для рекомендаций, упрощают навигацию по сервису и настройку рекламы. Но извлекать информацию непосредственно из видео мы начали только два года назад.

В этой статье я расскажу, как мы разбираем фильмы на структурные элементы и зачем нам это нужно. В конце есть ссылка на репозиторий Github с кодом алгоритмов и примерами.

image
Читать дальше →
Всего голосов 65: ↑65 и ↓0 +65
Просмотры 14K
Комментарии 19

Введение в архитектуры нейронных сетей

Блог компании Конференции Олега Бунина (Онтико) Высокая производительность *Data Mining *Big Data *Машинное обучение *


Григорий Сапунов (Intento)


Меня зовут Григорий Сапунов, я СТО компании Intento. Занимаюсь я нейросетями довольно давно и machine learning’ом, в частности, занимался построением нейросетевых распознавателей дорожных знаков и номеров. Участвую в проекте по нейросетевой стилизации изображений, помогаю многим компаниям.

Давайте перейдем сразу к делу. Моя цель — дать вам базовую терминологию и понимание, что к чему в этой области, из каких кирпичиков собираются нейросети, и как это использовать.

План доклада такой. Сначала небольшое введение про то, что такое нейрон, нейросеть, глубокая нейросеть, чтобы мы с вами общались на одном языке.

Дальше я расскажу про важные тренды, что происходит в этой области. Затем мы углубимся в архитектуру нейросетей, рассмотрим 3 основных их класса. Это будет самая содержательная часть.

После этого рассмотрим 2 сравнительно продвинутых темы и закончим небольшим обзором фреймворков и библиотек для работы с нейросетями.
Всего голосов 54: ↑51 и ↓3 +48
Просмотры 136K
Комментарии 2

Переезд: подготовка, выбор, освоение территории

Блог компании Конференции Олега Бунина (Онтико) Разработка мобильных приложений *IT-эмиграция Карьера в IT-индустрии
Кажется, что IT-инженерам легко живется. Они хорошо зарабатывают и свободно перемещаются между работодателями и странами. Но это все не просто так. «Типичный айтишник» красноглазит за компьютером со школы, а потом еще в университете, магистратуре, аспирантуре… Дальше работа, работа, работа, годы продакшн, и только тогда переезд. А потом опять работа.

Конечно же, со стороны может показаться, что просто повезло. Но, если не считать времени и труда на обучение, прокачку навыков и бег по карьерной лестнице, то сам переезд — это гарантия серебряных полосок на голове и геноцида нервных клеток.



Переезд в другой город, страну, континент или планету не так уж прост. Иной менталитет, культура, правила, законы, цены, медицина, а еще надо найти куда переезжать, оффер, жилье, сделать визу… тысячи нюансов. Как не получить нервный тик, а только максимальную выгоду и удовольствие от процесса, расскажет Денис Неклюдов (nekdenis).

По каким причинам люди уезжают, что их ждет там и как выбирать, куда переехать? Как сориентироваться на рынке труда, найти работу, подготовиться к интервью и выбрать самый выгодный оффер. На примере переездов Дениса на Пхукет, в Сингапур, Сан-Франциско и опыта множества других экспатов подготовимся к новым приключениям. Рассказ Дениса — это дорожная карта или чек-лист, который будет полезен всем, кто задумывается о переезде.

Дисклеймер. «Земля круглая» и вращается. Когда-нибудь мы вернемся туда, откуда начали. Переезд Дениса не провоцирует вас навсегда покинуть родину. Не воспринимайте тему переезда агрессивно, а лишь как способ расширить кругозор. Статья основана исключительно на опыте обычных разработчиков без налета роскошной жизни крипто-миллионеров и тяжелых судеб мигрантов без профессии.
Читать дальше →
Всего голосов 84: ↑72 и ↓12 +60
Просмотры 27K
Комментарии 79

Machine Learning for your flat hunt. Part 2

Python *Программирование *Data Mining *Визуализация данных Машинное обучение *


Have you thought about the influence of the nearest metro to the price of your flat? 
What about several kindergartens around your apartment? Are you ready to plunge in the world of geo-spatial data?


The world provides so much information…



Read more →
Всего голосов 4: ↑4 и ↓0 +4
Просмотры 1.3K
Комментарии 0

50 оттенков matplotlib — The Master Plots (с полным кодом на Python)

Python *Визуализация данных Машинное обучение *Matlab *
Перевод
Те, кто работает с данными, отлично знают, что не в нейросетке счастье — а в том, как правильно обработать данные. Но чтобы их обработать, необходимо сначала проанализировать корреляции, выбрать нужные данные, выкинуть ненужные и так далее. Для подобных целей часто используется визуализация с помощью библиотеки matplotlib.



Встретимся «внутри»!
Читать дальше →
Всего голосов 67: ↑67 и ↓0 +67
Просмотры 169K
Комментарии 15

Железная хватка: кинематика приземления птиц в зависимости от геометрии и текстуры поверхности

Блог компании ua-hosting.company Разработка робототехники *Научно-популярное Биотехнологии Физика


На протяжении тысяч лет человечество стремилось в небеса, желая уподобиться птицам. Многие великие умы, от Леонардо да Винчи до братьев Райт, проектировали самые разнообразные летательные аппараты, одни из которых так и остались на бумаге, а другие стали прародителями современных самолетов и вертолетов. Сейчас полет для человека не составляет труда — купил билет на самолет и вуаля. Большинство из нас даже не задумывается о том, как работает эта огромная металлическая птица, способная перенести нас с одного континента на другой. Правда между современными самолетами и реальными птицами общего не так и много, но с разрабатываемыми автономными роботами ситуация немного иная. Многие ученые пытаются создать робота-птицу, а дабы это начинание было успешным, необходимо понимать не только как птицы летают, но и как приземляются. Сегодня мы с вами познакомимся с исследованием, в котором выпускники Стэнфордского университета подробно изучили механизм посадки попугайчика по имени Гэри и его сородичей. Как птицы приземляются, как они понимают, что могут или не могут приземлиться на той или иной поверхности, и какова кинематика их конечностей во время посадки? На эти и другие вопросы мы найдем ответы в докладе исследователей. Поехали.
Всего голосов 40: ↑39 и ↓1 +38
Просмотры 8.1K
Комментарии 5

10 фич для ускорения анализа данных в Python

Python *Программирование *Data Mining *Big Data *
Перевод

Источник

Советы и рекомендации, особенно в программировании, могут быть очень полезны. Маленький шоткат, аддон или хак может сэкономить кучу времени и серьёзно увеличить производительность. Я собрала свои самые любимые и сделала из них эту статью. Какие-то из советов ниже уже известны многим, а какие-то появились совсем недавно. Так или иначе, я уверена, они точно не будут лишними, когда вы в очередной раз приступите к проекту по анализу данных.


1. Профилирование Pandas Dataframe


Профилирование помогает лучше понять наши данные, и пакет Pandas Profiling создан как раз для этого. Библиотека даст возможность просто и быстро выполнить разведочный анализ Pandas Dataframe. Обычно в таких случаях в качестве первого шага используются функции df.describe() и df.info(), но они сообщают мало и плохо справляются с большими наборами данных. Одна строка кода с использованием Pandas Profiling, напротив, выведет много информации в интерактивном HTML-отчете.


Вот что вычисляется для заданного набора данных:


Статистика выводимая Pandas Profiling.

Установка


pip install pandas-profiling
или
conda install -c anaconda pandas-profiling

Использование


Давайте используем набор данных о пассажирах Титаника, чтобы продемонстрировать возможности профайлера.

Читать дальше →
Всего голосов 16: ↑15 и ↓1 +14
Просмотры 16K
Комментарии 6

Как выбрать лучшее место для открытия филиала и визуализировать результаты на картах

Python *Data Mining *Геоинформационные сервисы *Визуализация данных Бизнес-модели
Recovery mode
Выбор места для нового филиала — ответственное решение. Ошибка может стоить дорого, особенно в капиталоемких отраслях. Чаще всего такие решения принимаются менеджментом экспертно: на основе знания города, отрасли, предыдущего опыта.

В статье я расскажу о том, как аналитика может помочь в принятии таких решений. Как собрать информацию о населении, ценах на недвижимость и сделать интерактивные визуализации. Зависит ли кол-во клиентов от расстояния до филиала, года постройки дома, стоимости недвижимости.

Население города с точностью до дома



Читать дальше →
Всего голосов 21: ↑18 и ↓3 +15
Просмотры 6.7K
Комментарии 20

Информация

В рейтинге
Не участвует
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность