Как стать автором
Обновить

Яндекс Практикум запускает курс «SQL для работы с данными и аналитики»

Время на прочтение 2 мин
Количество просмотров 3.9K
Блог компании Яндекс Практикум PostgreSQL *SQL *Data Mining *Администрирование баз данных *
Яндекс Практикум разработал курс «SQL для работы с данными и аналитики». За полтора месяца студенты с нуля пройдут путь от новичка до уверенного пользователя SQL.

Программа предназначена для начинающих и продолжающих обучение аналитиков, продакт- и проджект-менеджеров, специалистов техподдержки, UX-исследователей и новичков, которые хотят составлять SQL-запросы и работать с СУБД, даже если у них нет опыта в базах данных и html.

Выпускники получат удостоверение о повышении квалификации.


Читать дальше →
Всего голосов 4: ↑3 и ↓1 +2
Комментарии 0

Извращения с Apache Kafka: забавный кейс из жизни

Время на прочтение 1 мин
Количество просмотров 1.5K
Блог компании Southbridge

На вебинаре Михаил Кобик расскажет о своём опыте создания Data Lake на ~80 ТБ с помощью Apache Kafka. Разберет, какие подводные камни могут возникать, если Retention выкручен в 9999999, и как жить, если Apache Kafka — единственный источник данных в информационной системе. 

Читать далее
Всего голосов 11: ↑9 и ↓2 +7
Комментарии 0

Яндекс Практикум запускает курс по визуализации данных и введению в BI-инструменты

Время на прочтение 2 мин
Количество просмотров 1.2K
Блог компании Яндекс Практикум Визуализация данных *Учебный процесс в IT

Сервис онлайн-обучения цифровым профессиям Яндекс Практикум запускает образовательную программу по визуализации данных и введению в BI-инструменты. Авторы курса рассказывают, чем будут заниматься студенты в процессе обучения и какие навыки они освоят.

Читать далее
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 0

Авторский курс по GreenPlum от администратора баз данных в Southbridge и ведущего инженера в Data Driven Lab

Время на прочтение 2 мин
Количество просмотров 411
Блог компании Southbridge

GreenPlum помогает компаниям с разными объёмами бизнеса извлекать реальную пользу из накопленных данных. Благодаря масштабируемости и скорости работы с данными он позволяет быстрее принимать бизнес-решения и повышает их качество.

19 сентября у нас стартует «DWH на основе GreenPlum» — авторский курс Ивана Чувашова, администратора баз данных в Southbridge и ведущего инженера компании Data Driven Lab. На нём Иван поделится знаниями в области хранилищ данных, которые собирал на протяжении 10 лет. Мы разберём основы устройства DWH и углубимся в GreenPlum — поломаем и починим его. А ещё поговорим об архитектуре и способах хранения данных, оптимизации запросов.

Читать далее
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 0

«DWH на основе GreenPlum»: теперь в формате видеокурса

Время на прочтение 1 мин
Количество просмотров 487
Блог компании Southbridge

Сегодня стартовал первый поток «DWH на основе GreenPlum». Для тех, кто хотел, но не успел присоединиться, хорошие новости. Вы можете купить его в формате видеокурса с доступом к урокам на 2 года. 

«DWH на основе GreenPlum» — полностью авторский курс. Мы подготовили его по инициативе спикера Ивана Чувашова, администратора баз данных Southbridge и ведущего инженера Data Driven Lab. Все материалы он собирал на протяжении 10 лет, мы просто доработали их с методистом и подготовили стенды под практические задания.  

Читать далее
Всего голосов 4: ↑4 и ↓0 +4
Комментарии 0

2-недельный бесплатный курс-симулятор по визуализации данных

Время на прочтение 1 мин
Количество просмотров 610
Блог компании Нетология Визуализация данных *Учебный процесс в IT Карьера в IT-индустрии

15 февраля начинается поток курса «Визуализация данных: от скучных графиков к интерактивным дашбордам». 

Курс подойдёт тем, кто хочет научиться работать с инструментами визуализации данных и принимать по ним важные для бизнеса решения. Всего 6 занятий, из которых 4 — практических. За две недели вы сможете примерить на себя роль аналитика в крупной ритейл-компании и решить 4 реальных задачи бизнеса.

Читать далее
Всего голосов 5: ↑4 и ↓1 +3
Комментарии 0

А Вы как представляете себе Product?

Время на прочтение 5 мин
Количество просмотров 1.1K
.NET *
Данные, данные, данные… Постоянно приходится с ними работать и, конечно же, хотелось бы иметь для этого максимально комфортные условия.

Предположим есть у нас табличка в базе данных:
Product: id int — первичный ключ, name varchar(256), description text, is_visible bit.

Хотелось бы послушать Ваши мнения, как вы будете работать с данными, которые в ней хранятся. Предположим нужно вывести список продуктов (Уж поскольку я преимущественно работаю с Asp.net) на web-странице.

Но для начала я расскажу свой вариант и, надеюсь, он кому-нибудь да и пригодится.
Читать дальше →
Всего голосов 7: ↑2 и ↓5 -3
Комментарии 14

Работа с базой данных SQLite с помощью обертки SQLitePCL

Время на прочтение 6 мин
Количество просмотров 26K
Разработка под Windows Phone *SQLite *Разработка под Windows *

SQLite это кроссплатформенный (Windows, iOS, Android, Python, Mono и др.) движок базы данных с открытым исходным кодом. Он поддерживает множественные таблицы, индексы, триггеры и представления.
Поддерживаются ACID транзакции (Atomicity/Атомарность, Consistency/Согласованность, Isolation/Изолированность, Durability/Надежность).
SQLitePCL – это библиотека Portable Class Library с открытым исходным кодом, доступным по адресу https://sqlitepcl.codeplex.com/, которая позволяет работать с базами SQLite единым образом и в .Net приложениях и в WP, Windows Store, UAP, а также Android/iOS (с помощью Xamarin). Другими словами, это обертка/wrapper библиотеки C, которая упрощает разработку и экономит время. Обертка довольно новая. Ранее для приложений .Net и Windows Store можно было использовать обертку sqlite-net.
Читать дальше →
Всего голосов 11: ↑10 и ↓1 +9
Комментарии 6

Как устроена профессия «Data Scientist»

Время на прочтение 4 мин
Количество просмотров 23K
Блог компании 1cloud.ru Программирование *Data Mining *Алгоритмы *Big Data *
Помимо рассказов о собственном опыте работы над оптимизацией различных сервисов нашего IaaS-провайдера мы анализируем западный опыт. От управления проектами до технологических кейсов, о которых рассказывают другие ИТ-компании.

Сегодня мы решили взглянуть на профессию, которая связана с непосредственной работой с данными, и обратили внимание на заметку Филиппа Гуо (Philipp Guo), который работает в университете Рочестера «ученым по данным».

Читать дальше →
Всего голосов 21: ↑17 и ↓4 +13
Комментарии 3

Работа с данными: Новая наука

Время на прочтение 5 мин
Количество просмотров 35K
Блог компании ИТМО Занимательные задачки Программирование *Машинное обучение *


Объемы научных данных увеличиваются с поразительной скоростью, потому появляется необходимость в новых математических методах и методах анализа. Наборы данных становятся все больше и сложнее во многих дисциплинах, связанных, например, с нейронными сетями, астрофизикой или медициной.
Читать дальше →
Всего голосов 27: ↑20 и ↓7 +13
Комментарии 6

Динамическая онтология. Как инженеры Palantir объясняют это ЦРУ, АНБ и военным

Время на прочтение 7 мин
Количество просмотров 18K
Блог компании Edison Разработка веб-сайтов *Алгоритмы *Big Data *Визуализация данных *
Компания Palantir является четвертой по крутости частной компанией Кремниевой долины (после Uber, Xiaomi и Airbnb). Пока Palantir собирает информацию про все на свете, мы собираем информацию про него.



ИТишники додумались как эффективно «монетизировать математику и алгоритмы» (Сегалович, Бакунов), PayPal Mafia додумалась как монетизировать гаджеты Феанора философию (капитализация Palantir — 20 миллиардов долларов).

В десятиминутной лекции сотрудник компании Palantir расскажет про центральную концепцию их системы — динамическую онтологию.


0:00 Привет, я Ашер Синенски, инженер по развертыванию технологий Palantir. Я поговорю о динамической онтологии.
0:08 Очевидно, сейчас, эти два слова выглядят для вас довольно туманно, надеюсь, что к концу разговора вы поймете, какой смысл мы в них вкладываем.
0:17 Перед тем как переходить к делу, поясню: у многих людей проблемы со словом онтология. Что мы подразумеваем под этим словом?
0:24 Если вы посмотрите на корни этого слова, то оно образовано от греческих «онтос» (бытие) и «логия» (изучение чего-либо). По сути, онтология – это категоризация мира.
0:34 Есть много терминов, которые люди используют для описания этого: таксономия, схематизатор модели данных. Но мы используем это, в более широком смысле, как идею, что мы действительно категоризируем мир каким-то образом.
0:43 Идея о построении онтологии для изучения мира не нова. Первым, кто утвердил эту идею, был мужик по имени Платон. Идея Платоновского реализма, в основном, о том, что есть реальные вещи, а есть наше представление о вещах.
Всего голосов 20: ↑18 и ↓2 +16
Комментарии 13

Метрики против Опыта

Время на прочтение 9 мин
Количество просмотров 7.1K
Блог компании ua-hosting.company Интерфейсы *Usability *Дизайн мобильных приложений *
Перевод
image

Данная публикация — местами вольный перевод статьи за авторством Julie Zhuo, продукт-дизайнера в Facebook. Приятного чтения.

Если несколько десятилетий назад вы бы захотели сделать что-то уникальное, вы бы сели, сделали глубокий вдох, закрыли глаза и обратились бы с молитвой к оракулу под названием «интуиция».

Но, как наши предки когда-то укротили силу огня, так и мы научились использовать возможности метрики и аналитики. Мы уже не блуждаем во тьме, задаваясь вопросом «неужели хоть кто-то читает эти электронные письма, рассылаемые каждые два дня?». Мне даже интересно, сколько людей пыталось найти ответ на этот вопрос до этого момента, до наступления созданного всеми нами будущего. Ведь теперь мы просто погружаемся в сокровищницу чисел и выуживаем оттуда ответ.

Увы, несмотря на обретенный нами свет, в углах сохраняются экзистенциальные тени. Я слышал их в обсуждениях в залах офиса, в бормотании над стаканом после работы, видел набранными заглавными буквами в блуждающих по сети тредах обсуждений стиля:

«Делаем ли мы это просто для получения метрики?»
«Как мы можем сбалансировать полученные цифры и сделать при этом что-то достойное?»
И мой фаворит: «Вы, те, кто управляет данными, на самом деле заботитесь о пользователях и UX?»

Ох! Сильные слова и жгучие обвинения!

Может, хотите продуктивно поговорить о метриках и позитивном опыте? Вот что знаю я.
Читать дальше →
Всего голосов 18: ↑15 и ↓3 +12
Комментарии 3

CRISP-DM: проверенная методология для Data Scientist-ов

Время на прочтение 16 мин
Количество просмотров 58K
Блог компании ГК ЛАНИТ Data Mining *Алгоритмы *Машинное обучение *
Постановка задач машинного обучения математически очень проста. Любая задача  классификации, регрессии или кластеризации – это по сути обычная оптимизационная задача с ограничениями. Несмотря на это, существующее многообразие алгоритмов и методов их решения делает профессию аналитика данных одной из наиболее творческих IT-профессий. Чтобы решение задачи не превратилось в бесконечный поиск «золотого» решения, а было прогнозируемым процессом, необходимо придерживаться довольно четкой последовательности действий. Эту последовательность действий описывают такие методологии, как CRISP-DM.

Методология анализа данных CRISP-DM упоминается во многих постах на Хабре, но я не смог найти ее подробных русскоязычных описаний и решил своей статьей восполнить этот пробел. В основе моего материала – оригинальное описание и адаптированное описание от IBM. Обзорную лекцию о преимуществах использования CRISP-DM можно посмотреть, например, здесь.


* Crisp (англ.) — хрустящий картофель, чипсы
Читать дальше →
Всего голосов 53: ↑52 и ↓1 +51
Комментарии 16

«5П»: О качестве данных и распространенных ошибках при их сборе

Время на прочтение 6 мин
Количество просмотров 7.8K
Big Data *Управление проектами *Управление продуктом *Читальный зал
Recovery mode

Многие компании считают, что работают и принимают решения на основе данных, но часто это не так. Ведь для того чтобы управление велось на основе данных, их, эти самые данные, недостаточно только собрать и свести в статистику.

Намного важнее провести правильный анализ, а для этого они должны быть «чисты».
Разбираться в чистоте данных и в основных качественных параметрах я начну с этой статьи.
Для достоверной аналитики должны быть соблюдены все «П» данных: правильные, правильно собранные, собранные в правильной форме, в правильном месте и в правильное время.
Если один из параметров нарушен, это может сказаться на достоверности всей аналитики, а значит нужно понимать, на что важно обращать внимание при  работе с данными.
Читать дальше →
Всего голосов 12: ↑7 и ↓5 +2
Комментарии 7

Пять эгоистичных причин работать воспроизводимо

Время на прочтение 10 мин
Количество просмотров 8.5K
GTD *Лайфхаки для гиков
Перевод

Аннотация


Итак, мои коллеги-ученые, не спрашивайте, что вы можете сделать для воспроизводимости — спросите, что воспроизводимость может сделать для вас!


Здесь я перечислю пять причин, по которым возможность воспроизводимости данных окупается в долгосрочной перспективе и представляет личный интерес для каждого амбициозного, ориентированного на карьеру ученого.




Сложное уравнение в левой половине черной доски, еще более сложное уравнение — в правой. Краткое предложение связывает два уравнения: «Здесь происходит чудо». Два математика, в глубоких раздумьях. «Я думаю, Вы должны быть более конкретны на втором шаге», — говорит один другому.
image


Примерно так выглядит ситуация, когда вы пытаетесь понять, как автор перешел от большого и сложного набора данных к плотной статье с множеством сложных графиков. Без доступа к данным и аналитическому коду такой переход можно объяснить разве что чудом. А в науке не должно быть чудес.


Читать дальше →
Всего голосов 16: ↑14 и ↓2 +12
Комментарии 6

Самые востребованные навыки в сфере data science

Время на прочтение 8 мин
Количество просмотров 14K
Блог компании Productivity Inside Машинное обучение *Учебный процесс в IT Карьера в IT-индустрии
Перевод
В плане знаний от специалистов по data science ждут многого: машинное обучение, программирование, статистика, математика, визуализация данных, коммуникация и глубокое обучение. Каждая из этих областей охватывает десятки языков, фреймворков, технологий, доступных для изучения. Так как же специалистам по работе с данными лучше распорядиться своим бюджетом времени на обучение, чтобы быть в цене у работодателей?

Я тщательно изучил сайты с вакансиями, чтобы выяснить, какие же навыки сейчас пользуются наибольшей популярностью у работодателей. Я рассматривал как более широкие дисциплины, связанные с работой с данными, так и конкретные языки и инструменты, в рамках отдельного исследования. За материалами я обратился к сайтам LinkedIn, Indeed, SimplyHired, Monster и AngelList, по состоянию на 10 октября 2018 года. На графике ниже показано, сколько вакансий по data science представлено на каждом из этих ресурсов.


Читать дальше →
Всего голосов 21: ↑20 и ↓1 +19
Комментарии 1

Взаимодействие R с базами данных на примере Microsoft SQL Server и других СУБД

Время на прочтение 16 мин
Количество просмотров 15K
MySQL *SQL *Microsoft SQL Server *Администрирование баз данных *R *
Туториал

Поскольку львиная доля бизнес информации храниться в базах данных. На каком бы языке программирования вы не писали, вам придётся производить различные действия с ними.


В этой статье я расскажу о двух интерфейса для работы с базами данных в R. Большая часть примеров демонстрируют работу с Microsoft SQL Server, тем не менее все примеры кода будут работать и с другими базами данных, такими как: MySQL, PostgreSQL, SQLite, ClickHouse, Google BigQuery и др.


image

Читать дальше →
Всего голосов 13: ↑12 и ↓1 +11
Комментарии 7

Отчёты по состоянию СХД с помощью R. Параллельные вычисления, графики, xlsx, email и всё вот это

Время на прочтение 20 мин
Количество просмотров 2.2K
PowerShell *Параллельное программирование *R *
Туториал

В статье приведён код по формированию регулярных отчётов по состоянию дисков СХД EMC VNX с альтернативными подходами и историей создания.


Старался писать код с максимально подробными комментариями и одним файлом. Только пароли свои подставить. Формат исходных данных также указан, так что буду рад, если кто-то попробует применить у себя.


Внешний вид графика

Читать дальше →
Всего голосов 11: ↑11 и ↓0 +11
Комментарии 12

От Hadoop до Cassandra: 5 лучших инструментов для работы с Big Data

Время на прочтение 6 мин
Количество просмотров 11K
Блог компании Plarium Data Mining *Big Data *
Перевод
Перед вами перевод статьи из блога Seattle Data Guy. В ней авторы выделили 5 наиболее популярных ресурсов для обработки Big Data на текущий момент.



Сегодня любая компания, независимо от ее размера и местоположения, так или иначе имеет дело с данными. Использование информации в качестве ценного ресурса, в свою очередь, подразумевает применение специальных инструментов для анализа ключевых показателей деятельности компании. Спрос на аналитику растет пропорционально ее значимости, и уже сейчас можно определить мировые тенденции и перспективы в этом секторе. Согласно мнению International Data Corporation, в 2019 году рынок Big Data и аналитики готов перешагнуть порог в 189,1 миллиарда долларов.
Читать дальше →
Всего голосов 14: ↑9 и ↓5 +4
Комментарии 8

Почему в машинном обучении используют «синтетические» данные

Время на прочтение 3 мин
Количество просмотров 4.3K
Блог компании 1cloud.ru Программирование *Анализ и проектирование систем *Big Data *Машинное обучение *
Обсуждаем мнения ИТ-сообщества и экспертов индустрии. Также рассмотрим пару проектов, в рамках которых разрабатывают инструменты для генерации «искусственных» данных. Один из них представили выходцы из Агентства национальной безопасности США и Google.

Читать дальше →
Всего голосов 18: ↑15 и ↓3 +12
Комментарии 1