Как стать автором
Обновить
15
0
Сергей Коньков @mongohtotech

архитектор данных

Отправить сообщение

«Уехал, и что дальше?» — подборка для планирования жизни за границей

Время на прочтение 3 мин
Количество просмотров 127K

Внезапно уехавшие могут пребывать в паническом шоке. А дальше что? Уехал, и? А что если затянется на года? Даже если есть деньги, в какой стране можно остаться надолго?

Для тех, кто уехал и не знает, что делать дальше, собрал всё, что нужно знать, чтобы иметь план хотя бы на год вперёд.

Читать скорее!
Всего голосов 103: ↑91 и ↓12 +79
Комментарии 234

Как анализировать данные из облачных сервисов для автоматизации бизнеса

Время на прочтение 4 мин
Количество просмотров 3.4K

Всем привет! Меня зовут Елена Боброва, и мы в команде CloudReports работаем над проектом, с помощью которого пользователи облачных систем могут начать легко и просто работать со своими данными. 

В последнее время всё большее число компаний внедряют в свою работу различные облачные сервисы, такие как CRM системы, системы управления складом, автоматизация записи клиентов и др. Рано или поздно любой бизнес сталкивается с необходимостью анализировать данные. Облачные системы в большинстве случаев имеют ряд готовых отчетов. Но если требуется более детальный анализ, то данные, как правило, можно забрать с помощью  API и поместить во внешнюю базу (хранилище данных), с которым уже удобно работать аналитикам.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Комментарии 2

CDP для бизнеса, или Как эффективно подружиться с клиентом

Время на прочтение 9 мин
Количество просмотров 10K

Всем привет, мы – одна из команд GlowByte, специализируемся на клиентской аналитике и автоматизации маркетинга. В этом материале мы рассмотрим класс продуктов CDP (Customer data platform) – функциональные возможности, решаемые с их помощью задачи, назовем несколько распространенных на российском рынке решений и расскажем о базовых маркетинговых коммуникациях. В этот раз не будет глубокого погружения в технику и внутреннюю архитектуру систем, поэтому материал в первую очередь будет интересен для конечных бизнес-пользователей, которые хотят получить возможность лучше узнать своих клиентов и проводить с ними более эффективные коммуникации.

Читать далее
Всего голосов 2: ↑2 и ↓0 +2
Комментарии 2

Строим аналитическое хранилище данных с готовыми модулями ML на Google BigQuery: просто, быстро, доступно

Время на прочтение 10 мин
Количество просмотров 10K

Рассказываем как перестать переживать о том, что вы не знаете Hadoop и вывести работу с данными в компании на новый уровень, как быстро и без больших затрат создать в аналитическое хранилище, наладить процессы загрузки туда данных, дать возможность аналитикам строить отчеты в современных BI инструментах и применять машинное обучение.

Читать далее
Всего голосов 8: ↑6 и ↓2 +4
Комментарии 21

Оплата почасовая, за результат или оклад?

Время на прочтение 2 мин
Количество просмотров 7.4K
Мне регулярно приходится защищать почасовую оплату труда программистам. В том числе, если это оплата часов на починку того, что оказалось нерабочим и выявилось уже в процессе эксплуатации заказчиком. Заказчики нередко возмущаются: «Почему это я должен платить за переделку! Я уже заплатил за это 1 раз, и не хочу платить больше. Пускай переделывают за свой счёт, чтобы в будущем не повадно было!..» И мне приходится объяснять снова и снова, что такой подход не приведёт к большей ответственности программистов, а только загонит их в необходимость увеличивать цену часа, чтобы заложить в неё «бесплатные» работы по починке.
Читать дальше →
Всего голосов 23: ↑12 и ↓11 +1
Комментарии 104

Пошаговый курс по созданию продающего Landing Page c нуля. Часть 1: Посадочные страницы и трафик

Время на прочтение 9 мин
Количество просмотров 75K


Запускаем первый обучающий цикл статей по одностраничникам, трафику и построению системы продаж через интерент. В первую очередь курс предназначен для новичков и тех, кто только запускает продажи в онлайне, хочет протестировать идеи бизнеса и маркетинга или хочет получить новый поток клиентов в свой бизнес. Надеемся, что опытным специалистам курс даст интересные идеи.

Читать дальше →
Всего голосов 14: ↑12 и ↓2 +10
Комментарии 3

Система сбора, анализа, уведомлений и визуализации логов на syslog-ng, elasticsearch, kibana, grafana, elasticalert

Время на прочтение 34 мин
Количество просмотров 116K

image


Что мы получим после этой статьи:


Систему сбора и анализа логов на syslog-ng, elasticsearch в качестве хранилища данных, kibana и grafana в качестве систем визуализации данных, kibana для удобного поиска по логам, elasticalert для отправки уведомлений по событиям. Приготовьтесь, туториал объемный.


Какие логи будем собирать:


  • все системные логи разложенные по индексам в зависимости от их facility(auth,syslog,messages и т.д.);
  • логи nginx — access и error;
  • логи pm2;
  • и др.

Обоснование выбора системы


Почему я выбрал связку с syslog-ng в качестве отправителя, парсера и приемщика логов? Да потому что он очень быстрый, надежный, не требовательный к ресурсам(да да — logstash в качестве агентов на серверах и виртуальных машинах просто убожество в плане пожирания ресурсов и требованием java), с внятным синтаксисом конфигов(вы видели rsyslog? — это тихий ужас), с широкими возможностями — парсинг, фильтрация, большое количество хранилищ данных(postgresql,mysql,elasticsearch,files и т.д.), буферизация(upd не поддерживает буферизацию), сторонние модули и другие фишки.


Требования:


  • Ubuntu 16.04 или debian 8-9;
  • vm для развертывания;
  • Прямые руки.

Приступим или добро пожаловать под кат

Читать дальше →
Всего голосов 25: ↑20 и ↓5 +15
Комментарии 36

Ваша первая нейронная сеть на графическом процессоре (GPU). Руководство для начинающих

Время на прочтение 9 мин
Количество просмотров 46K

В этой статье я расскажу как за 30 минут настроить среду для машинного обучения, создать нейронную сеть для распознавания изображений a потом запустить ту же сеть на графическом процессоре (GPU).

Для начала определим что такое нейронная сеть.

В нашем случае это математическая модель, а также её программное или аппаратное воплощение, построенная по принципу организации и функционирования биологических нейронных сетей — сетей нервных клеток живого организма. Это понятие возникло при изучении процессов, протекающих в мозге, и при попытке смоделировать эти процессы.

Нейронные сети не программируются в привычном смысле этого слова, они обучаются. Возможность обучения — одно из главных преимуществ нейронных сетей перед традиционными алгоритмами. Технически обучение заключается в нахождении коэффициентов связей между нейронами. В процессе обучения нейронная сеть способна выявлять сложные зависимости между входными данными и выходными, а также выполнять обобщение.

С точки зрения машинного обучения, нейронная сеть представляет собой частный случай методов распознавания образов, дискриминантного анализа, методов кластеризации и прочих методов.

Оборудование


Сначала разберемся с оборудованием. Нам необходим сервер с установленной на нем операционной системой Linux. Оборудование для работы систем машинного обучения требуется достаточно мощное и как следствие дорогое. Тем, у кого нет под рукой хорошей машины, рекомендую обратить внимание на предложение облачных провайдеров. Необходимый сервер можно получить в аренду быстро и платить только за время использования.
Читать дальше →
Всего голосов 15: ↑14 и ↓1 +13
Комментарии 16

Как мы в ivi переписывали etl: Flink+Kafka+ClickHouse

Время на прочтение 6 мин
Количество просмотров 24K
Год назад мы решили переделать схему сбора данных в приложении и данных о действиях клиентов. Старая система работала исправно, но с каждым разом было всё сложнее и опаснее вносить туда изменения.



В этой статье я расскажу, какие технологии мы стали использовать для сбора и агрегации данных в новом проекте.
Читать дальше →
Всего голосов 23: ↑23 и ↓0 +23
Комментарии 12

ClickHouse – визуально быстрый и наглядный анализ данных в Tabix. Игорь Стрыхарь

Время на прочтение 12 мин
Количество просмотров 15K

Предлагаю ознакомиться с расшифровкой доклада 2017 года Игорь Стрыхарь «ClickHouse – визуально быстрый и наглядный анализ данных в Tabix».


Веб-интерфейс для ClickHouse в проекте Tabix.
Основные возможности:


  • Работает с ClickHouse напрямую из браузера, без необходимости установки дополнительного ПО;
  • Редактор запросов с подсветкой синтаксиса;
  • Автодополнение команд;
  • Инструменты графического анализа выполнения запросов;
  • Цветовые схемы на выбор.
Всего голосов 17: ↑16 и ↓1 +15
Комментарии 2

Универсальный API для получения информации по чекам

Время на прочтение 9 мин
Количество просмотров 110K
Привет жителям Хабра.

В данной статье хотелось бы рассказать про API для получения чеков, которое нам не предоставила всеми любимая ФНС.

Когда только появились QR-коды на чеках я подумал «Вау, как круто! Ты сканируешь код и видишь если не всю инфу по чеку, то ссылку на него». И какого же было мое разочарование, когда просканировав такой код я увидел что-то вроде

t=20180518T220500&s=975.88&fn=8710000101125654&i=99456&fp=1250448795&n=1

Но расстраиваться я не стал и подумал, что ФНС позаботилась о нас и предоставила API для получения такой информации. Погуглив некоторое время я понял, что ФНС нам предоставила только мобильное приложение для проверки чека и просмотра той информации, что поступила к ним от магазина.
Читать дальше →
Всего голосов 35: ↑33 и ↓2 +31
Комментарии 84

HighLoad++, Михаил Макуров, Максим Чернецов (Интерсвязь): Zabbix, 100kNVPS на одном сервере

Время на прочтение 16 мин
Количество просмотров 7.7K
Следующая конференция HighLoad++ пройдет 6 и 7 апреля 2020 года в Санкт-Петербурге Подробности и билеты по ссылке. HighLoad++ Moscow 2018. Зал «Москва». 9 ноября, 15:00. Тезисы и презентация.



* Мониторинг — онлайн и аналитика.
* Основные ограничения платформы ZABBIX.
* Решение для масштабирования хранилища аналитики.
* Оптимизация сервера ZABBIX.
* Оптимизация UI.
* Опыт эксплуатации системы при нагрузках более 40k NVPS.
* Коротко выводы.
Всего голосов 24: ↑24 и ↓0 +24
Комментарии 2

Impala vs Hive vs Spark SQL: Выбор правильного SQL движка для правильной работы в Cloudera Data Warehouse

Время на прочтение 7 мин
Количество просмотров 15K


Нам всегда не хватает данных. И мы не просто хотим больше данных… мы хотим новые типы данных, которые позволят нам лучше понимать свою продукцию, клиентов и рынки. Мы все-время находимся в поиске новых данных, данных всех форм и размеров, структурированных и не очень. Мы хотим распахнуть свои двери для нового поколения бизнес-специалистов и технических специалистов, которые будут увлеченно вместе с нами открывать новые базы данных и технологии, которые впоследствии изменят характер того, как мы взаимодействуем с данными и какое влияние они оказывают на нашу жизнь.
Читать дальше →
Всего голосов 7: ↑7 и ↓0 +7
Комментарии 3

Геоаналитика в рознице, часть1: автоматизируем процесс выбора места для бизнеса. 2ГИС + MS Azure + ML

Время на прочтение 5 мин
Количество просмотров 3.9K


Всем привет!

Меня зовут Сергей Коньков — я архитектор данных в компании Business reports & Data.
Данная статья рассказывает о возможностях использования гео-аналитики и машинного обучения в розничной компании и основана на реальном проекте нашего клиента — большой сети салонов красоты. Здесь не будет много кода и технических деталей, внимание будет уделено обзору технологий, их применению и интеграции.
Читать дальше →
Всего голосов 3: ↑3 и ↓0 +3
Комментарии 3

Разгоняем медиану в OLAP

Время на прочтение 3 мин
Количество просмотров 8.7K
Этот пост для тех, кто сталкивался с проблемой производительности, при расчете медианы в OLAP кубе.
Одним из главных достоинств OLAP технологии является скорость получения результатов при обращении к базе. Расчеты происходят «на лету». Однако с медианой, не все так просто.
Для справки: медиана — вид средней. Это величина, которая находиться в середине ряда значений отсортированного по возрастанию. Например, для ряда значений {1, 2, 5, 6, 9} медианой является 5.

Рассмотрим ситуацию на примере OLAP сервера от Microsoft — SSAS 2008 (SQL Server Analysis Services).
Читать дальше →
Всего голосов 12: ↑9 и ↓3 +6
Комментарии 0

Клиентоориентированный Data Lake в игровой компании

Время на прочтение 13 мин
Количество просмотров 7.4K

Источник

Привет, Хабр! Меня зовут Максим Пчелин, и я руковожу разработкой BI-DWH в MyGames (игровое подразделение Mail.ru Group). В этой статье по мотивам нашего с Диной Сафиной выступления на HighLoad++ Moscow 2019 я расскажу о том, как и зачем мы строили клиентоориентированное DataLake-хранилище.

Статья состоит из трех частей. Сперва я расскажу, почему мы решили реализовывать DataLake. Во второй части я опишу, какие технологии и решения мы используем, чтобы хранилище могло работать и наполняться данными. И в третьей части опишу, что мы делаем для улучшения качества наших сервисов.
Читать дальше →
Всего голосов 53: ↑53 и ↓0 +53
Комментарии 14

Как мы создали Service Desk мечты

Время на прочтение 11 мин
Количество просмотров 8.8K
Иногда можно услышать такую фразу «чем старше продукт, тем он функциональнее». В век современных технологий, далеко идущего web и модели SaaS это утверждение почти не работает. Залог успешной разработки это постоянный мониторинг рынка, отслеживание запросов и требований клиентов, готовность сегодня услышать важное замечание, вечером его втащить в бэклог, а завтра начать разрабатывать. Именно так мы работаем над проектом HubEx — системой управления сервисом оборудования. У нас отличная и разнообразная команда инженеров, и мы могли бы разработать сервис знакомств, захватывающую мобильную игру, систему управления временем или самый удобный на свете todo-лист. Эти продукты быстро бы выстрелили на рынке, и мы могли бы почивать на лаврах. Но наша команда, выходцы из инжиниринговой компании, знает сферу, где много болей, проблем и сложностей — это сервис. Думаем, с частью этих болей сталкивался каждый из вас. А значит, нужно идти туда, где нас ждут. Ну мы надеемся, что ждут :-)

image
Всего голосов 35: ↑33 и ↓2 +31
Комментарии 21

19 концепций, которые нужно изучить для того, чтобы стать эффективным Angular-разработчиком

Время на прочтение 14 мин
Количество просмотров 34K
TODO-приложение во фронтенд-разработке — это то же самое, что «Hello world» в обычном программировании. При создании TODO-приложений можно изучить выполнение CRUD-операций средствами того или иного фреймворка. Но часто подобные проекты лишь весьма поверхностно касаются того, что на самом деле умеет фреймворк.

Если взглянуть на Angular, то возникает такое ощущение, что этот фреймворк постоянно меняется и обновляется. На самом же деле в том, что касается Angular, можно выделить некоторые идеи, которые остаются неизменными. В материале, перевод которого мы сегодня публикуем, приведён обзор базовых концепций Angular, которые нужно понять для того, чтобы правильно и эффективно пользоваться возможностями этого фреймворка.



Для освоения Angular нужно очень много всего изучить. Многие разработчики застревают на начальных этапах освоения Angular. Происходит это из-за того, что они не знают о том, куда им двигаться, или не знают того, по каким ключевым словам им искать информацию, которая позволит им сделать шаг вперёд. Автор этого материала говорит, что ей, когда она начинала осваивать Angular 2+, хотелось бы, чтобы ей попалось бы руководство по данному фреймворку, похожее на это.
Читать дальше →
Всего голосов 26: ↑22 и ↓4 +18
Комментарии 11

Big Data от A до Я. Часть 5.1: Hive — SQL-движок над MapReduce

Время на прочтение 9 мин
Количество просмотров 91K
Привет, Хабр! Мы продолжаем наш цикл статьей, посвященный инструментам и методам анализа данных. Следующие 2 статьи нашего цикла будут посвящены Hive — инструменту для любителей SQL. В предыдущих статьях мы рассматривали парадигму MapReduce, и приемы и стратегии работы с ней. Возможно многим читателям некоторые решения задач при помощи MapReduce показались несколько громоздкими. Действительно, спустя почти 50 лет после изобретения SQL,  кажется довольно странным писать больше одной строчки кода для решения задач вроде «посчитай мне сумму транзакций в разбивке по регионам».

С другой стороны, классические СУБД, такие как Postgres, MySQL или Oracle не имеют такой гибкости в масштабировании при обработке больших массивов данных и при достижении объема большего дальнейшая поддержка становится большой головоной болью.



Собственно, Apache Hive был придуман для того чтобы объединить два этих достоинства:

  • Масштабируемость MapReduce
  • Удобство использования SQL для выборок из данных.

Под катом мы расскажем каким образом это достигается, каким образом начать работать с Hive, и какие есть ограничения на его применения.
Читать дальше →
Всего голосов 17: ↑15 и ↓2 +13
Комментарии 1

Big Data от А до Я. Часть 4: Hbase

Время на прочтение 11 мин
Количество просмотров 97K
Привет, Хабр! Наконец-то долгожданная четвёртая статья нашего цикла о больших данных. В этой статье мы поговорим про такой замечательный инструмент как Hbase, который в последнее время завоевал большую популярность: например Facebook использует его в качестве основы своей системы обмена сообщений, а мы в data-centric alliance используем hbase в качестве основного хранилища сырых данных для нашей платформы управления данными Facetz.DCA

В статье будет рассказано про концепцию Big Table и её свободную реализацию, особенности работы и отличие как от классических реляционных баз данных (таких как MySQL и Oracle), так и key-value хранилищ, таких как Redis, Aerospike и memcached.
Заинтересовало? Добро пожаловать под кат.


Читать дальше →
Всего голосов 24: ↑23 и ↓1 +22
Комментарии 21
1

Информация

В рейтинге
Не участвует
Откуда
Астана, Акмолинская обл. (Целиноградская обл.), Казахстан
Дата рождения
Зарегистрирован
Активность

Специализация

Chief Technology Officer (CTO)
Lead
SQL
Python