Статьи / Закладки / Профиль mongohtotech / Хабр

Сергей Коньков @mongohtotech

архитектор данных

Профиль Статьи 8Посты Новости Комментарии 19

f1ashag 26 сен 2022 в 10:17

«Уехал, и что дальше?» — подборка для планирования жизни за границей

3 мин

128K

Образование за рубежомIT-эмиграцияКарьера в IT-индустрии

Внезапно уехавшие могут пребывать в паническом шоке. А дальше что? Уехал, и? А что если затянется на года? Даже если есть деньги, в какой стране можно остаться надолго?

Для тех, кто уехал и не знает, что делать дальше, собрал всё, что нужно знать, чтобы иметь план хотя бы на год вперёд.

Читать скорее!

+80

234

elenabobrova 24 авг 2022 в 15:18

Как анализировать данные из облачных сервисов для автоматизации бизнеса

4 мин

3.7K

Data Engineering*Data Mining*Python*Визуализация данных*

Из песочницы

Всем привет! Меня зовут Елена Боброва, и мы в команде CloudReports работаем над проектом, с помощью которого пользователи облачных систем могут начать легко и просто работать со своими данными.

В последнее время всё большее число компаний внедряют в свою работу различные облачные сервисы, такие как CRM системы, системы управления складом, автоматизация записи клиентов и др. Рано или поздно любой бизнес сталкивается с необходимостью анализировать данные. Облачные системы в большинстве случаев имеют ряд готовых отчетов. Но если требуется более детальный анализ, то данные, как правило, можно забрать с помощью API и поместить во внешнюю базу (хранилище данных), с которым уже удобно работать аналитикам.

Denis_Zamkovskiy 29 июл 2022 в 19:30

CDP для бизнеса, или Как эффективно подружиться с клиентом

9 мин

13K

Блог компании GlowByteCRM-системы*Big Data*

Всем привет, мы – одна из команд GlowByte, специализируемся на клиентской аналитике и автоматизации маркетинга. В этом материале мы рассмотрим класс продуктов CDP (Customer data platform) – функциональные возможности, решаемые с их помощью задачи, назовем несколько распространенных на российском рынке решений и расскажем о базовых маркетинговых коммуникациях. В этот раз не будет глубокого погружения в технику и внутреннюю архитектуру систем, поэтому материал в первую очередь будет интересен для конечных бизнес-пользователей, которые хотят получить возможность лучше узнать своих клиентов и проводить с ними более эффективные коммуникации.

mongohtotech 5 авг 2021 в 20:25

Строим аналитическое хранилище данных с готовыми модулями ML на Google BigQuery: просто, быстро, доступно

10 мин

11K

Облачные вычисления*Big Data*Машинное обучение*Google Cloud Platform*Data Engineering*

Туториал

Рассказываем как перестать переживать о том, что вы не знаете Hadoop и вывести работу с данными в компании на новый уровень, как быстро и без больших затрат создать в аналитическое хранилище, наладить процессы загрузки туда данных, дать возможность аналитикам строить отчеты в современных BI инструментах и применять машинное обучение.

RazVal 28 апр 2020 в 17:26

Оплата почасовая, за результат или оклад?

2 мин

7.9K

Управление персоналом*Фриланс

Recovery Mode

Мне регулярно приходится защищать почасовую оплату труда программистам. В том числе, если это оплата часов на починку того, что оказалось нерабочим и выявилось уже в процессе эксплуатации заказчиком. Заказчики нередко возмущаются: «Почему это я должен платить за переделку! Я уже заплатил за это 1 раз, и не хочу платить больше. Пускай переделывают за свой счёт, чтобы в будущем не повадно было!..» И мне приходится объяснять снова и снова, что такой подход не приведёт к большей ответственности программистов, а только загонит их в необходимость увеличивать цену часа, чтобы заложить в неё «бесплатные» работы по починке.

Читать дальше →

104

ilyaburkhanov 24 ноя 2015 в 17:59

Пошаговый курс по созданию продающего Landing Page c нуля. Часть 1: Посадочные страницы и трафик

9 мин

78K

Блог компании BloxyИнтернет-маркетинг*Повышение конверсии*

Туториал

Запускаем первый обучающий цикл статей по одностраничникам, трафику и построению системы продаж через интерент. В первую очередь курс предназначен для новичков и тех, кто только запускает продажи в онлайне, хочет протестировать идеи бизнеса и маркетинга или хочет получить новый поток клиентов в свой бизнес. Надеемся, что опытным специалистам курс даст интересные идеи.

Читать дальше →

+10

unnforgiven 7 янв 2018 в 08:33

Система сбора, анализа, уведомлений и визуализации логов на syslog-ng, elasticsearch, kibana, grafana, elasticalert

34 мин

127K

*nix*IT-инфраструктура*Визуализация данных*Серверное администрирование*

Туториал

Что мы получим после этой статьи:

Систему сбора и анализа логов на syslog-ng, elasticsearch в качестве хранилища данных, kibana и grafana в качестве систем визуализации данных, kibana для удобного поиска по логам, elasticalert для отправки уведомлений по событиям. Приготовьтесь, туториал объемный.

Какие логи будем собирать:

все системные логи разложенные по индексам в зависимости от их facility(auth,syslog,messages и т.д.);
логи nginx — access и error;
логи pm2;
и др.

Обоснование выбора системы

Почему я выбрал связку с syslog-ng в качестве отправителя, парсера и приемщика логов? Да потому что он очень быстрый, надежный, не требовательный к ресурсам(да да — logstash в качестве агентов на серверах и виртуальных машинах просто убожество в плане пожирания ресурсов и требованием java), с внятным синтаксисом конфигов(вы видели rsyslog? — это тихий ужас), с широкими возможностями — парсинг, фильтрация, большое количество хранилищ данных(postgresql,mysql,elasticsearch,files и т.д.), буферизация(upd не поддерживает буферизацию), сторонние модули и другие фишки.

Требования:

Ubuntu 16.04 или debian 8-9;
vm для развертывания;
Прямые руки.

Приступим или добро пожаловать под кат

Читать дальше →

+15

mongohtotech 16 мар 2020 в 13:10

Ваша первая нейронная сеть на графическом процессоре (GPU). Руководство для начинающих

9 мин

53K

Python*Машинное обучение*Облачные сервисы*Обработка изображений*Хостинг

Туториал

В этой статье я расскажу как за 30 минут настроить среду для машинного обучения, создать нейронную сеть для распознавания изображений a потом запустить ту же сеть на графическом процессоре (GPU).

Для начала определим что такое нейронная сеть.

В нашем случае это математическая модель, а также её программное или аппаратное воплощение, построенная по принципу организации и функционирования биологических нейронных сетей — сетей нервных клеток живого организма. Это понятие возникло при изучении процессов, протекающих в мозге, и при попытке смоделировать эти процессы.

Нейронные сети не программируются в привычном смысле этого слова, они обучаются. Возможность обучения — одно из главных преимуществ нейронных сетей перед традиционными алгоритмами. Технически обучение заключается в нахождении коэффициентов связей между нейронами. В процессе обучения нейронная сеть способна выявлять сложные зависимости между входными данными и выходными, а также выполнять обобщение.

С точки зрения машинного обучения, нейронная сеть представляет собой частный случай методов распознавания образов, дискриминантного анализа, методов кластеризации и прочих методов.

Оборудование

Сначала разберемся с оборудованием. Нам необходим сервер с установленной на нем операционной системой Linux. Оборудование для работы систем машинного обучения требуется достаточно мощное и как следствие дорогое. Тем, у кого нет под рукой хорошей машины, рекомендую обратить внимание на предложение облачных провайдеров. Необходимый сервер можно получить в аренду быстро и платить только за время использования.

Читать дальше →

+13

akonyaev 24 янв 2018 в 08:06

Как мы в ivi переписывали etl: Flink+Kafka+ClickHouse

6 мин

25K

Блог компании Онлайн-кинотеатр ИвиBig Data*

Год назад мы решили переделать схему сбора данных в приложении и данных о действиях клиентов. Старая система работала исправно, но с каждым разом было всё сложнее и опаснее вносить туда изменения.

В этой статье я расскажу, какие технологии мы стали использовать для сбора и агрегации данных в новом проекте.

Читать дальше →

+23

chemtech 6 мар 2020 в 10:26

ClickHouse – визуально быстрый и наглядный анализ данных в Tabix. Игорь Стрыхарь

12 мин

17K

Big Data*DevOps*Администрирование баз данных*Визуализация данных*

Предлагаю ознакомиться с расшифровкой доклада 2017 года Игорь Стрыхарь «ClickHouse – визуально быстрый и наглядный анализ данных в Tabix».

Веб-интерфейс для ClickHouse в проекте Tabix.
Основные возможности:

Работает с ClickHouse напрямую из браузера, без необходимости установки дополнительного ПО;
Редактор запросов с подсветкой синтаксиса;
Автодополнение команд;
Инструменты графического анализа выполнения запросов;
Цветовые схемы на выбор.

+15

Apollon_Diamed 20 мая 2018 в 16:52

Универсальный API для получения информации по чекам

9 мин

117K

Open source*API*

Привет жителям Хабра.

В данной статье хотелось бы рассказать про API для получения чеков, которое нам не предоставила ~~всеми любимая~~ ФНС.

Когда только появились QR-коды на чеках я подумал «Вау, как круто! Ты сканируешь код и видишь если не всю инфу по чеку, то ссылку на него». И какого же было мое разочарование, когда просканировав такой код я увидел что-то вроде

t=20180518T220500&s=975.88&fn=8710000101125654&i=99456&fp=1250448795&n=1

Но расстраиваться я не стал и подумал, что ФНС позаботилась о нас и предоставила API для получения такой информации. Погуглив некоторое время я понял, что ФНС нам предоставила только мобильное приложение для проверки чека и просмотра той информации, что поступила к ним от магазина.

Читать дальше →

+31

ua-hosting 1 фев 2020 в 14:50

HighLoad++, Михаил Макуров, Максим Чернецов (Интерсвязь): Zabbix, 100kNVPS на одном сервере

16 мин

8.1K

Блог компании ua-hosting.companyСистемное администрирование*Серверное администрирование*КонференцииIT-инфраструктура*

Следующая конференция HighLoad++ пройдет 6 и 7 апреля 2020 года в Санкт-Петербурге Подробности и билеты по ссылке. HighLoad++ Moscow 2018. Зал «Москва». 9 ноября, 15:00. Тезисы и презентация.

* Мониторинг — онлайн и аналитика.
* Основные ограничения платформы ZABBIX.
* Решение для масштабирования хранилища аналитики.
* Оптимизация сервера ZABBIX.
* Оптимизация UI.
* Опыт эксплуатации системы при нагрузках более 40k NVPS.
* Коротко выводы.

+24

mongohtotech 29 янв 2020 в 17:54

Impala vs Hive vs Spark SQL: Выбор правильного SQL движка для правильной работы в Cloudera Data Warehouse

7 мин

18K

Apache*Big Data*Data Engineering*Hadoop*SQL*

Перевод

Нам всегда не хватает данных. И мы не просто хотим больше данных… мы хотим новые типы данных, которые позволят нам лучше понимать свою продукцию, клиентов и рынки. Мы все-время находимся в поиске новых данных, данных всех форм и размеров, структурированных и не очень. Мы хотим распахнуть свои двери для нового поколения бизнес-специалистов и технических специалистов, которые будут увлеченно вместе с нами открывать новые базы данных и технологии, которые впоследствии изменят характер того, как мы взаимодействуем с данными и какое влияние они оказывают на нашу жизнь.

Читать дальше →

mongohtotech 26 янв 2020 в 16:18

Геоаналитика в рознице, часть1: автоматизируем процесс выбора места для бизнеса. 2ГИС + MS Azure + ML

5 мин

4.1K

Машинное обучение*Геоинформационные сервисы*Microsoft SQL Server*Microsoft Azure*Data Mining*

Туториал

Всем привет!

Меня зовут Сергей Коньков — я архитектор данных в компании Business reports & Data.
Данная статья рассказывает о возможностях использования гео-аналитики и машинного обучения в розничной компании и основана на реальном проекте нашего клиента — большой сети салонов красоты. Здесь не будет много кода и технических деталей, внимание будет уделено обзору технологий, их применению и интеграции.

Читать дальше →

mongohtotech 7 окт 2012 в 00:09

Разгоняем медиану в OLAP

3 мин

8.8K

Data Mining*Microsoft SQL Server*SQL*

Туториал

Из песочницы

Этот пост для тех, кто сталкивался с проблемой производительности, при расчете медианы в OLAP кубе.
Одним из главных достоинств OLAP технологии является скорость получения результатов при обращении к базе. Расчеты происходят «на лету». Однако с медианой, не все так просто.
Для справки: медиана — вид средней. Это величина, которая находиться в середине ряда значений отсортированного по возрастанию. Например, для ряда значений {1, 2, 5, 6, 9} медианой является 5.

Рассмотрим ситуацию на примере OLAP сервера от Microsoft — SSAS 2008 (SQL Server Analysis Services).

Читать дальше →

PchelinM 12 дек 2019 в 16:42

Клиентоориентированный Data Lake в игровой компании

13 мин

7.6K

Блог компании VKХранилища данных*Python*Open source*Big Data*

Источник

Привет, Хабр! Меня зовут Максим Пчелин, и я руковожу разработкой BI-DWH в MyGames (игровое подразделение Mail.ru Group). В этой статье по мотивам нашего с Диной Сафиной выступления на HighLoad++ Moscow 2019 я расскажу о том, как и зачем мы строили клиентоориентированное DataLake-хранилище.

Статья состоит из трех частей. Сперва я расскажу, почему мы решили реализовывать DataLake. Во второй части я опишу, какие технологии и решения мы используем, чтобы хранилище могло работать и наполняться данными. И в третьей части опишу, что мы делаем для улучшения качества наших сервисов.

Читать дальше →

+53

vaka-volk 16 июл 2019 в 10:20

Как мы создали Service Desk мечты

11 мин

9.3K

Блог компании HubExIT-инфраструктура*Service Desk*Системное администрирование*Управление персоналом*

Иногда можно услышать такую фразу «чем старше продукт, тем он функциональнее». В век современных технологий, далеко идущего web и модели SaaS это утверждение почти не работает. Залог успешной разработки это постоянный мониторинг рынка, отслеживание запросов и требований клиентов, готовность сегодня услышать важное замечание, вечером его втащить в бэклог, а завтра начать разрабатывать. Именно так мы работаем над проектом HubEx — системой управления сервисом оборудования. У нас отличная и разнообразная команда инженеров, и мы могли бы разработать сервис знакомств, захватывающую мобильную игру, систему управления временем или самый удобный на свете todo-лист. Эти продукты быстро бы выстрелили на рынке, и мы могли бы почивать на лаврах. Но наша команда, выходцы из инжиниринговой компании, знает сферу, где много болей, проблем и сложностей — это сервис. Думаем, с частью этих болей сталкивался каждый из вас. А значит, нужно идти туда, где нас ждут. Ну мы надеемся, что ждут :-)

+31

ru_vds 18 июн 2019 в 12:30

19 концепций, которые нужно изучить для того, чтобы стать эффективным Angular-разработчиком

14 мин

36K

Блог компании RUVDS.comВеб-разработка*JavaScript*Angular*

Перевод

TODO-приложение во фронтенд-разработке — это то же самое, что «Hello world» в обычном программировании. При создании TODO-приложений можно изучить выполнение CRUD-операций средствами того или иного фреймворка. Но часто подобные проекты лишь весьма поверхностно касаются того, что на самом деле умеет фреймворк.

Если взглянуть на Angular, то возникает такое ощущение, что этот фреймворк постоянно меняется и обновляется. На самом же деле в том, что касается Angular, можно выделить некоторые идеи, которые остаются неизменными. В материале, перевод которого мы сегодня публикуем, приведён обзор базовых концепций Angular, которые нужно понять для того, чтобы правильно и эффективно пользоваться возможностями этого фреймворка.

Для освоения Angular нужно очень много всего изучить. Многие разработчики застревают на начальных этапах освоения Angular. Происходит это из-за того, что они не знают о том, куда им двигаться, или не знают того, по каким ключевым словам им искать информацию, которая позволит им сделать шаг вперёд. Автор этого материала говорит, что ей, когда она начинала осваивать Angular 2+, хотелось бы, чтобы ей попалось бы руководство по данному фреймворку, похожее на это.

Читать дальше →

+18

asash 11 мая 2016 в 12:40

Big Data от A до Я. Часть 5.1: Hive — SQL-движок над MapReduce

9 мин

98K

Big Data*Hadoop*

Туториал

Привет, Хабр! Мы продолжаем наш цикл статьей, посвященный инструментам и методам анализа данных. Следующие 2 статьи нашего цикла будут посвящены Hive — инструменту для любителей SQL. В предыдущих статьях мы рассматривали парадигму MapReduce, и приемы и стратегии работы с ней. Возможно многим читателям некоторые решения задач при помощи MapReduce показались несколько громоздкими. Действительно, спустя почти 50 лет после изобретения SQL, кажется довольно странным писать больше одной строчки кода для решения задач вроде «посчитай мне сумму транзакций в разбивке по регионам».

С другой стороны, классические СУБД, такие как Postgres, MySQL или Oracle не имеют такой гибкости в масштабировании при обработке больших массивов данных и при достижении объема большего дальнейшая поддержка становится большой головоной болью.

Собственно, Apache Hive был придуман для того чтобы объединить два этих достоинства:

Масштабируемость MapReduce
Удобство использования SQL для выборок из данных.

Под катом мы расскажем каким образом это достигается, каким образом начать работать с Hive, и какие есть ограничения на его применения.

Читать дальше →

+13

asash 1 апр 2016 в 16:08

Big Data от А до Я. Часть 4: Hbase

11 мин

101K

Блог компании DCA (Data-Centric Alliance)Big Data*

Туториал

Привет, Хабр! Наконец-то долгожданная четвёртая статья нашего цикла о больших данных. В этой статье мы поговорим про такой замечательный инструмент как Hbase, который в последнее время завоевал большую популярность: например Facebook использует его в качестве основы своей системы обмена сообщений, а мы в data-centric alliance используем hbase в качестве основного хранилища сырых данных для нашей платформы управления данными Facetz.DCA

В статье будет рассказано про концепцию Big Table и её свободную реализацию, особенности работы и отличие как от классических реляционных баз данных (таких как MySQL и Oracle), так и key-value хранилищ, таких как Redis, Aerospike и memcached.
Заинтересовало? Добро пожаловать под кат.

Читать дальше →

+22

«Уехал, и что дальше?» — подборка для планирования жизни за границей

Как анализировать данные из облачных сервисов для автоматизации бизнеса

CDP для бизнеса, или Как эффективно подружиться с клиентом

Строим аналитическое хранилище данных с готовыми модулями ML на Google BigQuery: просто, быстро, доступно

Оплата почасовая, за результат или оклад?

Пошаговый курс по созданию продающего Landing Page c нуля. Часть 1: Посадочные страницы и трафик

Система сбора, анализа, уведомлений и визуализации логов на syslog-ng, elasticsearch, kibana, grafana, elasticalert

Ваша первая нейронная сеть на графическом процессоре (GPU). Руководство для начинающих

Оборудование

Как мы в ivi переписывали etl: Flink+Kafka+ClickHouse

ClickHouse – визуально быстрый и наглядный анализ данных в Tabix. Игорь Стрыхарь

Универсальный API для получения информации по чекам

HighLoad++, Михаил Макуров, Максим Чернецов (Интерсвязь): Zabbix, 100kNVPS на одном сервере

Impala vs Hive vs Spark SQL: Выбор правильного SQL движка для правильной работы в Cloudera Data Warehouse

Геоаналитика в рознице, часть1: автоматизируем процесс выбора места для бизнеса. 2ГИС + MS Azure + ML

Разгоняем медиану в OLAP

Клиентоориентированный Data Lake в игровой компании

Как мы создали Service Desk мечты

19 концепций, которые нужно изучить для того, чтобы стать эффективным Angular-разработчиком

Big Data от A до Я. Часть 5.1: Hive — SQL-движок над MapReduce

Big Data от А до Я. Часть 4: Hbase

Информация

Специализация