Как стать автором
Поиск
Написать публикацию
Обновить
118.66

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

Как мы в СИБУРе делаем дашборды для людей. Часть 3: считаем прибыль не только правильно, но и красиво

Время на прочтение5 мин
Количество просмотров3.8K

Привет! Как мы уже не раз рассказывали, СИБУР поделен на несколько сквозных процессов. Сквозные процессы – это бизнес-домены, которые объединяют в себе бизнес-команды одной сферы. У нас таких много, но конкретно этот пост будет посвящён дашбордам для O2C. 

В случае O2C – это также сквозной процесс, который расшифровывается как Order to cash. Он отвечает за привлечение новых клиентов и получение прибыли. Кроме того, такой подход помогает перестраивать бизнес-процессы на предприятии и способствует активной цифровизации производственных процессов.

Сегодня использование O2C напрямую связано с промышленной цифровизацией. Постепенно все, начиная от поиска лидов и сопровождения сделок, заканчивая непосредственно продажами, передачей права собственности, когда бухгалтерия контрагента расписалась в акте, перестраивается на автоматический режим.

O2C как бизнес состоит из нескольких больших подразделений, эти же подразделения являются как потребителями данных, так и основными генераторами идей, все-таки стараемся работать в продуктовом подходе и учитывать хотелки всех и вся, как минимум внутри O2C. 

Читать далее

В Китае внедрили судебный ИИ. Или нет?

Время на прочтение3 мин
Количество просмотров11K

С такими заголовками вышли десятки публикаций в российском интернете. Может показаться, что в КНР создали искусственный интеллект, который рассматривает дела и выносит приговоры. Прямо как с новостями о китайском социальном рейтинге, которого нет. Так что же с ИИ в китайском суде?

Читать далее

Data Quality: новые правила

Время на прочтение5 мин
Количество просмотров6.3K


В нашем мире проблемы с данными делятся на два типа: предсказуемые (известные неизвестные) и непредсказуемые (неизвестные неизвестные). Вот какой комплексный подход применяют лучшие специалисты по работе с данными для решения этих проблем в крупномасштабных системах. Команда VK Cloud Solutions перевела статью о новых способах повышения качества данных с помощью тестирования и наблюдаемости (observability).
Читать дальше →

Как мы обучали категоризатор фискальных чеков DataCheckEngine

Время на прочтение6 мин
Количество просмотров2.3K

Задача актуальна для фин. организаций и ретейла. Расскажем, как мы подошли к ней и почему выбрали для обучения уменьшенную версию модели DistilBert.

Читать далее

Как IoT-технологии и эксперты по оборудованию помогают внедрять предиктивную аналитику: опыт Factory5

Время на прочтение8 мин
Количество просмотров2.3K

Всем привет, на связи Алексей Ершов и Максим Зотов, эксперты Factory5. Сейчас наша компания разрабатывает ПО для анализа промышленных данных, а начинали когда-то с предиктивной аналитики промышленного оборудования. В этой статье расскажем о том, как IoT-технологии и эксперты по оборудованию помогают внедрять её на предприятиях.

Читать далее

Как мы построили систему онбординга для аналитиков-новичков: подводные камни и полезные приёмы

Время на прочтение4 мин
Количество просмотров4.6K

Привет, я Галина Вакулина, лидер аналитиков в Точке. 

В новой компании аналитик тратит много времени на изучение данных, с которыми ему предстоит работать. В этой статье я рассказываю, как мы построили процесс онбординга, чтобы погружение новичка проходило эффективно и безболезненно.

Читать далее

Предсказание временных рядов с помощью Keras

Время на прочтение4 мин
Количество просмотров10K

Привет, Хабр!

Сегодня хотелось бы поговорить о задаче предсказания временных рядов методами машинного обучения. В каком виде зачастую используются данные для задачи предсказания? Что такое LSTM-архитектура рекуррентных нейронных сетей? Как справляются модели RNN и полносвязной сети c поставленной задачей?

Читать далее

Промышленный мониторинг качества данных в Feature Store. Предпосылки и реализация

Время на прочтение10 мин
Количество просмотров4.2K

Привет, Хабр! Меня зовут Алексей Лямзин, я работаю аналитиком в финтех направлении Big Data МТС. Мы с коллегами разрабатываем предиктивные модели на данных крупнейшего телеком-оператора и сегодня я расскажу вам о том, как мы строили автоматизированный контроль за качеством данных в нашем Feature Store. 

Добро пожаловать под кат!

Читать далее

Статистический анализ по картинке

Уровень сложностиСложный
Время на прочтение7 мин
Количество просмотров5.3K

Название звучит как "приворот по фото", но я о чём - захотел я как-то проанализировать пару графиков, найти корреляции и столкнулся с парой сложностей:

I. У меня был только график - картинка, самих данных (значений) не было. Принялся я по нему вычислять хотя бы наиболее важные точки - в итоге получилось ужасно долго и просто ужасно (человеский глаз и осознанный мозг не может предоставить точность больше 10% деления):

Поэтому представляю Вам программу для оцифровки значений графика из картинки, а также...

Читать далее

Глубокое погружение в рекомендательную систему Netflix

Время на прочтение12 мин
Количество просмотров8.4K

Как Netflix добился 80 процентов от всего своего стримингового времени благодаря персонализации.

Читать далее

Пишем первую программу по машинному обучению до 50 строк с помощью Scikit-Learn

Время на прочтение5 мин
Количество просмотров10K

Сегодня мы воспользуемся возможностями машинного обучения для анализа шоколадного печенья.

Читать о печеньках и ML

Работа над неразмеченными данными с QGIS и opentripmap на практике

Время на прочтение8 мин
Количество просмотров2.9K

В этом посте я хочу поделиться интересным опытом работы с неразмеченными данными при помощи открытого ресурса opentripmap.

Задача

По исходным данным определить является ли конкретное фото, сделанное пользователем туристическим или нет. А так же масштабировать и автоматизировать алгоритм решения на любой регион Российской Федерации, избегая ручную работу.

Читать далее

Национализация ваших данных происходит прямо сейчас

Время на прочтение2 мин
Количество просмотров64K

Национализация ваших данных государством продолжается семимильными шагами. Ожил "замерший" новый законопроект Минцифры и летит к принятию. Это один из самых радикальных подходов к данным со стороны государства, который я когда-либо видел. Он заберёт все ваши данные у компаний, не спросив вас, и раздаст всем желающим.

Согласно ему государство вправе бесплатно забрать у бизнеса любые персональные данные граждан в некую "информационную систему". Потом их "обезличат" чтобы с ними могли работать "ведомства и разработчики ИИ". Прямо так и написано. Разрешения гражданина не потребуется - хотя ещё в апреле Минцифры явно говорило, что оно будет нужно. Разрешение, как предполагали в первых версиях проекта, нужно будет спрашивать только у силовиков.

Читать далее

Ближайшие события

В чем проблема с базами данных «ключ-значение» и как ее решают Wide-column-хранилища

Время на прочтение2 мин
Количество просмотров9.1K


Базы данных «ключ-значение» великолепные — ультрабыстрые, простые, почти линейно масштабируемые по количеству узлов. Но с ними все не так просто. Команда VK Cloud Solutions перевела статью о том, какие у таких баз есть проблемы и как их решить с помощью Wide-column-хранилищ.

Проблемы с базами данных «ключ-значение»


Основная концепция базы данных «ключ-значение» в том, что сами значения ее не беспокоят. Ее работа основана на некоторых допущениях, например, как у Redis, но на структуру данных она вообще не обращает внимания. Из-за этого могут возникнуть три проблемы.
Читать дальше →

DASтаточное решение: прямое подключение дисков для разных задач

Время на прочтение6 мин
Количество просмотров11K

Проблема хранения данных, и без того создающая массу головной боли архитекторам ЦОДов и системным администраторам, стала еще актуальнее в свете последних событий. В частности, к нам все чаще стали обращаться с запросами на различные форматы организации дополнительных хранилищ и расширения емкостей. Поэтому сегодня Юрий Алексеев, наш presale-эксперт по серверным решениям и системам хранения данных, расскажет о возможностях расширения уже существующего дискового пространства сервера с помощью подключения дисковых полок через DAS (то есть о прямом подключении). В посте мы поговорим о том, что для этого нужно, как это работает, и обсудим, может ли DAS заменить сетевые хранилища или системы высокой емкости.

Читать далее

В Data Science не нужна математика (Почти)

Время на прочтение6 мин
Количество просмотров92K

Привет, чемпион!

Ребята с «вышкой» всё время умничают, что в Data Science нужна «математика», но стоит копнуть глубже, оказывается, что это не математика, а вышмат.

В реальной повседневной работе Data Scientist'а я каждый день использую знания математики. Притом очень часто это далеко не «вышмат». Никакие интегралы не считаю, детерминанты матриц не ищу, а нужные хитрые формулы и алгоритмы мне оперативнее просто загуглить.

Решил накидать чек-лист из простых математических приёмов, без понимания которых — тебе точно будет сложно в DS. Если ты только начинаешь карьеру в DS, то тебе будет особенно полезно. Мощь вышмата не принижаю, но для старта всё сильно проще, чем кажется. Важно прочитать до конца!
Читать дальше →

“Как заставить данные говорить”: практическое погружение в нюансы работы российских BI-платформ

Время на прочтение4 мин
Количество просмотров2.3K

Привет, Хабр! Сейчас многие сталкиваются с проблемой замены BI-платформы из-за выхода с рынка зарубежных вендоров — особенно популярного и многими любимого PowerBI. И поэтому наши коллеги снова подходят к вопросу замены западной BI-платформы на российскую, но совершенно с другой стороны. Сегодня речь пойдет об уникальном тренинге для аналитиков и менеджеров “Как заставить данные говорить?”, на котором участники будут САМИ сравнивать разные BI-продукты под руководством опытного эксперта Алексея Колоколова, попробуют поработать в разных системах, а также получат индивидуальные задания и длительную обратную связь после завершения курса. Для интересующихся подробная информация — под катом.

Узнать больше про тренинг

Ищем кротовые норы с помощью big data

Время на прочтение1 мин
Количество просмотров17K

Чтобы исправить кое-какие ошибки, человечество решило отправиться в прошлое. Для этого надо найти правильную кротовую нору — просторную, но не слишком гравитирующую и по приемлемой цене — чтобы забронировать телепортацию.

В космосе россыпи всяческих дыр и нор, по которым вдобавок катаются клубки перепутанных суперструн: вручную такое не проанализировать. Поэтому тут не обойтись без специалиста по большим данным.

Твоё резюме было таким убедительным, что эксперты из Академии больших данных MADE и VK Образования решили провести собеседование прямо на космическом шаттле. Ответь на вопросы, подтверди свою квалификацию и помоги капитану определить маршрут. Поехали!

Пройти тест

Тестирование конвейеров данных

Время на прочтение13 мин
Количество просмотров2.2K

Как Oracle Problem, граничные значения, закрытые экосистемы и сама цель тестов отличают задачу тестирования конвейеров данных от тестирования традиционного программного обеспечения.

Программное обеспечение просто перемещает данные внутри компьютеров. Конвейеры данных также просто перемещают данные внутри компьютеров. Итак, насколько тестирование конвейеров данных может отличаться от тестирования любой другой формы программного обеспечения? Разве все практики, подходы и накопленный опыт, полученные при тестировании традиционного программного обеспечения, не должны применяться и к конвейерам данных?

К сожалению, всё сложнее. Да, тестирование конвейеров данных и тестирование традиционного программного обеспечения частично пересекаются. Однако существуют уникальные характеристики и особенности разработки конвейеров, которые создают особые сложности при  тестировании, которых опытный инженер по качеству может не знать. Игнорирование этих особенностей и подход к конвейерам данных так, как будто они ничем не отличаются от любого другого типа программного обеспечения, приведет к разочаровывающим результатам. В этой статье я рассмотрю несколько наиболее интересных проблем и предложу альтернативные подходы, подходящие для конвейеров данных.

Хотя эта статья будет посвящена этим различиям, она не будет исчерпывающим руководством по тестированию конвейеров данных. Тестирование конвейеров данных — это широкая тема, которая не может быть полностью раскрыта в одном посте. Однако понимание этих проблем будет полезно всем, кто работает с конвейерами данных.

Читать далее

Что такое выпас данных и почему он необходим?

Время на прочтение8 мин
Количество просмотров5.9K

Когда речь идет об анализе данных, результаты хороши лишь настолько, насколько хороши данные. И даже если на вашей стороне миллионы значений данных, и вы вооружены искусственным интеллектом и машинным обучения, вы можете не использовать эти данные в полной мере (возможно, это сыграет даже во вред вашей организации).

Плохие данные приводят к принятию некачественных решений.

Поэтому вам необходимо очистить и отформатировать ваши данные – взять их под контроль, чтобы они были готовы к последующим процессам.

Вот тут-то и приходит на помощь выпас данных.

Читать далее

Вклад авторов