Как стать автором
Поиск
Написать публикацию
Обновить
112.32

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга

Коллеги, сейчас раскрываю тему РФ рынка аналитических платформ. Есть несколько тем на будущие статьи. Хотел обратиться к Вам, что было бы интересно? Может быть будут интересные острые темы от Вас?

Теги:
Всего голосов 3: ↑3 и ↓0+3
Комментарии0

Сколько раз звонить, чтобы дозвониться. Наша странная реальность и теория вероятности. Является ли попытка дозвониться аналогом подбрасывания монеты

Бывают ситуации когда надо дозвониться до какой-то организации или человека, но телефон адресата то занят, то не отвечает, то вне зоны доступа и т.д. Мне попались любопытные данные внутренней статистики от одного из провинциальных операторов связи. Получается оптимальное количество попыток 4..7, а больше 15 раз делать попыток дозвониться теряет смысл, вероятность дозвона сильно уменьшается. И всё-таки это не подбрасывание монетки.

Теги:
Всего голосов 6: ↑4 и ↓2+2
Комментарии1
That's all, folks! Вчера был последний день приёма заявок для участия в сезоне Big Data, и 13 июня мы узнаем победителя. 
That's all, folks! Вчера был последний день приёма заявок для участия в сезоне Big Data, и 13 июня мы узнаем победителя. 

А пока встречайте последних участников со статьями о распределенной обработке данных, вариации архитектур для задач детекции, аналитике данных и антифроде в логистике:

? Масштабируемая Big-Data-система в Kubernetes со Spark и Cassandra

Все DETRы мира: denoising queries и positive anchors. Часть 2

??‍? Что такое Self-Service BI и зачем он нужен?

?️ Расчет скидки за первый и последний этаж в Excel (Часть 2)

? Как «Почта» моделирует риски потери отправлений

Сезон Big Data мы провели с Газпромбанком. Новые статьи больше не принимаются. Ваши голоса могут повлиять на итоговый рейтинг — голосуем и выбираем победителя сезона по ссылке ?

Всего голосов 7: ↑7 и ↓0+7
Комментарии0

На наш бигдата-торт упали ещё три больших вишни: рейтинговые хабрааавторы рассказали про оптимизацию расходов на железо, кластеризацию sms‑сообщений с pyspark.ml и проверку госзакупок с помощью СУБД BaseX:
? Сassandra для бедных — пускаем в ход HDD
? Кластеризация текста в PySpark
? Извлечение открытых данных сайта zakupki.gov.ru с помощью СУБД BaseX

Другие интересные кейсы:
? Бигдата, ты ли это?  
? Как дать крылья своей сводной таблице в Apache Superset
? Все DETR’ы мира
? Байесовский подход к A/B-тестированию
? Геопространственные технологии для управления паспортом медицинского участка

Посмотреть всех участников и правила сезона можно по ссылке. Если вы тоже хотите поделиться опытом, ждём ваших статей на Хабре. Только поторопитесь, сезон Big Data мы проводим вместе с Газпромбанком до 7 июня.

Всего голосов 12: ↑12 и ↓0+12
Комментарии0

В бигдате два вида спорта. Первый — организация загрузки, мониторинга и бэкапирования, второй — применение имеющихся данных для бизнес-задач. Участники сезона Big Data уверенно идут в обоих дисциплинах.

Читайте невыдуманные истории о том, как ошибки в мониторинге привели к 30 Tb лишних данных, а также о структурирования кредитного портфеля и неклассической детекции.

? Бигдата, ты ли это?

? Структурирование кредитного портфеля методами машинного обучения

? Все DETR’ы мира

Какие ещё были интересные кейсы в сезоне:

? Байесовский подход к A/B-тестированию

? Как дать крылья своей сводной таблице в Apache Superset

? Как мы делали скоринг на микросервисной архитектуре руками не-программистов

? Геопространственные технологии для управления паспортом медицинского участка

⚖️ Тварь дрожащая или право имею: как мы лепили виртуального юриста из русскоязычных нейросетей

Если вы тоже хотите поделиться опытом, ждём ваших статей на Хабре. Только поторопитесь, сезон Big Data мы проводим вместе с Газпромбанком до 7 июня.

Всего голосов 10: ↑10 и ↓0+10
Комментарии0

До конца сезона Big Data осталась всего пара недель! Решится ли кто-то ворваться под конец с хардкорной статьей — и победить?

А пока — встречайте новых участников, которые ещё раз напомнили нам золотое правило: именно сбор, обработка и классификация больших данных позволяют получить качественные ИИ-модели и аналитику:

⚖️ Тварь дрожащая или право имею: как мы лепили виртуального юриста из русскоязычных нейросетей

? Её величество Иерархия. Классификация и способы хранение в MS Excel

? Анализ таблиц сопряженности средствами Python

Топ самых популярных статей сезона Big Data:

? Байесовский подход к A/B-тестированию

? Сравнение технологии JuniStat и лазерных систем для беговых тестов

? Как дать крылья своей сводной таблице в Apache Superset

☁️ Big Data в облаках

? Как мы делали скоринг на микросервисной архитектуре руками не-программистов

? Как рассчитать скидку за первый и последний этаж почти без формул в Excel

Сезон Big Data мы проводим вместе с Газпромбанком до 7 июня (по ссылке полный список статей сезона).

Всего голосов 7: ↑7 и ↓0+7
Комментарии0

Если ко всему подходить осознанно, то с Big-Data-аналитикой можно решать любые задачи. Участники сезона Big Data на Хабре точно оценивают недвижимость, измеряют время рывка в забегах, создают мастер-базу для управления территорией, находят новые алгоритмы А/Б-тестов и оптимизируют бизнес-процессы (в хорошем смысле этого слова).

? Байесовский подход к A/B-тестированию

? Сравнение технологии JuniStat и лазерных систем для беговых тестов

? Применение методов CRISP-DM для анализа Big Sales Data

? Data-driven-рост с помощью науки о данных и машинного обучения  

? Как рассчитать скидку за первый и последний этаж почти без формул в Excel

? Геопространственные технологии для управления паспортом медицинского участка

Если вы тоже хотите поделиться опытом, ждём ваших статей на Хабре. Сезон Big Data мы проводим вместе с Газпромбанком до 7 июня → Достучаться до ИИ: сезон больших данных на Хабре (по ссылке полный список статей сезона — посмотрите, там ещё много интересного).

Всего голосов 10: ↑10 и ↓0+10
Комментарии0

При слаженном DataOps данные — как вода из крана: всегда есть, поэтому можно и забыть, откуда она берётся. Большие данные не сами собой собираются из разных источников, попадают в высокоэффективные ETL/ELT-конвейеры, очищаются и загружаются в корпоративные хранилища. Участники сезона Big Data напоминают, что с DataOps всё не так-то просто:

?️ Как мы организовали Data Warehouse в MANGO OFFICE

? Мигрируем с Qlik: как создать надёжное хранилище для ваших данных

?️ MapReduce: как и зачем?

? Как дать крылья своей сводной таблице в Apache Superset

☁️ Big Data в облаках

?️ MLOps-платформа Dognauts для разработки и эксплуатации ML-моделей

Сезон Big Data мы проводим вместе с Газпромбанком до 7 июня. Если у вас есть опыт в этой сфере, которым вы хотите поделиться, ждём ваших статей.

Всего голосов 10: ↑10 и ↓0+10
Комментарии0

Сезон Big Data на Хабре длится всего неделю, а мы в своём познании уже настолько преисполнились, что готовы внедрять методы аналитики без привычных инструментов. В чат врываются low-code скоринговая модель и пайплайн для анализа цен на городскую недвижимость средствами Excel.

Итак, мечтают ли большие данные о low-code методах обработки:

? Как мы делали скоринг на микросервисной архитектуре руками не-программистов

? Как рассчитать скидку за первый и последний этаж почти без формул в Excel

Если вы соскучились по технохардкору:

☁️ Big Data в облаках

?️ MLOps-платформа Dognauts для разработки и эксплуатации ML-моделей 

? FineBI 6.0: 9 полезных обновлений, о которых вы не знали

? Геопространственные технологии для управления паспортом медицинского участка → https://u.habr.com/cjUf2

Сезон Big Data мы проводим вместе с Газпромбанком до 7 июня. Если у вас есть интересный опыт в этой сфере, которым вы хотите поделиться, ждём ваших статей на Хабре → посмотреть всех участников и правила.

Всего голосов 6: ↑6 и ↓0+6
Комментарии0

Объемы данных растут, работа с данными усложняется и ускоряется. Какой должна быть современная BigData архитектура – определяем в новом сезоне на Хабре, который мы проводим вместе с Газпромбанком.

Сезон Big Data аккумулирует хардкорные материалы и вы сможете увидеть практический опыт других компаний. Наши первые участники сезона уже рассказали, как покоряют аналитику больших данных:

☁️ Big Data в облаках

?️ MLOps-платформа Dognauts для разработки и эксплуатации ML-моделей

? FineBI 6.0: 9 полезных обновлений, о которых вы не знали

? Геопространственные технологии для управления паспортом медицинского участка

В финтехе особенно важно уйти от субъективного принятия решения и автоматизировать рутинные операции с данными. Сейчас Газпромбанк реализует сразу несколько крупных проектов в области computer vision, NLP, графовой аналитики, геомоделирования. А как автоматизировать проверку данных и оценить индекс зрелости ИИ уже рассказали в статьях:

? Страдающее ML: как мы автоматизировали проверку данных

? Как и зачем оценивают индекс зрелости ИИ


Всего голосов 13: ↑13 и ↓0+15
Комментарии0

Вклад авторов