Обновить
91.24

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

HowTo: плиточная карта и календарь в DataLens

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров1.3K

Хочу поделиться примером, как при помощи нестандартных техник создать виджеты, непредусмотренные на бесплатном тарифе DataLens.

Для реализации виджетов понадобится базовое знакомство с DataLens, html и python.

Код по формированию виджетов и живые примеры внутри.

Читать далее

Data Governance и Бизнес: как найти общий язык

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров427

«Data Governance — это дополнительная надстройка, которая увеличивает сложность и длительность процессов. Это тормозит бизнес!»

«Нам нужны качественные данные, а вы все про свои процессы!»

«Data Governance – это IT-шная история, пусть они и занимаются. Причем здесь бизнес?!»

Эти фразы часто звучат, когда речь заходит о внедрении Data Governance. Бизнес и Data \ IT могут по-разному смотреть на роль DG: для команды управления данными это фундамент прозрачности и управления, а для бизнеса — дополнительные шаги, которые могут замедлять процессы.

Но ведь цель Data Governance (DG) — не процесс ради процесса, а создание ценности для бизнеса за счёт качественных, управляемых данных. Почему же возникают разногласия? Из моего опыта можно выделить несколько ключевых факторов, которые влияют на восприятие DG в бизнесе:

1.Неочевидная связь между DG и бизнес-результатами. Если Data Governance не подкреплён показателями, влияющими на прибыль (P&L, снижение затрат, ускорение процессов), для бизнеса его сложно воспринимать как приоритетную задачу.

2.Бизнес хочет скорость, а не контроль. Как правило новые процессы и роли означают изменение привычных моделей работы, а это что требует времени и затраты энергии на адаптацию. Поэтому новые процессы начинают казаться бизнесу фактором, замедляющим их работу.

3.Долгий цикл внедрения. Когда DG запускается с прицелом на долгосрочную выгоду, интерес к DG снижается, так как  бизнесу нужны быстрые результаты, бизнесу нужно решать задачи уже сегодня.

Как же выстроить эффективный диалог между DG и бизнесом?

Читать далее

FineBi Динамическая фильтрация данных

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров1.2K

Привет Хабр! Меня зовут Белков Евгений, я руководитель направления разработки Siebel CRM в Московском кредитном банке. 

В последнее время стал все больше разрабатывать дашборды на Fine Bi и все больше неординарных требований к визуализации вынуждают танцевать с бубном. Сегодня я хочу поделиться опытом работы с Динамической фильтрацией данных на апплете в зависимости от выбранных значений фильтра.

Читать далее

Будущее здесь: как градостроители применяют искусственный интеллект для регулирования среды жизнедеятельности

Уровень сложностиПростой
Время на прочтение14 мин
Количество просмотров1.4K

Научно‑фантастический рассказ о работе градостроителя в будущем. Если через 15 лет этот текст найдут в архивах — пусть проверят, сбылось ли.

Пролог. 2040 год. Москва, территориальное подразделений Цифрового центра «Град-ИНФО-ИИ. Россия».

Читать далее

Автоматизация задач без кодинга: единый реестр, система управления проектами и таск-трекер на основе MWS Tables

Время на прочтение7 мин
Количество просмотров3.3K

Привет, Хабр! Меня зовут Александр Антипов, я продакт-оунер MWS Tables.

Раньше казалось, что «опытные пользователи ПК» — исчезающий вид, но реальность другая: сегодня сотрудники не просто работают с технологиями, а сами автоматизируют рутинные процессы. Без разработчиков и сложных систем — с помощью макросов, таблиц, SharePoint и других инструментов.

Полтора года назад мы в МТС создали для таких кейсов MWS Tables — внутреннюю платформу самостоятельной автоматизации. В этом посте — реальные примеры, как MWS Tables уже применяется на практике. Я покажу, как с помощью MWS Tables реализовали единый реестр для работы с качеством данных, централизованную систему по менеджменту IT-проектов и собственный таск-трекер. Все подробности — под катом.

Читать далее

Цифровые двойники: превращаем данные в деньги с помощью матмоделирования

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров5.8K

Сегодня Digital Twin — это не просто модное словосочетание, а ключевой инструмент оптимизации производства. От нефтегазовых предприятий и химических производств до птицефабрик — цифровые двойники внедряются в самые разные отрасли. В этой статье мы разберемся, какие технологии стоят за этим подходом, какие специалисты нужны для работы с цифровыми двойниками и как они применяются на реальных производственных объектах.

Привет, Хабр, я Руслан Залевских, старший аналитик группы Data Science отдела цифрового моделирования IBS, и сегодня поговорим о цифровых двойниках — технологии, с которой я работаю уже несколько лет. Расскажу о том, что такое Digital Twins и приведу примеры их использования на некоторых наших проектах.

Читать далее

Как создать инструмент для DQ только на Python и Airflow?

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров3.5K

Всем привет! Меня зовут Павел, я главный аналитик данных управления подготовки данных Банка.

В этой статье я расскажу, как мы создали самописный инструмент и библиотеку для проверок качества данных, используя только Python и Airflow, и какую пользу это принесло команде.

Читать далее

Интеллектуальный фотофиниш

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров533

Во многих соревнованиях тема дополнительных показателей является достаточно острой, иногда даже холиварной. По-другому быть не может, ведь они выходят на сцену в самый драматичный момент, когда определяются судьбы кубков, медалей, а порой и карьер.

Есть, например, мнение, что если бы Саутгейт-игрок забил тот пенальти в 1996, то, возможно, стиль сборной Англии при Саутгейте-тренере был более смелым.

Конечно, основная тема для споров - это мера случайности различных доппоказателей, сама по себе или в сравнении с "настоящей игрой". В каждом виде соревнований эти показатели и споры об их случайности свои, тут сложно придумать какой-то универсальный ответ.

Я довольно много играю в спортивное "Что? Где? Когда?", поэтому хочу сделать заход в этой области.

Читать далее

Шардированный кластер ClickHouse

Уровень сложностиПростой
Время на прочтение21 мин
Количество просмотров9.1K

Хочу рассказать, как спроектированы распределённые вычисления в ClickHouse. Вы узнаете, на что влияет схема кластера (и на что не влияет). Расскажу, как можно на ровном месте создать себе проблему при помощи всего одной таблицы Kafka и нескольких матвьюх. Поделюсь опытом про дебаг и оптимизацию SELECT-запросов к Distributed таблицам: поизучаем планы выполнения и поэксперементируем с настройками в блоке SETTINGS.

Читать далее

В Garage Eight наступила неделя оптимизации. Число ad hoc задач сократилось в 3 раза

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров625

Привет, Хабр! Меня зовут Константин, я лидирую аналитику партнерских программ в компании Garage Eight. Еще год назад ad hoc были для нас настоящим бедствием: мы достаточно долго существовали в реалиях 60–70 таких задач в месяц. Но в какой-то момент решили, что пора завязывать, и за несколько шагов сократили их до 20–25.

Рассказываем, как справились (и продолжаем справляться) с ad hoc задачами, и немного о том, почему в постоянно развивающемся бизнесе невозможно жить совсем без них.

Читать далее

Как Apache Spark читает файлы: механизмы, оптимизации

Уровень сложностиСложный
Время на прочтение5 мин
Количество просмотров3.8K

Меня зовут Андрей Кучеров, и я Lead Data Engineer. Часть моей работы включает обучение команды. Я люблю делиться своим опытом, потому что в работе с данными мелочей не бывает - часто кажущиеся незначительными детали могут кардинально влиять на производительность всего пайплайна. Многие недооценивают важность правильного выбора форматов данных и тонкой настройки процессов чтения, а потом удивляются, почему их Spark-джобы работают медленно и потребляют слишком много ресурсов. Читаем далее что бы разобраться в теме ->

Читать далее

Великий и могучий: как мы учим нашу систему находить нецензурную лексику в ФИО

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров2.1K

Привет, Хабр! Меня зовут Макс Траулько, я занимаюсь анализом данных и проработкой новый фичей в команде RnD в HFLabs. Прямо сейчас я работаю над нетривиальной задачей — учу наши алгоритмы распознавать в именах и фамилиях русский мат и прочие ругательства.

Как появилась эта задача? В одной крупной компании клиенты могут оставить обращения во фронт-системе. И иногда пишут в полях ФИО, прямо скажем, черт знает что. А у бизнеса риски: если при ответе на обращение автоматически использовать данные из поля «Имя», можно стать героем насмешливых или гневных постов. 

Чуть раньше с такой же проблемой к нам пришел другой клиент, из ретейла. У того клиенты вообще большие выдумщики — придумывают составные и сложные имена и фамилии с обсценной лексикой. Даже жаль, что показать эти примеры не можем. 

В статье расскажу, как мы решаем эту задачу.

Читать далее

Машина может быть живой?

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров1.8K

Если искусственный интеллект однажды обретет сознание, научится чувствовать и заявит: «Я существую!» — сможем ли мы отказать ему в праве называться живым? Сегодня СИИ лишь имитирует разум, но если он начнет ставить цели, страдать от одиночества или бороться за свои права, граница между «живым» и «неживым» рухнет. Эта статья про рассуждение над вопросами о том, когда СИИ станет живым и станет ли он живым вообще?

Читать далее

Ближайшие события

Руководство по созданию датасета для машинного обучения

Время на прочтение5 мин
Количество просмотров4.9K

Создание хорошего датасета — это процесс, который требует внимательного планирования и глубокого понимания задачи.

В этом руководстве мы разберем каждый этап подготовки данных (от постановки цели до сбора, очистки и организации информации), рассмотрим частые ошибки и дадим рекомендации, которые помогут сделать ваш датасет максимально полезным.

Читать далее

Как нам удалось упростить жизнь инженера-сметчика и сократить время на разработку сметы в 20 раз

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров3.9K

Если вы инженер-сметчик, то наверняка знаете, что такое ежедневная работа с огромными таблицами и бесконечными спецификациями. Кто-то, возможно, уже смирился с монотонностью, а кто-то разработал свои лайфхаки для ускорения обработки данных. Но сегодня расскажем о новом подходе, который помог нам упростить процесс составления сметы на монтаж системы вентиляции.

С чего все начиналось: с типичного дня сметчика

Однажды мне поставили задачу — подготовить сметы для нового объекта, включая раздел вентиляции. Как многие сметчики знают, вентиляция — это один из самых трудоемких разделов.

Читать далее

Sandbox DB: универсальная песочница для погружения в Big Data, аналитику и визуализацию

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров11K

Запускайте PostgreSQL, ClickHouse, Airflow, Superset и другие инструменты одним кликом: учите, экспериментируйте, осваивайте новое!

Читать далее

Кардинальность при оптимизации DAX запросов в ClickHouse

Время на прочтение7 мин
Количество просмотров2K

Привет, Хабр! Мы уже неоднократно поднимали вопросы оптимизации запросов к СУБД ClickHouse, которую все чаще используют как универсальное высокопроизводительное хранилище для аналитических задач. В случае с Visiology этот вопрос приобретает двойную ценность, так как мы используем оптимизацию для эффективного выполнения запросов в языке DAX.

Сегодня мы поговорим о применении группировок GROUP BY с учетом их производительности для относительно больших таблиц, например, с миллионами записей. Таким образом, речь пойдет об оценке кардинальности одного или нескольких столбцов. Эта задача, кстати, является достаточно нетривиальной. Но если Вы можете ее решить, появляется возможность для эффективных оптимизаций SQL. О них мы и поговорим сегодня.

Читать далее

Промежуточные витрины в SQL

Время на прочтение8 мин
Количество просмотров2.4K

Привет, Хабр!

Сегодня я хочу поговорить о том, без чего не обходится практически ни один серьёзный проект с большими данными (да и с не слишком большими тоже) — о промежуточных витринах (или более привычно – staging, core, data mart).

Читать далее

LLM red teaming: полное руководство [+советы экспертов]

Время на прочтение12 мин
Количество просмотров1.3K

Давайте представим стратегию, зародившуюся в военной сфере, где команды притворяются врагами друг друга, чтобы проверить оборонительные механизмы. Этот подход, известный как red teaming, оказался чрезвычайно ценным и теперь нашёл новое применение. Сегодня, когда искусственный интеллект занимает всё больше места в нашей повседневной жизни, использование метода red teaming для тестирования этих систем становится необходимым. Red teaming для моделей-LLM помогает убедиться, что они не только эффективны в работе, но и безопасны и надежны.

Читать далее

Как мы размечали более 800 часов аудио: от бытовых диалогов до шумных медицинских записей

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров641

Многим может показаться, что может быть сложного в аудиоразметке? Надел наушники, включил запись — и вперед, переписывай все, что слышишь. Но, как показал этот проект, даже такая на первый взгляд стандартная задача превращается в настоящее испытание, когда дело доходит до сотен часов сложных записей с медицинских устройств и фоновым шумом.

Рассказываем, как нам удалось не только качественно обработать более 800 часов аудио, но и выстроить процесс так, чтобы он оставался эффективным и прозрачным даже в самых сложных условиях.

Читать далее

Вклад авторов