Как стать автором
Поиск
Написать публикацию
Обновить
107.18

Big Data *

Большие данные и всё о них

Сначала показывать
Период
Уровень сложности

DWH: История поиска альтернативы PostgreSQL и Snowflake. Часть 1

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров4.5K

Выбор облачного хранилища данных — задача не из тривиальных, особенно когда речь идёт о миллиардах полуструктурированных записей, геоаналитике и требованиях к отклику в доли секунды. В Agritask мы провели масштабное исследование: протестировали популярные DWH-платформы на реальных кейсах, сравнили производительность, параллелизм и затраты. В первой части делимся подходом к оценке, техническими требованиями и тем, почему PostgreSQL и Snowflake перестали справляться с нашими задачами.

Читать далее

Интеллектуальный фотофиниш

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров516

Во многих соревнованиях тема дополнительных показателей является достаточно острой, иногда даже холиварной. По-другому быть не может, ведь они выходят на сцену в самый драматичный момент, когда определяются судьбы кубков, медалей, а порой и карьер.

Есть, например, мнение, что если бы Саутгейт-игрок забил тот пенальти в 1996, то, возможно, стиль сборной Англии при Саутгейте-тренере был более смелым.

Конечно, основная тема для споров - это мера случайности различных доппоказателей, сама по себе или в сравнении с "настоящей игрой". В каждом виде соревнований эти показатели и споры об их случайности свои, тут сложно придумать какой-то универсальный ответ.

Я довольно много играю в спортивное "Что? Где? Когда?", поэтому хочу сделать заход в этой области.

Читать далее

Машина может быть живой?

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров1.7K

Если искусственный интеллект однажды обретет сознание, научится чувствовать и заявит: «Я существую!» — сможем ли мы отказать ему в праве называться живым? Сегодня СИИ лишь имитирует разум, но если он начнет ставить цели, страдать от одиночества или бороться за свои права, граница между «живым» и «неживым» рухнет. Эта статья про рассуждение над вопросами о том, когда СИИ станет живым и станет ли он живым вообще?

Читать далее

Применение ML Pricing в ритейле: хвост виляет собакой

Время на прочтение6 мин
Количество просмотров1.5K

Привет, Habr! Мы Катя и Оля, продакт-менеджеры BigData в компании «Лента», отвечаем за развитие цифровых продуктов блоков «Ассортимент» и «Ценообразование».

В этой статье расскажем про внедрение ML-модели и алгоритма ценообразования товаров «хвоста», а также - трудности, с которыми столкнулись.

Читать далее

Чужое открытое ПО внутри BI-систем: проблемы лицензирования, о которых не все задумываются

Время на прочтение5 мин
Количество просмотров1.3K

Для быстрого создания какого-то продукта часто используют различные open source решения. Но применение открытого ПО несёт в себе определённые риски: от финансовых до юридических. Потому что разработка на базе ПО с открытым исходным кодом не означает бесконтрольное использование созданных на этом коде продуктов из-за действия соответствующей лицензии: BSD, GNU, MIT, LGPL, AGPL, BSPL, SSPL, Demoware License, Apache License 2.0, RSAL и других. А в соответствии со статьями 1252 и 1301 ГК РФ иски о нарушении лицензионного права предъявляются к юридическому лицу, использующему указанное программное обеспечение. 

Меня зовут Алексей Розанов, я руководитель пресейл-направления и работы с партнёрами ГК Luxms, и в этой статье я хочу рассмотреть несколько примеров использования open source решений на рынке BI-аналитики и подсветить юридические риски для компаний, которые используют BI-системы на их основе.

Читать далее

Зачем бизнесу нужно DWH и как обосновать необходимость проекта? Можно ли оценить окупаемость хранилища?

Время на прочтение9 мин
Количество просмотров3.4K

Проекты внедрения DWH относятся к трудоемким и всегда требуют вложений, стоимость проектов начинается от 1,5 млн руб.

К проекту необходимо привлекать системных аналитиков, архитекторов DWH, разработчиков, DevOps, дата-инженеров. Кроме затрат на ФОТ, нужны бюджеты на инфраструктуру и технологии, так как готового решения DWH из "коробки" не существует.

Как при таких затратах аргументировать для бизнеса необходимость внедрения DWH? Какие бизнес-задачи может решить хранилище данных? Можно ли оценить окупаемость и эффективность внедрения? Читайте в статье.

Читать далее

Зачем мы разбрасывали мусор в офисах, или как мы сделали систему для управления гибкими пространствами

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров1.3K

Привет, Хабр! Меня зовут Вадим, я работаю техническим директором молодой ИТ-компании BPA.

Эта статья — о том, как мы с командой создавали систему автоматического распознавания мусора в офисах и коворкингах. В процессе реализации мы встретились с кучей технических трудностей, от отсутствия готовых датасетов до тонкой настройки нейронных сетей под наши задачи. Ну и, конечно, пришлось пару дней разбрасывать мусор в офисах. Но обо всем по порядку.

Читать далее

Расставим точки над i: как подготовить разметку для задач Keypoint Detection

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров695

Представьте: вы снимаете смартфон с блокировки с помощью Face ID — система мгновенно распознает ваше лицо. Или, занимаясь йогой, открываете фитнес-приложение, которое точно анализирует позы и дает рекомендации. Все эти технологии были бы невозможны без точной аннотации данных, особенно ключевых точек — тех самых маркеров, которые задают основу для работы искусственного интеллекта.

Но создание качественных датасетов для задач Key Points Detection — это совсем не просто. Чтобы помочь вам, в этой статье мы разберем, как работают такие системы, для чего они нужны и какие инструменты лидируют на рынке. Вы узнаете о реальных вызовах, с которыми сталкиваются компании, от вариативности поз и окклюзий до интерпретируемости моделей. А еще мы поделимся практическими рекомендациями для улучшения рабочих процессов и нашими кейсами.

Читать далее

Порядок работы с устареванием ML моделей. Шаг 1: Понимание устаревания

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.2K

Под устареванием моделей понимается их постепенная потеря точности из-за изменения данных, на которых они были обучены. Если проще: модель начинает хуже предсказывать. 

Реализацию процесса работы с устареванием моделей в ML можно разделить на 4 шага.

В этой части мы начнем с первого и самого важного шага – понимание устаревания в ML-моделях.

Мы выясним, что такое устаревание моделей на практике, и определим, в каких случаях эта проблема требует внимания, а в каких нет.

Читать далее

Плюсы и минусы SUMMARIZE

Время на прочтение6 мин
Количество просмотров2.2K

При использовании DAX аналитикам важно следить не только за корректностью результатов, но и за производительностью системы при обработке запросов. Одним из инструментов повышения эффективности является корректное использование функции SUMMARIZE. Всем, кто работает с большими объемами данных, активно изучает синтаксис DAX, а также интересующимся особенностями SUMMARIZE — добро пожаловать под кат!

Читать далее

Как сгладить облачные турбулентности

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров768

В условиях ограничения доступа к самым современным технологиям компании всё чаще стремятся переложить заботу о поддержании работоспособности ИТ-инфраструктуры на профессионалов. И вариантов тут два: либо консолидировать вычислительные ресурсы на собственной технологической площадке, развитием которой будут заниматься своя ИТ-служба, либо отдавать вычислительные ресурсы на аутсорсинг, то есть пользоваться услугами облачных провайдеров. Проще, конечно же, доверить управление ИТ-инфраструктурой сторонним профессионалам, однако надежнее и безопаснее развивать собственные компетенции за счет внедрения современных средств автоматизации управления Центрами обработки данных (ЦОД).

Читать далее

В PostgreSQL необходим официальный бенчмарк для функции uuidv7()

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров4.3K

В 18 версии PostgreSQL появится функция uuidv7(). Она разработана для замены последовательных автоинкрементных идентификаторов SERIAL, BIGSERIAL и IDENTITY, которые могут привести к катастрофическому дублированию ключей при слиянии данных, и для замены более медленных UUIDv4.

Использование функции uuidv7() позволит упростить архитектуру информационных систем, упростить SQL-запросы, избежать некоторых ошибок, облегчить внесение изменений и благодаря этому повысить надежность и снизить стоимость разработки и сопровождения информационных систем.

Однако для объективной и корректной оценки использования функции uuidv7() необходим официальный бенчмарк в PostgreSQL. Без такого бенчмарка может быть сделан необоснованный выбор в пользу автоинкремента.

Читать далее

Инновационная Столица-2024: ИЦ рассказал о вызовах и достижениях в работе над проектами по цифровизации

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров697

Трансформация ИЦ,  сервис «Предмоделирование», «АИС Мониторинг аварийности» и «Индекс безопасности», исследование рынка курьеров

Инновационная столица-2024 — торжественное мероприятие, посвященное презентации ключевых кейсов и продуктов ИЦ «Безопасный транспорт», состоялось 13 декабря в павильоне «Умный город» на ВДНХ.

Инновационная столица - ежегодное событие, на котором гости могут заглянуть в закулисье Инновационного центра и ЦОДД и узнать про значимые цифровые проекты, которые создаются для Транспортного комплекса Москвы.

В этом году место выбрано не случайно — «Умный город» наглядно демонстрирует технологическое развитие столицы, что позволило гостям окунуться в инновационную атмосферу и стать ее частью. Ключевая тема мероприятия — «Искусство делать сложное простым». Сотрудники представили разработки каждого направления ИЦ — от идей до конкретных решений. Гости увидели не только готовые продукты и результаты, но также стратегии и методы работы.

Вечер открыли руководитель ЦОДД Михаил Кизлык и начальник Инновационного центра Александр Афанасьев.

Александр поприветствовал гостей и рассказал о концепции мероприятия:

Читать далее

Ближайшие события

Как предсказать будущее с помощью ML?

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров3.1K

Привет, я Исламбек Темирбек, Senior Data Analyst в QIC digital hub. В этой статье я расскажу о машинном обучении, о том, как с его помощью можно предсказать будущее и о нашем опыте с моделью машинного обучения Time Series, служащей для предсказания временных рядов.

Читать далее

Документация, которая точно не навредит аналитике в Вашем проекте

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров3K

Привет!

Я работаю Chief Data Officer в средней российской компании и, думаю, попробовал «всякое» в плане работы с документацией для команды, которая работает с данными.
Хочу поделиться своим опытом того, что «маст хев» в документации в Вашем проекте, когда есть планы вроде «make analysis great [again]».

Нука-нука!

Переобучение моделей: гайд и советы для начинающих

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров4K

С развитием нейросетей появляются новые вызовы. Один из них — переобучение моделей. Совместно с Александром Рыжковым, ментором Skillfactory, руководителем команды LightAutoML и 4х Kaggle Grandmaster, разбираемся, что такое переобучение, хорошо ли это и как его избежать.

Читать далее

Суперсилы «Виталика»: на что способен ViTalk GPT

Время на прочтение5 мин
Количество просмотров2.5K

Привет, Хабр! Область Business Intelligence — одна из наиболее “интеллектуальных” по определению, и в аналитической работе в некоторых задачах особенно удобно использовать искусственный интеллект. Поэтому мы сегодня поговорим про чат-бота ViTalk GPT, который в некоторых задачах помогает очень быстро найти правильный ответ на поставленные вопросы, а иногда — даже скорректировать свой же вопрос с учетом возможностей платформы Visiology. В этой статье мы коснемся сильных и слабых сторон AI, проверим, смогут ли два слона поставить мат королю, и оценим сферу применения ViTalk GPT для аналитиков, разработчиков и даже бизнес-пользователей. 

Читать далее

Инфраструктура для Data-Engineer форматы файлов

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.6K

В современной дата-инженерии работа с данными неразрывно связана с различными форматами файлов. Каждый формат имеет свои особенности, преимущества и области применения. В этой статье мы рассмотрим наиболее популярные форматы, научимся с ними работать и поймем, когда какой формат лучше использовать.

Читать далее

От слов к делу: Практические кейсы применения NLP в Ингосстрахе

Уровень сложностиСредний
Время на прочтение22 мин
Количество просмотров2.4K

Для полноценной работы страховой компании нужен большой штат сотрудников, которые общаются при помощи великого и могучего русского языка. А значит есть поле для автоматизации процессов работы средствами NLP. Именно про это данная статья.

Мы рассмотрим варианты решения типовых задач в страховании и не только.

Читать далее

CedrusData Catalog — новый технический каталог с поддержкой Iceberg REST API

Время на прочтение4 мин
Количество просмотров896

Мы выпустили новый технический каталог для аналитических платформ, который поддерживает спецификацию Iceberg REST API. Рассказываем, зачем это нужно вам и нам

Читать далее

Вклад авторов