Как стать автором
Поиск
Написать публикацию
Обновить
123.6

Big Data *

Большие данные и всё о них

Сначала показывать
Период
Уровень сложности

Два подхода моделирования исторических данных

Уровень сложностиСредний
Время на прочтение2 мин
Количество просмотров2.8K

Перевод статьи с Medium

В статье обсуждаются моделирование данных для хранения исторических данных, включая использование временных таблиц и исторических таблиц.

Временные таблицы добавляют две даты к каждой записи для определения периода актуальности данных, в то время как исторические таблицы сохраняют только последние записи в основной таблице, перемещая старые записи в отдельную историческую таблицу.

Это обеспечивает более четкий аудит изменений и улучшает производительность запросов к историческим данным, но требует дополнительного хранения и обслуживания.

Читать далее

Анализ объявлений Airbnb в Нью-Йорке за 2019 год

Время на прочтение6 мин
Количество просмотров1.1K

Для нашего последнего проекта мы решили работать с набором данных Airbnb по Нью-Йорку за 2019 год, который предоставляет обширные данные о ценах, местоположении и листингах аренды Airbnb в популярных районах Нью-Йорка. Наш набор данных позволяет нам понять активность листинга по хостам, географической доступности и истории цен, которые мы можем легко использовать в нашем анализе.

В этом последнем проекте нашей главной целью было понять, как эти различные показатели объявлений влияют на цены и популярность аренды Airbnb и как они различаются в разных районах Нью-Йорка. В частности, мы стремились ответить на вопрос, как цена влияет на такие показатели листинга, как район и тип номера. Мы также стремились понять, как на доступность этих объявлений влияют одни и те же показатели (местоположение и тип номера), а также на более абстрактном уровне, какие хосты наиболее загружены и почему.

Читать далее

Заблуждения о семантической сегментации

Время на прочтение4 мин
Количество просмотров2.3K

Семантическая сегментация — это задача компьютерного зрения, заключающаяся в помещении в один класс связанных элементов изображения.

Семантическая сегментация состоит из трёх этапов:

Классификация: обнаружение и классификация определённого объекта на изображении.

Локализация: нахождение предмета и отрисовка вокруг него ограничивающего прямоугольника.

Сегментация: процесс группировки пикселей в локализованном изображении при помощи маски сегментации.

Существует множество подтипов семантической сегментации, но все они возникают вследствие выбора пары параметров из двух категорий: размерности данных и разрешения выходных аннотаций.
Читать дальше →

Персонализация тарифного плана для новых абонентов: как оцифровать привлекательность

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров4.1K

В этой статье расскажем про подход к решению задачи о персонализации тарифных планов для абонентов новой базы в рамках CVM-проекта. Поговорим о том, как с помощью ML определить оптимальные параметры тарифа для абонентов с короткой историей, и как посчитать привлекательность полученного тарифа.

Читать далее

Как расширить компетенции аналитиков при работе с Big Data

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров5.3K

В данной статье мы решили рассмотреть вопрос повышения эффективности работы единого хранилища данных компании. Хотим поделиться опытом: как повышение экспертизы аналитиков ЕХД влияет на процесс взаимодействия с хранилищем, и как применять современные тренды в данном процессе. Статья будет полезна командам, которые используют возможности ЕХД больших компаний и занимаются их проектированием. 

Читать далее

Выбор платформы и подрядчика для замены иностранного BI. На что нужно обратить внимание

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров2.9K

Вопрос о замене «умирающего» западного BI решения в своей организации на отечественную платформу становится с каждым месяцем все более актуальным. Мы уже писали раннее, что 2024 год будет бумом больших проектов по переходу на софт из реестра. Сейчас гонка вендоров по наращиванию количества фичей в самом разгаре. Такой бурный рост обязательно скажется на качестве самих продуктов и весь 2024 год еще придется лечить «детские» и «подростковые» болезни, поскольку багов будет много. Видимо в цене будут хорошие тестировщики и качественная оперативная техническая поддержка, которая должна будет взять весь этот гнев избалованных западными решениями пользователей на себя. Конечно ко всему этому нужно добавить задачи повышения производительности самих платформ, особенно интересно это будет увидеть на отечественных серверах и процессорах. Пока что много красивых картинок в презентациях и не понятно на чем основанных рекомендациях по сайзингу. Публичный документ с данными о нагрузке выкладывают единицы, как правило это тесты на своих серверах. Исходя из нашего понимания (конечно же это субъективное мнение группы людей, оно может не совпадать с Вашим), как будет развиваться рынок в следующем году, мы подготовили рекомендации. На что нужно обратить внимание при выборе платформы и подрядчика:

Читать далее

Идея: дифференцированный безусловный базовый доход

Время на прочтение13 мин
Количество просмотров7K

Какую проблему затрагивает эта статья: социальное обеспечение, безусловный базовый доход, применение блокчейн и криптовалюты для социальной сферы и как все это разместить в один технологичный продукт?

Вопросы для специалистов в области блокчейн: как упростить и оптимизировать подобный проект, при этом сохранить идею.

Идея – создать ББД с суточным начислением и собственной криптовалютой; сумму начисления ББД сделать дифференцированным по пользователям привязав к параметрам человека, которые входят в такие сферы жизнедеятельности как: экономика, образование и наука, культура и творчество, законопослушность, спорт и здоровье, социальная и общественная деятельность, экология и другие; создать именную валюту пользователей, которая напрямую связана с пользовательским ББД и является комплексной оценкой  пользы пользователя по отношению к обществу в целом; все процессы внутри сети ББД должны иметь систему вознаграждения участников от выполненной работы.

Читать далее

Разбираемся в отличии среднего чека от ARPU на примере одного интернет-магазина

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров8.1K

Ко мне обратился коллега с вопросами про бизнес-метрики – средний чек и ARPU.

В этой статье я разобрался в бизнес-метриках и ответил на вопросы:

- Что такое ARPU и средний чек? Как их рассчитывать? На какие вопросы они отвечают и для чего нужны? 

- Могут ли они ARPU и средний чек быть  равны между собой? Будут ли отличаться в динамике месяц от месяца?

- Что если в бизнесе кол-во продуктов фиксировано и все они с одинаковой ценой? Будет ли показатель от месяца к месяцу одинаков? А если рассчитывать среднюю выручку?

А для наглядности – рассчитал данные метрики на реальных данных интернет-магазина.

Читать далее

Сможете ли вы отличить собаку от кошки, или Как объяснить проблемы дата-сайентиста коллегам. Часть 3

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров1.2K

В предыдущей части вы узнали, что качество модели Data Science в первую очередь зависит от исходных данных: растет, если у вас больше исходных переменных и уровней градации каждой из них, более равномерно распределены значения каждой из переменных; если у вас меньше пропущенных значений и они менее скоррелированы друг с другом. И наконец, если ваша модель распознает события из прошлого, а не предсказывает будущее.

В третьей, заключительной части статьи я дам ответы по рисункам из предыдущей части. И для дата-сайентистов приведу общий код Python, который использовался для получения всех представленных ниже изображений.

Читать далее

Каталог данных на примере DataHub. Часть I

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров8.4K

В современных компаниях генерируемые и собираемые объемы данных растут с поразительной скоростью, создавая необходимость в их систематизации и управлении. Каталоги данных становятся частью информационных систем, предоставляя организациям удобный и эффективный инструмент для хранения, доступа и управления различными типами данных. 

Каталог данных — это центральное хранилище информации о структуре, свойствах и отношении между данными. Он позволяет различным пользователям легко находить, понимать и использовать данные для принятия решений и выполнения задач, и будет полезен аналитикам данных, бизнес-аналитикам, специалистам по DWH и управлению данными.

Погнали 🚀

Вредные советы по подготовке датасета

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров4.2K

Всем привет! В этой статье разбираю отдельные моменты, связанные с подготовкой к сбору датасета. Технических деталей не будет, оставлю их на вторую статью, а сейчас опишу только "базу", с которой знакомим новых сотрудников.

Статья - лонгрид, поэтому в начале сделал резюме.

Вперед к резюме и советам!

Профилирование данных из СУБД Oracle с помощью DataHub и Great Expectations. Часть 2

Уровень сложностиСредний
Время на прочтение11 мин
Количество просмотров2.6K

В первой части статьи мы подключили DataHub к базе данных Oracle, во второй части рассмотрим подключение Great Expectations к DBMS Oracle, сделаем ряд проверок качества данных, а также отправим результаты проверок в DataHub.

Читать далее

Доменная модель песочницы данных: на чём зиждется Data Fusion

Уровень сложностиСредний
Время на прочтение17 мин
Количество просмотров2.5K

Доменная модель песочницы данных: на чём зиждется Data Fusion

Привет, Хабр. Меня зовут Кирилл Прунтов, и я корпоративный архитектор Ассоциации Больших Данных. В корпоративной архитектуре есть множество инструментов, которые помогают правильно сконфигурировать проект. Один из таких инструментов, который часто недооценивают, — доменная модель. В этом посте на примере доменной модели, лежащей в основании Песочницы данных АБД, я хочу показать, как этот инструмент работает. Не знаю, планируете ли вы собственную песочницу данных или нет, но доменная модель может помочь вам разграничить сущности и засетапить внутренние среды для экспериментов. Так что под катом вам всё равно может быть интересно.

Читать далее

Ближайшие события

DataHub: веб-песочница для тех, кто изучает SQL

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров18K

Привет! Меня зовут Андрей Шмиг, я разработчик платформы DataHub, платформа для совместной работы над данными - своего рода GitHub для данных. В этой статье покажу на что способен веб-редактор MySQL хранилища и почему это отличный инструмент для работы тем, кто изучает SQL.

Читать далее

Алгоритм рекомендаций Twitter: как он работает

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров7K

Почти год назад Илон Маск предложил сделать алгоритм рекомендаций Twitter общедоступным. Недавно компания выложила исходный код своего алгоритма на GitHub.

В статье - перевод их блог-поста с описанием работы алгоритма рекомендаций.

Он подойдет:

любым желающим узнать, как алгоритмы выбирают, что вам показать в ленте,

Data Scientist-ам и ML-инженерам, как уникальный источник инсайтов о работе большой рекомендательной системы.

Читать далее

Производительность и стабильность Knime на слабых компьютерах

Время на прочтение9 мин
Количество просмотров3K

Наступают времена, когда офисному сотруднику недостаточно знать Word и Excel в качестве минимального обязательного базиса программных продуктов. No‑code/Low‑code платформы и продукты — вот что незаметно становится обязательным для владения каждым. Эти платформы есть самый быстрый на сегодня способ без изучения языков программирования овладеть навыками использования искусственного интеллекта, машинного обучения, анализа big data, причём очень бигдата — на сотни миллионов строк.

Платформа Knime — один из таких инструментов. На первый взгляд это улучшенный Excel+BI. Но, когда посмотришь поглубже его возможности, то, очевидно — это обязательный инструмент будущего, по крайней мере для тех кто не являясь программистом хочет получить навыки как у программиста. Для простоты — Knime это «графическое» программирование. Берёшь квадратики, размещаешь в виде бизнес‑процесса, соединяешь их между собой и оп! — уже провёл анализ маркетингового плана или парсинг сайтов конкурентов или анализ рекламных текстов с помощью NLP. Или, даже строишь приборную доску управления производственного предприятия будучи простым менеджером/инженером. Или ведёшь обработку научных данных.

Knime позволяет, конечно, и код писать, причём на трёх языках Python, Java, R, но это не обязательно. Бизнес‑процессы знаешь, рисуешь? Вперёд!

Разумеется, при работе с огромными массивами данных, требования к компьютерным ресурсам возрастают. И что делать, если вам доступен простенький офисный или домашний компьютер? Или, если вы видите что аренда облачного ресурса на месяц дороже, чем купить компьютер с 64Гб оперативной памяти и процессором гоняющим Atomic Heart или Hogwartz Legacy на среднемалках?

Читать далее

Основные инструменты для работы в Data Engineering: введение для начинающих Data Engineer'ов

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров12K

Всем привет!

Меня зовут Надя, я занимаю должность Data Engineer в компании, которая специализируется на разработке мобильных игр. В этой статье я хочу поделиться информацией об основных инструментах, которые я использую в своей работе с данными, и рассказать о каждом из них подробнее.

Читать далее

Основные аспекты формирования маппинга витрины для миграции

Уровень сложностиПростой
Время на прочтение10 мин
Количество просмотров18K

В настоящее время наша команда в Neoflex выполняет работы по реализации нескольких проектов миграции данных, в рамках которых появляется потребность построения маппинга. Наш опыт основан на проекте крупнейшего в России банка по миграции витрин из СУБД Oracle в СУБД PostgreSQL в рамках импортозамещения отечественным ПО.

Читать далее

От Amazon Lex до GPT-4: как сделать бота со «своими» данными?

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров6.3K

Тема ChatGPT и OpenAI моделей сейчас на хайпе. Но на них одних свет клином не сошёлся. Или всё-таки сошёлся? Попробуем разобраться и обойдёмся сегодня без кода, только общие понятия, боль и страдание.

Читать далее

NULL в SQL: Что это такое и почему его знание необходимо каждому разработчику

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров59K

NULL - это специальное значение, которое используется в SQL для обозначения отсутствия данных. Оно отличается от пустой строки или нулевого значения, так как NULL означает отсутствие какого-либо значения в ячейке таблицы.

История появления NULL в SQL довольно интересна и длинна. В начале 1970-х годов Д. Камерер (D. Chamberlin) и Р. Бойд (R. Boyce) предложили использовать реляционную модель для полной замены иерархических и сетевых моделей данных, которые были актуальны в то время. Полная замена предполагала возможность хранения значений NULL в таблицах структуры базы данных.

Первоначально, NULL был создан как интегральный элемент реляционной модели данных. Это означало, что NULL мог быть использован в качестве значения для любого типа данных (целого числа, строки и т.д.) или даже целой строки (например, таких значений как "неизвестно" или "нет данных").

Когда была разработана SQL, NULL был реализован как специальное значение или маркер, который указывает на отсутствие значения в столбце. Таким образом, в SQL NULL означает отсутствие значения или неопределенное значение.

Однако, NULL создал некоторые проблемы при работе с данными в SQL. Например, если вы выполняете операцию на столбце, содержащем NULL значение, результат операции также будет NULL. Это означает, что использование NULL может приводить к нежелательным результатам, таким как непредсказуемое поведение.

Однако, важно понимать, что NULL не обязательно означает отсутствие информации или отсутствие значения в столбце. NULL может быть использован для разных целей, таких как указание на неопределенный результат для вычислений или как маркер для отметки отсутствия значения в таблице.

Читать далее

Вклад авторов