Как стать автором

Big Data *

Большие данные и всё о них

СтатьиПостыНовостиАвторыКомпании

MaxRokatansky 11 апр в 16:39

DWH: История поиска альтернативы PostgreSQL и Snowflake. Часть 1

Средний

13 мин

4.5K

Блог компании OTUSSQL * Big Data * Хранение данных *

Перевод

Выбор облачного хранилища данных — задача не из тривиальных, особенно когда речь идёт о миллиардах полуструктурированных записей, геоаналитике и требованиях к отклику в доли секунды. В Agritask мы провели масштабное исследование: протестировали популярные DWH-платформы на реальных кейсах, сравнили производительность, параллелизм и затраты. В первой части делимся подходом к оценке, техническими требованиями и тем, почему PostgreSQL и Snowflake перестали справляться с нашими задачами.

Читать далее

+5

tsaregorodtsev 2 апр в 13:23

Интеллектуальный фотофиниш

Средний

7 мин

516

Big Data * Data Mining * Визуализация данных *

Аналитика

Во многих соревнованиях тема дополнительных показателей является достаточно острой, иногда даже холиварной. По-другому быть не может, ведь они выходят на сцену в самый драматичный момент, когда определяются судьбы кубков, медалей, а порой и карьер.

Есть, например, мнение, что если бы Саутгейт-игрок забил тот пенальти в 1996, то, возможно, стиль сборной Англии при Саутгейте-тренере был более смелым.

Конечно, основная тема для споров - это мера случайности различных доппоказателей, сама по себе или в сравнении с "настоящей игрой". В каждом виде соревнований эти показатели и споры об их случайности свои, тут сложно придумать какой-то универсальный ответ.

Я довольно много играю в спортивное "Что? Где? Когда?", поэтому хочу сделать заход в этой области.

Читать далее

+5

Fech 31 мар в 16:06

Машина может быть живой?

Простой

12 мин

1.7K

Искусственный интеллектМашинное обучение * Контент и копирайтинг * Big Data *

Мнение

Если искусственный интеллект однажды обретет сознание, научится чувствовать и заявит: «Я существую!» — сможем ли мы отказать ему в праве называться живым? Сегодня СИИ лишь имитирует разум, но если он начнет ставить цели, страдать от одиночества или бороться за свои права, граница между «живым» и «неживым» рухнет. Эта статья про рассуждение над вопросами о том, когда СИИ станет живым и станет ли он живым вообще?

Читать далее

+5

shirokova_ea 26 мар в 13:51

Применение ML Pricing в ритейле: хвост виляет собакой

6 мин

1.5K

Блог компании Lenta TechИскусственный интеллектМашинное обучение * Алгоритмы * Big Data *

Кейс

Привет, Habr! Мы Катя и Оля, продакт-менеджеры BigData в компании «Лента», отвечаем за развитие цифровых продуктов блоков «Ассортимент» и «Ценообразование».

В этой статье расскажем про внедрение ML-модели и алгоритма ценообразования товаров «хвоста», а также - трудности, с которыми столкнулись.

Читать далее

+5

iamrozanov 13 мар в 11:00

Чужое открытое ПО внутри BI-систем: проблемы лицензирования, о которых не все задумываются

5 мин

1.3K

Блог компании Luxms BIOpen source * Анализ и проектирование систем * Big Data * Визуализация данных *

Мнение

Для быстрого создания какого-то продукта часто используют различные open source решения. Но применение открытого ПО несёт в себе определённые риски: от финансовых до юридических. Потому что разработка на базе ПО с открытым исходным кодом не означает бесконтрольное использование созданных на этом коде продуктов из-за действия соответствующей лицензии: BSD, GNU, MIT, LGPL, AGPL, BSPL, SSPL, Demoware License, Apache License 2.0, RSAL и других. А в соответствии со статьями 1252 и 1301 ГК РФ иски о нарушении лицензионного права предъявляются к юридическому лицу, использующему указанное программное обеспечение.

Меня зовут Алексей Розанов, я руководитель пресейл-направления и работы с партнёрами ГК Luxms, и в этой статье я хочу рассмотреть несколько примеров использования open source решений на рынке BI-аналитики и подсветить юридические риски для компаний, которые используют BI-системы на их основе.

Читать далее

+5

qlever 7 мар в 12:09

Зачем бизнесу нужно DWH и как обосновать необходимость проекта? Можно ли оценить окупаемость хранилища?

9 мин

3.4K

Хранение данных * Визуализация данных * Big Data *

Проекты внедрения DWH относятся к трудоемким и всегда требуют вложений, стоимость проектов начинается от 1,5 млн руб.

К проекту необходимо привлекать системных аналитиков, архитекторов DWH, разработчиков, DevOps, дата-инженеров. Кроме затрат на ФОТ, нужны бюджеты на инфраструктуру и технологии, так как готового решения DWH из "коробки" не существует.

Как при таких затратах аргументировать для бизнеса необходимость внедрения DWH? Какие бизнес-задачи может решить хранилище данных? Можно ли оценить окупаемость и эффективность внедрения? Читайте в статье.

Читать далее

+5

vvmedyanik 3 мар в 11:12

Зачем мы разбрасывали мусор в офисах, или как мы сделали систему для управления гибкими пространствами

Простой

4 мин

1.3K

Big Data * Искусственный интеллект

Кейс

Привет, Хабр! Меня зовут Вадим, я работаю техническим директором молодой ИТ-компании BPA.

Эта статья — о том, как мы с командой создавали систему автоматического распознавания мусора в офисах и коворкингах. В процессе реализации мы встретились с кучей технических трудностей, от отсутствия готовых датасетов до тонкой настройки нейронных сетей под наши задачи. Ну и, конечно, пришлось пару дней разбрасывать мусор в офисах. Но обо всем по порядку.

Читать далее

+5

evgeniatro 19 фев в 12:20

Расставим точки над i: как подготовить разметку для задач Keypoint Detection

Простой

10 мин

695

Блог компании Data LightBig Data *

Представьте: вы снимаете смартфон с блокировки с помощью Face ID — система мгновенно распознает ваше лицо. Или, занимаясь йогой, открываете фитнес-приложение, которое точно анализирует позы и дает рекомендации. Все эти технологии были бы невозможны без точной аннотации данных, особенно ключевых точек — тех самых маркеров, которые задают основу для работы искусственного интеллекта.

Но создание качественных датасетов для задач Key Points Detection — это совсем не просто. Чтобы помочь вам, в этой статье мы разберем, как работают такие системы, для чего они нужны и какие инструменты лидируют на рынке. Вы узнаете о реальных вызовах, с которыми сталкиваются компании, от вариативности поз и окклюзий до интерпретируемости моделей. А еще мы поделимся практическими рекомендациями для улучшения рабочих процессов и нашими кейсами.

Читать далее

+5

pavel_shunkevich 14 фев в 09:22

Порядок работы с устареванием ML моделей. Шаг 1: Понимание устаревания

Простой

6 мин

1.2K

Машинное обучение * Big Data * Data Mining *

Туториал

Под устареванием моделей понимается их постепенная потеря точности из-за изменения данных, на которых они были обучены. Если проще: модель начинает хуже предсказывать.

Реализацию процесса работы с устареванием моделей в ML можно разделить на 4 шага.

В этой части мы начнем с первого и самого важного шага – понимание устаревания в ML-моделях.

Мы выясним, что такое устаревание моделей на практике, и определим, в каких случаях эта проблема требует внимания, а в каких нет.

Читать далее

+5

koanse 29 янв в 20:25

Плюсы и минусы SUMMARIZE

6 мин

2.2K

Блог компании VisiologySQL * Визуализация данных * Big Data *

Кейс

При использовании DAX аналитикам важно следить не только за корректностью результатов, но и за производительностью системы при обработке запросов. Одним из инструментов повышения эффективности является корректное использование функции SUMMARIZE. Всем, кто работает с большими объемами данных, активно изучает синтаксис DAX, а также интересующимся особенностями SUMMARIZE — добро пожаловать под кат!

Читать далее

+5

Usetech 15 янв в 14:33

Как сгладить облачные турбулентности

Средний

6 мин

768

Блог компании UsetechОблачные вычисления * Big Data * Виртуализация * Искусственный интеллект

Обзор

В условиях ограничения доступа к самым современным технологиям компании всё чаще стремятся переложить заботу о поддержании работоспособности ИТ-инфраструктуры на профессионалов. И вариантов тут два: либо консолидировать вычислительные ресурсы на собственной технологической площадке, развитием которой будут заниматься своя ИТ-служба, либо отдавать вычислительные ресурсы на аутсорсинг, то есть пользоваться услугами облачных провайдеров. Проще, конечно же, доверить управление ИТ-инфраструктурой сторонним профессионалам, однако надежнее и безопаснее развивать собственные компетенции за счет внедрения современных средств автоматизации управления Центрами обработки данных (ЦОД).

Читать далее

+5

SergeyProkhorenko 11 янв в 04:00

В PostgreSQL необходим официальный бенчмарк для функции uuidv7()

Средний

4 мин

4.3K

Высоконагруженные системы * Анализ и проектирование систем * IT-стандарты * Big Data * Хранение данных *

Аналитика

В 18 версии PostgreSQL появится функция uuidv7(). Она разработана для замены последовательных автоинкрементных идентификаторов SERIAL, BIGSERIAL и IDENTITY, которые могут привести к катастрофическому дублированию ключей при слиянии данных, и для замены более медленных UUIDv4.

Использование функции uuidv7() позволит упростить архитектуру информационных систем, упростить SQL-запросы, избежать некоторых ошибок, облегчить внесение изменений и благодаря этому повысить надежность и снизить стоимость разработки и сопровождения информационных систем.

Однако для объективной и корректной оценки использования функции uuidv7() необходим официальный бенчмарк в PostgreSQL. Без такого бенчмарка может быть сделан необоснованный выбор в пользу автоинкремента.

Читать далее

+5

Osya_razrabotchik 9 янв в 12:14

Инновационная Столица-2024: ИЦ рассказал о вызовах и достижениях в работе над проектами по цифровизации

Простой

9 мин

697

IT-компанииУправление проектами * ТранспортУправление разработкой * Big Data *

Репортаж

Трансформация ИЦ, сервис «Предмоделирование», «АИС Мониторинг аварийности» и «Индекс безопасности», исследование рынка курьеров

Инновационная столица-2024 — торжественное мероприятие, посвященное презентации ключевых кейсов и продуктов ИЦ «Безопасный транспорт», состоялось 13 декабря в павильоне «Умный город» на ВДНХ.

Инновационная столица - ежегодное событие, на котором гости могут заглянуть в закулисье Инновационного центра и ЦОДД и узнать про значимые цифровые проекты, которые создаются для Транспортного комплекса Москвы.

В этом году место выбрано не случайно — «Умный город» наглядно демонстрирует технологическое развитие столицы, что позволило гостям окунуться в инновационную атмосферу и стать ее частью. Ключевая тема мероприятия — «Искусство делать сложное простым». Сотрудники представили разработки каждого направления ИЦ — от идей до конкретных решений. Гости увидели не только готовые продукты и результаты, но также стратегии и методы работы.

Вечер открыли руководитель ЦОДД Михаил Кизлык и начальник Инновационного центра Александр Афанасьев.

Александр поприветствовал гостей и рассказал о концепции мероприятия:

Читать далее

+5

i_temirbek 27 дек 2024 в 05:15

Как предсказать будущее с помощью ML?

Средний

5 мин

3.1K

Машинное обучение * Big Data *

Из песочницы

Привет, я Исламбек Темирбек, Senior Data Analyst в QIC digital hub. В этой статье я расскажу о машинном обучении, о том, как с его помощью можно предсказать будущее и о нашем опыте с моделью машинного обучения Time Series, служащей для предсказания временных рядов.

Читать далее

+5

AkaMikhelson 6 дек 2024 в 13:30

Документация, которая точно не навредит аналитике в Вашем проекте

Простой

6 мин

3K

Лайфхаки для гиковIT-стандарты * HabrBig Data *

Туториал

Привет!

Я работаю Chief Data Officer в средней российской компании и, думаю, попробовал «всякое» в плане работы с документацией для команды, которая работает с данными.
Хочу поделиться своим опытом того, что «маст хев» в документации в Вашем проекте, когда есть планы вроде «make analysis great [again]».

Нука-нука!

+5

alena_alkova 5 дек 2024 в 14:19

Переобучение моделей: гайд и советы для начинающих

Простой

5 мин

4K

Блог компании SkillfactoryBig Data * Машинное обучение *

Обзор

С развитием нейросетей появляются новые вызовы. Один из них — переобучение моделей. Совместно с Александром Рыжковым, ментором Skillfactory, руководителем команды LightAutoML и 4х Kaggle Grandmaster, разбираемся, что такое переобучение, хорошо ли это и как его избежать.

Читать далее

+5

koanse 2 дек 2024 в 15:27

Суперсилы «Виталика»: на что способен ViTalk GPT

5 мин

2.5K

Блог компании VisiologyBig Data * Визуализация данных * Искусственный интеллект

Кейс

Привет, Хабр! Область Business Intelligence — одна из наиболее “интеллектуальных” по определению, и в аналитической работе в некоторых задачах особенно удобно использовать искусственный интеллект. Поэтому мы сегодня поговорим про чат-бота ViTalk GPT, который в некоторых задачах помогает очень быстро найти правильный ответ на поставленные вопросы, а иногда — даже скорректировать свой же вопрос с учетом возможностей платформы Visiology. В этой статье мы коснемся сильных и слабых сторон AI, проверим, смогут ли два слона поставить мат королю, и оценим сферу применения ViTalk GPT для аналитиков, разработчиков и даже бизнес-пользователей.

Читать далее

+5

k0rsakov 29 ноя 2024 в 06:00

Инфраструктура для Data-Engineer форматы файлов

Простой

6 мин

1.6K

Data Mining * Big Data * Хранение данных * Data Engineering *

Туториал

В современной дата-инженерии работа с данными неразрывно связана с различными форматами файлов. Каждый формат имеет свои особенности, преимущества и области применения. В этой статье мы рассмотрим наиболее популярные форматы, научимся с ними работать и поймем, когда какой формат лучше использовать.

Читать далее

+5

wingerv 28 ноя 2024 в 10:07

От слов к делу: Практические кейсы применения NLP в Ингосстрахе

Средний

22 мин

2.4K

Блог компании ИнгосстрахData Engineering * Машинное обучение * Искусственный интеллектBig Data *

Из песочницы

Для полноценной работы страховой компании нужен большой штат сотрудников, которые общаются при помощи великого и могучего русского языка. А значит есть поле для автоматизации процессов работы средствами NLP. Именно про это данная статья.

Мы рассмотрим варианты решения типовых задач в страховании и не только.

Читать далее

+5

devozerov 21 ноя 2024 в 14:11

CedrusData Catalog — новый технический каталог с поддержкой Iceberg REST API

4 мин

896

Блог компании CedrusDataData Engineering * SQL * Big Data *

Мы выпустили новый технический каталог для аналитических платформ, который поддерживает спецификацию Iceberg REST API. Рассказываем, зачем это нужно вам и нам

Читать далее

+5

1 2 ...

15

16 17 ...