Как стать автором
Обновить
52.96

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

7 элементов продуманной стратегии развития ИИ: опыт Salesforce

Время на прочтение4 мин
Количество просмотров2.1K

Искусственный интеллект перестал быть вотчиной исключительно крупных компаний. Он становится мейнстримом для бизнеса, однако, по словам президента и исполнительного директора Salesforce Брета Тейлора, успех способствует ему не всегда. Продуманная стратегия развития ИИ должна в первую очередь учитывать интересы клиента и чётко определять результаты для бизнеса, а ключевым аспектом для всего этого являются данные.

В своём докладе на конференции Scale TransformX 2021 Тейлор рассказал об основных вопросах, которые компании любого размера должны учитывать, чтобы выполнять задачи клиентов и достигать стабильных результатов.

В этой статье мы вкратце изложим семь основных выводов из презентации Тейлора. Более подробную информацию можно посмотреть в видео.
Читать дальше →

Кто такой Analytics Engineer – E2E-решение с использованием bash + dbt + Looker

Время на прочтение8 мин
Количество просмотров3.2K

Привет! Меня зовут Артемий Козырь, и я Analytics Engineer в Wheely.

Мы могли бы долго и нудно обсуждать, кто такой Analytics (Data / Backend) Engineer, какими инструментами он должен владеть, какие buzzwords в тренде и ценятся в CV, однако, на мой взгляд, гораздо интереснее рассмотреть процесс и результаты его деятельности в рамках конкретной прикладной задачи.

В этой публикации:

Читать далее

Как мы в СИБУРе делаем дашборды для людей. Часть 1: закупки и производство

Время на прочтение4 мин
Количество просмотров10K

На наших предприятиях множество данных — от постоянно обновляющихся цен и технологических условий до логистических отчетов, графиков доставки и многое, много другое. Не говоря уже о чисто внутренней информации.

При должной сноровке все эти данные можно использовать с пользой, а не просто собирать где-то ради пары годовых отчётов. Но тут есть проблема.

Данные разные, как и их источники. Где-то речь идет об огромных монструозных таблицах в Excel с кучей переменных и подвязок, где-то используются внутренние CRM, в общем, тут кто во что горазд и кому где удобнее работать. То есть информация вроде есть, ее много, на ее основе можно делать выводы и принимать решения, но вот наглядности — никакой.

И тут мы переходим к решению, так что самое время представиться. Меня зовут Марина Коробейникова, я отвечаю за дашборды в закупках и производстве СИБУРа. Именно дашборды помогают нам вырваться из описанного выше порочного круга, предоставляя возможность просто посмотреть на экран и понять, что вообще сейчас происходит. Ну то есть, в компании.

В СИБУРе дашборды применяются для самых разных департаментов – логистики, продаж, закупок, маркетинга, топ-менеджмента, и тд. И о каждом из этих направлений мы расскажем подробнее.

Но начнём, пожалуй, с закупок и производства.

Читать далее

Проведение совместных экспериментов c DVC

Время на прочтение4 мин
Количество просмотров2.6K

Вы можете использовать удаленные хранилища DVC для совместного использования экспериментов и их данных через машины.

Читать далее

Настройка в OpenSearch аутентификации и авторизации пользователей через Active Directory по протоколу LDAP

Время на прочтение14 мин
Количество просмотров12K
image

В этой статье я расскажу о том, как я настраивал аутентификацию и авторизацию доменных пользователей Active Directory в OpenSearch. В домене я не обладаю правами администратора домена и не могу влиять на структуру каталогов Active Directory. А сценарий настройки Active Directory в OpenSearch, предлагаемый на официальном сайте, применить к домену с разветвленной структурой каталогов оказалось не так просто, как хотелось бы.
Читать дальше →

Использование Kudu для решения задач в реальном времени в окружении Hadoop

Время на прочтение4 мин
Количество просмотров2.5K

В предыдущей статье я поделился нашим опытом создания аналитического хранилища полного цикла на базе экосистемы Hadoop. Одним из тезисов той статьи стало утверждение о том, что аналитическую систему можно спроектировать, не прибегая к федерализации разных технологических платформ, предназначенных для решения локальных задач.

В этом материале я попробую подробнее раскрыть, как в нашей системе реализован подход обработки и загрузки данных в реальном времени с использованием технологии Kudu, при котором эти данные сразу доступны для анализа.

Читать далее

Конференция Data Fusion: большие спецы по большим данным

Время на прочтение6 мин
Количество просмотров1.5K

В 2022 году «бигдатой» никого не удивишь. Эта область компьютерных наук из инновационной и хайповой стала необходимой и привычной. Однако внутри она по-прежнему бурно развивается. Один из восходящих трендов — синергия данных. Объединяя и совместно анализируя данные из разных отраслей, можно сделать много интересного.

Этому подходу, а также более общим вопросам Big Data и Machine Learning была посвящена конференция Data Fusion, прошедшая 14–15 апреля в онлайн-формате. На ней был затронут широкий спектр тем, от маркетинга до свободы воли. Пересказывать конференцию целиком — труд огромный и напрасный. Поэтому под катом поговорим об отдельных интересных докладах, а с остальной программой вы можете ознакомиться самостоятельно.

Читать далее

«Божественная комедия», или Девять кругов прогнозирования промоспроса в «Магните»

Время на прочтение27 мин
Количество просмотров10K

Привет, Хабр! На связи команда направления прогнозирования промо в «Магните». В предыдущей статье «Магнитная аномалия: как предсказать продажи промо в ритейле» мы дали читателю общее представление о том, чем занимается наша команда. Теперь поговорим о конкретных сложностях и методах их решения, с которыми нам приходится сталкиваться в работе.

Чтобы лучше разобраться во внутренней кухне, предлагаем читателю вместе прогуляться по нашим «девяти кругам прогнозирования промо спроса».

Читать далее

Data-Science-процессы: Jupyter Notebook для продакшена

Время на прочтение9 мин
Количество просмотров8.2K

Jovian Blues by ShootingStarLogBook

Рефакторинг написанного в Notebook кода для запуска в продакшене — трудная и ресурсоемкая задача. Команда VK Cloud Solutions перевела материал о том, как с помощью MLOps-инструментов и приемов сократить время от исследования до запуска решения. Описанное в статье — результат структурированного опыта дата-сайентистов и ML-разработчиков из сотен компаний.
Читать дальше →

Любопытные и неочевидные особенности при работе со Snowflake

Время на прочтение5 мин
Количество просмотров4.6K

Без долгих вступлений, сразу к делу.

Знаете ли вы, что в Snowflake можно создавать объекты с пустыми именами? Например: CREATE DATABASE ""; CREATE SCHEMA ""."";

Это работает на момент публикации и потенциально создаёт массу проблем для внешних систем, которые не ожидают такого поворота. Также это обычно приводит в восторг админов DWH.

Более интересные и практичные советы под катом.

Читать далее

Количественный хэдж фонд: что интересного для IT специалиста?

Время на прочтение5 мин
Количество просмотров5K

Всем привет! Это моя первая статья на Хабр. Меня зовут Артем Сосульников и я директор по разработке ПО в Luxoft. В IT больше 15 лет: начинал как Java разработчик, прошел долгий путь от тим лида и руководителя проектов до директора по разработке ПО с сотней людей в подчинении. В связи с последними событиями в ближайшее время собираюсь с семьей переезжать на остров Пенанг в Малайзию и присоединиться к Люксофт.Малайзия. Там продолжу развитие своих проектов в квантовых хэдж фондах, куда мы теперь нанимаем людей в Сербии, Мексике и Малайзии. Буду писать статьи про жизнь в Малайзии и про работу в Люксофт.

Читать далее

Data Science и математика: самые важные разделы науки в освоении профессии

Время на прочтение5 мин
Количество просмотров11K

Data Science — быстро развивающееся направление, без которого сейчас невозможно обойтись ни в одной отрасли бизнеса или науки. Сырые и неструктурированные данные — кладезь информации. Но для того чтобы ее получить в нужном виде, требуется приложить немало усилий. А объемы таких сырых данных зашкаливают — каждый день, по статистике, человечество генерирует около 2,5 квинтиллиона байт.

Для обработки всего этого необходимы специалисты — чем больше, тем лучше. Основной инструмент в их руках — математика. Сегодня обсудим, какие разделы науки наиболее востребованы в профессии. Об этом мы поговорили с Кириллом Шмидтом, Product analyst Team Lead в корпорации Citrix (США) и автором профессии Data Analyst в Skillbox. Сразу стоит сказать, что статья рассчитана на новичков. Что же, приступим. 

Читать далее

Big Data и логистика: чем большие данные полезны участникам отрасли

Время на прочтение5 мин
Количество просмотров4.6K

Привет, Хабр! Мы – сервис для оптимизации внутригородской логистики Relog. Наш продукт целиком построен вокруг аналитики. И сегодня мы расскажем пользователям Habr, какие возможности для логистических компаний открывает Big Data. 

Для начала несколько слов об анатомии TMS Relog. Это комплекс ПО, который отвечает за полную систематизацию данных логистической компании с высокой частотой обновления. В этом участвуют два ключевых механизма: валидация данных и автоматизация процессов по доставке последней мили. 

Информация о статусе заказов мгновенно поступает из ERP-систем клиента в аналитическую систему Relog BI. Мы построили свой продукт на базе решения Microsoft Power BI (которое, к слову, продолжает работать на территории России без сбоев). Также мы интегрировали решения, связанные с сенсус-аналитикой и геоаналитикой. Пространственный анализ позволил расширить возможности системы. 

Читать далее

Ближайшие события

Настоящее и будущее дата-инжиниринга

Время на прочтение11 мин
Количество просмотров7.4K

Future Indefinite — Oculus (Cover art) by Rowye

Несколько лет назад дата-сайентистов часто называли «единорогами». Все искали гениального full-stack-инженера-математика, способного вникнуть во все бизнес-проблемы. 

В последние два года мы пережили хайп по поводу AI/ML и стали свидетелями быстрого подъема профессии «дата-инженер». По данным отчета Dice о технических специальностях, в 2020 году потребность в дата-инженерах резко возросла ни много ни мало на 50 % — эта специальность быстро развивается.

Команда разработки облачной платформы VK Cloud Solution перевела статью о том, чего ждут от дата-инженеров сейчас и каким станет дата-инжиниринг в будущем.
Читать дальше →

Оперативная аналитика данных. Knime & MongoDB

Время на прочтение4 мин
Количество просмотров2.4K

В предыдущей статье я вкратце упомянул, что Knime умеет работать с базами данных, в том числе с NoSQL базой MongoDB. На мой взгляд, MongoDB является довольно простым и эффективным решением для хранения информации, представленной в виде коллекций документов, состоящих из различных наборов полей и, по сути, являющихся обычными JSON файлами. Мне показалась интересным попробовать связку Knime - MongoDB в действии. Именно этой связке и посвящена данная статья.

Читать далее

Если вы устраняете систематическую ошибку модели, то уже слишком поздно

Время на прочтение7 мин
Количество просмотров6.1K

Введение


Машинное обучение — это технологический прорыв, случающийся раз в поколение. Однако с ростом его популярности основной проблемой становятся систематические ошибки алгоритма. Если модели ML не обучаются на репрезентативных данных, у них могут развиться серьёзные систематические ошибки, оказывающие существенный вред недостаточно представленным группам и приводящие к созданию неэффективных продуктов. Мы изучили массив данных CoNLL-2003, являющийся стандартом для создания алгоритмов распознавания именованных сущностей в тексте, и выяснили, что в данных присутствует серьёзный перекос в сторону мужских имён. При помощи наших технологии мы смогли компенсировать эту систематическую ошибку:

  1. Мы обогатили данные, чтобы выявить сокрытые систематические ошибки
  2. Дополнили массив данных недостаточно представленными примерами, чтобы компенсировать гендерный перекос

Модель, обученная на нашем расширенном массиве данных CoNLL-2003, характеризуется снижением систематической ошибки и повышенной точностью, и это показывает, что систематическую ошибку можно устранить без каких-либо изменений в модели. Мы выложили в open source наши аннотации Named Entity Recognition для исходного массива данных CoNLL-2003, а также его улучшенную версию, скачать их можно здесь.
Читать дальше →

Причинно-следственный анализ в машинном обучении

Время на прочтение15 мин
Количество просмотров29K

Что появилось первым: курица или яйцо?
Статистики давно уже нашли ответ на этот вопрос.
Причем несколько раз.
И каждый раз ответ был разным.

А если серьезно, то для машинного обучения становятся все более актуальными вопросы причинно-следственного анализа (causal inference) - когда главной целью моделирования является не прогноз и его качество, а то, как мы можем принимать решения на основе нашего алгоритма. И как это повлияет на мир, в котором эта модель будет действовать. Сделает ли модель его лучше, чем он был? Или наоборот.

Под катом я расскажу о причинно-следственном анализе, его ключевых методах и применении в машинном обучении. В следующей статье побеседуем о ключевых трендах в развитии методов причинно-следственного анализа в машинном обучении в 2020-2021 гг.

Читать далее

CleverDATA Tag Manager – есть ли жизнь без Google?

Время на прочтение6 мин
Количество просмотров4.6K

Российский рекламно-аналитический рынок меняется с невероятной скоростью, и эти изменения довольно серьезные. На них нужно как-то реагировать и крупным компаниям-производителям товаров и услуг, и рекламным агентствам. Привычные инструменты аналитики перестают быть доступными. Существует ли альтернатива, например, для сбора событий в условиях недоступности сервисов Google? Рассказываем про нашу разработку  CleverDATA Tag Manager, которая является частью CDP CleverDATA.

Читать далее

Успешное изобретение для Умного поиска hh.ru

Время на прочтение3 мин
Количество просмотров4K

Мы запатентовали собственную разработку для «Умного поиска» и вошли в число финалистов конкурса Роспатента «Успешный патент» где выявляют самые классные изобретения по итогам 2020-2021 годов. В конкурсе приняли участвовали еще 128 российских правообладателей.

Читать далее

Установка, настройка и эксплуатация стэка OpenSearch в классической среде

Время на прочтение45 мин
Количество просмотров95K
image

Передо мной встала задача сбора логов с парка серверов на ОС Windows и ОС Linux. Для того чтобы решить её я воспользовался стэком OpenSearch. Во время настройки OpenSearch мне не хватало в открытых источниках наглядных примеров, а информация на официальных сайтах ElasticSearch и OpenSearch мне показалась обрывочной, слабо привязанной к реальным ситуациям. Поэтому я решил поделиться своим опытом и описать основные моменты установки и некоторые сценарии настройки и применения стэка OpenSearch, которые я применил в своей практике.
Читать дальше →

Вклад авторов