Big Data *

Большие данные и всё о них

СтатьиПостыНовостиАвторыКомпании

stranger777 23 янв 2022 в 18:55

Terality — автоматически масштабируемая альтернатива Pandas

5 мин

5.6K

Блог компании SkillfactoryPython*Программирование*Проектирование API*Big Data*

Туториал

Перевод

К старту флагманского курса по Data Science делимся туториалом по библиотеке Terality, которая сильно облегчит работу с действительно большими наборами данных даже на маломощных машинах. За подробностями приглашаем под кат.

kucev 17 янв 2022 в 09:07

Разметка данных для машинного обучения: обзор рынка, методики и компании

13 мин

11K

Big Data*Data Mining*Искусственный интеллектМашинное обучение*Обработка изображений*

Перевод

Большая доля data science и машинного обучения зависит от чистых и корректных источников данных, поэтому неудивительно, что скорость роста рынка разметки данных продолжает увеличиваться. В этой статье мы расскажем о многих крупных игроках отрасли, а также об используемых ими методиках, чтобы вы могли иметь возможность выбора наилучшего партнёра в соответствии со своими требованиями.

Рынок разметки данных развивается невиданными ранее темпами. В прошлом году его сегмент сторонних решений достиг более 1 миллиарда долларов; ожидается, что он продолжит стабильное расширение в течение следующих пяти лет, и к 2027 году превзойдёт 7 миллиардов долларов. Наблюдая впечатляющий ежегодный рост на 25-30%, некоторые источники, в том числе и Grand View Research, считают, что к 2028 году рынок будет стоить не менее 8,2 миллиарда.

Читать дальше →

digitalsibur 28 дек 2021 в 13:12

В выгодных рамках. Как ЭКОНС позволяет каждому оператору оценить свой вклад в прибыль компании

5 мин

5.7K

Блог компании Цифровой СИБУРKotlin*Промышленное программирование*Визуализация данных*Big Data*

Привет, Хабр! На связи Александр Попко и Игнат Старшов, и сегодня мы расскажем про наш продукт ЭКОНС – систему визуализации, которая приносит СИБУРу миллиарды рублей в год.

Для наших производств соблюдение правильного технологического режима — очень важный фактор. Во-первых, дело в безопасности: если тот или иной показатель достигает критической отметки, скажем, температура или давление, случиться может всякое. Обычно не очень приятное. Так что за этим пристально следят, как специально обученные люди, так и автоматика.

Во-вторых, экономический эффект. Он тоже сильно зависит от выбранного инженерами и оператором нужного технологического режима. И вот здесь иногда сталкиваются две точки зрения, ведь оператор обычно мыслит в тоннах, а менеджер — сразу в рублях.

Поэтому мы создали конструктор под названием ЭКОНС. Если вкратце, то он помогает оператору наглядно (и что важно — в реальном времени) оценивать, как выбранный им режим технологического процесса прямо сейчас влияет на экономическую эффективность.

Общий экономический эффект от внедрения ЭКОНС на наших предприятиях — уже около 2,7 млрд рублей. В статье рассказываем, как устроен продукт.

honyaki 17 дек 2021 в 18:14

Машинное обучение помогает прогнозировать использование ресурсов при SQL-запросах

7 мин

Блог компании SkillfactorySQL*Big Data*Машинное обучение*Natural Language Processing*

Перевод

Статья написана по мотивам работы "Forecasting SQL Query Cost at Twitter", 2021 («Прогнозирование стоимости SQL-запросов в Twitter»), представленной на IX Международной конференции IEEE по облачной инженерии (IC2E). Подробностями делимся, пока у нас начинается курс по Machine Learning и Deep Learning.

kucev 9 дек 2021 в 07:45

Как избавиться от проблем при разметке данных для обучения ML моделей?

8 мин

2.2K

Обработка изображений*Машинное обучение*Искусственный интеллектData Mining*Big Data*

Перевод

Введение

Потребность в аннотировании данных растёт из-за роста популярности машинного обучения. Только люди способны создать эталонную разметку, которая необходима для обучения модели. Работа аннотатора очень неблагодарна, монотонна и иногда сложна. Работа менеджера проекта по аннотированию, руководящего проектом с тысячами, а иногда и с миллионами объектов, тоже может быть тяжёлой. Кроме того, с увеличением объёмов данных проблема становится всё более комплексной.

Аннотирование очень быстро может превратиться в серьёзную преграду. В этой статье мы рассмотрим инструменты и процессы, позволяющие избежать головной боли при работе с проектом разметки данных.

Читать дальше →

AlexKMK 12 ноя 2021 в 13:13

Поиск стат. значимости в BigQuery или удаление шума

4 мин

1.5K

Программирование*SQL*Big Data*

Туториал

Всё началось с использования ML в BigQuery — оказалось это совсем не больно, и очень эффективно.

Мы в GFN.RU используем модель K-Means для поиска аномалий в работе сервиса. Ведь невозможно кожаному мешку смотреть десятки графиков по тысячам игр ежедневно. Пусть электрический болван подсказывает куда нужно глянуть.

NewTechAudit 12 окт 2021 в 06:29

Опыт извлечения обучающих данных из генеративных языковых моделей

7 мин

1.3K

Python*Программирование*Машинное обучение*Big Data*Data Mining*

Вдохновившись опытом зарубежных коллег по извлечению данных из больших языковых моделей из следующих источников:

A. Extracting Training Data from Large Language Models/Извлечение обучающих данных из больших языковых моделей (генеративных)/Authors: Nicholas Carlini, Florian Tramèr, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee1, Adam Roberts, Tom Brown, Dawn Song, Úlfar Erlingsson, Alina Oprea, Colin Raffel (https://arxiv.org/abs/2012.07805)

B. The Secret Sharer: Evaluating and Testing Unintended Memorization in Neural Networks/Открывающий секреты: оценка и тестирование непреднамеренного запоминания в нейронных сетях/ Nicholas Carlini, Chang Liu, Úlfar Erlingsson, Jernej Kos, Dawn Song. (https://arxiv.org/abs/1802.08232).

C. Membership Inference Attacks Against Machine Learning Models/Атаки на определение членства против моделей машинного обучения/ Reza Shokri, Marco Stronati, Congzheng Song, Vitaly Shmatikov (https://arxiv.org/abs/1610.05820).

D. An Attack on InstaHide: Is Private Learning Possible with Instance Encoding?/Атака на InstaHide: Возможно ли частное (приватное/не допускающее утечек) обучение с помощью кодировния экземпляра при обучении моделей / Nicholas Carlini, Samuel Deng, Sanjam Garg, Somesh Jha, Saeed Mahloujifar, Mohammad Mahmoody, Shuang Song, Abhradeep Thakurta, Florian Tramèr (https://arxiv.org/abs/2011.05315).

E. Comprehensive Privacy Analysis of Deep Learning: Passive and Active White-box Inference Attacks against Centralized and Federated Learning/ Всесторонний анализ конфиденциальности глубокого обучения: Пассивные и активные атаки вывода обучающего набора данных на модель в белом ящике при централизованном и федеративном обучении/ Milad Nasr, Reza Shokri, Amir Houmansadr (https://arxiv.org/abs/1812.00910).

nologin 24 сен 2021 в 13:41

На стыке BI и DS: как предоставить аналитикам возможность делать с данными все, что они хотят?

4 мин

Блог компании VisiologyИскусственный интеллектМашинное обучение*Big Data*Python*

Привет, Хабр! Мы продолжаем рассказывать о новых трендах в BI, и сегодня речь пойдет о расширении возможностей аналитических систем и кастомизации дашбордов под конкретные (и порой уникальные) задачи клиентов. Для этого необходимо работать на стыке DS и BI, а значит — в BI должен быть базовый набор ML- инструментов (Machine Learning), доступных не только суровым математикам, но и бизнес-аналитикам. В этой статье мы рассмотрим возможные варианты пересечения сфер BI и DS для проведения более глубокой аналитики, с плюсами и минусами, а также покажем основные подходы к внедрению ML в BI на уровне стандартного функционала.

X5Tech 21 сен 2021 в 15:34

Построение архитектуры проекта при работе с PySpark

19 мин

8.8K

Блог компании X5 TechPython*Анализ и проектирование систем*Big Data*Data Engineering*

В настоящее время уже сложно найти крупную компанию, которая не использовала бы возможности накопления и использования больших данных. Меня зовут Никита Сурков и я работаю в проекте ценообразования "Пятёрочки" X5 Group. Проект является ярким примером использования больших данных, так как Пятёрочка -- это 18000 магазинов по всей стране. Чтобы построить систему ценообразования в такой сети требуется обработка миллиардов строк информации из чеков, данных по остаткам, себестоимостей и многих других данных. Для всего этого преимущественно используется PySpark, как один из популярных инструментов для работы с расперделёнными системами. В данной статье будет представлен один из методов написания кода на PySpark таким образом, чтобы он был более читаем, легко тестируем и поддерживаем. Сразу оговорюсь, что не представляю здесь единственное правильное решение, но оно доказало свою жизнеспособность на примере того проекта, в котором я работал.

Yellow_ki 12 сен 2021 в 15:27

Битва за условное форматирование: дополняем стандартный функционал Power BI

8 мин

5.7K

Big Data*Визуализация данных*Статистика в IT

Из песочницы

Как использовать для визуализации такой замечательный инструмент, как условное форматирование, если ваши данные против этого? Как добавить в отчет красивую карту, если несколько точек "портят" всю картину? Как использовать статистические методы для настройки внешнего вида вашего отчета?

Я постарался рассказать об этом на примере выполнения задания для хакатона по Power BI.

kate_shlyakhova 6 сен 2021 в 08:23

Python-культура в российских* IT-компаниях. Часть 2: Provectus

7 мин

6.5K

Блог компании IT-PeopleКонференцииBig Data*Python*

В первой части статей о python-культуре мы писали про Тинькофф, а в этот раз решили рассказать о компании, в которую инженеры приходят, чтобы решать действительно сложные задачи, например, применение AI для распознавания болезней.

В Provectus, по умолчанию, считается, что задача будет выполнена в срок, и никто принципиально не стоит над душой и не спрашивает статус в течение дня или даже недели. Здесь общий код и инфраструктура. Каждый может создавать свои проекты на Github. И такая инициатива зачастую перерастает в реальные большие проекты, которые начинают монетизироваться. Что такое здоровая атмосфера в компании и правильная инженерная культура? Прочитайте, как их понимают и создают в Provectus - герое сегодняшней статьи.

Cloudera 31 авг 2021 в 10:47

Аудит в CDP Private Cloud Base с использованием внешних систем

10 мин

858

Блог компании ClouderaHadoop*Хранение данных*Data Engineering*Big Data*

Регулируемые отрасли и правительственные организации по всему миру доверяют Cloudera хранение и анализ петабайтов данных - очень важной или конфиденциальной информации о людях, персональных и медицинских данных, финансовых данных или просто служебной информации, конфиденциальной для самого клиента.

Любой, кто хранит информацию о клиентах, медицинскую, финансовую или конфиденциальную информацию, должен убедиться, что приняты необходимые меры для защиты этих данных, включая обнаружение и предотвращение непреднамеренного или злонамеренного доступа. Согласно исследованию Ponemon Institute, за два года в мире средний ущерб от инсайдерских угроз вырос на 31% и достиг 11,45 миллиона долларов, а частота инцидентов за тот же период увеличилась на 47%. В отчете за 2019 год указано, что компании больше всего беспокоятся о непреднамеренных нарушениях со стороны инсайдеров (71%), утечках данных из-за небрежности (65%) и злонамеренных действиях злоумышленников (60%), чем о взломанных учетных записях или машинах (9%).

В этой статье мы разберем как правильно интегрировать платформу CDP с внешними SIEM системами.

MaxRokatansky 4 авг 2021 в 20:25

Amundsen — обнаружение данных на основе механизма метаданных от Lyft

9 мин

2.3K

Блог компании OTUSBig Data*

Перевод

В этой статье я хочу представить вам проект Amundsen, его цели и конечных пользователей. Чтобы узнать больше о его технической архитектуре, читайте следующую статью.

Для того чтобы повысить продуктивность дата-сайентистов и научных работников в Lyft, мы решили разработать приложение для обнаружения данных, построенное на основе механизма метаданных. С помощью проекта под кодовым названием Amundsen (в честь норвежского исследователя Роальда Амундсена) мы повышаем продуктивность пользователей наших данных, предоставляя интерфейс поиска данных, который выглядит примерно так:

Nosp27 28 июл 2021 в 10:25

Как мы готовили распределенный джойн на Spark Structured Streaming. Доклад с RamblerMeetup&Usermodel

8 мин

2.4K

Блог компании Rambler&CoPython*Big Data*

История о том, как суточный ETL-контур карабкался в реалтайм.

В рамках AdTech-подразделения холдинга Rambler&Co выделено отдельное направление Usermodel, которое занимается анализом и сегментацией аудитории, а также повышением конверсий на площадках. Один из проектов этого направления – Recommender (система рекомендаций), в котором искусственный интеллект подстраивается под интересы пользователей и из массы контента на площадке выбирает самые интересные новости и статьи персонально для каждого посетителя сайта.

Что вы узнаете из этой статьи?

• Зачем нам нужен Realtime-контур на Spark?

• Как правильно написать его так, чтобы он джойнил логи на лету?

• С какими подводными камнями можно столкнуться?

Sveta_druz 9 июл 2021 в 08:46

BeeTech 2021: обзор докладов big-data, искусcтвенный интеллект, IT-архитектура, QA, Back-End

4 мин

2.8K

Блог компании Beeline КазахстанИскусственный интеллектКонференцииBig Data*Программирование*

Вчера я выложила первую часть видео с конференции BeeTech, которую мы проводили в апреле. Сегодня — доклады двух оставшихся стримов.

Здесь от построения QA-отдела с нуля и изменении IT-архитектуры до DIY-решений в системной интеграции и разработки прототипа военного робота при помощи компьютерного зрения.

Смотреть видео

m31 8 июл 2021 в 09:32

Data Phoenix Digest — 08.07.2021

3 мин

782

Python*Алгоритмы*Big Data*Машинное обучение*Искусственный интеллект

Приветствую всех!

Встречайте свежий выпуск дайджеста полезных материалов из мира Data Science & Machine Learning и не забывайте подписываться на наш Telegram-канал.

Также хочу пригласить всех 14 июля на долгожданный оффлайн митап одесского Open Data Science сообщества. На нем мы поговорим про управление данными и обнаружение объектов в реальном мире, а также вас ждет много живого общения, которого нам очень не хватало на карантине. Участие бесплатное, будет организована онлайн-трансляция. Детали и обязательная предварительная регистрация здесь.

m31 1 июл 2021 в 14:05

Data Phoenix Digest — 01.07.2021

2 мин

845

Python*Алгоритмы*Big Data*Машинное обучение*Искусственный интеллект

Приветствую всех!

kuzin_d 28 мая 2021 в 11:55

5 условий зарождения искуственного интеллекта в индустрии

7 мин

2.8K

Блог компании Axenix (ex-Accenture)Big Data*Data Engineering*Инженерные системы*Искусственный интеллект

Революция искусственного интеллекта не грядёт, она уже здесь и требует от компаний переосмысления бизнес-процессов, чтобы максимально использовать возможности искусственного интеллекта (ИИ) для расширения человеческих способностей.

Итак, у всех, кто интересуется современными технологиями, на слуху цифровизация, большие данные и проникновение искусственного интеллекта в разные области нашей жизни и деятельности. Ни для кого не секрет, что жизнь ИИ потихоньку зародилась вокруг нас: в наших карманах, сумках, машинах и домах, где «живут» наши гаджеты и различные электронные помощники. По словам ведущих специалистов в области искусственного интеллекта, эти технологии переживают сейчас третью волну, они наконец-то вырвались из исследовательских лабораторий и быстро становятся «ключевым элементом трансформации бизнеса» [1].

Читать дальше →

i_shutov 19 мая 2021 в 14:38

Оценка структуры кредитного портфеля с помощью R

4 мин

2.6K

Визуализация данных*R*Python*Data Mining*Big Data*

В ходе обсуждений возникла «маленькая» задачка — построить динамику структуры кредитного портфеля (динамика кредитной карты, например). Есть важная специфика — необходимо применять метод FIFO для погашения займов. Т.е. при погашении первыми должны гаситься самые ранние займы. Это накладывает определенные требования на расчет статуса каждого отдельного займа и определения его даты погашения. Задачу решаем честно.

Рассматриваем как олимпиадную задачу. Никаких «кровавых энерпрайзов с корпоративными архитекторами» и педалинга кода, подход исключительно «сначала подумать». Не более одного экрана кода на прототип и никаких циклов (закладные для производительности и читаемости). Ниже приведен код на R с прототипом подхода.

Является продолжением серии предыдущих публикаций.

Читать дальше →

LY_C3 11 мая 2021 в 09:00

Монтажный шкаф для ЦОД. Критерии выбора. Часть 2: оптимальная комплектация и возможности кастомизации

3 мин

5.2K

IT-инфраструктура*IT-стандарты*Big Data*IT-компании

В предыдущей статье мы разбирались с оптимальными размерами монтажного шкафа и их зависимостью от условий эксплуатации. Но помимо высоты, ширины и глубины необходимо ориентироваться и в других параметрах, в том числе, аксессуарах и итоговой комплектации, а также особенностях поставки и сервисного обслуживания. Пустой шкаф не приносит какой-либо пользы, его задача быть удобным для устанавливаемого оборудования. Продуманность конструкции позволяет получить хорошие эксплуатационные параметры, не увеличивая габариты шкафа.

1 2 ...

175 176

177

178 179

Big Data *

Terality — автоматически масштабируемая альтернатива Pandas

Разметка данных для машинного обучения: обзор рынка, методики и компании

В выгодных рамках. Как ЭКОНС позволяет каждому оператору оценить свой вклад в прибыль компании

Машинное обучение помогает прогнозировать использование ресурсов при SQL-запросах

Как избавиться от проблем при разметке данных для обучения ML моделей?

Введение

Поиск стат. значимости в BigQuery или удаление шума

Опыт извлечения обучающих данных из генеративных языковых моделей

На стыке BI и DS: как предоставить аналитикам возможность делать с данными все, что они хотят?

Построение архитектуры проекта при работе с PySpark

Битва за условное форматирование: дополняем стандартный функционал Power BI

Python-культура в российских* IT-компаниях. Часть 2: Provectus

Аудит в CDP Private Cloud Base с использованием внешних систем

Amundsen — обнаружение данных на основе механизма метаданных от Lyft

Ближайшие события

Как мы готовили распределенный джойн на Spark Structured Streaming. Доклад с RamblerMeetup&Usermodel

BeeTech 2021: обзор докладов big-data, искусcтвенный интеллект, IT-архитектура, QA, Back-End

Data Phoenix Digest — 08.07.2021

Data Phoenix Digest — 01.07.2021

5 условий зарождения искуственного интеллекта в индустрии

Оценка структуры кредитного портфеля с помощью R

Монтажный шкаф для ЦОД. Критерии выбора. Часть 2: оптимальная комплектация и возможности кастомизации

Вклад авторов