Big Data *

Everything about big data

ArticlesPostsNewsAuthors

mashkka_t Oct 26 2021 at 14:15

Style transfer для сериала «Друзья»

10 min

7.2K

OTUS corporate blogArtificial IntelligenceMachine learning*Big Data*

В данном посте мы, с помощью методов автоматической обработки текстов (Natural Language Processing или просто NLP), исследуем стиль речи 6 главных героев знаменитого сериала “Друзья”, проведем мультиязычный анализ для русского и английского языков, а также обучим большие GPT-based языковые модели общаться в в стиле главных героев Друзей.

+12

AyratGil Oct 26 2021 at 10:29

Apache Hive: от модели распределённых вычислений MapReduce компании Google до Big Data – хранилища больших данных

42 min

20K

Big Data*Hadoop*

Translation

Обзор

Apache Hive – система управления (СУБД) реляционными базами данных (РБД) с открытым исходным кодом для запросов, агрегирования и анализа параметров и режимов рабочих нагрузок с большими данными. В этой статье описываются ключевые инновационные инструменты для полноценной пакетной обработки в корпоративной системе хранения данных. Мы представляем гибридную архитектуру, которая сочетает в себе традиционные методы массивно-параллельных архитектур (MPP) с физически разделенной памятью с более современными концепциями больших данных, облаков для достижения масштабируемости и производительности, требуемых современными аналитическими приложениями. Мы исследуем систему, подробно описывая улучшения по четырем основным направлениям: транзакция, оптимизатор, среда выполнения и федерация (интеграционный процесс). Затем мы приводим экспериментальные результаты, чтобы продемонстрировать производительность системы для типовых рабочих нагрузок, и в заключение рассмотрим дорожную карту сообщества.

tafarberg Oct 25 2021 at 17:40

Одержимость контролируемыми входными метриками

7 min

2.1K

IT-companiesIT careerProduct Management*E-commerce management*Big Data*

Translation

Что такое контролируемые входные метрики и как их применять?

"Я бы сказал, что контролируемые входные метрики — это тот тип идей, когда методы поначалу кажутся тривиальными, но, после их применения на практике, меняется способ вашего мышления о данных. На самом деле, я даже зайду дальше и скажу, что они в корне изменили мое представление об операционной эффективности."

kxl Oct 24 2021 at 13:33

Готовим Json в Apache NiFi или снова Jolt Transform

7 min

14K

Big Data*Data Engineering*

Tutorial

Technotext 2021

Пример использования процессора JoltTransformJson в Apache NiFi. Можно рассматривать как небольшой туториал по использованию Jolt-спецификаций.

X5Tech Oct 22 2021 at 10:08

Собеседование на позицию Data Engineer в X5: чего ждать и как лучше подготовиться (часть 2)

6 min

11K

X5 Tech corporate blogSQL*Big Data*IT careerData Engineering*

В предыдущей статье мы поговорили про роль Data Engineer в Х5, какие задачи он решает и с каким технологическим стеком работает. Рассмотрели структуру собеседования, основные направления, по которым мы оцениваем кандидатов, и подробно разобрали базовые требования, предъявляемые нами к уровню владения Python.

В данной статье мы разберём требования к ключевым для Data Engineer в X5 навыкам: распределённые системы и вычисления на Hadoop / Spark, а также SQL и проектирование схемы данных.

tafarberg Oct 22 2021 at 09:50

Вот как Амазон измеряет свою эффективность

18 min

8.3K

Big Data*E-commerce management*Product Management*IT careerIT-companies

Translation

"Я ждал такую книгу, как Working Backwards, очень и очень долго."

Бизнес литературу полезно читать, чтобы не забывать про контекст, цели и человеческую составляющую сервисов. Помним, что конечные цели должны быть измеримы и контролируемы. Как раз об этом поговорим в статье Седрика Чина.

Saygin Oct 22 2021 at 09:43

Подборка бесплатных курсов для тех, кто делает первые шаги в Data Science

Easy

3 min

80K

Data Mining*Big Data*Machine learning*Studying in IT

Tutorial

Курсы упорядочены по степени необходимости, начиная с базовых знаний, без которых будет тяжело даваться дальнейшее изучение (линейная алгебра, статистика, базовое знание python и т.д.), переходя к более сложным. Старался избавиться от избыточности, оставляя только самые ценные, на мой взгляд, курсы. Эти бесплатные курсы легко заменят вам платные.

+13

ru_vds Oct 20 2021 at 13:00

Data Science: лучшие учебные курсы и программы сертификации

7 min

26K

RUVDS.com corporate blogBig Data*IT careerStudying in IT

Translation

Можно получить два-три десятка Data Science-сертификатов, но по-настоящему стоящих программ сертификации из сферы науки о данных, по моему мнению, не так уж и много. Я хочу рассказать о нескольких таких программах, поддерживаемых авторитетными организациями. Эти программы я оцениваю по разным признакам. В частности — по объёму рассматриваемых в их рамках тем, по их «весу» в глазах потенциального работодателя, по репутации организации, реализующей программу. В последние несколько лет я являюсь и специалистом по анализу данных, и дата-сайентистом. Всё это время у меня формировалось понимание того, что сильнее всего влияет на успех человека в сфере Data Science (DS).

Здесь я рассмотрю ведущие программы Data Science-сертификации, входящие в список, собранный ресурсом Indeed. Из этого списка я выбрал четыре, которые кажутся мне наиболее достойными. Им и посвящён этот материал.

Читать дальше →

+26

rick1177 Oct 17 2021 at 22:18

Как с применением Power BI создавалась система анализа финансово-хозяйственной деятельности предприятий России и зачем

31 min

7.5K

Big Data*

Technotext 2021

Данный материал является, своего рода, рефератом, описывающим созданный продукт с применением инструмента Power BI, основанный на открытых статистических данных бухгалтерской отчётности предприятий России. В работе сделана попытка представить совокупность, как единым субъект, реагирующий на изменения, который, тем не менее, можно разложить на региональные составляющие и описывающие деятельность.

В статье показан полный цикл создания (сквозная задача), а также представлена возможность скачать и ознакомиться с продуктом.

Ознакомиться →

Yersin_DBA Oct 17 2021 at 18:40

Расширение и перемещение ансамбля ZooKeeper

3 min

2.8K

Big Data*Database Administration*

From sandbox

Всех приветствую! Недавно перед нашей командой DBA предстала задача по перемещению ансамбля ZooKeeper на другие сервера. Проблема оказалась в том, что в просторах интернета нет доступного руководства для ZooKeeper версии 3.6.2 и выше. Нашлось руководство для версии 3.4.5, но таким образом расширить и переместить наш ансамбль мы не решились.

Может появиться вопрос: Почему нельзя просто переместить файлы на другой сервер и запустить ансамбль там? Наш ансамбль хранит данные по слиянию и реплицированию данных кластера Clickhouse.

kucev Oct 15 2021 at 12:04

Как размечать данные для машинного обучения

6 min

12K

Image processing*Machine learning*Artificial IntelligenceData Mining*Big Data*

Translation

Искусственный интеллект (ИИ, AI) двигает человечество в будущее, и чтобы иметь конкурентное преимущество, вам нужно быть к нему готовым.

Машинное обучение (МЛ, ML) — подмножество ИИ, позволяющее программным приложениям распознавать паттерны и делать точные прогнозы. Благодаря ML у нас есть беспилотные автомобили, фильтрация спама в электронной почте, распознавание дорожного движения и многое другое.

Для обучения высококачественных моделей ML необходимо предоставить их алгоритму точно размеченные данные.

В этом посте мы расскажем всё, что вам нужно знать о разметке данных, чтобы принимать осознанные решения для своего бизнеса. Пост отвечает на следующие вопросы:

Что такое разметка данных?
Как она работает?
Какие оптимальные практики разметки данных существуют?
Как компании размечают свои данные?
Нужна ли мне платформа инструментария для разметки данных?

Читать дальше →

-2

diarworld Oct 14 2021 at 10:16

Airflow + Ray: Data Science История

8 min

Lemana Tech corporate blogBig Data*Apache*Data Engineering*

Translation

Всем привет! Основным инструментом оркестрации задач для обработки данных в Леруа Мерлен является Apache Airflow, подробнее о нашем опыте работы с ним можно прочитать тут. А также мы находимся в постоянном поиске инструментов и фреймворков для упрощения работы наших дата сайентистов и дата инженеров. Один из таких инструментов – фреймворк Ray, который позволяет создавать ML пайплайны из DAGов Airflow. В статье от Astronomer подробно рассматривается, как начать его использовать и с его помощью быстро развернуть и обучить модель.

Elchistova Oct 14 2021 at 06:15

Как собрать требования к дашборду у технолога, который всегда занят

8 min

5.8K

КРОК corporate blogBig Data*Data visualization*Data Engineering*

Tutorial

Бывало ли у вас так, что, приготовив потрясающе аппетитное блюдо, на дегустации вы обнаруживали, что что-то напутали с ингредиентами, например, пересолили рыбу? У меня бывало…

Я старший консультант по внедрению бизнес-приложений ИТ-компании КРОК, и это моя задача, чтобы как у плиты, так на рабочем месте, в наших проектах по внедрению озер данных и разработке BI-инструментов для производственных компаний все ингредиенты были на месте. А для этого нужно знать, на какой кухне ты готовишь.

Озера данных, наверное, не были бы так ценны и востребованы, если бы не позволяли «сдруживать» разнообразные стандартные производственные системы и аналитические решения. Для меня озеро - это база, платформа, если хотите, к которой прирастают аналитические решения (в моем случае - BI-дашборды), с которыми непосредственно работает конечный потребитель.

При создании BI-дашбордов для производственных подразделений мне важно обеспечить их бизнес-ценность не только для заказчика в глобальном смысле – некоего металлургического или нефтегазового гиганта, но, прежде всего, для рядового пользователя: если пользователю есть толк от наших панелек, значит и Компания получит эффект.

Если кратенько описывать, то дашборды, которые мы разрабатываем, можно обобщенно отнести к направлению мониторинга отклонений.

Для чего они предназначены? Разберемся.

+18

Sber Oct 12 2021 at 12:04

Изменить сохранения Spark Часть вторая: реализация партишенера

44 min

2.8K

Сбер corporate blogDatabase Administration*Big Data*

Изменить сохранения Spark! Часть вторая: реализация партишенера!

LanSaid Oct 12 2021 at 06:42

Apache Airflow и будущее инжиниринга данных: вопрос и ответы

7 min

4.5K

Big Data*Data storage*Data Engineering*

Translation

Иногда мне попадаются статьи о будущем технологий, в которых это будущее выглядит ясно и непротиворечиво.

Недавно это была статья восход дата инжиниринга от Maxime Beauchemin – инженера данных из Airbnb и создателя фреймворка Apache Airflow. В Astronomer Apache Airflow - основа технического стека: наши интеграционные потоки построены как пайплайны данных на направленных ациклических графов (DAG) в Airflow. Такие статьи как эта позволяют понять, почему именно сейчас лучшее время для компаний, таких как Astronomer.

После прочтения статьи я связался с Максом и попросил его об интервью, и к моей огромной радости, он согласился и дал полные ответы на вопросы про Apache Airflow и будущее дата инжиниринга.

NewTechAudit Oct 12 2021 at 06:29

Опыт извлечения обучающих данных из генеративных языковых моделей

7 min

1.3K

Data Mining*Big Data*Machine learning*Programming*Python*

Вдохновившись опытом зарубежных коллег по извлечению данных из больших языковых моделей из следующих источников:

A. Extracting Training Data from Large Language Models/Извлечение обучающих данных из больших языковых моделей (генеративных)/Authors: Nicholas Carlini, Florian Tramèr, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee1, Adam Roberts, Tom Brown, Dawn Song, Úlfar Erlingsson, Alina Oprea, Colin Raffel (https://arxiv.org/abs/2012.07805)

B. The Secret Sharer: Evaluating and Testing Unintended Memorization in Neural Networks/Открывающий секреты: оценка и тестирование непреднамеренного запоминания в нейронных сетях/ Nicholas Carlini, Chang Liu, Úlfar Erlingsson, Jernej Kos, Dawn Song. (https://arxiv.org/abs/1802.08232).

C. Membership Inference Attacks Against Machine Learning Models/Атаки на определение членства против моделей машинного обучения/ Reza Shokri, Marco Stronati, Congzheng Song, Vitaly Shmatikov (https://arxiv.org/abs/1610.05820).

D. An Attack on InstaHide: Is Private Learning Possible with Instance Encoding?/Атака на InstaHide: Возможно ли частное (приватное/не допускающее утечек) обучение с помощью кодировния экземпляра при обучении моделей / Nicholas Carlini, Samuel Deng, Sanjam Garg, Somesh Jha, Saeed Mahloujifar, Mohammad Mahmoody, Shuang Song, Abhradeep Thakurta, Florian Tramèr (https://arxiv.org/abs/2011.05315).

E. Comprehensive Privacy Analysis of Deep Learning: Passive and Active White-box Inference Attacks against Centralized and Federated Learning/ Всесторонний анализ конфиденциальности глубокого обучения: Пассивные и активные атаки вывода обучающего набора данных на модель в белом ящике при централизованном и федеративном обучении/ Milad Nasr, Reza Shokri, Amir Houmansadr (https://arxiv.org/abs/1812.00910).

zetyquickly Oct 9 2021 at 01:06

Хранилища признаков: Сторона данных в конвейерах машинного обучения

7 min

3.8K

Data storage*Artificial IntelligenceIT careerMachine learning*Big Data*

Translation

По мере того как все больше моделей развертывается в современных конвейерах, снова и снова возникате понимание, что данные и их фичаризация** (featurization) важнее всего остального. Последнее поколение систем больших данных масштабировало ML на реальные датасеты, теперь хранилища данных быстро становятся новым рубежом для подключения моделей к данным в реальном времени

Sber Oct 7 2021 at 07:45

Изменить сохранения Spark! Часть первая: разделяй и… сортируй

23 min

8.6K

Сбер corporate blogDatabase Administration*Big Data*

В этой статье вы узнаете о том, какими способами мы пытались обновлять таблицы в Hadoop, содержащие сотни терабайт данных.

И если в начале нашего пути процесс обновления длился несколько часов (до десяти-двенадцати часов), то теперь ему требуется всего тридцать-сорок минут, а использование вычислительных ресурсов уменьшено вдвое!

При этом была создана библиотека расширения Spark, которая предоставляет DataSource для преобразования данных в файлах в формат этого DataSource, изменения данных командой MERGE через DataFrame API или SQL, а в будущем ещё и UPDATE, DELETE и некоторые операции DDL.

Файлы при этом можно будет читать любым привычным способом, ведь они не модифицированы, а метаданные не обязательны для их чтения.

Вы увидите код этой библиотеки на языке Scala, который сможете использовать, а может быть даже доработать и поделиться своими успехами.

Я постараюсь пояснить, почему был сделан тот или иной выбор, но могу умолчать о чём-то, что кажется очевидным, или, наоборот, о чём я не имею представления. Вы сможете задать вопросы, а я постараюсь ответить на них.

Это первая статья из нескольких, и в ней будет рассказано только о немногих реализованных классах (они нужны для распределения данных определённым способом), поэтому наберитесь терпения, я расскажу всё по частям. Впрочем, пора перейти к повествованию.

Zholmyrza_T Oct 6 2021 at 19:27

Clickhouse. Расширение кластера

6 min

17K

Database Administration*Big Data*

From sandbox

Всем привет! Я хотел бы поделиться своим опытом по расширению высоконагруженного кластера ClickHouse, немного о том как работает репликация и шардирование.

snakers4 Oct 6 2021 at 13:56

Мы опубликовали модель, расставляющую знаки препинания и заглавные буквы в тексте на четырех языках

8 min

14K

Big Data*Natural Language Processing*Python*Machine learning*

При разработке систем распознавания речи мы сталкиваемся с заблуждениями среди потребителей и разработчиков, в первую очередь связанными с разделением формы и сути. Одним из таких заблуждений является то, что в устной речи якобы "можно услышать" грамматически верные знаки препинания и пробелы между словами, когда по факту реальная устная речь и грамотная письменная речь очень сильно отличаются (устная речь скорее похожа на "поток" слегка разделенный паузами и интонацией, поэтому люди так не любят монотонно бубнящих докладчиков).

Понятно, что можно просто начинать каждое высказывание с большой буквы и ставить точку в конце. Но хотелось бы иметь какое-то относительно простое и универсальное средство расстановки знаков препинания и заглавных букв в предложениях, которые генерирует наша система распознавания речи. Совсем хорошо бы было, если бы такая система в принципе работала с любыми текстами.

По этой причине мы бы хотели поделиться с сообществом системой, которая:

Расставляет заглавные буквы и основные знаки препинания (точка, запятая, дефис, вопросительный знак, восклицательный знак, тире для русского языка);
Работает на 4 языках (русский, английский, немецкий, испанский);
По построению должна работать максимально абстрактно на любом тексте и не основана на каких-то фиксированных правилах;
Имеет минимальные нетривиальные метрики и выполняет задачу улучшения читабельности текста;

На всякий случай явно повторюсь — цель такой системы — лишь улучшать читабельность текста. Она не добавляет в текст информации, которой в нем изначально не было.

Читать дальше →

+22

1 2 ...

78 79

81 82 ...

191 192

Big Data *

Style transfer для сериала «Друзья»

Apache Hive: от модели распределённых вычислений MapReduce компании Google до Big Data – хранилища больших данных

Одержимость контролируемыми входными метриками

Готовим Json в Apache NiFi или снова Jolt Transform

Собеседование на позицию Data Engineer в X5: чего ждать и как лучше подготовиться (часть 2)

Вот как Амазон измеряет свою эффективность

Подборка бесплатных курсов для тех, кто делает первые шаги в Data Science

Data Science: лучшие учебные курсы и программы сертификации

Как с применением Power BI создавалась система анализа финансово-хозяйственной деятельности предприятий России и зачем

Расширение и перемещение ансамбля ZooKeeper

Как размечать данные для машинного обучения

Airflow + Ray: Data Science История

Как собрать требования к дашборду у технолога, который всегда занят

Upcoming events

Изменить сохранения Spark Часть вторая: реализация партишенера

Apache Airflow и будущее инжиниринга данных: вопрос и ответы

Опыт извлечения обучающих данных из генеративных языковых моделей

Хранилища признаков: Сторона данных в конвейерах машинного обучения

Изменить сохранения Spark! Часть первая: разделяй и… сортируй

Clickhouse. Расширение кластера

Мы опубликовали модель, расставляющую знаки препинания и заглавные буквы в тексте на четырех языках

Authors' contribution