Pull to refresh
59.35

Big Data *

Everything about big data

Show first
Rating limit
Level of difficulty

Style transfer для сериала «Друзья»

Reading time10 min
Views7.2K

В данном посте мы, с помощью методов автоматической обработки текстов (Natural Language Processing или просто NLP), исследуем стиль речи 6 главных героев знаменитого сериала “Друзья”, проведем мультиязычный анализ для русского и английского языков, а также обучим большие GPT-based языковые модели общаться в в стиле главных героев Друзей.

Читать далее

Apache Hive: от модели распределённых вычислений MapReduce компании Google до Big Data – хранилища больших данных

Reading time42 min
Views20K

Обзор

Apache Hive – система управления (СУБД) реляционными базами данных (РБД) с открытым исходным кодом для запросов, агрегирования и анализа параметров и режимов рабочих нагрузок с большими данными. В этой статье описываются ключевые инновационные инструменты для полноценной пакетной обработки в корпоративной системе хранения данных. Мы представляем гибридную архитектуру, которая сочетает в себе традиционные методы массивно-параллельных архитектур (MPP) с физически разделенной памятью с более современными концепциями больших данных, облаков для достижения масштабируемости и производительности, требуемых современными аналитическими приложениями. Мы исследуем систему, подробно описывая улучшения по четырем основным направлениям: транзакция, оптимизатор, среда выполнения и федерация (интеграционный процесс). Затем мы приводим экспериментальные результаты, чтобы продемонстрировать производительность системы для типовых рабочих нагрузок, и в заключение рассмотрим дорожную карту сообщества.

Читать далее

Одержимость контролируемыми входными метриками

Reading time7 min
Views2.1K

Что такое контролируемые входные метрики и как их применять?

"Я бы сказал, что контролируемые входные метрики — это тот тип идей, когда методы поначалу кажутся тривиальными, но, после их применения на практике, меняется способ вашего мышления о данных. На самом деле, я даже зайду дальше и скажу, что они в корне изменили мое представление об операционной эффективности."

Читать далее

Собеседование на позицию Data Engineer в X5: чего ждать и как лучше подготовиться (часть 2)

Reading time6 min
Views11K

В предыдущей статье мы поговорили про роль Data Engineer в Х5, какие задачи он решает и с каким технологическим стеком работает. Рассмотрели структуру собеседования, основные направления, по которым мы оцениваем кандидатов, и подробно разобрали базовые требования, предъявляемые нами к уровню владения Python.

В данной статье мы разберём требования к ключевым для Data Engineer в X5 навыкам: распределённые системы и вычисления на Hadoop / Spark, а также SQL и проектирование схемы данных.

Читать далее

Вот как Амазон измеряет свою эффективность

Reading time18 min
Views8.3K

"Я ждал такую книгу, как Working Backwards, очень и очень долго."

Бизнес литературу полезно читать, чтобы не забывать про контекст, цели и человеческую составляющую сервисов. Помним, что конечные цели должны быть измеримы и контролируемы. Как раз об этом поговорим в статье Седрика Чина.

Читать далее

Подборка бесплатных курсов для тех, кто делает первые шаги в Data Science

Level of difficultyEasy
Reading time3 min
Views80K

Курсы упорядочены по степени необходимости, начиная с базовых знаний, без которых будет тяжело даваться дальнейшее изучение (линейная алгебра, статистика, базовое знание python и т.д.), переходя к более сложным. Старался избавиться от избыточности, оставляя только самые ценные, на мой взгляд, курсы. Эти бесплатные курсы легко заменят вам платные.

Читать далее

Data Science: лучшие учебные курсы и программы сертификации

Reading time7 min
Views26K
Можно получить два-три десятка Data Science-сертификатов, но по-настоящему стоящих программ сертификации из сферы науки о данных, по моему мнению, не так уж и много. Я хочу рассказать о нескольких таких программах, поддерживаемых авторитетными организациями. Эти программы я оцениваю по разным признакам. В частности — по объёму рассматриваемых в их рамках тем, по их «весу» в глазах потенциального работодателя, по репутации организации, реализующей программу. В последние несколько лет я являюсь и специалистом по анализу данных, и дата-сайентистом. Всё это время у меня формировалось понимание того, что сильнее всего влияет на успех человека в сфере Data Science (DS).



Здесь я рассмотрю ведущие программы Data Science-сертификации, входящие в список, собранный ресурсом Indeed. Из этого списка я выбрал четыре, которые кажутся мне наиболее достойными. Им и посвящён этот материал.
Читать дальше →

Как с применением Power BI создавалась система анализа финансово-хозяйственной деятельности предприятий России и зачем

Reading time31 min
Views7.5K

Данный материал является, своего рода, рефератом, описывающим созданный продукт с применением инструмента Power BI, основанный на открытых статистических данных бухгалтерской отчётности предприятий России. В работе сделана попытка представить совокупность, как единым субъект, реагирующий на изменения, который, тем не менее, можно разложить на региональные составляющие и описывающие деятельность.

В статье показан полный цикл создания (сквозная задача), а также представлена возможность скачать и ознакомиться с продуктом.

Ознакомиться →

Расширение и перемещение ансамбля ZooKeeper

Reading time3 min
Views2.8K

Всех приветствую! Недавно перед нашей командой DBA предстала задача по перемещению ансамбля ZooKeeper на другие сервера. Проблема оказалась в том, что в просторах интернета нет доступного руководства для ZooKeeper версии 3.6.2 и выше. Нашлось руководство для версии 3.4.5, но таким образом расширить и переместить наш ансамбль мы не решились.

Может появиться вопрос: Почему нельзя просто переместить файлы на другой сервер и запустить ансамбль там? Наш ансамбль хранит данные по слиянию и реплицированию данных кластера Clickhouse.

Читать далее

Как размечать данные для машинного обучения

Reading time6 min
Views12K

Искусственный интеллект (ИИ, AI) двигает человечество в будущее, и чтобы иметь конкурентное преимущество, вам нужно быть к нему готовым.

Машинное обучение (МЛ, ML) — подмножество ИИ, позволяющее программным приложениям распознавать паттерны и делать точные прогнозы. Благодаря ML у нас есть беспилотные автомобили, фильтрация спама в электронной почте, распознавание дорожного движения и многое другое.

Для обучения высококачественных моделей ML необходимо предоставить их алгоритму точно размеченные данные.

В этом посте мы расскажем всё, что вам нужно знать о разметке данных, чтобы принимать осознанные решения для своего бизнеса. Пост отвечает на следующие вопросы:

  • Что такое разметка данных?
  • Как она работает?
  • Какие оптимальные практики разметки данных существуют?
  • Как компании размечают свои данные?
  • Нужна ли мне платформа инструментария для разметки данных?
Читать дальше →

Airflow + Ray: Data Science История

Reading time8 min
Views4K

Всем привет! Основным инструментом оркестрации задач для обработки данных в Леруа Мерлен является Apache Airflow, подробнее о нашем опыте работы с ним можно прочитать тут. А также мы находимся в постоянном поиске инструментов и фреймворков для упрощения работы наших дата сайентистов и дата инженеров. Один из таких инструментов – фреймворк Ray, который позволяет создавать ML пайплайны из DAGов Airflow. В статье от Astronomer подробно рассматривается, как начать его использовать и с его помощью быстро развернуть и обучить модель.

Читать далее

Как собрать требования к дашборду у технолога, который всегда занят

Reading time8 min
Views5.8K

Бывало ли у вас так, что, приготовив потрясающе аппетитное блюдо, на дегустации вы обнаруживали, что что-то напутали с ингредиентами, например, пересолили рыбу? У меня бывало…

Я старший консультант по внедрению бизнес-приложений ИТ-компании КРОК, и это моя задача, чтобы как у плиты, так на рабочем месте, в наших проектах по внедрению озер данных и разработке BI-инструментов для производственных компаний все ингредиенты были на месте. А для этого нужно знать, на какой кухне ты готовишь.

Озера данных, наверное, не были бы так ценны и востребованы, если бы не позволяли «сдруживать» разнообразные стандартные производственные системы и аналитические решения. Для меня озеро - это база, платформа, если хотите, к которой прирастают аналитические решения (в моем случае - BI-дашборды), с которыми непосредственно работает конечный потребитель.

При создании BI-дашбордов для производственных подразделений мне важно обеспечить их бизнес-ценность не только для заказчика в глобальном смысле – некоего металлургического или нефтегазового гиганта, но, прежде всего, для рядового пользователя: если пользователю есть толк от наших панелек, значит и Компания получит эффект.

Если кратенько описывать, то дашборды, которые мы разрабатываем, можно обобщенно отнести к направлению мониторинга отклонений.

Для чего они предназначены? Разберемся.

Upcoming events

Apache Airflow и будущее инжиниринга данных: вопрос и ответы

Reading time7 min
Views4.5K

Иногда мне попадаются статьи о будущем технологий, в которых это будущее выглядит ясно и непротиворечиво.

Недавно это была статья восход дата инжиниринга от Maxime Beauchemin – инженера данных из Airbnb и создателя фреймворка Apache Airflow. В Astronomer Apache Airflow - основа технического стека: наши интеграционные потоки построены как пайплайны данных на направленных ациклических графов (DAG) в Airflow. Такие статьи как эта позволяют понять, почему именно сейчас лучшее время для компаний, таких как Astronomer.

После прочтения статьи я связался с Максом и попросил его об интервью, и к моей огромной радости, он согласился и дал полные ответы на вопросы про Apache Airflow и будущее дата инжиниринга.

Читать далее

Опыт извлечения обучающих данных из генеративных языковых моделей

Reading time7 min
Views1.3K

Вдохновившись опытом зарубежных коллег по извлечению данных из больших языковых моделей из следующих источников:

A. Extracting Training Data from Large Language Models/Извлечение обучающих данных из больших языковых моделей (генеративных)/Authors: Nicholas Carlini, Florian Tramèr, Eric Wallace, Matthew Jagielski, Ariel Herbert-Voss, Katherine Lee1, Adam Roberts, Tom Brown, Dawn Song, Úlfar Erlingsson, Alina Oprea, Colin Raffel (https://arxiv.org/abs/2012.07805)

B. The Secret Sharer: Evaluating and Testing Unintended Memorization in Neural Networks/Открывающий секреты: оценка и тестирование непреднамеренного запоминания в нейронных сетях/ Nicholas Carlini, Chang Liu, Úlfar Erlingsson, Jernej Kos, Dawn Song. (https://arxiv.org/abs/1802.08232).

C. Membership Inference Attacks Against Machine Learning Models/Атаки на определение членства против моделей машинного обучения/ Reza Shokri, Marco Stronati, Congzheng Song, Vitaly Shmatikov (https://arxiv.org/abs/1610.05820).

D. An Attack on InstaHide: Is Private Learning Possible with Instance Encoding?/Атака на InstaHide: Возможно ли частное (приватное/не допускающее утечек) обучение с помощью кодировния экземпляра при обучении моделей / Nicholas Carlini, Samuel Deng, Sanjam Garg, Somesh Jha, Saeed Mahloujifar, Mohammad Mahmoody, Shuang Song, Abhradeep Thakurta, Florian Tramèr (https://arxiv.org/abs/2011.05315).

E. Comprehensive Privacy Analysis of Deep Learning: Passive and Active White-box Inference Attacks against Centralized and Federated Learning/ Всесторонний анализ конфиденциальности глубокого обучения: Пассивные и активные атаки вывода обучающего набора данных на модель в белом ящике при централизованном и федеративном обучении/ Milad Nasr, Reza Shokri, Amir Houmansadr (https://arxiv.org/abs/1812.00910).

Читать далее

Хранилища признаков: Сторона данных в конвейерах машинного обучения

Reading time7 min
Views3.8K

По мере того как все больше моделей развертывается в современных конвейерах, снова и снова возникате понимание, что данные и их фичаризация** (featurization) важнее всего остального. Последнее поколение систем больших данных масштабировало ML на реальные датасеты, теперь хранилища данных быстро становятся новым рубежом для подключения моделей к данным в реальном времени

Читать далее

Изменить сохранения Spark! Часть первая: разделяй и… сортируй

Reading time23 min
Views8.6K

В этой статье вы узнаете о том, какими способами мы пытались обновлять таблицы в Hadoop, содержащие сотни терабайт данных.

И если в начале нашего пути процесс обновления длился несколько часов (до десяти-двенадцати часов), то теперь ему требуется всего тридцать-сорок минут, а использование вычислительных ресурсов уменьшено вдвое!

При этом была создана библиотека расширения Spark, которая предоставляет DataSource для преобразования данных в файлах в формат этого DataSource, изменения данных командой MERGE через DataFrame API или SQL, а в будущем ещё и UPDATE, DELETE и некоторые операции DDL.

Файлы при этом можно будет читать любым привычным способом, ведь они не модифицированы, а метаданные не обязательны для их чтения.

Вы увидите код этой библиотеки на языке Scala, который сможете использовать, а может быть даже доработать и поделиться своими успехами.

Я постараюсь пояснить, почему был сделан тот или иной выбор, но могу умолчать о чём-то, что кажется очевидным, или, наоборот, о чём я не имею представления. Вы сможете задать вопросы, а я постараюсь ответить на них.

Это первая статья из нескольких, и в ней будет рассказано только о немногих реализованных классах (они нужны для распределения данных определённым способом), поэтому наберитесь терпения, я расскажу всё по частям. Впрочем, пора перейти к повествованию.

Читать далее

Clickhouse. Расширение кластера

Reading time6 min
Views17K

Всем привет! Я хотел бы поделиться своим опытом по расширению высоконагруженного кластера ClickHouse, немного о том как работает репликация и шардирование.

Читать далее

Мы опубликовали модель, расставляющую знаки препинания и заглавные буквы в тексте на четырех языках

Reading time8 min
Views14K


Open In Colab


При разработке систем распознавания речи мы сталкиваемся с заблуждениями среди потребителей и разработчиков, в первую очередь связанными с разделением формы и сути. Одним из таких заблуждений является то, что в устной речи якобы "можно услышать" грамматически верные знаки препинания и пробелы между словами, когда по факту реальная устная речь и грамотная письменная речь очень сильно отличаются (устная речь скорее похожа на "поток" слегка разделенный паузами и интонацией, поэтому люди так не любят монотонно бубнящих докладчиков).


Понятно, что можно просто начинать каждое высказывание с большой буквы и ставить точку в конце. Но хотелось бы иметь какое-то относительно простое и универсальное средство расстановки знаков препинания и заглавных букв в предложениях, которые генерирует наша система распознавания речи. Совсем хорошо бы было, если бы такая система в принципе работала с любыми текстами.


По этой причине мы бы хотели поделиться с сообществом системой, которая:


  • Расставляет заглавные буквы и основные знаки препинания (точка, запятая, дефис, вопросительный знак, восклицательный знак, тире для русского языка);
  • Работает на 4 языках (русский, английский, немецкий, испанский);
  • По построению должна работать максимально абстрактно на любом тексте и не основана на каких-то фиксированных правилах;
  • Имеет минимальные нетривиальные метрики и выполняет задачу улучшения читабельности текста;

На всякий случай явно повторюсь — цель такой системы — лишь улучшать читабельность текста. Она не добавляет в текст информации, которой в нем изначально не было.

Читать дальше →

Authors' contribution