Spark 3.0 вышел с целым набором важных улучшений, среди которых: повышение производительности с помощью ADQ, чтение бинарных файлов, улучшенная поддержка SQL и Python, Python 3.0, интеграция с Hadoop 3, поддержка ACID.
В этой статье автор постарался привести примеры использования этих новых функций. Это первый первый материал о функциональности Spark 3.0 и у этой серии статей планируется продолжение.
Когда мы в конце прошлого года перерабатывали свой курс по Deep Learning, чтобы сделать его более наглядным и ориентированным на кейсы из реальной бизнес-практики, мы включили в него новый модуль по разметке данных на крауд-платформе "Яндекс.Толока".
Но так как краудсорсинг -- это не единственный способ разметки, мы подготовили для новых слушателей курса перевод статьи из блога Lionbridge с обзором основных подходов к разметке данных в Deep Learning.