Comments 8
Хорошо, если данные уже дают. Но вот, когда их еще предстоит спарсить с сайтов, что в общем то тоже задача дата инженера, то вам придется еще впитать в себя DevOps.
Отличная картинка в статье, долго не мог понять конкретно чем дата инженер занимается и чем отличается от смежных специальностей. На многих сайтах пишут много текста про отличие того же дата инженера от data scientist, но все слишком абстрактно рассказывают
но в некоторых местах пользуются также и другими языками - Java или Scala
А почему именно они а, не скажем, C#? Какой-то специфический софт написан на Java?
Например Apache Spark, Hadoop, Kafka и так далее.
В значительной мере это связано с применением Spark'a в областях Big Data, который в "истинном" виде существует именно на Java/Scala. В действительности, что Java, что Scala выполнются через JVM.
Конечно, можно использовать, например, Pyspark и писать на Python, но в таком случае снижается производительность, так как все Python-объекты будут проходить преобразования в Java-объекты, что не эффективно.
Кто такой Data Engineer