Search
Write a publication
Pull to refresh
0
0
Виктор Дмитриев @vdmitriyev

User

Send message

Для тех кому интересно более детально почитать на тему развития глубокого обучения (последний график в статьей) в академической среде с точки зрения публикаций рекомендую статью — A Peek at Trends in Machine Learning

Может скажу несколько очевидную вещь, но если вы и дальше можете обрабатывать имеющиеся у вас данные при помощи баз данных, то не нужны вам никакие "hadoop-ы/spark-и".

В Hadoop-е (или даже в MapReduce-е) активно используется понятие как "locality is a king", то есть данные должны лежать именно там где обрабатываются (в иделале) или точнее "обработка" должна совершаться там где данные расположились. Конкретно касательно СХД и Hadoop можно почитать тут — https://0x0fff.com/hadoop-on-remote-storage/ .

Мне кажется CRM в вашем случает это не Customer Relationship Management, а больше управление проектами, что совсем на мой взгляд не связанно с общепринятым пониманием CRM.

Спасибо за ссылку на лекцию от CMU. В свою очередь могу порекомендовать материал аффилированный с SAP, но его стоит воспринимать только в качестве"концепта" в рамках БД в памяти — https://hpi.de/plattner/research/in-memory-data-management-for-enterprise-systems.html.

Я все же думаю, что почти любые разработчики, будь они из компаний списка Fortune 500 или нет, в любом случае время от времени ходят на stackoverflow (или на другой подобный тематический ресурс). А вот с отсутствием использования публичных репозиториев я вас полностью поддержу.

Есть еще отличный на мой взгляд доклад на тематику лицензирования с PyCon 2016 "What You Need to Know About Open Source Licenses" — https://www.youtube.com/watch?v=9kGrKBOytYM

Я понял ваше мнение, спасибо за то что ответили на мой вопрос.

… пить кофе из корпоративных кружек и делать красивые презентации.

Тут есть одно "но". Людей с таким набором навыков ("крайне широкий кругозор, включая математику, статистику, программирование, дизайн, а также обладать хорошими презентационными и коммуникационными навыками и глубоким знанием предметной области") и желанием заниматся именно анализом данных не очень много. В соответствии с этим получается и соответствующе высокие зарплаты (при понимании руководства что Data Science это именно-то что нужно, ваши 80% проблем в компании которые требуют не глобального решения). Так что иметь 2-3 человека в качестве сотрудников с подобными навыками это просто я бы сказал удача для компании.


Но вы все же вы согласны, что описанные вами методы (мне они очень по душе) не применяются (и скорее всего даже не будут) "классическим" BI консультантом?

Спасибо за то что поделились вашим опытом. У меня есть одна небольшая ремарка. В моем понимании BI специалист/консультант (или человек который отвечает за BI в компании) это не разработчик софта или BI решений, а больше очень продвинутый пользователь уже имеющегося ПО с отличным пониманием процессов анализа данных, статистики и бизнес-процессов в компании (тут по разному, и есть разница между внешним и внутренним BI консультантом). И очень часто подобный специалист не умеет или не хочет писать код своими руками. И это я не про скрипты по очистке данных, SQL запросы и т.д., а именно про функционирующие приложения на R, Python и т.д. для конечного пользователя (тут сложность выбранного пакета/языка зачастую не имеет значение, просто консультанты не хотят этим заниматься). Так что мне верится, что ваш опыт применим в таких компаниях, в которых уже есть достаточный штат сотрудников занятых разработкой ПО и опыт работы с разработкой ПО. Согласны ли вы со мной или я что-то не совсем правильно вижу?

Огромное спасибо за статью!

Это видимо вы про EC Maestro карты, по сути они не кредитные, а дебетовые и зачастку идут в комплекте со счетом в банке. В Германии в принципе много разных приколов с интерфейсами. К примеур, благо вы еще сигареты не пытались купить в автоматах =), я не сильно понимаю по какому принципу они работают. Должны перед продажей проверять возраст и т.д., но как именно заставить работать этот автомат непонятно.

Спасибо за описанный опыт посещения саммита. Я бы еще отдельно отметил демо сессию в рамках доклада Apache Spark 2.0, которая начинается на видео примерно с 17:45 минуты.

Спасибо, это просто опечатка с моей стороны.

Спасибо за ответ и за ссылки!

У меня вопрос касательно UDF для Firebase — не могли бы вы подсказать хороших ресурсов по тематике?

Думается что все таки гарантирует доставку сетевого пакета, а что потом с пакетом или пакетами дальше происходит решают уже QoS MQTT.

Я с вами полностью согласен по поводу того, что термин не полностью придуман маркетологами. Но термин таит очень много опасностей в использовании для «неподготовленных», много раз в этом убеждался.

SQL не умеет из коробки «делать» машинное обучение, но если долго мучатся — можно в итоге что-то да и реализовать, но про переносимость между разными реализациями стандарта SQL (то есть по факту между разными базами данных) и про производительность я умолчу. И в целом использовать специально нацеленные фрейморки (аля MADlib )всегда лучше.

В Teradata Aster можно вроде как реализовывать задачи запускаемые непосредственно в самой базе либо на Java, либо на C/С++, про R как раз-таки не уверен. А если использовать обычный поток stdin/stdout, то тогда возмжно в приципе использовать любой язык, котрый удобно, главное чтобы он запускался на каждой машине в кластере (это я про аналог Hadoop Streaming).
yusman

Статья у вас конечно очень холивартная, но благодаря ей породилось очень много интересных комментариев.

MADLib почти единственный продукт подобного рода, который позволяте использовать машинное обучение в MPP DBMS (и пока поддерживает только PostgeSQL ориентированные движки баз данных). Если знаете другие примеры подобный библиотек работающих «поверх» MPP RDBMS (ну или MPP с ACID), мы было бы очень интересно на них посмотреть.

ffriend

К вашему комментарию по поводу анализа 10 Тб. У Teradata есть продукт в портфолио под названием «Teradata Aster Database», который собственно и позволяет делать большинство из ктого что привел в пример ffriend, и как раз таки на базе MapReduce парадигмы. Но помимо MR, там есть еще много интересного — анализ логов из коробки, интеграция с много чем (аля HDFS), App Center, что облегчает доступ простым пользователям к результатам анализа и т.д… И да, это этот софт не бесплатный и порой весьма капризный, но тем не менее в качестве примера-альтернативы для озвученных задач весьма подходит. И да, я не имею никакого отношения к компании.

Information

Rating
Does not participate
Location
Алматы (Алма-Ата), Алма-Атинская обл., Казахстан
Registered
Activity