Обновить
3
0

Пользователь

Отправить сообщение

Ну вот смотри типичная DS задача, нужно определить с кой вероятность пользователь нашего сервиса не вернет кредит, расскажи мне здесь про REPL и куб ди эс

Задачи DS толка не предусматривают перформанс, там вообще не всегда очевидно как решить задачу по этому пишутся алгоритмы и используется доступная математика а вот если вся эта математичность взлетит то есть задача будет решена с нужным уровнем качества тогда уже можно думать про скорость ресурсы и прочий перформанс.

Но библиотеку можно поставить и с флэшки, если компьютер стоит в месте где нет интернета

можно работать абсолютно автономно, интернет нужен только что бы скачать какую то библиотеку.
Есть замечательная IDE для работы с R, Rstudio
Нейросети есть, но современная движуха идет все таки на python
На счет всего отального что бы писать самому, ну тут все упирается в целесообразность зачем писать самому какую нить корреляцию Спирмена если для этого уже есть готовый пакет, еще и написанный на плюсах под капотом.
Бывают даже такие случаи, когда нагуглил какй то экзотический статистический метод в чьей то диссертации и этот человек реализовал свой алгоритм в пакете для R.
P.S. Если вам нужно загружать большие файлы без необходимости применять всякие статистические штуки, то я бы посмотрел в сторону языка python, jupyter-notebook (IDE), и библиотек pandas/polaris

1.Подскажите в чем Вы видите минусы того что студенты ( будущие аналитики и исследователи) пишут на хабр?
2. Куда им писать свои первые статьи что бы набраться опыта?

Забыл добавить, что есть возможность оформить свои исследования в markdown, pdf, powerpoint, html и даже сделать доступ к отчету через интернет

Привествую Вас дорогой хабровчанин
чем R лучше чем эксель:

  1. Возможность загрузить более 1 млн строк

  2. Возможность работать с данными в разных форматах, csv, parquet, sas, statistica

  3. Возможность подключиться к хранилищу данных SQL, Spark

  4. Возможность использовать большое количество статистических тестов и подходов(bootstrap, Монте Карло)

  5. Построение моделей xboost, svm, random forest, нейронные сети (линейные теоретически можно и в эксельке)

  6. Визуализация данных всякие специализированные графики violin plot, confusion matrix и другие.

  7. Расширение функционала при помощи R packages, пакеты есть почти для всего, что только можно представить себе из мира исследования данных, статистики и прчее.

  8. Можно парсить интернет можно писать ETL ELT

  9. Можно сделать дашборд

Все же если вы аналитик да еще и бигдаты, то лучше бы Вам поставить Ubuntu причем на английском языке, проще будет работать и гуглить ошибки ну и с разрабами ML инженерами и дата инженерами будите на одно "волне".
А ошибки обязательно будут как только начнете ставить в питон всякие библиотеки для анализа данных там то gcc отвалится то еще что нить
Минт может быть вполне ок но особо у коллег не видел да и котейнеры в основном или на убунте или Дебиане так что всякие там спаки аирфлоу и прочее легче равернуть и потыкать на своем ноуте когда у тебя Убунта. Такое мое личное мнение

ну если привлечь социологов для исследования по результам которого взвесить абонов по соцдему, гео, уровню дохода и т.п., то можно в пределах некой погрешности аппроксимировать, ну и наверно стоит внести предположение что все дороги покрыты сигналом Теле2
Теле 2: у вас же есть такая витрина с весами по результам социологического исследования?
Веса как часто пересчитываются? База живая каждый день разное количество людей в сети и вообще в базе( кто то уходит в МТС, Мегафон, кото то покупает симку Теле2)

Но Gini это не метрика точности, это метрика качества бинарного классификатора.
Что у вас тогда является классами правильный / неправильный трек?
По какой методике определили референс?
Зачем считать расстояние Фреше?
Почему кратчайший путь а не наиболее вероятный?
PandasUFD? звучит не быстро и не особо графово
У вас точно датасантисты в бигдате работают?
Не рассматриваете вариант отдать геоаналитику на аутсорс?

включая все виды лоббирования
оу, блин
Звучит так как будто бы это уже не свободный рынок, даже с каким то привкусом коррупции

берешь HH и смотришь описание вакансий и будет тебе полная ясность, вплоть до понимания за какой скил сколько платят


Jan 6, 2013 — #BigData analysis is like teenage sex: everyone SAYS they're doing it, few are, and if they are then it's not as great as they say it is.
(с) Dan Ariely
А ведь 10 лет прошло уже
Дата сантист - это математик, его задача проверять гипотезы, переводить бизнес проблему на язык цифр, именно по этому появилась новая проффесии типа ml engineer, data engineer,DevOps.
Да и сам дата саенс весьма разнообразен начиная от дашиков заканчивая трансформерами и прочим дип лерненгом

Про камеры я имел ввиду с выскоим разрешением, а не те что для службы безопасности
Что бы распознавать эмоции тебе нужна модель, готовой нет, нужно самому тренить, нужна обчающая выборка с большим количеством человеческих лиц выражающих разные эмоции и указанием что это за эмоция.
Вполне себе задача для Google, Facebook ну или Yandex, VK

Блин отличный ноут, многие датасантисты тож любят погамать
ну а для работы конечно нужен ноут с ubuntu что бы подключится к P100 и запускать модельки в удаленном контейнере, пушто рабочие данные на hdfs или s3 не будешь же к себе на ноут тащить сотни паркетников или тысячи csvишек ,да и дяди из СБ офигеют, что у тебя но ноуте секурные данные компании

Аналитик. BI аналитик
Бонд...Джеймс Бонд)))

Чот почитал и загрустил
Может тоже бросить весь этот дата саенс и пойти в велокурьеры благо вел - хобби
Говорят же нужно вкатываться в ИТ что бы скопить денег и начать зарабатывать на своем хобби.
Хотя блин модели эти вот математические тож люблю и иногда тянет чонить напарсить и проверить гипотезу, ну там например правда что у девушек по имени Наталья больше фоток из Турции.
А вот на работе как то выгораешь, да

ЭйАй евангелист

И вот если рассмотреть кейс ретейлера
Для линейной модели нужен вполне себе "средний" дата сантист он сравнительно быстро сделает модель и компания получит ощутимую выгоду.
Для модели распознавания эмоций - нужна целая команда, нужны дорогие ДСы которые разбираются в DL нужны специальные камеры, одним словом долго и дорого а главное никакого value для бизнеса.

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность