Pull to refresh
60
0
Илья Шутов @i_shutov

Data Science

Send message

Было уже в истории "Не читал, но осуждаю". В этой точке траектории разошлись.

В настоящем промышленном DS необходимо совмещать навыки математика, художника, алгоритмиста, настоящего разработчика, dba, сисадмина и devops. Пусть не с полным погружением, но хотя бы иметь некоторые представления об отдельных вопросах.
Чтобы включать инстинкты, их надо иметь. Чтобы их иметь, надо иметь немалый опыт за плечами в исполнении сложных командных проектов. Но такой опыт уже позволяет философски смотреть на ряд вещей.

Спасибо за ценные советы. Записал в блокнотик.

В этом рассуждении есть одна большая ошибка. Сила не в языках, а в библиотеках, алгоритмах и навыках. Есть прекрасная книга на эту тему: https://habr.com/ru/company/productivity_inside/blog/348116/

R позволяет решать практически все те же самые задачи, что и питон. Это тоже язык универсального назначения. В сети масса различных примеров есть.

Это Ваше частное мнение на которое Вы имеете полное право. Строится оно на полном знании вопроса или на полном незнании -- мне неведомо.

Похоже, что R вам показали не те люди и не с той стороны. Если вдруг захотите взглянуть с другой точки зрения -- приходите с вопросами в телеграм канал. Откроете новое для себя.

Много лет играю в тендеры всякие. В зависимости от матрицы приоритетов и методики оценки и рисков в т.ч. возможна любая степень вариативности результата.

Но вопросы применительно к проектной активности важные. Но именно здесь я сфокусировался на технике, оценочная часть в 90% случаев оставляет сильный осадок субъективности. Это не только про ЯП и даже далеко не про них.

Не хотелось сейчас туда залезать, да и предпосылок нет.

Нет, от заголовка до конца речь идет про аналитику.

Заметно все, а про пандас почитайте по ссылкам. 10-ти кратное превышение требуемой памяти -- это жесть. И по тестам (опять же, ссылки), он почти никогда не доезжает до конца, падает.

Писать красивый код надо уметь. Пайпы здесь ни при чем.

Вовсе нет.
Я же писал в ответах, что в рамках одного ноутбука можно запускать куски кода и на R и на SQL и на python. Ставится питон (желательно чистый, без анаконд), ставятся через pip пакеты и пишется микс без проблем, если надо.
Правда, нет никаких проблем. Нет ИЛИ, есть И.
И Apache Arrow как средство межплатформенного обмена.

А в тексте фокус на самых базовых вещах, фундаменте любых преобразований.


Питон отличный язык, тут нет вопросов. Но вот применительно к DS задачам -- масса неудобств. Они реально неудобства, но пока в детали не погрузишься, все кажется простым и надуманным.

Мне, правда, не хочется ни оставлять серьезные вопросы без ответа, ни разводить холивар. Очень-очень много специфики выплывает на микроуровне.
А бесконечная сумма малых величин дает значимый дефект. Приходите в группу в телеграм, если интересно. DS аналитики действительно другими вопросами и категориями мыслят.

  1. Вы читаете через несколько строк. Посмотрите приведенные ссылки. Еще раз, Numpy придумали ученые астрономы, они это сделали по уму и хорошо. Но это исправление нашлепкой сбоку. И нашлепка все равно инородна.

  2. Про параллельные вычисления пока речи нет. В R с этим все отлично. Но, если интересно, можете поглядеть предыдущие публикации.

У Вас есть сложившаяся точка зрения и видение. Оно не изменится ни при каких ответах. Например, потребность в векторизации возникает при решении соотв. задач. Нет задач -- нет потребности. Может тогда и не стоит копья ломать?

  1. питон изначально объекто ориентированный, он так проектировался. почитайте базовые типы. Все есть объект, народ это постоянно разжевывает, например: https://www.pythonmorsels.com/everything-is-an-object/

  2. почитайте про пайпы по приведенным сслыкам. перенос по точке в питоне -- это просто костыль через форматирование.

  3. разница между базовыми типами и суррогатами огромная. почитайте ссылки про missing data, например

  4. в R и прототипирование и скорость и компактность можно получить одним махом в data.table

  5. приведите аналогичный пакет для бенчмарка -- это будет ответ.

  6. Polars -- слизан с `apache arrow` который сам по себе хорош и универсален. И он не может заменить пандас целиком.

Посмотрите предыдущие публикации.
R такой же язык общего назначения и на нем можно делать массу всяких вещей.
А про ненужности "руке рынка" специфических языков можно в SAS рассказывать.

  1. Можно всякие штуки читать типа таких саммари (кроме what's new):
    - https://antonz.org/python-stdlib-changes/
    - https://nedbatchelder.com/text/which-py.html
    - PEP
    - ...

  2. В силу архитектурных особенностей вещи типа полноценной векторизации и NSE принципиально не завезут.

  3. Для задач DS все эти изменения идут почти в параллельном фоне. Ацент совсем на другом.

Давайте не переходить рубикон и не переходить на личности. Начинают сыпаться вопросы министерского уровня, если не выше.

  1. Я постарался в тексте дать все комментарии. Еще там есть масса ссылок на тесты и публикации. Можете прочесть, если действительно интересно.

  2. Мне неясен смысл Ваших вопросов и они сильно удаляются от исходного текста. Вы не согласны -- это очевидно. С чем и почему -- развожу руками.

По приведенным в публикации фактам и тезисам у Вас вопросы есть?
А то задаете мне какие-то отстраненные вопросы как гуглу.

В природе вообще все описывается колебательными процессами.
При низкой добротности все может за один цикл затухнуть экспоненциально. При высокой -- будет перекачка энергий.
https://studme.org/412961/meditsina/lisy_zaytsami_zhivut

Но все это не имеет ни малейшего отношения к исходной теме. Описаны недостатки питона, Вы можете сами все воспроизвести и проверить.

Ну Вы вопросы задаете...
Это ж кого спрашивать и как считать.
И питон надо разделять. Отдельно для DS страту вытягивать.

нет низкого порога, он везде одинаков и минимально таков:
- изучение базовых типов;
- изучение конструкций языка;
- изучение типовых операций и подходов для решаемых задач.

если и из этого сделать "брифли", то ценность такого специалиста вызывает большие сомнения.

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity