Pull to refresh
59
0
Илья Шутов @i_shutov

Data Science

Send message

Вовсе нет.
Я же писал в ответах, что в рамках одного ноутбука можно запускать куски кода и на R и на SQL и на python. Ставится питон (желательно чистый, без анаконд), ставятся через pip пакеты и пишется микс без проблем, если надо.
Правда, нет никаких проблем. Нет ИЛИ, есть И.
И Apache Arrow как средство межплатформенного обмена.

А в тексте фокус на самых базовых вещах, фундаменте любых преобразований.


Питон отличный язык, тут нет вопросов. Но вот применительно к DS задачам -- масса неудобств. Они реально неудобства, но пока в детали не погрузишься, все кажется простым и надуманным.

Мне, правда, не хочется ни оставлять серьезные вопросы без ответа, ни разводить холивар. Очень-очень много специфики выплывает на микроуровне.
А бесконечная сумма малых величин дает значимый дефект. Приходите в группу в телеграм, если интересно. DS аналитики действительно другими вопросами и категориями мыслят.

  1. Вы читаете через несколько строк. Посмотрите приведенные ссылки. Еще раз, Numpy придумали ученые астрономы, они это сделали по уму и хорошо. Но это исправление нашлепкой сбоку. И нашлепка все равно инородна.

  2. Про параллельные вычисления пока речи нет. В R с этим все отлично. Но, если интересно, можете поглядеть предыдущие публикации.

У Вас есть сложившаяся точка зрения и видение. Оно не изменится ни при каких ответах. Например, потребность в векторизации возникает при решении соотв. задач. Нет задач -- нет потребности. Может тогда и не стоит копья ломать?

  1. питон изначально объекто ориентированный, он так проектировался. почитайте базовые типы. Все есть объект, народ это постоянно разжевывает, например: https://www.pythonmorsels.com/everything-is-an-object/

  2. почитайте про пайпы по приведенным сслыкам. перенос по точке в питоне -- это просто костыль через форматирование.

  3. разница между базовыми типами и суррогатами огромная. почитайте ссылки про missing data, например

  4. в R и прототипирование и скорость и компактность можно получить одним махом в data.table

  5. приведите аналогичный пакет для бенчмарка -- это будет ответ.

  6. Polars -- слизан с `apache arrow` который сам по себе хорош и универсален. И он не может заменить пандас целиком.

Посмотрите предыдущие публикации.
R такой же язык общего назначения и на нем можно делать массу всяких вещей.
А про ненужности "руке рынка" специфических языков можно в SAS рассказывать.

  1. Можно всякие штуки читать типа таких саммари (кроме what's new):
    - https://antonz.org/python-stdlib-changes/
    - https://nedbatchelder.com/text/which-py.html
    - PEP
    - ...

  2. В силу архитектурных особенностей вещи типа полноценной векторизации и NSE принципиально не завезут.

  3. Для задач DS все эти изменения идут почти в параллельном фоне. Ацент совсем на другом.

Давайте не переходить рубикон и не переходить на личности. Начинают сыпаться вопросы министерского уровня, если не выше.

  1. Я постарался в тексте дать все комментарии. Еще там есть масса ссылок на тесты и публикации. Можете прочесть, если действительно интересно.

  2. Мне неясен смысл Ваших вопросов и они сильно удаляются от исходного текста. Вы не согласны -- это очевидно. С чем и почему -- развожу руками.

По приведенным в публикации фактам и тезисам у Вас вопросы есть?
А то задаете мне какие-то отстраненные вопросы как гуглу.

В природе вообще все описывается колебательными процессами.
При низкой добротности все может за один цикл затухнуть экспоненциально. При высокой -- будет перекачка энергий.
https://studme.org/412961/meditsina/lisy_zaytsami_zhivut

Но все это не имеет ни малейшего отношения к исходной теме. Описаны недостатки питона, Вы можете сами все воспроизвести и проверить.

Ну Вы вопросы задаете...
Это ж кого спрашивать и как считать.
И питон надо разделять. Отдельно для DS страту вытягивать.

нет низкого порога, он везде одинаков и минимально таков:
- изучение базовых типов;
- изучение конструкций языка;
- изучение типовых операций и подходов для решаемых задач.

если и из этого сделать "брифли", то ценность такого специалиста вызывает большие сомнения.

Без репрекса сложно понять. Да и код исходной фунции сильно сложнее:
https://github.com/wch/r-source/blob/trunk/src/library/stats/R/quantile.R

там же еще есть параметр type, который влияет на логику расчетов.

просто это серьезный вопрос, требующий тщательной подготовки примеров в коде. Вы точно уверены, что все параметры правильно выставляли: https://www.amherst.edu/media/view/129116/original/Sample+Quantiles.pdf ?

из практики 1-1.5 мес достаточно для уверенного старта.

Не существует только 1 и 0. Все время смешанные состояния.
Касательно больших контор - там вообще есть все и на всех языках. А еще есть конкурирующие внутренние подразделения :)

Не знаю о какой именно нейросети идет речь, но в R нынче подвезено почти все и многое нативно.
Еще такая штука есть: https://www.tidymodels.org/
И через reticulate python код сосуществует вперемешку с R-овским в одном ноутбуке

Мало кто хочет, согласен.
Но, с другой стороны, есть масса внешних факторов, которые почти ежедневно требуют изучения нового, перестройки, изменений. Нет теперь такой стабильности, что после школы пошел на завод и там проработал до пенсии. Так что, как в небезызвестной игре ["Перестройка"](https://www.youtube.com/watch?v=7uDrgNkQu14) наступает момент, когда надо прыгать.

Да, Microsoft прикупил RevolutionAnalytics и встроил в SQL. Но для DBA это не сильно важно, а обычные аналитики даже PowerPivot не изучают. Поэтому это неплохой тезис, но не у нас.

Все логично. Я вот вижу основную слабость в недостоточном информационном поле. Многие даже не в курсе, что существует что-то кроме питона. И эта публикация как раз и дает ответ в этом канале -- да есть и да, по ряду параметров лучше.

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity