Search
Write a publication
Pull to refresh
60
0
Илья Шутов @i_shutov

Data Science

Send message

Без репрекса сложно понять. Да и код исходной фунции сильно сложнее:
https://github.com/wch/r-source/blob/trunk/src/library/stats/R/quantile.R

там же еще есть параметр type, который влияет на логику расчетов.

просто это серьезный вопрос, требующий тщательной подготовки примеров в коде. Вы точно уверены, что все параметры правильно выставляли: https://www.amherst.edu/media/view/129116/original/Sample+Quantiles.pdf ?

из практики 1-1.5 мес достаточно для уверенного старта.

Не существует только 1 и 0. Все время смешанные состояния.
Касательно больших контор - там вообще есть все и на всех языках. А еще есть конкурирующие внутренние подразделения :)

Не знаю о какой именно нейросети идет речь, но в R нынче подвезено почти все и многое нативно.
Еще такая штука есть: https://www.tidymodels.org/
И через reticulate python код сосуществует вперемешку с R-овским в одном ноутбуке

Мало кто хочет, согласен.
Но, с другой стороны, есть масса внешних факторов, которые почти ежедневно требуют изучения нового, перестройки, изменений. Нет теперь такой стабильности, что после школы пошел на завод и там проработал до пенсии. Так что, как в небезызвестной игре ["Перестройка"](https://www.youtube.com/watch?v=7uDrgNkQu14) наступает момент, когда надо прыгать.

Да, Microsoft прикупил RevolutionAnalytics и встроил в SQL. Но для DBA это не сильно важно, а обычные аналитики даже PowerPivot не изучают. Поэтому это неплохой тезис, но не у нас.

Все логично. Я вот вижу основную слабость в недостоточном информационном поле. Многие даже не в курсе, что существует что-то кроме питона. И эта публикация как раз и дает ответ в этом канале -- да есть и да, по ряду параметров лучше.

Доводилось один раз видеть код аналитики, написанной на php, и разбираться в его логике работы. Хотелось бы развидеть.

  1. Computer Science: https://en.wikipedia.org/wiki/Computer_science. Кстати, многие западные курсы имеют аббревиатуры CS-XXX, оно отсюда проистекает.

  2. Почитайте по ссылкам про структуру pandas, про BlockManager, полистайте внутреннее представление сами. Про R объекты можете почитать в картинках здесь: https://www.brodieg.com/2019/02/18/an-unofficial-reference-for-internal-inspect/

  3. NSE отличная штука. Как только поймете иерархию окружений (по сути аналог стека вызовов) и про отложенное разыменование все встает на свои места. Во тнеплохие статьи:
    - https://milesmcbain.xyz/the-roots-of-quotation/
    - https://www.brodieg.com/2020/08/11/quosures/

  4. Хотите сами во всем разобраться -- спускайтесь в ассемблер. Как Даниэль делает, например, здесь: https://lemire.me/blog/2021/10/09/for-software-performance-can-you-always-trust-inlining/

Да вы просто гость из параллельной вселенной! Но здорово, что заглянули на кофеёк.

Мысль непонятна. Вы знали, что R и Python почти погодки?

под клеем все понимают единообразно.

"No matter how complex and polished the individual operations are, it is often the quality of the glue that most directly determines the power of the system." — Hal Abelson

обертки на С-шными либами и там и там есть.

мериться надо не количеством, а качеством. И не забываем, что питон для не DS задач -- это другой питон, другой стиль разработки и дополнительно другие либы.

Тот же Dash начали списывать с Shiny. Но до последнего ему еще очень далеко.
Можете книгу почитать https://mastering-shiny.org/.
Или демки поглядеть: https://appsilon.com/
Можно контесты взглянуть:
- [Winners of the 1st Shiny Contest](https://blog.rstudio.com/2019/04/05/first-shiny-contest-winners/), 2019-04-05 - [Winners of the 2nd Annual Shiny Contest](https://blog.rstudio.com/2020/07/13/winners-of-the-2nd-shiny-contest/), 2020-07-13 - [Winners of the 3rd annual Shiny Contest](https://blog.rstudio.com/2021/06/24/winners-of-the-3rd-annual-shiny-contest/), 2021-06-24

По R сейчас просто изумительная документация. Дайте вопрос, приведу ответ.
И книги прекрасные выпущены и переведены.
По квантилям -- вот пример. https://www.rdocumentation.org/packages/stats/versions/3.6.2/topics/quantile
Все написано, 9 вариантов различных вычислений (ну так уж накопилось в науке), есть ссылки на научные публикации.
А CRAN вообще закрутил гайки и ввел репрессии в части CI/CD по репозиторию пакетов.

Аналитика и промышленное программирование сильно отличаются.
Весь Tidyverse стек построен именно в контексте работы кода в проде.
Немного писал здесь: https://habr.com/ru/post/543552/
Приходите в группу в телеграме -- подскажем.

Тезисы субьективны.
Можно разные графики взять, R очень сильно развивается и сильно популярен в отдельных вертикалях. И на западе он очень широко применяется.
Линтеры и дополнения есть в RStudio, все работает и удобно. И автотесты есть. Есть весь DevOps стек.

Гвидо же почти остановил развитие питона. Периодически пользуюсь питоном с 2006-года.
Ну вот не смешно ли, что `switch case` завезли только в 3.10?
Про аналитику в блокнотах посмотрите последнюю ссылку в тексте https://www.youtube.com/watch?v=7jiPeIFXb6U

Все не так очевидно и прозрачно, как Вы написали.

Не совсем так. На чем обучают, то потом и пытаются применять. Наблюдается засилье курсов на питоне, в т.ч. вузовских программ.
В RStudio IDE в R Notebook (считайте, аналог юпитера) можно писать код, перемежая чанки в r, python, sql. Все давно уже есть.

По R есть отличный авторский учебник (это Филиппа Управителева): https://textbook.rintro.ru/index.html и курс.

  1. В DS формализм и математика являются фундаментом.

  2. Вектора проходят в средней школе.

Странно все это не использовать при решении аналитических задач.

Про ООП первый раз такую трактовку слышу. Наверное, потому что приходилось с этим ООП в промышленных разработках плотно взаимодействовать, С++ разрабы -- суровые люди.

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Date of birth
Registered
Activity