All streams
Search
Write a publication
Pull to refresh
32
0
Send message
ну так не удивительно,
там используют свою функцию которая выполняется в интерпретаторе,
она замедляет любые вычисления, и выгоды не будет.
если же использовать системные функции — сумму (как здесь) или еще что системное,
то apply значительно быстрее, чем просто сумма или сумма по циклам (сегодня я проверил на бриллиантах 6 способами).
Также подобные примеры рассматриваются в книге Шипунова А.
не совсем так, они не только обертки, они вызывают внутренние функции, и выполняются в ядре R,
а непосредственный цикл в интерпретаторе.
Проверил 6 способами, просто циклы в лоб значительнее медленнее и функций apply семейства, и базовых функций, и функций dplyr.
Достоинство R (а может и недостаток),
что многие операции (даже базовыми возможностями) можно реализовать множеством способов,
отличающихся как восприятием, так и производительностью.
Так, например определение decl_df$income.own (сумма колонок)
можно заменить всего одной строкой так: decl_df$income.own<-apply(decl_df[,c(6:20,22)], 1, sum)
или вот так (используя dplyr) mutate(decl_df, income.own = income.family.6+income.family.8+...)
или еще многими другими способами,
каждый из вариантов будет отличаться производительностью,
и наглядностью кода,
поэтому там где производительность критична, можно проверять разные варианты,
а если нет, то можно писать как удобнее, или красивее получается
да точек многовато, цвет здесь не очень поможет,
а вот разбить на панели улучшит восприятие.

Если хотите, могу помочь (сделать такой shiny сервис),
выложите где-нибудь источники: decl_raw или decl_df
Спасибо за статью, очень интересно.
Как идея, добавить побольше интерактивности,
интегрировать с указанным вами сайтом,
или же сделать отдельное shiny-приложение,
которое будет отображать все ваши диаграммы,
таблицы.
И основное, так как у вас не так много категорий (6 — местные, власти, парламент и т.д.),
то можно сделать диаграмму рассеяния с различными осями (его доход, доход семьи) сразу разбитые на панели (местные власти, парламент),
и выбор конкретного чиновника в выпадающем списке,
выбирая которого на диаграмме будет помечаться он цветом или размером,
тем самым это позволить быстро увидеть, как конкретный человек выглядит относительно других.
Полагаю многим будет интересно сразу выбрать «знакомого» человека,
и увидеть, где он в этом «табеле о рангах» относительно других.
Можно сделать еще и выбор осей (индекс, доход и т.д.) по выбору пользователей.
Надеюсь, понятно объяснил.
не только, там в некоторых местах можно и без прохода циклом обойтись,
сразу векторами замены делать
да, а на codeschool без регистрации можно, совсем по быстрому поучиться
А для тех, кто хочет посмотреть (поучиться) на R,
но не хочет пока ничего ставить:
tryr.codeschool.com
Резюме с указанными зарплатами порядка 80%,
вероятнее всего что оставшиеся 20%, да, с более высокими ожиданиями, чем медианные, но не обязательно (может 15%),
даже если предположить что это так, то да, средняя ЗП конечно увеличится,
но медианная не сильно, она будет порядка 6-7 дециля (даже если все 20% выше медианы, то они сместят медиану на 2 дециля), а там 60-70k.
Да нет, так и выходит, у меня на 5 000 случайных резюме, то же самое.
image
О, почти как и у меня результаты,
только у меня на он-лайн данных
habrahabr.ru/post/266319
image
Зачем первые двое указали себя в категории Программирование/Разработка не знаю
Для получения данных из различных СУБД — есть пакеты,
для MySQL — RMySQL — cran.r-project.org/web/packages/RMySQL/index.html
для MSSQL — через RODBC или RJDBC — cran.r-project.org/web/packages/RODBC/index.html,
также есть пакеты и для других БД,
если привычнее SQL синтаксис для последующих манипуляций данными,
то есть пакет sqldf.
Вообще пакетов очень много, более 7 000 только в официальном хранилище CRAN,
появился, например, пакет извлекающий данные из таблиц даже из doc документов.
Чтобы Вы хотели увидеть конкретно?
(просто в предыдущих постах, я писал более подробно о shiny и дашбоардах, решил не дублировать)
Пока нет, сейчас отдельный локальный скрипт каждый день собирает статистику по интересующим меня вариантам, результаты интересные — длительная экспозиция, хорошее снижение цен, так что пока выжидаю
Посмотрел на сайт, что-то никакой конкретной информации нет,
в каком виде объявления, можно ли их экспортировать и т.д.
В их видео тоже нет информации.
А алгоритмах это уже все учитывается, эти квартиры должны стоить больше, относительно таких же

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Registered
Activity