Комментарии / Профиль echasnovski / Хабр

@echasnovski

Прикладной математик, разработчик R

Подписчики

ПрофильСтатьи2ПостыНовостиКомментарии28

Наивный Байес, или о том, как математика позволяет фильтровать спам

echasnovski 5 июл 2018 в 07:46

Несколько моментов:

Скорее всего, Вы имели ввиду reshape2.
RStudio — это название IDE для R и компании, которая эту IDE делает.
Все пакеты tidyverse (dplyr, ggplot2, tidyr, ...) уже считаются пакетами RStudio с главным идеологом Hadley, который там работает.

Наивный Байес, или о том, как математика позволяет фильтровать спам

echasnovski 3 июл 2018 в 08:23

Я бы ещё порекомендовал замечательный пакет {tidytext}. Имея опыт работы с {tidyverse} (https://www.tidyverse.org/), очень удобный инструмент для анализа текста.
К тому же имеется общедоступная книга от авторов пакета: www.tidytextmining.com.

Конструктивные элементы надежного enterprise R приложения

echasnovski 12 июн 2018 в 10:54

Спасибо за развёрнутый ответ.

Относительно кейса у меня было всё достаточно стандартно. Есть data frame, на строки и ячейки которого накладываются ряд ограничений, очень удобно реализуемые с помощью dplyr. Необходимо написать функцию, которая проверяет выполнение всех ограничений. При выявлении "плохих" элементов необходимо подать какой-то сигнал (ошибку, предупреждение, сообщение) и вывести в консоль отчёт в компактном виде.

Для данной задачи ruler подошёл практически идеально. Конечно, рассматривал и validate, и assertr. Первый на тот момент мне показался немного переусложнённым и не позволял получить необходимый отчёт без особых танцев с бубном. Второй выполнял код очень медленно, потому что вызывал функции проверки чуть ли не построчно (вместо векторизованного варианта при создании правил через dplyr)

Конструктивные элементы надежного enterprise R приложения

echasnovski 12 июн 2018 в 09:40

А можно немного поподробнее, пожалуйста? Вы имеете в виду формат результатов валидации (объект S4 против tibble) или что-то другое?

Конструктивные элементы надежного enterprise R приложения

echasnovski 12 июн 2018 в 09:10

Для достаточно удобного совмещения описанных подходов логической валидации могу порекомендовать пакет ruler. Позволяет автоматизировать процесс «анализа конечного результата» после создания «pipe c проведением ряда проверок». В нём правила валидации определяются непосредственно в виде pipe функциональной последовательности, а результаты проверки сохраняются в виде data frame фиксированного формата.

А вы уже применяете R в бизнесе?

echasnovski 18 окт 2017 в 07:54

Не самый оригинальный ответ, конечно, но: «Зависит от задачи и умения писать быстрый код».
Неплохие начальные советы можно найти здесь:
— Efficient R Programming: Efficient optimization (и вообще в целом познавательная книга).
— R Inferno (классический подбор основных ошибок при написании кода на R).

Если работа ведётся с «таблицеподобными» данными, которые помещаются в оперативную память и важна именно скорость работы, то можно порекомендовать data.table, хотя я больше предпочитаю dplyr.

AlphaGo сыграет в го с чемпионом из Китая Кэ Цзе

echasnovski 7 июн 2016 в 08:38

К сожалению, судя по всему, пока что это всего лишь слухи. В самом источнике из статьи используются фразы «Очень вероятно, что...» и «Ке Цзе надеется сыграть в октябре...». Более того, там же говорится, что «Демис Хассабис проявил желание пригласить Ке сыграть с АльфаГо, но пока что от него нет никаких признаков возможности этого матча в октябре». Т.к. Демис в данном случае является представителем АльфаГо, это важный нюанс.
Наиболее серьёзным аргументом того, что это слух, является твит самого Хассабиса: twitter.com/demishassabis/status/739832323160563712. В нём говорится о том, что «Вопреки слухам в интернете мы пока ещё не решили, что делать дальше с АльфаГо. Как только определимся, здесь появится официальное объявление».

AlphaGo выиграл у Ли Седоля и вторую игру

echasnovski 13 мар 2016 в 12:46

И всё же в данном матче нельзя, т.к. играется он по китайским правилам, в котором есть правило суперко (фактически «запрещено любое повторение позиции»).