Все потоки

R *

Язык для статистической обработки данных

СтатьиПостыНовостиАвторыКомпании

welcome2hype 13 дек 2024 в 05:10

Простые эвристики для TSP

Простой

12 мин

1.6K

Алгоритмы * Data Mining * R *

В прошлой заметке я поднял тему ванильно-радужных перспектив использования искусственного интеллекта для решения оптимизационных задач, в частности, для решения хорошо изученной задачи коммивояжера, она же TSP (Travelling Salesman Problem). Там же был дан старт разбору некоторых классических алгоритмов для решения этой задачи в рамках чего я представил подход, основанный на MIP (Mixed Integer Programming). Считаю важным завершить такой разбор для лучшего понимания отличий в работе нейронных сетей.

Читать далее

+2

welcome2hype 9 дек 2024 в 06:16

Когда ИИ может в оптимизацию…

Простой

10 мин

3.1K

Искусственный интеллектR * Data Mining * Алгоритмы *

Из песочницы

Способны ли имеющиеся архитекутры нейронных сетей составить конкуренцию классическим методам оптимизации в решении хорошо изученных задач таких как проблема коммивояжера? Я решил попробовать ответить на этот вопрос и опубликовать свои наработки.

Читать далее

+4

Mikhail_Tolmachev 26 ноя 2024 в 16:06

Дашбординг: Dash или Shiny

Простой

11 мин

3.5K

Python * R * Визуализация данных *

Обзор

Разбираемся в устройстве Dash и Shiny и почему оба фреймворка отлично подходят для решения единственной задачи — создать функциональный и красивый дашборд

Читать далее

+7

selesnow 9 окт 2024 в 14:08

Разработка пакетов на языке R (бесплатный видео курс)

Средний

2 мин

1.5K

Big Data * Data Mining * Data Engineering * R *

Туториал

Разработка R-пакетов - отличный способ улучшить навыки программирования на R и глубже погрузиться в изучение языка. Этот курс шаг за шагом проведет вас через процесс создания собственных пакетов. Первый урок позволит вам написать свой первый пакет. Более того, вы сможете внести свой вклад в развитие языка, делясь своими наработками в виде R-пакетов.

Читать далее

+2

Den_BL 15 сен 2024 в 16:03

Как при помощи машинного обучения и чата GPT 4.0 удалось предсказать чемпиона Евро 2024 и обыграть букмекера

Простой

6 мин

5.4K

R * Машинное обучение *

Аналитика

Recovery Mode

Прошло 2 месяца с окончания чемпионата Европы по футболу, а значит самое время подвести итоги.

Краткий дискурс в начало.
Перед стартом ЧЕ, мне стало интересно проверить точность машинного обучения при прогнозе на столь непрогнозируемую сферу как футбол, а заодно узнать можно ли обыграть букмекера, написав пару строчек кода.

Был проанализирован датасет из 3000 релевантных матчей, не проанализировано все остальное (рейтинг, форма и т. п.).

Условия с "букмекером": 51 матч сыгран турнире, на каждый совершена условная ставка в размере 100 долларов на основании прогноза машины + 2 раза по 100 долларов мы поставили на чемпиона - до начала турнира и после окончания групповой стадии. Оба раза триумфатором была выбрана Испания.

Виртуальный банк составил 5 300 долларов, в конце посмотрим как он изменился

Итак, с помощью чата GPT 4.0 я перебрал несколько вариантов базового алгоритма Random forest на питоне и на R. Результаты оказались выше на R, поэтому его и принял за основу. Код с прогнозом описан в прошлых статьях, здесь я подвожу итоги.

Читать далее

+1

pogozhy 17 авг 2024 в 15:15

Создание и обработка медицинской базы данных с помощью python/R

Сложный

9 мин

3.6K

Из песочницы

Идея: в медицинском учреждении выписные эпикризы (информация из истории болезни) пациентов хранятся в общегоспитальной локальной сети.

Необходимо сформировать базу данных пациентов с перенесенным заболеванием COVID-19 (один выписной эпикриз ДО заболевания COVID-19, один выписной эпикриз во время заболевания и один ПОСЛЕ заболевания).

Telegram для контактов: @doctor_pogozhy

+6

nevmenandr 9 авг 2024 в 05:21

Как на самом деле определять автора с помощью компьютера?

15 мин

4K

Python * R * Natural Language Processing *

Обзор

Атрибуция — определение авторства — имеет много применений как в науке, так и в приземленных задачах, например, в судебной практике. Ниже мы будем говорить о текстовой атрибуции, и иногда от того, кто автор текста, зависит судьба крупной суммы денег, иногда — карьера или свобода человека, а иногда людям просто интересно, кто же написал то или иное произведение. Так, с точки зрения науки о литературе, строго говоря, всё равно, является автором «Тихого Дона» Михаил Шолохов или Фёдор Крюков, но общественность этот вопрос волновать не перестанет, наверное, уже никогда.

Атрибуция может выглядеть по-разному. Надежнее всего такая, которая основана на документах. Если бухгалтерия в своей строгой отчетности зафиксировала выплату денег за определенный текст некоторому лицу, очень высока вероятность, что получатель денег и есть автор этого текста. Вероятность этого выше, чем при любом другом способе выяснить, кто автор.

Но у нас не всегда есть надежные документы. И даже чаще их нет. Тогда единственным способом докопаться до истины будет сам текст, и люди верят, что, опираясь только на содержащиеся в нем косвенные свидетельства, можно установить, кто его написал. Хотя вообще-то это не более чем самонадеянная гипотеза, но мифы эпохи модерна слишком сильны.

Читать далее

+7

MaksimSidorov 26 июл 2024 в 08:45

Шесть причин выучить Julia в 2024 году

Простой

10 мин

17K

Блог компании ЦИТМ ЭкспонентаPython * R * Julia * Инженерные системы *

Обзор

В этом году Экспонента вместе со средой разработки Engee стали информационными партнерами бесплатной Летней школы Julia. Это уникальное событие для России, ведь еще никто не проводил онлайн-курсы по этому современному и очень перспективному языку программирования. Мы уверены, что в современных политических и экономических реалиях за этим языком видится большое будущее, особенно в научной и инженерной средах, и приглашаем всех желающих принять участие в этом важном событии.

А чтобы подогреть ваш интерес, мы подготовили небольшую статью (опирались на этот материал, спасибо авторам, и добавили много тезисов на основе нашего опыта с Julia) с описанием основных причин, почему вы должны срочно заинтересоваться Julia и подать заявку на Летнюю школу. Приятного чтения!

Читать далее

+2

Abby_Baby 22 июл 2024 в 08:10

Парсим API HeadHunter с помощью R

Простой

8 мин

6.9K

Проектирование API * R *

Туториал

В данной статье мы рассмотрим, как при помощи языка R обработать запросы API hh.ru. Мы подробно разберем, как получить OAuth токен для доступа к API hh.ru, а также как использовать библиотеки tidyverse, httr2, и furrr для эффективного сбора и анализа данных. Начнем с регистрации приложения на hh.ru и получения необходимых данных для авторизации. Затем перейдем к выполнению запросов к API, получению информации о вакансиях, их фильтрации и преобразованию в удобный формат для дальнейшего анализа в R.

Читать далее

+2

Mikhail_Tolmachev 4 июл 2024 в 21:07

Не ggplot2 единым: визуализация в R

Простой

12 мин

1.9K

Визуализация данных * R *

Из песочницы

Говорите про R что хотите, но когда дело касается визуализации данных, он диктует моду. Не без помощи ggplot2, конечно. Однако стоит ли ограничивать себя только им ? Да и на что способен R без него. Узнаем в этой статье.

Читать далее

+5

Rebelqwe 3 июн 2024 в 18:37

Про обязательность поправки на множественные сравнения, которая часто игнорируется адептами Data Driven методов

Простой

11 мин

4.5K

Data Mining * Алгоритмы * Математика * R * Исследования и прогнозы в IT *

Обзор

✏️ Технотекст 7

Когда проводится один статистический тест на значимость различий, всегда есть шанс (ошибка первого рода = 5%, на уровне значимости p=0.05) получить ложный положительный результат случайно. Эта ошибка означает, что мы можем ложно утверждать, что значимое различие существует, притом, что в реальности этой значимости нет.

Когда проводится несколько однотипных тестов подряд, каждый из них имеет 5% шанс на ложный положительный результат. Если коррекция отсутствует, то вероятность, что хотя бы один из этих тестов даст ложный положительный результат, быстро возрастает.

Предположим, что делается 20 однотипных тестов. Вероятность того, что получится ложный положительный результат равна 1 - (1 - 0.05)^20 ≈ 64%.

Как контролировать ошибки читать далее

+11

TSjB 30 мая 2024 в 11:53

Повышенный спрос в такси или как работает сурдж: от данных до моделей

Простой

3 мин

2.6K

Геоинформационные сервисы * R * Машинное обучение * Транспорт

Кейс

Мы в компании MyTaxi (агрегатор такси) стремимся удовлетворить клиента и водителя. Для первых одна из важных потребностей - быстрая подача машины, а для других - увеличение количества заказов (или уменьшение времени простоя) и, следовательно, заработка. Для нас это означает малое количество отмен и всё большее число пользователей захотят использовать наш сервис.

Важный фактор, который на это влияет - цена. Она обычно складывается из стоимости подачи, километража, времени поездки и… сурджа.

Читать далее

+2

badcasedaily1 4 мая 2024 в 08:35

Библиотека dplyr в R

Простой

4 мин

2.7K

Блог компании OTUSПрограммирование * Анализ и проектирование систем * R *

Обзор

Библиотека dplyr в R позволяет манипулировать данными, проводить фильтрацию, выборку, сортировку, группировку данных и многое другое.

В этой статье как раз и рассмотрим эту библиотеку.

Читать далее

+4

acheremuhin 10 апр 2024 в 17:14

LLM как универсальная «отмычка» студента — настолько ли все хорошо?

Средний

7 мин

4.6K

R * Искусственный интеллект

Кейс

Небольшой эксперимент по применению LLM при решении задач анализа данных на R и краткие выводы по нему.

Читать далее

+36

TSjB 7 апр 2024 в 14:47

Алгоритм расчёта расстояния между строками

Средний

3 мин

7.2K

Поисковые технологии * Алгоритмы * R *

Кейс

По работе стояла задача оптимизации поиска по адресам (улицы, дома и объекты). Главный критерий - нахождение адреса, если написано с ошибками или не дописан он в полной мере. Bert’ы, косинусные расстояния эмбеддингов и т.д. не подходили, так как они заточены под смысловой поиск, а в адресах смысла нет. TF-IDF c лемматизацией тоже не очень подходил для этой задачи, результаты были плохие.

Для реализации начал использовать расстояние Дамерау-Левенштейна, и в последствие, развил это до собственного алгоритма, который находит расстояние между двумя строками.

Цель данного поста описание только алгоритма.

Читать далее

+16

rekonchik 24 мар 2024 в 10:40

Где открыть магазин? Путешествие в геопространственный анализ и обратно

Простой

21 мин

3.6K

Геоинформационные сервисы * R *

В статье расскажу поподробнее про оценку локаций для бизнеса.

Проблема классическая: ищем место для открытия нового магазина/ресторана/пиццерии.

Сразу скажу, что при помощи гео я решал очень узкий набор задач:

• Оценить существующие локации с т.з. плотности населения, конкуренции, объема рынка. Найти новые точки для открытия или переезда бизнеса;

• Использовать признаки близости покупателя к бизнесу/конкурентам в клиентской аналитике для предсказаний оттока и откликов на рассылки/оффлайн рекламу;

Сегодня расскажу поподробнее про оценку локаций. Все работы я производил на языке R.

Читать далее

+12

pharma_is_my_karma 21 фев 2024 в 08:17

Время есть отношение бытия к небытию. Немного слов про Time-to-event analysis

Средний

10 мин

2.1K

Математика * R *

Обзор

Всем доброго дня!

Некоторое время назад нами была написана обзорная статья о методах анализа данных, используемых при разработке инновационных лекарств, и теперь пришло время поподробнее остановиться на отдельных пунктах этой публикации.

Сегодня мы поговорим о таком подходе как анализ выживаемости (survival analysis) или, как его еще называют, анализ времени до наступления события (time-to-event analysis, ТТЕ). Звучит немного зловеще; и действительно: лично я познакомилась с этой методикой, занимаясь оценкой эффекта различных видов терапии на выживаемость пациентов с онкологическими заболеваниями. Забегая вперед, скажу, что сфера применения ТТЕ значительно шире, поэтому ее понимание может пригодиться широкому кругу специалистов. Данная статья освящает наиболее базовые концепции TTE, однако в конце искушенный читатель найдет список более исчерпывающих трудов.

Читать далее

+2

badcasedaily1 20 фев 2024 в 08:28

Обзор библиотеки drake в R

Простой

6 мин

726

Блог компании OTUSR * Машинное обучение *

Обзор

Drake предлагает систематический подход к построению и управлению зависимостями в проектах, автоматизируя процесс обработки данных и анализа. С помощью drake можно отслеживать изменения в коде и данных, автоматически перезапуская только те части анализа, которые были изменены.

Создатель drake, Уилл Ландау, искал способ улучшить репродуктивность исследований в R, и так родилась библиотека drake. С тех пор она претерпела множество изменений и улучшений.

Читать далее

+7

badcasedaily1 19 фев 2024 в 11:33

Обзор библиотеки Stan в R

Средний

11 мин

1.7K

Блог компании OTUSПрограммирование * Алгоритмы * R * Машинное обучение *

Обзор

Приветствую!

Stan - это библиотека на C++, предназначенная для байесовского моделирования и вывода. Она использует сэмплер NUTS, чтобы создавать апостериорные симуляции модели, основываясь на заданных пользователем моделях и данных. Так же Stan может использовать алгоритм оптимизации LBFGS для максимизации целевой функции, к примеру как логарифмическое правдоподобие.

Для облегчения работы с Stan из языка программирования R доступен пакет rstan, который предоставляет интерфейс R для Stan.

Сегодня мы и рассмотрим этот пакет.

Читать далее

+8

badcasedaily1 6 фев 2024 в 12:55

Параллельное выполнение в R

Простой

7 мин

1.5K

Блог компании OTUSR * Визуализация данных *

Обзор

Привет, Хабр!

Параллельные вычисления – подход к проектированию и выполнению программ, который позволяет ускорить обработку данных и вычисления, используя множество процессоров или ядер процессора одновременно.

В ЯП R паралельное выполнение также имеет свои варианты реализации. Рассмотрим их в статье.

Читать далее

+14

2

3 4 ...