Обновить
0

R *

Язык для статистической обработки данных

Сначала показывать
Порог рейтинга
Уровень сложности

Что случается с медицинскими данными без стандартов отчетности: кейс менингита и survival-анализа в R

Время на прочтение8 мин
Охват и читатели3.7K

Без стандартов — ни к журналу, ни к себе не подступишься: в этой статье — история анализа выживаемости пациентов с менингитом и то, как внедрение STROBE и TRIPOD полностью изменило подход к работе с медицинскими данными. На примере кейса и кода на R автор показывает, как стандарты отчетности помогают структурировать исследование, избежать потерь данных, честно построить модель и — главное — самому понять, что ты сделал.

Читать далее

Новости

ML — курсы vs реальность: Где же обещанные цветочки и единороги?

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели8.8K

Привет, хабр! 👋

Позвольте представиться: я - Настя, Data Scientist и TeamLead в одной вполне себе серьезной компании (когда чистишь данные в 3 ночи, чувствуешь себя совсем не серьезно, но это детали). Веду свой скромный телеграм-канальчик, где делюсь болью, радостью и абсурдом нашей необъятной профессии. И вот сегодня хочу вынести на ваш суд тему, которая не дает спать спокойно не только мне, но и многим моим коллегам.

Помните тот трепетный момент, когда вы только начинали свой путь в Data Science? Я — очень хорошо. Картинка была радужной: ты — повелитель нейросетей, твои модели творят магию, а бизнес-задачи падают к ногам, поверженные точностью в 99.9% (ну или хотя бы 97%).

Курсы, будь то знаменитые онлайн-платформы или университетские программы, учат нас прекрасному: бустинги, метрики, градиентный спуск, SVM, k-means, сверточные слои... Это наш фундамент, наш джентельменский набор. И да, именно за этим набором охотятся 90% рекрутеров на собеседованиях. Создается стойкое ощущение, что я и интервьюер одновременно загуглили «Топ-50 вопросов на DS собеседовании» и теперь ритуально их отрабатываем. Ну, must have, что уж тут.

Но потом ты выходишь из уютного мира clean data и идеальных датасетов в дикие джунгли реального проекта. И здесь начинается магия настоящей работы. Та самая, про которую не снимают вдохновляющие ролики. А порой многие именно тут и бросают этот, казалось бы увлекательный и перспективный карьерный путь в мир ML...

Читать и обсудить...

BirdCLEF+ 2025: обзор соревнования и ключевые решения топ-5 команд

Уровень сложностиСредний
Время на прочтение4 мин
Охват и читатели1.1K

BirdCLEF+ 2025 — очередная часть ежегодного соревнования от Cornell Lab of Ornithology по распознаванию звуков дикой природы. В этом году участникам предстало предсказывать целевое животное на коротких фрагментах записи, балансируя между качеством моделей и жёсткими ограничениями железа.

Разобраться в псевдолейблинге...

Конфаундинг, или как аналитику попасть в ловушку

Уровень сложностиСредний
Время на прочтение17 мин
Охват и читатели3.9K

Вы построили свою модель: p-value в порядке, R² впечатляет, вот только эффект — мнимый. Причина? Иногда вы упустили какую-то переменную. Иногда добавили лишнюю. Иногда включили ту, которая полностью поменяла ваш вывод. Настало время познакомиться с самым изощрённым убийцей аналитических выводов — конфаундингом.

Читать далее

Что в чёрной коробочке? Выясняем самостоятельно, не привлекая внимания коллег

Уровень сложностиСредний
Время на прочтение30 мин
Охват и читатели4.6K

Всем привет, меня зовут Миша, и я разрабатываю платформу Яндекс Еды. Первые компоненты были написаны почти 10 лет назад (когда Еда ещё была стартапом Foodfox), и у нас накопилось много кода, который просто хорошо работает, а иногда даже «работает — не трогай». Но в процессе развития и устоявшиеся части системы нужно трогать, про что мои коллеги уже писали — как мы повышали версию PHP, пилили монолит и снимали нагрузку с БД

Наконец настал черёд рассказать про процессинг заказов доставки еды из кафе и ресторанов (а также продуктов из магазинов и многого другого). За годы эволюционного развития он значительно разросся, что стало заметно затруднять дальнейшее развитие — например, изменения, связанные с выходом на новые рынки, — а также влиять на надёжность. 

Поэтому мы решили вынести процессинг заказа в отдельный специализированный сервис. Чтобы определить, что выносить, а что оставлять, нужно было составить исчерпывающий и актуальный список процессов, которые происходят с заказом. И здесь мы столкнулись с вызовом: это знание распределено по многим людям и документам, поскольку на протяжении долгого времени в процессинг заказов вносили изменения многие команды. И перед нами встал вопрос — как собрать нужную информацию о системе с заметной долей легаси быстро, да так, чтобы информация была актуальна?

Читать далее

Глубокое Q-обучение (DQN)

Уровень сложностиСложный
Время на прочтение9 мин
Охват и читатели2.7K

Подходит к завершению серия моих публикаций про использование идей искусственного интеллекта для решения задачи коммивояжера (TSP).

В этой заметке помогаю разобраться в авторской реализации Deep Q-learning для TSP.

Читать далее

Как мы внедрили LLM в рабочие процессы аналитиков на R — и сделали это бесплатно

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели2.4K

В этой статье расскажу, как мы в команде аналитиков начали использовать большие языковые модели (LLM) в повседневных рабочих инструментах. Всё построено на R, и покажу на практике, как можно внедрить такие фичи у себя — без платных подписок, без OpenAI и без строчки кода на Python.

Читать далее

Как я за год написал шесть больших научных статей и несколько маленьких

Уровень сложностиСредний
Время на прочтение14 мин
Охват и читатели3.1K

Без «литературных негров» и чатГПТ — личный рассказ об инструментах, технологиях и приёмах, которые помогли мне не вылететь из аспирантуры и догнать коллег. Открытые данные, Python, R, RMarkdown, Quarto, git и немного ИИ в помощь исследователю.

Читать далее

А не пора ли нам подкрепиться?

Уровень сложностиСредний
Время на прочтение10 мин
Охват и читатели1.3K

Обучение с подкреплением – это одна из ключевых концепций ИИ. Пришло время подкрепить коммивояжера и его задачу поиска кратчайшего пути Q-обучением. Табличный вариант Q-обучения является сравнительно простой и эффективной реализацией обучения с подкреплением.

Читать далее

Книга: «Excel с Python и R: раскройте потенциал расширенной обработки и визуализации данных»

Время на прочтение7 мин
Охват и читатели8.7K
Привет, Хаброжители!

Если вы работаете с данными, то наверняка сталкивались с ситуацией, когда Excel становится вашим лучшим другом и злейшим врагом одновременно. С одной стороны, это удобный и привычный инструмент для работы с таблицами, с другой — его ограничения могут превратить даже простую задачу в настоящий кошмар. Но что, если бы вы могли объединить мощь Excel с гибкостью и возможностями Python и R?

Именно об этом рассказывает новая книга «Excel с Python и R: раскройте потенциал расширенной обработки и визуализации данных».
Читать дальше →

Многофакторное аппроксимирование на платформе .Net. Часть первая. Теория

Время на прочтение6 мин
Охват и читатели789

Двухфакторная аппроксимация и ее реализация на платформе .net при помощи open source приложения RefressionFromExel.

Читать далее

Внимание правильный ответ

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели1.1K

Если читатель был достаточно внимателен, то, наверное, заметил, что в предыдущей заметке я обошел стороной непосредственно блок механизма внимания, точнее сказать, описание было дано методом черного ящика: вот тут такие-то входы, там такие-то выходы. Теперь, внимание, вопрос знатокам: Что лежит в черном ящике? В действительности, крайне важно понимать, что там внутри и логично посвятить данной теме отдельный текст. Понимание механизма внимания определяет ход дальнейших размышлений вплоть до самых передовых архитектур ИИ и поэтому сложно переоценить важность этой темы.

Читать далее

Моделирование Результатов в Гольфе с Помощью Цепей Маркова

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели829

С тех пор, как мне исполнилось девять лет, в моей жизни было лишь два занятия, которые меня по-настоящему интересовали. К ним относились мой любимый спорт и учёба. Я совмещала игру в гольф за сборную команду России с учёбой на отличные оценки в инженерном классе Московской школы. По окончанию школы, моим следующим шагом было поступление в университет США, где программа student-athlete очень сильно развита. Тебе дают возможность получать высшее образование, а также быть частью спортивной команды, которая соревнуется с командами других университетов в течении всего учебного года. И вот, прошло уже три с половиной года с тех пор, как я стала частью этой команды, а значит, остался один семестр до того, как я надену мантию. И по случаю завершения моей карьеры, в моей голове возник вопрос, а есть ли что-то, что связывает студенческий гольф и знания, которые я приобрела.

Читать далее

Ближайшие события

Транскриптомный анализ: как посчитать гены?

Уровень сложностиПростой
Время на прочтение20 мин
Охват и читатели2.8K

Вся информация о нас закодирована в ДНК. Но как она реализуется? Как при помощи анализа данных секвенирования ученые находят количественные соотношения между группами генов? Что такое транскриптомика? Давайте разберемся, как находят закономерности в экспрессии генов и построим красочные визуализации.

Читать далее

Внимание — это все, что нужно коммивояжеру

Уровень сложностиСредний
Время на прочтение8 мин
Охват и читатели2K

Заголовок отсылает к знаменитой работе Attention Is All You Need, которая фактически перевернула мир ИИ, сделав его другим, не таким, как прежде. В этой научной публикации описаны принципы реализации архитектуры трансформеров, но в ее названии упоминается именно механизм внимания. Долгое время я пытался ответить себе на один простой вопрос: где все-таки заканчивается ML и начинается AI для задачи коммивояжера и вообще? Мне кажется, ответ пролегает где-то рядом с проростанием механизма внимания, который в 2014 году был предложен Dzmitry Bahdanau (извиняюсь, не знаю, как правильно писать по-русски его фамилию). Безусловно, были работы Хопфилда, получившего в 2024 Нобелевскую премию по физике, в том числе, за свою архитектуру нейронной сети, которая способна решать задачу коммивояжера. Были и другие работы, но, в случае разбора еще одного алгоритма из прошлого века, боюсь, нарваться на обратную связь в стиле: “дядь, не мороси, давай уже там про свой ИИ пиши, а не вот эти свои нафталиновые алгоритмы описывай”, поэтому про нейронную сеть Хопфилда готов написать, но только если будет ощутимая обратная связь.

Механизм внимания был предложен как способ улучшить seq-to-seq модели, применяемых для перевода текста с одного языка на другой. Кто бы мог подумать, но токены слов можно заменить координатами городов и попробовать решить задачу TSP той же моделью. В конце концов человек тоже использует одно и тоже серое вещество для решения разных задач. Первые попытки реализации этой идеи подразумевали наличие оптимального эталонного маршрута в виде, например, посчитанного решения Concorde. Но позже появилась идея использования техники обучения с подкреплением или Reinforcement learning. Таким образом, появилась нейронная сеть Pointer Networks, о которой собственно я и хотел сегодня поговорить.

Читать далее

Как R облегчает мою жизнь разработчика

Уровень сложностиСредний
Время на прочтение23 мин
Охват и читатели8.2K

Как разработчик я ежедневно сталкиваюсь с большим количеством данных, которые нужны для принятия каких‑либо решений. Логи, конфиги, данные профилирования, аналитические выгрузки из БД и даже сведения о том, когда был написан данный код — это всё данные. Иногда бывает достаточно посмотреть глазами, и картина станет ясной. Но чем больше данных, тем меньше помогает «метод пристального взгляда», и тем нужнее какие‑то инструменты анализа.

Иногда можно собрать нужную информацию, просто скомбинировав несколько линуксовых команд пайпом (cat data.log | grep … | awk … | sort | uniq -c | sort -r | head), иногда пригодятся электронные таблицы, иногда проще написать небольшую программку для анализа данных. Но когда я освоился с языком R и его экосистемой, то всё это стало ненужным.

Читать далее

Алгоритм Кристофидеса-Сердюкова

Уровень сложностиСредний
Время на прочтение9 мин
Охват и читатели5K

В прошлой заметке я коснулся принципа работы некоторых популярных алгоритмов неточного решения задачи коммивояжера (TSP). Материал получился объемным и сунуть туда еще одно описание алгоритма было бы чрезмерностью. Тем не менее, считаю важным рассказать еще об одном решении, которое носит название - Алгоритм Кристофидеса-Сердюкова. Причины, по которым мне хочется об этом поговорить следующие:

1. Речь идет про алгоритм, который часто используется в качестве бенчмарка при оценке эффективности поиска решений сетками с использованием трансформеров, например в работе TranSPormer: A Transformer Network for the Travelling Salesman Problem и не только

2. Несмотря на то, что алгоритм назван в честь русского математика в русскоязычном сегменте интернета не так много публикаций на эту тему, можно отметить статью Сердюкова от 1978 и упоминание в Википедии

3. Наконец, алгоритм просто красив. Понимаю, что математическая эстетика – это нечто скрытое в глубине вещей и недоступное суетливому взору, но верю, что и такая категория красоты найдет своего читателя.

Читать далее

AI для аналитики

Уровень сложностиПростой
Время на прочтение11 мин
Охват и читатели3.5K

Случается, что мои знакомые и друзья внезапно возбуждаются на тему ИИ и начинают тревожно звонить с вопросами: ну что там с ИИ? Уже случилась революция? Пора всех увольнять и срочно заменять чат-ботами?

Уволить конечно можно, особенно бездельников и когда на заводах/пароходах работать некому, но касаемо реальных бизнес-кейсов с ИИ все не то чтобы прям заладилось. Бизнес конечно по-прежнему возбуждается и визионирует на конференциях, но реальные проекты пока драйвово буксуют, а ванильный AI-вайб начинает попахивать болотной тиной.

Надо с этим что-то делать и срочно насыпать каких-нибудь корповых бизнес-кейсов и потом к этим кейсам прикрутить какую-нибудь новую ИИ-штуку чтобы вернуть радугу приунывшим единорогам.

Читать далее

Запуск R-скриптов в Docker

Уровень сложностиПростой
Время на прочтение9 мин
Охват и читатели1.4K

Это любительский перевод статьи «Running your R Script in Docker», опубликованной на сайте STATWORX. Оригинал статьи объясняет, как настроить и запустить R-скрипт внутри Docker-контейнера, делая код воспроизводимым, изолированным и готовым к автоматическому выполнению.

Перевод предназначен для тех, кто интересуется интеграцией R и Docker. В статье освещаются основные этапы создания Docker-образа с R-скриптом, его настройка и запуск.

Мой канал

Читать далее

Текстовый анализ в R через quanteda и tm

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели874

Привет, Хабр!

В этой статье я расскажу вам о том, как можно анализировать текстовые данные в R, используя библиотеки quanteda и tm.

Читать далее
1
23 ...

Вклад авторов