Статьи / Закладки / Профиль voloch / Хабр

@voloch

Пользователь

Профиль Публикации Комментарии 8Закладки 42

pharma_is_my_karma 21 фев в 11:17

Время есть отношение бытия к небытию. Немного слов про Time-to-event analysis

Средний

10 мин

1.5K

Математика*R*

Обзор

Всем доброго дня!

Некоторое время назад нами была написана обзорная статья о методах анализа данных, используемых при разработке инновационных лекарств, и теперь пришло время поподробнее остановиться на отдельных пунктах этой публикации.

Сегодня мы поговорим о таком подходе как анализ выживаемости (survival analysis) или, как его еще называют, анализ времени до наступления события (time-to-event analysis, ТТЕ). Звучит немного зловеще; и действительно: лично я познакомилась с этой методикой, занимаясь оценкой эффекта различных видов терапии на выживаемость пациентов с онкологическими заболеваниями. Забегая вперед, скажу, что сфера применения ТТЕ значительно шире, поэтому ее понимание может пригодиться широкому кругу специалистов. Данная статья освящает наиболее базовые концепции TTE, однако в конце искушенный читатель найдет список более исчерпывающих трудов.

ZlodeiBaal 18 янв в 03:50

«Пора ли гнать на мороз Computer Vision — scientist'ов ?» (Fondation Models и вокруг)

Средний

8 мин

17K

Блог компании RecognitorАлгоритмы*Обработка изображений*Машинное обучение*Искусственный интеллект

Аналитика

Прошлый год в Computer Vision запомнился тем, что появилось множество больших претрейненных сетей (Fondation Models). Самая известная - GPT4v (ChatGPT с обработкой изображений).
В статье я попробую простым языком объяснить что это такое (для тех кто пропустил), как меняет индустрию. Какие задачи стало проще решать. Какие продукты появились в последнее время и появятся в будущем.
И можно ли уже выгнать на мороз лишних "ресерчеров"?!

+65

Hiro_Protagonist 14 авг 2023 в 18:14

Лучшая фантастика последних трех лет по версии Goodreads

5 мин

147K

Читальный залНаучная фантастика

Обзор

GoodrGoodreads — пожалуй, главный книжный сайт англоязычного интернета. Недавно он составил список самых популярных фантастических книг за 2020-2023 годы, опираясь на мнение пользователей. К сожалению, на русский язык переведено далеко не все, однако даже те книги, которые уже можно прочитать в переводе, составляют внушительный список. Вот он.

+54

186

artur_sosnovikov 28 июл 2023 в 16:22

Разбираем особенности алгоритмов CatBoost и LightGBM: какой от них профит

Средний

11 мин

16K

Блог компании ТочкаАлгоритмы*Машинное обучение*Искусственный интеллект

Обзор

Всем привет. Меня зовут Артур. Готовясь к выступлению на внутреннем митапе по теме особенности алгоритмов у CatBoost и LightGBM, я понял, что не смог найти единого места, где были бы понятным языком рассказаны основные особенности того, что алгоритмически работает под капотом у CatBoost и LightGBM. Причём не формальные записи алгоритмов на псевдокоде, а понятные пошаговые инструкции. Так появилась эта статья.

+17

kucev 14 мар 2023 в 10:59

Медицинские датасеты для машинного обучения: цели, типы и способы применения

12 мин

9.1K

Big Data*ЗдоровьеИскусственный интеллектМашинное обучение*Обработка изображений*

Перевод

Международная система здравоохранения ежедневно генерирует множество медицинских данных, которые (по крайней мере, теоретически) можно использовать для машинного обучения. В любой отрасли данные считаются ценным ресурсом, который помогает компаниям обгонять конкурентов, и здравоохранение не является исключением.

В этом посте мы вкратце рассмотрим сложности, с которыми приходится сталкиваться при работе с медицинскими данными, и сделаем обзор публичных медицинских датасетов, а также практических задач, которые они помогают выполнять.

Читать дальше →

antoleb 17 янв 2023 в 00:57

Как работают text2image модели?

6 мин

19K

Обработка изображений*Математика*Машинное обучение*Искусственный интеллект

Обзор

✏️ Технотекст 2023

Вы, наверное, слышали про dalle-2, midjourney, stable diffusion? Слышали о моделях, которые по тексту генерируют картинку. Совсем недавно они продвинулись настолько, что художники протестуют, закидывая в стоки картинки с призывом запретить AI, а недавно, вообще, в суд подали! В этой статье будем разбираться, как такие модели работают. Начнем с азов и потихоньку накидаем деталей и техник генерации.

+77

mastersobg 28 янв 2023 в 15:38

План алгоритмического собеседования: как впечатлить интервьюера и получить работу мечты

13 мин

17K

Программирование*Алгоритмы*Карьера в IT-индустрииИнтервью

При поиске работы программистам часто приходится сталкиваться с алгоритмическим интервью. По моему опыту общения с людьми из индустрии ИТ я заметил, что многие считают, что алгоритмическая секция бинарна: либо алгоритм написан корректно за отведенное время, либо нет. На самом деле всё немного сложнее и во время интервью собеседующий обращает внимание на многие другие аспекты.

Я за свою карьеру имел возможность быть по обе стороны баррикад. С одной стороны я провёл сотни алгоритмических интервью в компаниях, где работал. С другой стороны сам успешно проходил такие интервью и получал оффер в Google, Facebook, Amazon, Uber, Yandex и Mail.Ru.

В этой статье я хочу поделиться с вами как можно структурировать эту секцию, расскажу на что стоит обратить внимание на каждом шаге, как получить дополнительные очки в глазах интервьюера и в целом просто не провалить всё собеседование на ровном месте.

+26

3Dvideo 14 дек 2022 в 13:31

К вопросу о математических способностях студентов или как учить переполненный мозг

23 мин

233K

Программирование*Алгоритмы*Математика*Научно-популярноеБудущее здесь

Я люблю давать простые задачки студентам на лекции. Во-первых, понятно, скольких мы потеряли, во-вторых, это переключение из режима потребления информации в режим выдачи результатов, в третьих — возможность проявить себя для шустрых. Сплошные плюсы!

Одна из простых задач звучит так: «При переводе картинки из цветового пространства RGB в YUV мы выполняем прореживание, то есть выкидываем каждый четный столбец и каждую четную строку в компонентах U и V (все компоненты пикселя по 1 байту). Вопрос: во сколько раз меньше данных у нас стало?» Эта операция называется chroma subsampling и широко используется при сжатии видео, например.

Забавно, что когда-то давно, когда винчестеры были меньше, а дискеты больше, студенты реально отвечали на этот вопрос быстро. А в последние годы регулярно народ в ступор впадает. Приходится разбирать по частям: «Если выкинуть каждую четную строку и каждый четный столбец, во сколько раз меньше данных будет у компоненты?» Почти хором: «В четыре». Начинаю подкалывать: «Отлично! У нас было 3 яблока, первое осталось как есть, а от второго и третьего осталось по четвертинке. Во сколько раз меньше яблок у нас стало?» Народ ржет, но, наконец-то, дает правильный ответ (заметим, не все).

Это было бы смешно, если бы от способности быстро в уме прикинуть результат не зависела способность быстрее создавать сложные алгоритмы.

И хорошо видно, как эта способность в широких массах студентов заметно плавно падает. Причем не только в нашей стране. Придуман даже специальный термин: «цифровое слабоумие» ("digital dementia") — снижение когнитивных способностей, достаточно серьезное, чтобы повлиять на повседневную деятельность человека.

Кому интересно ~~как теряют мозг студенты~~ масштабы бедствия и что с этим делать — добро пожаловать под кат!

+373

795

NewTechAudit 12 сен 2022 в 09:04

Как в условиях недостатка данных улучшить качества классификатора

10 мин

2.7K

Визуализация данных*Машинное обучение*

Туториал

Одна из основных проблем человека, который занимается машинным обучением - данные. Исследователи сталкиваются с плохим качеством данных и/или их отсутствием. Рассмотрим способы улучшение метрик классификатора в условиях малого количества признаков.

В машинном обучении одним из основных критериев успеха является правильная предобработка данных. В условиях отсутствия дополнительных факторов качество классификатора можно улучшить за счет обеспечения монотонности целевой переменной от признаков, а также за счет увеличения порядка пространства признаков.

Katser 9 сен 2022 в 00:04

Обзор метрик обнаружения аномалий (плюс много дополнительной информации)

10 мин

10K

Блог компании РосатомPython*Анализ и проектирование систем*Машинное обучение*Искусственный интеллект

Привет, Хабр! На связи снова Юрий Кацер, эксперт по ML и анализу данных в промышленности, а также руководитель направления предиктивной аналитики в компании «Цифрум» Госкорпорации “Росатом”.

До сих пор рамках рабочих обязанностей решаю задачи поиска аномалий, прогнозирования, определения остаточного ресурса и другие задачи машинного обучения в промышленности. В рамках рабочих задач мне приходится часто сталкиваться с проблемой правильной оценки качества решения задачи, и, в частности, выбора правильной data science метрики в задачах обнаружения аномалий.

Syurmakov 10 мая 2019 в 14:29

Ищем свободное парковочное место с Python

14 мин

64K

Искусственный интеллектБудущее здесьPython*Data Mining*

Перевод

Меня зовут Рушан, и я автор Telegram‑канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие статьи.

Я живу в хорошем городе. Но, как и во многих других, поиск парковочного места всегда превращается в испытание. Свободные места быстро занимают, и даже если у вас есть своё собственное, друзьям будет сложно к вам заехать, ведь им будет негде припарковаться.

Поэтому я решил направить камеру в окно и использовать глубокое обучение, чтобы мой компьютер сообщал мне, когда освободится место:

Это может звучать сложно, но на самом деле написать рабочий прототип с глубоким обучением — быстро и легко. Все нужные составляющие уже есть — нужно всего лишь знать, где их найти и как собрать воедино.

Поэтому давайте немного развлечёмся и напишем точную систему уведомлений о свободной парковке с помощью Python и глубокого обучения

Читать дальше →

+104

mr-pickles 22 авг 2022 в 12:05

4 анти-паттерна pandas и способы борьбы с ними

12 мин

22K

Блог компании Wunder FundAPI*Анализ и проектирование систем*Python*

Перевод

Pandas — это мощная библиотека для анализа данных, API которой обладает широкими функциональными возможностями. Этот API позволяет решить любую задачу, связанную с обработкой данных, несколькими способами. Некоторые из подходов к решению задач лучше других. Часто бывает так, что пользователи pandas узнают о подходах, не отличающихся особой эффективностью, привыкают к ним и постоянно их применяют. Этот материал посвящён разбору четырёх анти-паттернов pandas и рассказу о приёмах работы, которые стоит использовать вместо них.

Автор черпал вдохновение из многих источников, ссылки на которые даны в статье. В частности — из замечательной книги Effective Pandas.

+26

madrugado 17 июл 2017 в 14:03

Чудесный мир Word Embeddings: какие они бывают и зачем нужны?

19 мин

139K

Блог компании Open Data ScienceData Mining*Python*Машинное обучение*Поисковые технологии*

Начать стоит от печки, то есть с постановки задачи. Откуда берется сама задача word embedding?
Лирическое отступление: К сожалению, русскоязычное сообщество еще не выработало единого термина для этого понятия, поэтому мы будем использовать англоязычный.
Сам по себе embedding — это сопоставление произвольной сущности (например, узла в графе или кусочка картинки) некоторому вектору.

Читать дальше →

+36

Laggg 11 авг 2022 в 14:00

Data Science Pet Projects. FAQ

13 мин

55K

Блог компании Open Data ScienceData Mining*Искусственный интеллектМашинное обучение*Управление проектами*

Привет! Меня зовут Клоков Алексей, сегодня поговорим о пет-проектах по анализу данных. Идея написать эту статью родилась после многочисленных вопросов о личных проектах в сообществе Open Data Science (ODS). Это третья статья на Хабре, до этого был разбор алгоритма SVM и анонс крутого NLP курса от ребят из DeepPavlov. В этой статье вы найдете идеи для новых петов и другие полезности. Итак, разберем частые вопросы и дадим определение пет-проекта:

Зачем делать пет-проекты?
Из каких этапов может состоять разработка пет-проекта?
Как выбрать тему и найти данные?
Где найти вычислительные ресурсы?
Как завернуть работающие алгоритмы в минимальный прод?
Как оформить презентабельный вид проекта?
Как и зачем искать коллабораторов?
Когда проходит ODS pet project хакатон?
Где посмотреть примеры пет-проектов и истории участников ODS?

Читать дальше →

+43

Aleron75 3 авг 2022 в 12:00

Feature Engineering или стероиды для ML моделей

6 мин

16K

Блог компании RUVDS.comBig Data*Data Engineering*Python*

Привет, чемпион!

Часто при построении ML моделей мало просто взять сильную модель. Оказывается, иногда грамотная предобработка данных существенно важнее. Сегодня речь пойдёт про feature engineering.

Рассмотрим несколько кейсов на эту тему более подробно. Данные будут упрощённые, но обещаю, от этого примеры не станут менее интересными ?.

Читать дальше →

+38

mr-pickles 28 мар 2022 в 13:05

Путь к пониманию декораторов в Python

11 мин

89K

Блог компании Wunder FundPython*

Перевод

Прим. Wunder Fund: В этой статье разбираемся, что такое декораторы в Python, зачем они нужны, и в чем их прикол. Статья будет полезна начинающим разработчикам.

Материал рассчитан на начинающих программистов, которые хотят разобраться с тем, что такое декораторы, и с тем, как применять их в своих проектах.

+21

wtigga 21 июн 2022 в 14:04

Галлюцинация для улучшения машинного перевода

6 мин

2.3K

Машинное обучение*Искусственный интеллект

Перевод

Краткое описание метода машинного обучения, который представляет, как выглядит текстовое предложение, чтобы локализовать и обосновать его семантику в контексте реального мира, улучшая перевод подобно тому, как это делают люди.

Читать целиком

cointegrated 5 июн 2022 в 22:18

Рейтинг русскоязычных энкодеров предложений

9 мин

27K

Python*Семантика*Машинное обучение*Natural Language Processing*

Энкодер предложений (sentence encoder) – это модель, которая сопоставляет коротким текстам векторы в многомерном пространстве, причём так, что у текстов, похожих по смыслу, и векторы тоже похожи. Обычно для этой цели используются нейросети, а полученные векторы называются эмбеддингами. Они полезны для кучи задач, например, few-shot классификации текстов, семантического поиска, или оценки качества перефразирования.

Но некоторые из таких полезных моделей занимают очень много памяти или работают медленно, особенно на обычных CPU. Можно ли выбрать наилучший энкодер предложений с учётом качества, быстродействия, и памяти? Я сравнил 25 энкодеров на 10 задачах и составил их рейтинг. Самой качественной моделью оказался mUSE, самой быстрой из предобученных – FastText, а по балансу скорости и качества победил rubert-tiny2. Код бенчмарка выложен в репозитории encodechka, а подробности – под катом.

+26

novoselov_am 3 мая 2022 в 15:45

Как избежать «подводных камней» машинного обучения: руководство для академических исследователей

47 мин

18K

Data Engineering*Машинное обучение*Искусственный интеллект

Из песочницы

Перевод

Этот лонг-рид является сильно переработанным и расширенным переводом статьи How to avoid machine learning pitfalls: a guide for academic researchers (Lones, 2021).

Статья является кратким описанием ряда распространенных ошибок, возникающих при использовании методов машинного обучения, и руководством к тому, как их избежать. Материал предназначен в первую очередь для студентов-исследователей и касается вопросов, регулярно возникающих в академических исследованиях, например, необходимости проводить строгие сравнения и делать обоснованные выводы. Однако материал применим к использованию ML и в других областях.

+20

MagisterLudi 22 мая 2022 в 16:31

OSINT самолетов, пароходов и поездов

2 мин

27K

Блог компании Timeweb CloudOpen source*Информационная безопасность*Транспорт

Предлагаем вашему вниманию набор инструментов от мировых профессионалов в области OSINT, которые помогут в ваших поисках информации, связанных с транспортом. Если вы решили заняться автостопом, авиастопом или хотите поймать попутный грузовой корабль, то эти сервисы для вас. Если вам срочно понадобилось отследить самолет Илона Маска или просто послушать переговоры диспетчеров, то тоже найдете тут много полезного.

Водный транспорт

MarineTraffic

Открытый проект, основанный на сообществе, предоставляющий (почти) в режиме реального времени информацию о передвижении судов и их местонахождении в гаванях и портах.

Читать дальше →

+64

2 3