Pull to refresh
0
Валентина Ендовицкая@Evv8read⁠-⁠only

Developer

Send message

VotingClassifier в sсikit-learn: построение и оптимизация ансамбля моделей классификации

Reading time6 min
Reach and readers12K
В рамках реализации большой задачи по Sentiment Analysis (анализ отзывов) я решил уделить некоторое время дополнительному изучению её отдельного элемента — использованию VotingClassifier из модуля sklearn.ensemble как инструмента для построения ансамбля моделей классификации и повышению итогового качества предсказаний. Почему это важно и какие есть нюансы?
Читать дальше →

Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес

Reading time28 min
Reach and readers315K

Пятую статью курса мы посвятим простым методам композиции: бэггингу и случайному лесу. Вы узнаете, как можно получить распределение среднего по генеральной совокупности, если у нас есть информация только о небольшой ее части; посмотрим, как с помощью композиции алгоритмов уменьшить дисперсию и таким образом улучшить точность модели; разберём, что такое случайный лес, какие его параметры нужно «подкручивать» и как найти самый важный признак. Сконцентрируемся на практике, добавив «щепотку» математики.


UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.


Видеозапись лекции по мотивам этой статьи в рамках второго запуска открытого курса (сентябрь-ноябрь 2017).


Читать дальше →

Yolo на мобильном без постобработки

Reading time6 min
Reach and readers7.7K

Столкнулся я как-то с проблемой распознавания упорядоченных последовательностей объектов на мобильных устройствах. Идея использовать YOLO пришла довольно быстро, так как модель хорошо подходила по многим параметрам. Я экспортировал обученную модель и с грустью осознал, что она выдает не прошедшие фильтрацию боксы, классы и скоры, а нечто, не поддающееся первичному визуальному анализу.

Читать далее

Запросы в PostgreSQL: 3. Последовательное сканирование

Reading time16 min
Reach and readers24K

В предыдущих статьях я рассказал об этапах выполнения запросов и о статистике.

Теперь пришла пора рассмотреть самые важные узлы, из которых может состоять план. Я начну со способов доступа к данным, и в этой статье расскажу о последовательном сканировании.

В прошлый раз я показывал, как на основе статистики вычисляется кардинальность, а в этой и следующих буду демонстрировать, как рассчитывается стоимость узлов плана. Не то, чтобы конкретные формулы оценки имели большое значение для понимания деталей работы планировщика, но мне хочется показать, что все цифры выводятся из статистики без привлечения черной магии.

Читать далее

Как мы использовали расширенную статистику Postgres и ускорились в 2850 раз

Reading time9 min
Reach and readers14K

В этом переводе к старту курса по Fullstack-разработке на Python напоминаем о том, насколько важно знать технологии в деталях, грамотно применять их и планировать работу в целом. Цифра 2850 в заголовке — не преувеличение: ранее занимавший две минуты запрос в базе данных компании Affinity сегодня выполняется за 42 миллисекунды. Подробности, как всегда, под катом. А если вам нужен план развития навыков с большим количеством практики, вы можете обратить внимание на наши курсы.

Читать далее

Байесовская Сеть Доверия Применительно IoT

Reading time5 min
Reach and readers6K

Привет, Хабр. В предыдущей статье рассматривали методы и алгоритмы Обнаружения и Диагностики Неисправностей (ОДН) IoT устройств. Как логическое продолжение рассмотрим Байесовскую Сеть Доверия (БСД) для IoT устройств целю ОДН.

Байесовская сеть доверия (англ. Bayesian Belief Network, BBN) — это вероятностная модель, представляющая собой множество переменных и их вероятностных зависимостей. БСД используются для моделирования предметных областей, которые характеризуются неопределенностью. Эта неопределенность может быть обусловлена недостаточным пониманием предметной области, неполным знанием ее состояния в момент принятия решения, случайным характером механизмов, определяющих поведение этой области, или комбинацией этих факторов. Например, БСД может быть использована для вычисления вероятности того, в чем причина не исправности устройства основываясь на данных по полученных из датчиков и поведением устройства в целом. Таким образом строиться зависимости между сигналами и неисправности устройства.

Читать далее

Исчерпывающее руководство Getting Things Done (GTD) метода с примерами

Reading time10 min
Reach and readers241K
В данной статье вы узнаете о методе, помогающем привести в порядок все ваши дела от самых крупных и важных, до тех, что еще только появились в голове.

Я и сама не понаслышке знаю, как сложно перейти от мыслей и планирования к реальным действиям, как не только организовать первостепенные задачи, но и не упустить из вида ценные детали информации.

Я подробно разберу на практике все шаги Getting Things Done метода и вы получите четкую инструкцию к действию (Как привести дела в порядок). Вы сможете не только эффективно организовать свои дела, но и найти больше возможностей для создания новых идей, применяя данную инструкцию на практике.


Читать дальше →

Теорема Байеса: просто о сложном

Reading time8 min
Reach and readers74K

В этой статье мы рассказываем об основах и применении одного из самых мощных законов статистики - теоремы Байеса. 

Мы продемонстрируем применение правила Байеса на очень простом, но практичном примере тестирования на наркотики и реализуем расчеты на языке програмирования Python. Мы также проиллюстрируем, как ограничения теста влияют на прогнозируемую вероятность и что в тесте необходимо улучшить, чтобы получить результат с высокой степенью достоверности.

Мы также покажем истинную силу байесовских рассуждений и как несколько байесовских вычислений можно объединить в цепочку, чтобы вычислить общую апостериорную вероятность.

Читать далее

Визуализация архитектуры модели PyTorch

Level of difficultyEasy
Reading time5 min
Reach and readers12K

PyTorch — это библиотека для глубокого обучения. Вы можете создавать очень сложные модели глубокого обучения с помощью PyTorch. Однако бывают случаи, когда вам нужно иметь графическое представление архитектуры вашей модели. 

В этом посте вы узнаете:

Как сохранить модель PyTorch в формате обмена

Как использовать Netron для создания графического представления.

Читать далее

Что нужно знать, чтобы вдохнуть жизнь в вашу визуализацию

Reading time8 min
Reach and readers4.8K


Цвет одинаково важен в любом дизайне и визуализации данных. Он не только «задаёт тон», но и меняет восприятие. Цвет воздействует на уровне подпорогового внимания. Визуальные свойства этого уровня воспринимаются моментально и не требуют обдумывания. Они влияют на восприятие незаметно. Этот процесс бессознателен и обусловлен культурой и опытом. У разных людей восприятие различается. К счастью, есть руководства, помогающие внимательно относиться к цвету; я рекомендую посмотреть Color in Culture graph от Дэвида Маккэдлеса. Подробности — к старту нашего флагманского курса по Data Science.

Читать дальше →

Как составить базу знаний (Как не умереть в море обучающих материалов )

Reading time4 min
Reach and readers15K

О том, как не потеряться в огромной куче информации и как ее структурировать (не скажу что правильно, но хоть какой то шаблон).

Так же много полезных ссылок, как в самой статье, так и в базе знаний (кликабельность).

Оценить "базу знаний"

Бессмертная жизнь Лены Сёдерберг

Reading time7 min
Reach and readers27K

Думаю, большинству читателей доводилось хотя бы мельком видеть фотографию этой девушки, и многие припоминают, что модель зовут Лена. Я впервые столкнулся с этим снимком в лаборатории Антона Савельева в СПИИРАН, нынешнем СПБ ФИЦ РАН, где работал условным «техническим писателем и литературным редактором англ.-рус.», помогая ребятам готовить статьи на конференции, заявки на гранты и перемалывать прочий контент, требовавший внятной подачи по-английски или по-русски. Несколько позже, уже на Хабре, у меня завязалось виртуальное, а впоследствии и реальное знакомство с @Loriowar. Рассказывая о своём становлении в профессии, он, в частности, написал:

«В программинг пришёл просто: на лабе по цифровой обработке сигналов в очередной раз безжалостно издевался над Леной (https://en.wikipedia.org/wiki/Lenna), жал её по-всякому и прочие непотребства совершал. Естественно, не забывая в красках описывал это в отчёте, который никто не просил делать. За это и позвали биллинг пилить на руби, ибо препод был генеральным директором компании».   

Это Лена Сёдерберг, шведка (род. 1951), заглавное фото которой появилось на обложке ноябрьского номера "Playboy" за 1972 год. Также на центральном развороте этого журнала она изображена в гораздо более откровенном образе. Всемирную известность получила верхняя часть центрального снимка (512 x 512 пикселей). Считается, что именно эта картинка была первым изображением, переданным с компьютера на компьютер в сети ARPANET. Со временем лицо Лены превратилось в эталонный образец для компьютерной обработки изображений.

Читать далее

Откуда берётся квантовая неопределённость?

Reading time10 min
Reach and readers22K


Даже такой простой объект, как атом, проявляет квантовую неопределённость. Если спросить, «где отдельный электрон находится прямо сейчас?», ответ можно дать лишь с определённой, ограниченной точностью.


Как бы мы ни совершенствовали своё измерительное оборудование, отдельные квантовые свойства остаются в известной мере неопределёнными. Догадываетесь, почему? Подробности — к старту нашего флагманского курса по Data Science.

Посмотреть

Как использовать тип JSONB в PostgreSQL с Hibernate

Reading time6 min
Reach and readers54K

Многие СУБД, помимо поддержки стандарта SQL, предлагают дополнительную проприетарную функциональность. Одним из таких примеров является тип данных JSONB в PostgreSQL, позволяющий эффективно хранить JSON-документы.

Конечно, хранить JSON-документ можно и в виде простого текста — это входит в стандарт SQL и поддерживается Hibernate и JPA. Но тогда вам не будут доступны возможности PostgreSQL по обработке JSON, такие как валидация JSON и другие интересные функции и операторы. Хотя, вероятно, вы об этом уже знаете, раз читаете этот пост.

Если вы хотите использовать колонку типа JSONB с Hibernate 6, то у меня для вас отличные новости. В Hibernate 6 появился стандартный маппинг атрибутов сущностей на колонки JSON — необходимо только его активировать. К сожалению, Hibernate 4 и 5 не поддерживают JSON-маппинг, поэтому при их использовании придется реализовать UserType. Мы рассмотрим оба варианта.

Читать далее

Подготовка датасета для машинного обучения: 10 базовых способов совершенствования данных

Reading time14 min
Reach and readers51K

У Колумбийского университета есть хорошая история о плохих данных. Проект в сфере здравоохранения был нацелен на снижение затрат на лечение пациентов с пневмонией. В нём использовалось машинное обучение (machine learning, ML) для автоматической сортировки записей пациентов, чтобы выбрать тех, у кого опасность смертельного исхода минимальна (они могут принимать антибиотики дома), и тех, у кого опасность смертельного исхода высока (их нужно лечить в больнице). Команда разработчиков использовала исторические данные из клиник, а алгоритм был точным.

Но за одним важным исключением. Одним из наиболее опасных состояний при пневмонии является астма, поэтому врачи всегда отправляют астматиков в отделение интенсивной терапии, что приводило к минимизации уровня смертности для этих пациентов. Благодаря отсутствию смертельных случаев у астматиков в данных алгоритм предположил, что астма не так уж опасна при пневмонии, и во всех случаях машина рекомендовала отправлять астматиков домой, несмотря на то, что для них риск осложнений при пневмонии был наибольшим.

ML сильно зависит от данных. Это самый критически важный аспект, благодаря которому и возможно обучение алгоритма; именно поэтому машинное обучение стало столь популярным в последние годы. Но вне зависимости от терабайтов информации и экспертизы в data science, если ты не можешь понять смысл записей данных, то машина будет практически бесполезной, а иногда и наносить вред.
Читать дальше →

Как я научил нейросеть распознавать каракули. Введение

Reading time10 min
Reach and readers11K

К старту нашего флагманского курса по Data Science делимся расшифровкой видео от Себастьяна Лагу — разработчика игр, тьютора и популяризатора IT, который на своём YT-канале собрал уже около миллиона подписчиков. За подробностями, объяснениями и иллюстрациями от автора приглашаем под кат.


Прочитать первую часть

Как Яндекс перепридумал поиск для разработчиков

Reading time9 min
Reach and readers41K

У вас бывало, что открываешь поиск, ищешь что-то по программированию и не находишь ответ? Тогда эта история для вас. 

Меня зовут Алексей Степанов, я руковожу службой исследований машинного обучения поиска Яндекса. Сегодня я расскажу непростую историю. Она про проблему, до решения которой у нас слишком долго не доходили руки. Из поста вы узнаете, почему стандартная метрика качества поиска не учитывала интересы разработчиков и как мы её улучшили. Расскажу про новую нейросеть CS YATI, обученную понимать таких же айтишников, как и мы. Ну и про грабли на нашем пути тоже расскажу, куда без них.

Этот пост основан на моём докладе с Data Fest 2022, но не во всём (мой коллега Максим Хурсанов @Maxim2207 существенно расширил историю).

Читать далее

Управление изменениями в ML-разработке

Reading time5 min
Reach and readers1.5K

В июне 2019 года открылся наш ML-отдел, и я решил, что неплохо будет попробовать поработать по Скраму. Неплохая идея, ведь правда? 

Команда абсолютно новая, тимлидского опыта у меня было не так много, а начать с чего-то нужно....

Честно и прилежно мы попытались внедрить все принципы, практики и ритуалы из гайда и книжек. Это был интересный опыт, но буквально через год мы от Скрама мы отказались, о причинах я когда-то рассказывал на Датафесте, да и вообще я теперь считаю его узким инструментом, применимым в весьма ограниченном количестве ситуаций.

Решение это далось непросто, все привыкли работать по Скраму, и от команды посыпались вопросы - что делать с эстимейтами, как приходить к общему контексту без скрам-покера, как будем измерять выгоду или потери от перехода на канбан? Изменения - это всегда сложно, недаром теме change management посвятили целый сезон конфы Podlodka Teamlead Crew. Эта статья про то, как мы генерируем предложения и внедряем изменения у нас в отделе.

Читать далее

Актуальные проблемы интерпретации медицинских данных

Reading time5 min
Reach and readers2.9K

Привет, Хабр! Думаю, все здесь в курсе, что данные — это новая нефть. Однако нефть мало чего стоит сама по себе, нужно уметь ее перерабатывать. Если говорить об использовании искусственного интеллекта в радиологии, то самое важное — объективность интерпретации данных.

В теории все звучит достаточно просто: врачи размечают данных, полученная информация загружается в единую базу, нейронные сети сопоставляют сведения и выносят вердикт. Однако на практике разработчики медицинского ИИ сталкиваются с множеством проблем, которые затрудняют процесс интерпретации.

Внедрение программного обеспечения на базе ИИ в здравоохранение — очень сложный процесс. Если делать это неправильно — стартап на верном пути к провалу. В чем заключается сложность и как мы в «Цельсе» с ней героически боремся — читайте под катом.

Читать далее

Information

Rating
Does not participate
Location
Воронеж, Воронежская обл., Россия
Date of birth
Registered
Activity