Articles / Bookmarks / Profile of Evv8 / Habr

Валентина Ендовицкая@Evv8^{read⁠-⁠only}

Developer

ProfileBookmarks61

1appleapple0 Nov 18 2018 at 12:50

VotingClassifier в sсikit-learn: построение и оптимизация ансамбля моделей классификации

6 min

12K

Machine learning * Algorithms * Python *

From sandbox

В рамках реализации большой задачи по Sentiment Analysis (анализ отзывов) я решил уделить некоторое время дополнительному изучению её отдельного элемента — использованию VotingClassifier из модуля sklearn.ensemble как инструмента для построения ансамбля моделей классификации и повышению итогового качества предсказаний. Почему это важно и какие есть нюансы?

Читать дальше →

vradchenko Mar 27 2017 at 11:28

Открытый курс машинного обучения. Тема 5. Композиции: бэггинг, случайный лес

28 min

315K

Open Data Science corporate blogPython * Algorithms * Mathematics * Machine learning *

Пятую статью курса мы посвятим простым методам композиции: бэггингу и случайному лесу. Вы узнаете, как можно получить распределение среднего по генеральной совокупности, если у нас есть информация только о небольшой ее части; посмотрим, как с помощью композиции алгоритмов уменьшить дисперсию и таким образом улучшить точность модели; разберём, что такое случайный лес, какие его параметры нужно «подкручивать» и как найти самый важный признак. Сконцентрируемся на практике, добавив «щепотку» математики.

UPD 01.2022: С февраля 2022 г. ML-курс ODS на русском возрождается под руководством Петра Ермакова couatl. Для русскоязычной аудитории это предпочтительный вариант (c этими статьями на Хабре – в подкрепление), англоговорящим рекомендуется mlcourse.ai в режиме самостоятельного прохождения.

Видеозапись лекции по мотивам этой статьи в рамках второго запуска открытого курса (сентябрь-ноябрь 2017).

Список статей серии

Читать дальше →

+51

BigBadCucumber Dec 23 2022 at 09:19

Yolo на мобильном без постобработки

6 min

7.7K

Java * Python * Machine learning * Development for Android *

From sandbox

Столкнулся я как-то с проблемой распознавания упорядоченных последовательностей объектов на мобильных устройствах. Идея использовать YOLO пришла довольно быстро, так как модель хорошо подходила по многим параметрам. Я экспортировал обученную модель и с грустью осознал, что она выдает не прошедшие фильтрацию боксы, классы и скоры, а нечто, не поддающееся первичному визуальному анализу.

erogov Sep 8 2021 at 20:31

Запросы в PostgreSQL: 3. Последовательное сканирование

16 min

24K

Postgres Professional corporate blogSQL * PostgreSQL *

В предыдущих статьях я рассказал об этапах выполнения запросов и о статистике.

Теперь пришла пора рассмотреть самые важные узлы, из которых может состоять план. Я начну со способов доступа к данным, и в этой статье расскажу о последовательном сканировании.

В прошлый раз я показывал, как на основе статистики вычисляется кардинальность, а в этой и следующих буду демонстрировать, как рассчитывается стоимость узлов плана. Не то, чтобы конкретные формулы оценки имели большое значение для понимания деталей работы планировщика, но мне хочется показать, что все цифры выводятся из статистики без привлечения черной магии.

+16

honyaki Aug 22 2021 at 13:41

Как мы использовали расширенную статистику Postgres и ускорились в 2850 раз

9 min

14K

Skillfactory corporate blogServer optimization * Programming * PostgreSQL * Website development *

Translation

В этом переводе к старту курса по Fullstack-разработке на Python напоминаем о том, насколько важно знать технологии в деталях, грамотно применять их и планировать работу в целом. Цифра 2850 в заголовке — не преувеличение: ранее занимавший две минуты запрос в базе данных компании Affinity сегодня выполняется за 42 миллисекунды. Подробности, как всегда, под катом. А если вам нужен план развития навыков с большим количеством практики, вы можете обратить внимание на наши курсы.

+19

Farruh7 Nov 2 2021 at 17:06

Байесовская Сеть Доверия Применительно IoT

5 min

OTUS corporate blogMathematics * Machine learning * Artificial IntelligenceIOT

Tutorial

Привет, Хабр. В предыдущей статье рассматривали методы и алгоритмы Обнаружения и Диагностики Неисправностей (ОДН) IoT устройств. Как логическое продолжение рассмотрим Байесовскую Сеть Доверия (БСД) для IoT устройств целю ОДН.

Байесовская сеть доверия (англ. Bayesian Belief Network, BBN) — это вероятностная модель, представляющая собой множество переменных и их вероятностных зависимостей. БСД используются для моделирования предметных областей, которые характеризуются неопределенностью. Эта неопределенность может быть обусловлена недостаточным пониманием предметной области, неполным знанием ее состояния в момент принятия решения, случайным характером механизмов, определяющих поведение этой области, или комбинацией этих факторов. Например, БСД может быть использована для вычисления вероятности того, в чем причина не исправности устройства основываясь на данных по полученных из датчиков и поведением устройства в целом. Таким образом строиться зависимости между сигналами и неисправности устройства.

abbey Jan 6 2022 at 09:19

Исчерпывающее руководство Getting Things Done (GTD) метода с примерами

10 min

241K

GTD * Interfaces * Product Management * Project management * Reading room

Translation

В данной статье вы узнаете о методе, помогающем привести в порядок все ваши дела от самых крупных и важных, до тех, что еще только появились в голове.

Я и сама не понаслышке знаю, как сложно перейти от мыслей и планирования к реальным действиям, как не только организовать первостепенные задачи, но и не упустить из вида ценные детали информации.

Я подробно разберу на практике все шаги Getting Things Done метода и вы получите четкую инструкцию к действию (Как привести дела в порядок). Вы сможете не только эффективно организовать свои дела, но и найти больше возможностей для создания новых идей, применяя данную инструкцию на практике.

Читать дальше →

+12

Margarita-3M Dec 31 2021 at 13:29

Теорема Байеса: просто о сложном

8 min

74K

Mathematics * Machine learning * Statistics in IT

From sandbox

Translation

В этой статье мы рассказываем об основах и применении одного из самых мощных законов статистики - теоремы Байеса.

Мы продемонстрируем применение правила Байеса на очень простом, но практичном примере тестирования на наркотики и реализуем расчеты на языке програмирования Python. Мы также проиллюстрируем, как ограничения теста влияют на прогнозируемую вероятность и что в тесте необходимо улучшить, чтобы получить результат с высокой степенью достоверности.

Мы также покажем истинную силу байесовских рассуждений и как несколько байесовских вычислений можно объединить в цепочку, чтобы вычислить общую апостериорную вероятность.

+17

val6852 Mar 14 2023 at 12:25

Визуализация архитектуры модели PyTorch

Easy

5 min

12K

Python * Machine learning * Artificial Intelligence

Tutorial

Translation

PyTorch — это библиотека для глубокого обучения. Вы можете создавать очень сложные модели глубокого обучения с помощью PyTorch. Однако бывают случаи, когда вам нужно иметь графическое представление архитектуры вашей модели.

В этом посте вы узнаете:

Как сохранить модель PyTorch в формате обмена

Как использовать Netron для создания графического представления.

honyaki Oct 23 2022 at 19:25

Что нужно знать, чтобы вдохнуть жизнь в вашу визуализацию

8 min

4.8K

Skillfactory corporate blogReading roomData visualization *

Translation

Цвет одинаково важен в любом дизайне и визуализации данных. Он не только «задаёт тон», но и меняет восприятие. Цвет воздействует на уровне подпорогового внимания. Визуальные свойства этого уровня воспринимаются моментально и не требуют обдумывания. Они влияют на восприятие незаметно. Этот процесс бессознателен и обусловлен культурой и опытом. У разных людей восприятие различается. К счастью, есть руководства, помогающие внимательно относиться к цвету; я рекомендую посмотреть Color in Culture graph от Дэвида Маккэдлеса. Подробности — к старту нашего флагманского курса по Data Science.

Читать дальше →

+10

Andrey3302 Oct 23 2022 at 22:37

Как составить базу знаний (Как не умереть в море обучающих материалов )

4 min

15K

Kotlin * Development for Android * Studying in IT

Technotext 2022

From sandbox

О том, как не потеряться в огромной куче информации и как ее структурировать (не скажу что правильно, но хоть какой то шаблон).

Так же много полезных ссылок, как в самой статье, так и в базе знаний (кликабельность).

Оценить "базу знаний"

NewTechAudit Oct 24 2022 at 05:58

Визуализация данных с помощью Metabase

4 min

90K

Data Engineering * Data storage * Data visualization * SQL *

Привет, Хабр!

Сегодня я рассмотрю основные возможности BI-инструмента с открытым исходным кодом Metabase.

OlegSivchenko Oct 16 2022 at 19:23

Бессмертная жизнь Лены Сёдерберг

7 min

27K

Image processing * History of ITPopular science

Думаю, большинству читателей доводилось хотя бы мельком видеть фотографию этой девушки, и многие припоминают, что модель зовут Лена. Я впервые столкнулся с этим снимком в лаборатории Антона Савельева в СПИИРАН, нынешнем СПБ ФИЦ РАН, где работал условным «техническим писателем и литературным редактором англ.-рус.», помогая ребятам готовить статьи на конференции, заявки на гранты и перемалывать прочий контент, требовавший внятной подачи по-английски или по-русски. Несколько позже, уже на Хабре, у меня завязалось виртуальное, а впоследствии и реальное знакомство с @Loriowar. Рассказывая о своём становлении в профессии, он, в частности, написал:

«В программинг пришёл просто: на лабе по цифровой обработке сигналов в очередной раз безжалостно издевался над Леной (https://en.wikipedia.org/wiki/Lenna), жал её по-всякому и прочие непотребства совершал. Естественно, не забывая в красках описывал это в отчёте, который никто не просил делать. За это и позвали биллинг пилить на руби, ибо препод был генеральным директором компании».

Это Лена Сёдерберг, шведка (род. 1951), заглавное фото которой появилось на обложке ноябрьского номера "Playboy" за 1972 год. Также на центральном развороте этого журнала она изображена в гораздо более откровенном образе. Всемирную известность получила верхняя часть центрального снимка (512 x 512 пикселей). Считается, что именно эта картинка была первым изображением, переданным с компьютера на компьютер в сети ARPANET. Со временем лицо Лены превратилось в эталонный образец для компьютерной обработки изображений.

+65

honyaki Oct 3 2022 at 19:33

Откуда берётся квантовая неопределённость?

10 min

22K

Skillfactory corporate blogPopular sciencePhysics

Translation

Даже такой простой объект, как атом, проявляет квантовую неопределённость. Если спросить, «где отдельный электрон находится прямо сейчас?», ответ можно дать лишь с определённой, ограниченной точностью.

Как бы мы ни совершенствовали своё измерительное оборудование, отдельные квантовые свойства остаются в известной мере неопределёнными. Догадываетесь, почему? Подробности — к старту нашего флагманского курса по Data Science.

Посмотреть

rikki_tikki Sep 16 2022 at 14:15

Как использовать тип JSONB в PostgreSQL с Hibernate

6 min

54K

OTUS corporate blogJava * Programming * PostgreSQL *

Translation

Многие СУБД, помимо поддержки стандарта SQL, предлагают дополнительную проприетарную функциональность. Одним из таких примеров является тип данных JSONB в PostgreSQL, позволяющий эффективно хранить JSON-документы.

Конечно, хранить JSON-документ можно и в виде простого текста — это входит в стандарт SQL и поддерживается Hibernate и JPA. Но тогда вам не будут доступны возможности PostgreSQL по обработке JSON, такие как валидация JSON и другие интересные функции и операторы. Хотя, вероятно, вы об этом уже знаете, раз читаете этот пост.

Если вы хотите использовать колонку типа JSONB с Hibernate 6, то у меня для вас отличные новости. В Hibernate 6 появился стандартный маппинг атрибутов сущностей на колонки JSON — необходимо только его активировать. К сожалению, Hibernate 4 и 5 не поддерживают JSON-маппинг, поэтому при их использовании придется реализовать UserType. Мы рассмотрим оба варианта.

kucev Sep 19 2022 at 08:34

Подготовка датасета для машинного обучения: 10 базовых способов совершенствования данных

14 min

51K

Big Data * Data Mining * Artificial IntelligenceMachine learning * Image processing *

Translation

У Колумбийского университета есть хорошая история о плохих данных. Проект в сфере здравоохранения был нацелен на снижение затрат на лечение пациентов с пневмонией. В нём использовалось машинное обучение (machine learning, ML) для автоматической сортировки записей пациентов, чтобы выбрать тех, у кого опасность смертельного исхода минимальна (они могут принимать антибиотики дома), и тех, у кого опасность смертельного исхода высока (их нужно лечить в больнице). Команда разработчиков использовала исторические данные из клиник, а алгоритм был точным.

Но за одним важным исключением. Одним из наиболее опасных состояний при пневмонии является астма, поэтому врачи всегда отправляют астматиков в отделение интенсивной терапии, что приводило к минимизации уровня смертности для этих пациентов. Благодаря отсутствию смертельных случаев у астматиков в данных алгоритм предположил, что астма не так уж опасна при пневмонии, и во всех случаях машина рекомендовала отправлять астматиков домой, несмотря на то, что для них риск осложнений при пневмонии был наибольшим.

ML сильно зависит от данных. Это самый критически важный аспект, благодаря которому и возможно обучение алгоритма; именно поэтому машинное обучение стало столь популярным в последние годы. Но вне зависимости от терабайтов информации и экспертизы в data science, если ты не можешь понять смысл записей данных, то машина будет практически бесполезной, а иногда и наносить вред.

Читать дальше →

honyaki Sep 19 2022 at 19:57

Как я научил нейросеть распознавать каракули. Введение

10 min

11K

Skillfactory corporate blogPopular scienceMachine learning * Artificial IntelligenceC# *

Translation

К старту нашего флагманского курса по Data Science делимся расшифровкой видео от Себастьяна Лагу — разработчика игр, тьютора и популяризатора IT, который на своём YT-канале собрал уже около миллиона подписчиков. За подробностями, объяснениями и иллюстрациями от автора приглашаем под кат.

Прочитать первую часть

+36

alejes Sep 20 2022 at 07:01

Как Яндекс перепридумал поиск для разработчиков

9 min

41K

Яндекс corporate blogSearch engines * Programming * Algorithms * Machine learning *

Technotext 2022

У вас бывало, что открываешь поиск, ищешь что-то по программированию и не находишь ответ? Тогда эта история для вас.

Меня зовут Алексей Степанов, я руковожу службой исследований машинного обучения поиска Яндекса. Сегодня я расскажу непростую историю. Она про проблему, до решения которой у нас слишком долго не доходили руки. Из поста вы узнаете, почему стандартная метрика качества поиска не учитывала интересы разработчиков и как мы её улучшили. Расскажу про новую нейросеть CS YATI, обученную понимать таких же айтишников, как и мы. Ну и про грабли на нашем пути тоже расскажу, куда без них.

Этот пост основан на моём докладе с Data Fest 2022, но не во всём (мой коллега Максим Хурсанов @Maxim2207 существенно расширил историю).

+85

crazyfrogspb1 Sep 20 2022 at 08:50

Управление изменениями в ML-разработке

5 min

1.5K

Machine learning * Development Management * Artificial Intelligence

В июне 2019 года открылся наш ML-отдел, и я решил, что неплохо будет попробовать поработать по Скраму. Неплохая идея, ведь правда?

Команда абсолютно новая, тимлидского опыта у меня было не так много, а начать с чего-то нужно....

Честно и прилежно мы попытались внедрить все принципы, практики и ритуалы из гайда и книжек. Это был интересный опыт, но буквально через год мы от Скрама мы отказались, о причинах я когда-то рассказывал на Датафесте, да и вообще я теперь считаю его узким инструментом, применимым в весьма ограниченном количестве ситуаций.

Решение это далось непросто, все привыкли работать по Скраму, и от команды посыпались вопросы - что делать с эстимейтами, как приходить к общему контексту без скрам-покера, как будем измерять выгоду или потери от перехода на канбан? Изменения - это всегда сложно, недаром теме change management посвятили целый сезон конфы Podlodka Teamlead Crew. Эта статья про то, как мы генерируем предложения и внедряем изменения у нас в отделе.

krasnov_anton Sep 20 2022 at 19:56

Актуальные проблемы интерпретации медицинских данных

5 min

2.9K

IT-companiesArtificial IntelligenceMachine learning *

From sandbox

Привет, Хабр! Думаю, все здесь в курсе, что данные — это новая нефть. Однако нефть мало чего стоит сама по себе, нужно уметь ее перерабатывать. Если говорить об использовании искусственного интеллекта в радиологии, то самое важное — объективность интерпретации данных.

В теории все звучит достаточно просто: врачи размечают данных, полученная информация загружается в единую базу, нейронные сети сопоставляют сведения и выносят вердикт. Однако на практике разработчики медицинского ИИ сталкиваются с множеством проблем, которые затрудняют процесс интерпретации.

Внедрение программного обеспечения на базе ИИ в здравоохранение — очень сложный процесс. Если делать это неправильно — стартап на верном пути к провалу. В чем заключается сложность и как мы в «Цельсе» с ней героически боремся — читайте под катом.

2 3