Articles / Bookmarks / Profile of Valehavl / Habr

@Valehavl

User

Profile Publications Comments 12Bookmarks 4

Doctor_IT Oct 4 2022 at 12:03

Баттл «художников»: сравниваем Midjourney, DALL-E 2 и Stable Diffusion

7 min

35K

Selectel corporate blogThe future is hereMachine learning*Popular science

Текстов про Midjourney, DALL-E 2 и Stable Diffusion много: их обозревали и даже сравнивали с дизайнерами. Мы решили пойти дальше и устроить между ними баттл: проверить, как нейросети генерируют литературных персонажей, исторических личностей, абстракции и другое. Что из этого получилось — показываем под катом.

Читать дальше →

+55

JetHabr Oct 8 2019 at 15:00

Обзор методов отбора признаков

7 min

40K

Инфосистемы Джет corporate blogMachine learning*Algorithms*

Translation

Правильный отбор признаков для анализа данных позволяет:

повысить качество моделей машинного обучения с учителем и без,
уменьшить время обучения и снизить требуемые вычислительные мощности,
а в случае входных данных высокой размерности позволяет ослабить «проклятие размерности».

Оценка важности признаков необходима для интерпретации результатов модели.

Мы рассмотрим существующие методы отбора признаков для задач обучения с учителем и без. Каждый метод проиллюстрирован open source-реализацией на Python, чтобы вы могли быстро протестировать предложенные алгоритмы. Однако это не полная подборка: за последние 20 лет было создано множество алгоритмов, и здесь вы найдёте самые основные из них. Для более глубокого исследования ознакомьтесь с этим обзором.

Читать дальше →

+33

Distem Aug 24 2018 at 11:40

Как мы сократили время на разработку скоринговых моделей в пять раз, переключившись на Python

10 min

23K

ID Finance corporate blogData Mining*Python*Machine learning*

Сейчас все очень много говорят про искусственный интеллект и его применение во всех сферах работы компании. Однако есть некоторые области, где еще с давних времён главенствует один вид модели, так называемый «белый ящик» — логистическая регрессия. Одна из таких областей – банковский кредитный скоринг.

Читать дальше →

+10

DS_voyager Dec 6 2021 at 09:01

Устраняем мультиколлинеарность признаков в ML при помощи графов

8 min

27K

AB Digital corporate blogPython*Machine learning*

Залогом успешного применения ML к конкретной бизнес-задаче является не только правильно подобранная модель, но и признаки, на которых модель обучается. Давайте на примере задачи поведенческого банковского скоринга разберёмся в том, почему важно уделять внимание мультиколлинеарности признаков в линейных моделях и научимся от неё избавляться.

Признаки — это набор данных, который описывает изучаемое в задаче явление. Не все признаки могут быть полезны, поэтому их отбор является важным этапом моделирования. Есть много причин, по которым включение тех или иных признаков в модель может привести к неудовлетворительным результатам. Одна из них — мультиколлинеарность.

Мультиколлинеарность — явление, при котором наблюдается сильная корреляция между признаками. Чтобы оценить степень корреляции между парой количественных признаков, вычисляют, например, коэффициент корреляции Пирсона — меру линейной связи между ними. Если абсолютное значение коэффициента превышает некоторый порог, то можно говорить о наличии сильной корреляции между признаками. На практике пороговое значение зависит от задачи и находится в диапазоне от 0.6 до 1.0.

Например, у нас есть два признака: зарплата в рублях и зарплата в долларах. Очевидно, что два этих признака зависимы и между ними существует линейная связь. Коэффициент корреляции Пирсона для них будет равен 1, поэтому включение этой пары в множество признаков для моделирования приведет к мультиколлинеарности.

+14