Комментарии / Профиль PhySci / Хабр

Пользователь

Пайплайн для создания классификации текстовой информации

@PhySci 21 мая 2023 в 13:53

Отличная статья, описаны все важные этапы.
К сожалению, есть ошибка в валидации. Следите за руками:
1. Весь текст пропускается через Tf-iDF vectorizer (это уже должно насторожить, т.к. может приводить к неявному data leak)

vectorizer = TfidfVectorizer(min_df=30)

vect_x = vectorizer.fit_transform(x)

2. Ко всем данными применяется upsampling

nm = NearMiss()

X_res, Y_res = nm.fit_resample(vect_x, y)

3. На полученном наборе данных подбираются гиперпараметры и обучается лучшая модель

xgbc = XGBClassifier()

xgbc.fit(X_res,[j-1 for j in Y_res])

4. Только теперь выделяется тестовая выборка и на ней оценивается качество.

X_train, X_test, y_train, y_test = train_test_split( vect_x, y, random_state=42, test_size=0.3, stratify=y )

pred_y = xgbc.predict(X_test)

Подвох в том, что на этапе 4 в тестовую выборку попадают примеры, которые на этапе 2 участвовали в upsampling и на этапе 3 участвовали в обучении модели. Т.е. качество модели оценивается на части обучающей выборке и соответственно, качество сильно завышено.

Издевательски точный, быстрый и легковесный поиск баркодов через семантическую сегментацию

@PhySci 26 июл 2019 в 08:34

Отличная статья! Очень вовремя — делаю распознавалку для PDF417.

Кто-нибудь может подсказать python пакет для декодирования PDF417? pyzbar упорно отказывается распознавать именно этот формат ((

Домашняя электросеть

@PhySci 14 ноя 2018 в 18:04

Вряд ли по этой статье можно «въехать» в тему ((
Совершенно не понял, что такое «отключение нейтрали» — отключение отчего и для чего?

Меньше не значит хуже: скирмионы и доменные стенки в феррИмагнетиках

@PhySci 9 ноя 2018 в 10:25

Спасибо за отличную статью на интересную тему. Но справиться с ней может только знакомый с темой специалист. Пара замечаний по тексту:
1) Взаимодействие ДМ отвечает за проявление «слабого ферромагнетизма» (а не слабые проявления);
2) Почему бы не объяснить причину малого поля размагничивания ферримагнетиков? Меньше суммарный магнитный момент — меньше поле размагничивания. Тогда и роль температуры, которая дестабилизирует скирмионы вдалеке от точки компенсации, станет очевидной.

Готовим иерархическую кластеризацию или как я выявлял специализации у резюме

@PhySci 31 окт 2018 в 10:31

Отличное описание реального применения!
Недавно столкнулся с похожей задачей. По-моему, проблему большого количества данных можно решать путём объединения (слияния) отдельных сэмплов, расстояние между которыми близко к нулю.

Нестандартная кластеризация, часть 3: приёмы и метрики для кластеризации временных рядов

@PhySci 28 июл 2018 в 08:17

Отличная статья и отдельное спасибо за библиографию!
Жаль, что статья опубликована только сейчас. Я проходил специализацию ШАД+Яндекс на coursera по ML и выполнял финальный проект по временным рядам, где как раз была задача кластеризации. Что-то пришлось выдумывать самому (кластеризация по Фурье, по стат. признакам и др.), но в целом остался недоволен результатом. После прочтения статьи возникло жгучее желание вернуться к данным и проверить, как описанные методы улучшат качество предсказаний.
Статью однозначно в закладки!

8 навыков, необходимых в профессии Data Scientist

@PhySci 23 мая 2017 в 09:55

Так оно и есть — куча воды и ссылки, ссылки, ссылки… )