Pull to refresh
4
Максим@Upgini

Создаю и развиваю AI/ML решения

Send message

Инструкция по бесплатной GPT генерации новых фичей для наращивания точности ML модели

Level of difficultyEasy
Reading time5 min
Reach and readers6.3K

Одним из самых важных навыков любого специалиста по данным или ML инженера является умение извлекать информативные признаки из исходного набора данных. Этот процесс называемый feature engineering (инженерия признаков), — одна из самых полезных техник при построении моделей машинного обучения.

Работа с данными требует значительных инженерных усилий. Хотя современные библиотеки вроде scikit-learn помогают нам с большей частью рутинных операций, по-прежнему критически важно понимать структуру данных и адаптировать её под задачу, которую вы решаете.

Создание новых, более качественных признаков позволяет модели лучше улавливать зависимости, отражающие особенности предметной области и влияющие на результаты факторы.

Разумеется, feature engineering — это времязатратный, креативный и нередко утомительный процесс, требующий экспериментов и опыта.

Недавно я наткнулся на интересный инструмент — Upgini. Следуя тренду на использование Large Language Models (LLM), Upgini применяет GPT от OpenAI, чтобы автоматизировать процесс feature engineering для ваших данных.

Подробнее о python библиотеке Upgini можно почитать на GitHub странице проекта. У проекта уже 345 звездных оценок, что является показателем востребованности и полезности функционала.

👉 GitHub - upgini/upgini: Data search library for Machine Learning

Читать далее

Быстрый поиск полезных внешних данных для улучшения точности ML модели в Python

Level of difficultyEasy
Reading time6 min
Reach and readers5.3K

Эта статья - пример того как можно с помощью публичных Python библиотек обогатить тестовый датасет новыми внешними полезными данными и значимо улучшить качество ML модели.

Читать далее

Оптимизация источников данных для ML моделей

Level of difficultyEasy
Reading time7 min
Reach and readers3.9K

В этой статье хочется поделиться собственной методикой оптимизации источников данных для кредитного скоринга и представить ключевые результаты реальных замеров на российском рынке.

Читать далее

Information

Rating
Does not participate
Registered
Activity

Specialization

Аналитик по данным, Ученый по данным
Ведущий