Статьи / Профиль Upgini / Хабр

Upgini 20 окт 2025 в 17:25

Инструкция по бесплатной GPT генерации новых фичей для наращивания точности ML модели

Простой

5 мин

6.3K

Машинное обучение * Искусственный интеллектBig Data * Алгоритмы * Natural Language Processing *

Туториал

Перевод

Одним из самых важных навыков любого специалиста по данным или ML инженера является умение извлекать информативные признаки из исходного набора данных. Этот процесс называемый feature engineering (инженерия признаков), — одна из самых полезных техник при построении моделей машинного обучения.

Работа с данными требует значительных инженерных усилий. Хотя современные библиотеки вроде scikit-learn помогают нам с большей частью рутинных операций, по-прежнему критически важно понимать структуру данных и адаптировать её под задачу, которую вы решаете.

Создание новых, более качественных признаков позволяет модели лучше улавливать зависимости, отражающие особенности предметной области и влияющие на результаты факторы.

Разумеется, feature engineering — это времязатратный, креативный и нередко утомительный процесс, требующий экспериментов и опыта.

Недавно я наткнулся на интересный инструмент — Upgini. Следуя тренду на использование Large Language Models (LLM), Upgini применяет GPT от OpenAI, чтобы автоматизировать процесс feature engineering для ваших данных.

Подробнее о python библиотеке Upgini можно почитать на GitHub странице проекта. У проекта уже 345 звездных оценок, что является показателем востребованности и полезности функционала.

👉 GitHub - upgini/upgini: Data search library for Machine Learning

Upgini 13 окт 2025 в 16:00

Быстрый поиск полезных внешних данных для улучшения точности ML модели в Python

Простой

6 мин

5.3K

Машинное обучение * Data Mining * Data Engineering *

Туториал

Перевод

Эта статья - пример того как можно с помощью публичных Python библиотек обогатить тестовый датасет новыми внешними полезными данными и значимо улучшить качество ML модели.

Upgini 9 окт 2025 в 07:16

Оптимизация источников данных для ML моделей

Простой

7 мин

3.9K

Машинное обучение * Data Engineering * Data Mining * Big Data *

Из песочницы

В этой статье хочется поделиться собственной методикой оптимизации источников данных для кредитного скоринга и представить ключевые результаты реальных замеров на российском рынке.

Инструкция по бесплатной GPT генерации новых фичей для наращивания точности ML модели

Быстрый поиск полезных внешних данных для улучшения точности ML модели в Python

Оптимизация источников данных для ML моделей

Информация

Специализация