Articles / Profile of Upgini / Habr

Upgini Oct 20 2025 at 17:25

Инструкция по бесплатной GPT генерации новых фичей для наращивания точности ML модели

Easy

5 min

6.3K

Machine learning * Artificial IntelligenceBig Data * Algorithms * Natural Language Processing *

Tutorial

Translation

Одним из самых важных навыков любого специалиста по данным или ML инженера является умение извлекать информативные признаки из исходного набора данных. Этот процесс называемый feature engineering (инженерия признаков), — одна из самых полезных техник при построении моделей машинного обучения.

Работа с данными требует значительных инженерных усилий. Хотя современные библиотеки вроде scikit-learn помогают нам с большей частью рутинных операций, по-прежнему критически важно понимать структуру данных и адаптировать её под задачу, которую вы решаете.

Создание новых, более качественных признаков позволяет модели лучше улавливать зависимости, отражающие особенности предметной области и влияющие на результаты факторы.

Разумеется, feature engineering — это времязатратный, креативный и нередко утомительный процесс, требующий экспериментов и опыта.

Недавно я наткнулся на интересный инструмент — Upgini. Следуя тренду на использование Large Language Models (LLM), Upgini применяет GPT от OpenAI, чтобы автоматизировать процесс feature engineering для ваших данных.

Подробнее о python библиотеке Upgini можно почитать на GitHub странице проекта. У проекта уже 345 звездных оценок, что является показателем востребованности и полезности функционала.

👉 GitHub - upgini/upgini: Data search library for Machine Learning

Upgini Oct 13 2025 at 16:00

Быстрый поиск полезных внешних данных для улучшения точности ML модели в Python

Easy

6 min

5.3K

Machine learning * Data Mining * Data Engineering *

Tutorial

Translation

Эта статья - пример того как можно с помощью публичных Python библиотек обогатить тестовый датасет новыми внешними полезными данными и значимо улучшить качество ML модели.

Upgini Oct 9 2025 at 07:16

Оптимизация источников данных для ML моделей

Easy

7 min

3.9K

Machine learning * Data Engineering * Data Mining * Big Data *

From sandbox

В этой статье хочется поделиться собственной методикой оптимизации источников данных для кредитного скоринга и представить ключевые результаты реальных замеров на российском рынке.

Инструкция по бесплатной GPT генерации новых фичей для наращивания точности ML модели

Быстрый поиск полезных внешних данных для улучшения точности ML модели в Python

Оптимизация источников данных для ML моделей

Information

Specialization