Обновить
4
0
Максим@Upgini

Создаю и развиваю AI/ML решения

Отправить сообщение

Инструкция по бесплатной GPT генерации новых фичей для наращивания точности ML модели

Уровень сложностиПростой
Время на прочтение5 мин
Охват и читатели6.3K

Одним из самых важных навыков любого специалиста по данным или ML инженера является умение извлекать информативные признаки из исходного набора данных. Этот процесс называемый feature engineering (инженерия признаков), — одна из самых полезных техник при построении моделей машинного обучения.

Работа с данными требует значительных инженерных усилий. Хотя современные библиотеки вроде scikit-learn помогают нам с большей частью рутинных операций, по-прежнему критически важно понимать структуру данных и адаптировать её под задачу, которую вы решаете.

Создание новых, более качественных признаков позволяет модели лучше улавливать зависимости, отражающие особенности предметной области и влияющие на результаты факторы.

Разумеется, feature engineering — это времязатратный, креативный и нередко утомительный процесс, требующий экспериментов и опыта.

Недавно я наткнулся на интересный инструмент — Upgini. Следуя тренду на использование Large Language Models (LLM), Upgini применяет GPT от OpenAI, чтобы автоматизировать процесс feature engineering для ваших данных.

Подробнее о python библиотеке Upgini можно почитать на GitHub странице проекта. У проекта уже 345 звездных оценок, что является показателем востребованности и полезности функционала.

👉 GitHub - upgini/upgini: Data search library for Machine Learning

Читать далее

Быстрый поиск полезных внешних данных для улучшения точности ML модели в Python

Уровень сложностиПростой
Время на прочтение6 мин
Охват и читатели5.2K

Эта статья - пример того как можно с помощью публичных Python библиотек обогатить тестовый датасет новыми внешними полезными данными и значимо улучшить качество ML модели.

Читать далее

Оптимизация источников данных для ML моделей

Уровень сложностиПростой
Время на прочтение7 мин
Охват и читатели3.9K

В этой статье хочется поделиться собственной методикой оптимизации источников данных для кредитного скоринга и представить ключевые результаты реальных замеров на российском рынке.

Читать далее

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность

Специализация

Аналитик по данным, Ученый по данным
Ведущий