All streams
Search
Write a publication
Pull to refresh
2
0
Олег Булыгин @obulygin

Data scientist, автор и спикер IT-курсов.

Send message

Игра в имитацию: используем Python для генерации синтетических данных для ML и не только

Level of difficultyMedium
Reading time46 min
Views5.8K

Ручной сбор данных — это всегда боль. Он съедает время, деньги и нервы, особенно в таких областях, как медицина или финансы, где затраты могут быть космическими, а юридические барьеры — непреодолимыми. По прогнозу Gartner, к 2030 году синтетические данные полностью затмят реальные данные в моделях ИИ.Почему? Потому что это работает.

Что такое синтетические данные? Это искусственно созданные наборы данных, которые имитируют реальные данные, но не основаны на реальных событиях или людях. Они генерируются с помощью алгоритмов и математических моделей, которые воспроизводят статистические свойства, паттерны и взаимосвязи, присущие реальным данным. По сути, это цифровые двойники реальности, где мы можем контролировать каждый параметр: от распределений до корреляций и аномалий.

Читать далее

Information

Rating
Does not participate
Location
Россия
Date of birth
Registered
Activity

Specialization

Data Scientist, ML Engineer
SQL
Python
English
Machine learning
Pandas
Data Analysis
Math statistics
MatPlotLib
Teaching in IT
Neural networks