Как стать автором
Обновить

Комментарии 4

Спасибо за труд! Вынашиваю подобный кейс по бухучету, и буду делать из реального, но путем объединения датасетов нескольких несвязанных крупных фирм, полученных за много лет. Лёгкая анонимизация будет, но хотелось бы не прерывать полет мыслей для обогащения данных, а значит ИНН должны быть валидными, но перепутанными.

Добрый день, я для генерации python Faker's использовал. С обфускацией ИНН проблема - чтобы данные перемешивать - их нужно получить. А их не дадут, как минимум из-за законодательства о ПД :( Проще все же генерить. Важно принципы соблюдать, за распределением смотреть и т.д.

У майкрософта давно есть AdwentureWorksDW. А можно взять датасет для TPC-H тестов аналитических субд. тоже доступен. А данных там завались

Датасет Microsoft я смотрел, он мне не понравился в рамках хакатона. А вот в сторону TPC-H я не догадался посмотреть. Спасибо за наводку.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий