Свое (HFLabs), специализируемся на российских данных. Разбиваем все множество записей на сегменты, дальше внутри сегмента сравниваем кандидатов по куче сценариев. С учетом нюансов вроде разночтений в ФИО и частичной похожести адресов на уровне дроби-корпуса-строения-квартиры.
Зарабатывать деньги на том, что приносишь клиентам пользу — намного круче, чем быть мерзкими упырями и обманывать людей (к тому же это противозаконно). На сайте реквизиты компании и оферта с условиями использования, там прописано, как мы обращаемся с данными.
Простите, я не знаю, что такое admin_level (может, речь про AOLEVEL — уровень адресного объекта?) В любом случае, районы мы берем не из ФИАС, а из классификатора ОКАТО.
Да, открытые источники: тот же ФИАС, Россвязь, Росреестр. Датасет с золотыми унитазами и шубохранилищами государство пока не публикует, поэтому без них.
Отличная мысль! Еще рекомендую эти просмотреть, обязательно все: 4224 полезных сервиса для веб-разработчика и дизайнера