Comments 1
Очень неплохой обзор.
Я занимался чем-то подобным, но в плане поиска и обработки исторической статистики. Но в истории все это сложней - основной корпус источников не оцифрован, а если оцифрован, то не в машиночитаемом виде. Но не это главная проблема - главная проблема в основном в том, чтобы правильно определить
сам корпус источников
его достоверность
Потому отпадают и соцсети, и энтузиасты с датасетами, и конторки. Максимум источников, которые можно автоматически собирать - это поиметь историческую статистику от государственных органов (типа демографической), но тоже за ограниченный исторический период.
Там редко бывает проблема с задвоением, постольку поскольку первичный анализ из-за немашинной обработки (ручками и глазками) это отсекает сразу, многомиллионные массивы данных также не встречаются. Обычно все обработано до нас. Но математическая статистика - запросто. Например, в книге Валентин Васильевич Седов "Славяне в древности" очень досконально и алгебраически анализируется частота археологических находок, распределение, вероятностность, сейчас бы такие расчеты я бы программно или тем же Экселем сделал. Много косвенных видов анализа (например, демографические оценки до петровской переписи в18 ека делаются исключительно на косвенных и экстраполяциях- объем налогообложения, количество хозяйств, средний размер хозяйства (по доступным источникам), размер рекрутируемого на те или иные работы, объем торговли, археологическая статистика и т.д. ).
Как гуманитарии используют знания айтишников: Data-журналистика