Миллион книг и как их не читать / Habr

Мир и любовь братьям-айтишникам от гуманитариев!

Решила поведать о том, как IT применяются (с пользой!) в сфере гуманитарных наук.

Million books — название проекта Google по оцифровке книг, результаты которого все видят в Google Books. Миллион книг был успешно переведён в электронный формат в 2007 году. Теперь новая задача Google — оцифровать 30 миллионов книг.

А перед гуманитариями встал новый вопрос: что теперь делать со всем этим морем литературы? Что делать с миллионами книг, которые публикуются в наше время?

Во-первых, ясно, что прочитать миллион книг нельзя.
Во-вторых, ясно, что гуманитарий прочитать это должен.
Ведь принципиальное отличие гуманитария от естественника — обязанность быть в курсе всего объёма художественной литературы. Пусть ты не читал «Калевалу», но ты должен представлять себе, о чём это и как это.

Что же делать?

Конечно, призвать на помощь новые технологии. В первую очередь — дата-майнинг. Для этого в Northwestern University и Университете Иллинойса стартовал проект MONK.

MONK состоит из базы данных и программ, обнаруживающих повторяющиеся паттерны в текстах. Программа MorphAdorner отслеживает связки между отдельными словами и предложениями, частями речи и лексемами. Она также учитывает разнообразие диалектов. Программа способна к обучению и самообучению, классификации текстов и вычислению вероятностей (например, по частоте появления слова в нескольких текстах вычислить вероятность появления текста в следующем). Таким образом с помощью этого инструмента можно получить своеобразную ДНК любого текста.

Можно обнаружить и основной лингвистический паттерн групп текстов, объединённых по одному признаку: например, ДНК текстов, написанных женщинами между 1790 и 1900 годом, выглядит вот так:

А ДНК текстов, написанных мужчинами того же периода — вот так:

Сейчас на MONK возлагают большие надежды. Например, с его помощью надеются определять авторство сомнительных текстов, выяснять год написания текста, и даже пол автора. И конечно — это просто избавляет от необходимости прочитать миллион книг, чтобы быть в курсе написанного в них.

При написании был вольно использован следующий источник: How Not to Read a Million Books by Tanya Clement et al.