Сегодня большие данные в тренде и таком же большом фаворе. Недавно в этой сфере отметился и Ларри Пейдж, который заявил, что будь в открытом доступе больше информации о состоянии здоровья, то благодаря её анализу в следующем году можно будет спасти около 100 000 человек. После Агентства Национальной Безопасности США, Google занимает второе место по объёму хранимых данных. Однако Пейдж, вероятно, несколько поторопился со своим утверждением, особенно в свете того, что крупная программа Google Flu Trends (официальный сайт) продемонстрировала низкую эффективность. Большие данные не являются волшебным инструментом, способным решить все нашим проблемы, и вряд ли Пейджу с их помощью удастся спасти тысячи жизней.

Вопрос конфиденциальности


Этому препятствует несколько факторов. Сама по себе идея анализа больших данных ради сохранения здоровья и жизни людей является очень честолюбивой, однако ни в коем случае нельзя считать это простой задачей. Любой вопрос, в котором замешаны персональные данные людей, требует очень продуманной схемы обеспечения доступа к информации со стороны третьих лиц. Предоставление больших данных для анализа требует обязательного обезличивания, чтобы не было возможности сопоставления информации с конкретными людьми.

Глобализация и повсеместный комплексный сбор информации о населении, по сути, стали чуть ли не само собой разумеющимися. Многие государственные и частные организации ежедневно аккумулируют гигантские объёмы информации о пользователях, в том числе об их поведении в сети. И разработка механизмов регуляции оборота такой информации лежит на государственных организациях. И неизбежные ограничения на распространение личных данных будут являться препятствием и в благом деле своевременного выявления заболеваний на основании медицинских показателей.

Машинный интеллект как инструмент анализа




Своим заявлением Ларри Пейдж проиллюстрировал ложную точку зрения о больших данных, характерную для сильных мира сего. Из его слов можно сделать вывод, что именно недостаток публичной информации приводит к смерти людей в результате тех или иных заболеваний. Но это всего лишь эмоции. Вполне вероятно, часть летальных исходов в системе здравоохранения можно предотвратить, если дать нужную информацию правильным людям. Однако необходимо помнить, что открытие такой информации подразумевает предоставление доступа к большим базам данных для различных организаций. При этом нет никаких аргументов в пользу того, что само по себе предоставление доступа обеспечит «встречу» необходимой информации с нужными людьми.

Раскрытие медицинских данных может быть полезным, но, к сожалению, пока что нет причин считать, что сам по себе автоматизированный анализ больших данных поможет снизить смертность по медицинским причинам. Спекуляции на этой теме обращаются к эмоциям, а не к разуму. Без научной теоретической базы и дальнейших практических шагов, подобный анализ становится бессмысленным.



К сожалению, мы далеко не всесильны, и наши инструменты компьютерного анализа далеки от совершенства. Даже спустя 60 лет после смерти Алана Тюринга его тест остаётся недоступным для всех претендентов на гордое звание «искусственного интеллекта». Даже последняя громкая попытка с участием программы «Евгений Гусман», имитирующей 13-летнего подростка, обернулась провалом. Тактика, заложенная автором программы в своё детище, схожа с той, что использовалась 42 года назад в программе Parry, которая «прикидывалась» параноидальным шизофреником. Также можно вспомнить о программе Eliza, которую было трудно отличить по стилю общения от врача, придерживающегося роджерианской теории (Теория Карла Роджерса).

Многие десятилетия неустанно ведутся работы по созданию искусственного интеллекта, а точнее, обучаемой машины. Немало ярчайших умов участвовало в подобных разработках. Вычислительные мощности до недавнего времени росли экспоненциально, а всемирная сеть дала немало примеров взаимодействия между людьми, на которых можно обучать компьютер. И несмотря на всё это, мизерный прогресс доказывает, насколько сложно трансформировать большие объёмы данных в подобие человеческого интеллекта.

Поэтому, возвращаясь к Пейджу, лучше избегать делать столь громкие заявления о потенциале больших данных. В проекте Google Flu Trends пытались получить информацию о распространении гриппа, собирая данные о случаях, когда люди использовали поисковые запросы со словом «грипп». Но мы снова и снова сталкивались с тем, что компьютеры не способны понять людей и достоверно имитировать особенности нашего поведения.



В качестве примера, подтверждающего этот тезис, можно привести тот факт, что к 11 сентября 2001 года АНБ владело объёмом разведывательной информации, достаточным для предотвращения катастрофы. Но эта организация просто не смогла вовремя соединить все части мозаики. Разоблачения Эдварда Сноудена подтвердили подозрения о том, что АНБ и Центр правительственной связи (разведслужба Великобритании) постоянно собирают разнообразную информацию о гражданах многих стран. Да и не только они. Разведслужбы не раз уже заявляли, что анализ этих больших данных не раз позволял предотвратить серьёзные террористические атаки, но все эти заявления не выдерживают критики при ближайшем рассмотрении. Учитывая вычислительные мощности, доступные АНБ, им пришлось бы в течение 30 лет обрабатывать с помощью искусственного интеллекта информацию, собранную ещё до эпохи интернета. И нет никаких доказательств, что подобные изыскания дали конкретные результаты. По крайней мере, такой информации нет в публичном доступе.

Увы, но ситуация такова, что существующие зачатки технологии «искусственного интеллекта» не позволят спасти чьи либо жизни, анализируя большие данные из сферы здравоохранения. Для правильного сопоставления информации необходимо человеческое умение проводить взаимосвязи, а компьютеры пока не обзавелись такой способностью, несмотря на многолетние усилия и финансовые вливания со стороны многих корпораций.

Постановка диагноза не заключается в простом сопоставлении результатов анализов и текущего состояния организма. Для этого врачи должны задавать пациентам правильные вопросы и принимать решения, влияющие на их жизни. Поэтому анализ больших данных в области медицины только тогда обретёт смысл, когда компьютер сможет самостоятельно «задавать» нужные вопросы и находить на них ответы в массивах информации.