Pull to refresh

Если интересно, этот текст написан человеком

Robotics
Translation
Original author: Steve Lohr
«Висконсин явно вышел на победный путь, выигрывая 51-10 после третьей четверти матча. Команда увеличила своё преимущество, когда Рассел Вилсон нашёл пасом Якоба Петерсена, и тот совершил тачдаун после семиметрового рывка, сделав счёт 44-3».

Этими словами начинается фрагмент новостной заметки, опубликованный через 60 секунд после окончания третьей четверти футбольного матча между университетскими командами Висконсина и Невады. Хотя на первый взгляд трудно понять, но данная заметка полностью написана компьютерной программой.

Генератор журналистских текстов создан в компании Narrative Science, которая ведёт разработки в области искусственного интеллекта.

Программа берёт данные, такие как статистика спортивного матча, финансовые отчёты компаний или данные по продажам недвижимости, и превращает их в газетные статьи. Годами программисты пытались создать подобных роботов-журналистов для спортивного репортажа, но результат не блестящий: тексты получались сухими и было видно, что статья сгенерирована компьютером. Профессор журналистики Крис Хаммонд (Kris Hammond) и профессор компьютерных наук Ларри Бирнбаум (Larry Birnbaum) из лаборатории интеллектуальных систем Северо-западного университета в Иллинойсе работали в этой области десять лет и им удалось-таки добиться качественно лучшего результата. Так в прошлом году появился стартап Narrative Science.

«Мне показалось, это какое-то волшебство, — говорит Роджер Ли, партнёр инвестиционной компании Battery Ventures, которая собрала $6 млн инвестиций для стартапа. — Выглядит словно это написал человек».

Эксперты по системам искусственного интеллекта тоже впечатлены успехами Narrative Science. По их мнению, Narrative Science демонстрирует «увеличение сложности в автоматическом распознавании и, теперь, генерации синтаксических структур».

Инновационная работа Narrative Science поднимает широкий пласт вопросов относительно того, способны ли такие программы ИИ помогать профессиональным журналистам в их работе или заменить их. Высокие технологии уже повлияли на экономическую реальность СМИ, когда из-за онлайновой рекламы упали доходы печатной прессы. Станут ли роботы-журналисты очередным гвоздём в крышку гроба традиционной журналистики?

Руководители Narrative Science смотрят на вещи трезво и позиционируют свою программу исключительно в качестве инструмента для низкобюджетной работы в условиях дефицита времени. На данный момент у компании всего 20 клиентов, причём некоторые из них только экспериментируют с диковинной новинкой. Cреди клиентов традиционные СМИ, которые желают увеличить генерацию контента за счёт новостных заметок о финансовых результатах местных компаний и более полного покрытия спортивных матчей в юношеских лигах.

«Таким образом, мы помогаем писать статьи, которые в ином случае вообще не были бы написаны», — говорит директор Narrative Science, отвечая на вопрос о вытеснении людей-журналистов компьютерными конкурентами.

Например, вышеупомянутая компания The Big Ten Network (BTN) начала использовать генераторы текстов весной 2010 года для коротких заметок о бейсбольных и софтбольных матчах. Они появлялись на сайте через одну-две минуты после окончания игры. Для генерации текстов использовалась итоговая статистика матча и поминутная онлайн-расшифровка хода игры, которая ведётся в реальном времени во всех американских спортивных лигах. Программа со временем совершенствовалась благодаря помощи профессиональных редакторов BTN.

Разработка Narrative Science может делать логические заключения на основе исторических данных, а также последовательности и результатов предыдущих игр. Чтобы сгенерировать осмысленные конструкции, программа использует концепции «индивидуального вклада», «командных усилий», «волевой победы» (выигрыш после отставания в счёте), «растерянного преимущества», «рекордного результата в сезоне», «игроков на подъёме» (которые отличаются несколько матчей подряд), «положения команды» в разных разделах спортивной статистики. Потом программа решает, какой элемент наиболее важен в конкретном матче — и он выбирается для первого абзаца статьи. Собранные данные определяют и выбор слов. Например, в случае большого преимущества в счёте программа может выбрать слово «разгром» вместо «победа».

«Главное — композиция, построение текста, — говорит Крис Хаммонд. — Нельзя просто взять цифры и преобразовать их в слова».

Прошлой осенью BTN расширила использование программы также на футбольные и баскетбольные игры. Этот контент позволяет привлечь огромный трафик с Google по ключевым словам, ведь на этом сайте отчёты об игре появляются раньше, чем у конкурентов, а Google очень высоко ценит оперативный контент на горячие темы. В прошлом году трафик на футбольный раздел BTN вырос на 40% по сравнению с 2009 годом.

Ещё один клиент Narrative Science — издательская и риэлторская фирма Hanley Wood, которая с помощью робота ежемесячно публикует на своём сайте builderonline.com отчёты по состоянию рынков недвижимости в 350 близлежащих городках и районах. Сразу видно, где растут или падают цены, где отмечается изменение объёма сделок. Наём людей, чтобы отслеживать такие тенденции, обходится слишком дорого, а информация востребована.

Этот заказчик работал с Narrative Science несколько месяцев, чтобы настроить программу под специфическую структуру данных, но результат превзошёл все ожидания. Один из руководителей Hanley Wood, в прошлом — профессиональный журналист из агентства Thomson Reuters, признался, что был поражён качеством статей. «Они перешли через большой лингвистический барьер, — замечает он. — Статьи ни в коей мере не похожи друг на друга».

Хотя у них всего 20 клиентов, компания Narrative Science уже сейчас зарабатывает неплохую прибыль. Со своего заказчика Hanley Wood фирма берёт по $10 за каждую статью объёмом в 500 слов (для сравнения в данном тексте 881 слово), то есть около $3500 в месяц. В то же время для сайтов СМИ это очень выгодная сделка — даже дешевле, чем себестоимость статей с фабрик контента вроде Demand Media.

Без сомнения, в будущем качество текстов Narrative Science будет только улучшаться, а стоимость постепенно идёт вниз. В будущем любой желающий сможет использовать подобные программы. По мнению экспертов, это открывает новые горизонты перед журналистикой, поскольку профессиональные репортёры получают в свои руки мощнейший инструмент для дата-майнинга. Можно изучать тему со всех сторон и находить такие взаимосвязи, которые невозможно было даже представить.

Ну а сам Крис Хаммонд с усмешкой цитирует прессу, которая пишет, что через 20 лет компьютер сможет получить Пулитцеровскую премию по журналистике. Профессор считает, что это не так. Компьютер получит премию не через двадцать, а через пять лет, причём награду должны присудить авторам программы.
Tags: Narrative Scienceспортивная журналистикаспортивный репортажспортивная статистикагенерация текстапроизводство контента
Hubs: Robotics
Total votes 79: ↑65.5 and ↓13.5 +52
Comments 47
Comments Comments 47

Popular right now