Как стать автором
Обновить

Комментарии 47

Со своего заказчика Hanley Wood фирма берёт по $10 за каждую статью объёмом в 500 слов
500 слов это где-то 3000 знаков? Получается по 3 бакса за килобайт. «Статейщики» с фриланса все еще обходятся дешевле (учитывая «сложность» тематики — написание статьи по полному набору исходных данных).
Дело ведь в оперативности.
Всегда дешевле нанять гастарбайтеров выкопать яму, чем вызвать трактор. Вопрос в надежности и скорости выполнения задачи. Вот только в текстах важен человеческий язык. Вряд ли робот может что то оригинальное выдать.
Вы статью читали? В ней как раз и говорится что компания добилась «человечности» статей:

Один из руководителей Hanley Wood, в прошлом — профессиональный журналист из агентства Thomson Reuters, признался, что был поражён качеством статей. «Они перешли через большой лингвистический барьер, — замечает он. — Статьи ни в коей мере не похожи друг на друга».
«Хули бьет по воротам! (пауза) Хули — это футболист такой.»
Роботы на такое не способны. Это могут только люди, в большинстве случаев наши земляки :)
НЛО прилетело и опубликовало эту надпись здесь
В историю такие статьи, конечно, не войдут. А вот как оперативное снабжение информацией — самое оно. Дешево и сердито.
Уверяю вас, это не всегда так. На неделе выяснял расценки, выкопать кубометр ямы у гастарбайтеров стоит 1000 руб/кубометр. На мою яму вышло 18000 руб. Смена у эскаватора стоит 12000 руб.

Так что все зависит от масштаба задачи.
Офтоп: Кроме объемов следует учитывать еще транспортные расходы. У меня получается так, что припереть тяжелую технику и вернуть ее на место тупо удваивает стоимость работ (там как раз на один день рабочий возни). При этом попытка выполнить такой объем «джамшутами» если и получается дешевле, то незначительно и требует большего времени. А вот если бы мне всего 3-4 куба вынуть нужно было, то вопрос про «джамшут vs техника» бы не возникал.
Хотя конечно было бы интересно взглянуть на то, насколько программа заточена под нужды каждого клиента и какие данные берёт и где хранит каждая такая инсталляция, как реализованы футбольные и баскетбольные термины (количество подборов, передач и пр). Т.е., я боюсь, что уж очень узкая у неё специализация, взглянуть бы на конкретику для подтверждения или опровержения.
Дороговизна программных решений — спасет человечество, и поставит крест на искусственном интеллекте! Даже капчу дешевле человеческим ресурсом обходить, нежили создавать техническое решение. Чего тут говорить о более творческих вещах?
А ведь показательно — одно из первых, что так автоматизировали — спортивные статьи.
Вполнe логично. В данной области нe нужно высокохудожественных изысканий, достаточно более-менее живым языком изложить все факты об игре, и выложить текст в открытый доступ максимально быстро.
Потому что проще всего. Думаю, что вполне реально написать генератор просто на шаблонах.
Набор данных всегда детерминирован:

Возьмем, к примеру, футбольный матч. Какие данные мы имеем:

1. Составы команд
2. Счет (если отчет составляется постфактум)
3. Отчет о событиях матча (удаления, карточки, травмы)
4. Статистика матча (процент владения мячом, кол-во стандартов и т.д.)

Далее набиваем кучу шаблонов в стиле:

В офсайд залез %player_name%. Незаметным он был на футбольном поле во %time_number% тайме.

или

Готовится выйти на футбольное поле %in_player_name%. Заменит он, похоже, %out_player_name%. На нём акцентируют внимания операторы.
Так и есть. %in_player_name% вместо %out_player_name%, которого проводили бурными аплодисментами.

В общем, имея такие данные и кучу шаблонов (которые можно набивать постепенно, отдавая на аутсорс копирайтерам), можно генерировать отчеты о матчах сколь угодно красивые.

Но и это еще не все. Все мы слышали о том, что на одном из ЧМ был применен мяч с датчиком гола. А теперь представьте, что такие датчики встроены не только в мячи, но и в бутсы игроков (например УЕФА/ФИФА обяжет). тогда вообще сказка. Можно выдавать фразы в динамике. Во-первых, в реальном времени можно отслеживать у кого мяч, кто с кем борется за него. Резкое ускорение мяча и игрока одновременно — обострение ситуации, атака, резкое ускорение мяча без игрока — удар по воротам. Я уж не говорю про отслеживание оффсайдов.
Т.е. профессор фигней занимался 10 лет? Надо было на хабр заглянуть, тут ему за 5 минут расскажут как и что надо было делать чтобы получить качественный результат, за который клиенты будут готовы платить деньги?
Перевирать вот только не нужно. Я лишь отвечал на вопрос о спортивных матчах. Его же программа пишет статьи на любые темы.
Я считаю профессор не фигней занимался 10 лет, а преподавал и писал диссертации. А в действительности этот алгоритм достаточно простой, вот пример задачки из книжки 1987 года ( Клоксина У. и Меллиша К.)
«Написать программу психиатр, которая выдает ответы основываясь на ключевых словах, имеющихся во вводимой информации. Типичный диалог такой программы мог выглядеть следующим образом:
— What is your problem?
— This is too much work.
— What else do you regard as too much work?
— Writing letters.
— I see please continue.
— Also washing my mother's car.
— Tell me about your family.
— Why should I?
— Why should you what?

»

Мне тоже не видится в данной задаче ничего не разрешимого. В пример можно привести существующие довольно неплохие спортивные компьютерные комментаторы (в играх) и всякие программы разговорники. А если вливать приличные деньги в проект, то это позволит написать просто большую базу данных правил, благо для спортивных статей, она не должна быть такая уж и большая.
Да они могут преувеличивать. Систему мог сделать недавно, а для красного словца, сказать, что уже 10 лет над этим работает. А на самом деле допустим работал 10 лет над системами искусственного интеллекта, но например конкретно этот алгоритм отношения к нему не имеет.
Да и прибыль что-то не супер какая.
НЛО прилетело и опубликовало эту надпись здесь
alizar палит фишку?
НЛО прилетело и опубликовало эту надпись здесь
Остается открытым вопрос: «сотрудничает ли Narrative Science с Ализаром?» :)
Да он первый из 20)
Лет через 10 вместо «хотя бы в Ворде текст проверяй» будем говорить «Ну ты хотя бы вордом бы его сгенерил»
Похоже грядет новый виток СЕО белиберды в топе.
Не грядёт, там же типичные наборы слов — будет сильное пересечение.
пожалуйста, различайте SEO и CEO, это разные вещи
Ага, а СЕО белиберда это Chief Executive Officer рассказывает сказки акционерам про светлое будущее?
Очень многообещающий младший брад у Сергея Дацюка!

Этот ( rosd.vniz.net/datsuk.html#form ) славный проект бывало был самым вменяемым собеседником после пары-тройки ящиков пива в студенческие годы! :))
Хоть и старичок уже, но излагает ясно — как никогда:

— …
Если же этого нет, то непонятно, почему до сих пор вроде как не подвергалось сомнению. Знакомясь однако с нынешними технологиями манипулирования информацией средств массовой информации, и он теряет свою должность, теряет свой элитный статус. Также трудно объяснить следующий факт: неоднократно от власти официальные издания получают государственную финансовую поддержку в виде всяких привилегий и льгот, но это не значит, что такие посягательства отсутствуют.

Макл Фрейн — Оловянные солдатики:

Научные сотрудники гнули спины над всеобщим экспериментом, демонстрирующим, что теоретически цифровую
вычислительную машину можно запрограммировать на выпуск абсолютно полноценной ежедневной газеты с заметками столь же разнообразными и содержательными, как и старинные, написанные от руки. Изнывая от скуки, сотрудники молча продирались сквозь пачки газетных вырезок — определяли жанр статей и выявляли в них стандартные переменные и постоянные.
За другими столами другие сотрудники переносили переменные и постоянные на карточки и составляли картотеку в такой логической последовательности, что теоретически вычислительная машина могла сама прокладывать себе путь от карточки к карточке и отбирать нужный материал. Как только Голдвассер с коллегами докажет истинность этой теории, из коммерческих соображений ее, без сомнения, поспешат внедрить в жизнь.
Тогда завершится стилизация современной газеты. Прервется последняя, остаточная связь прессы с рыхлым, бестолковым, склочным миром реальности.



Порой Голдвассер давал себе разрядку — притворялся вычислительной машиной и перебирал какой-нибудь готовый комплект карточек, соблюдая те же логические правила и делая тот же случайный отбор, что и вычислительная машина при составлении заметки.



Он выдвинул картотечный ящик и взял оттуда первую карточку комплекта. "По традиции", — стояло на ней. Теперь можно было осуществлять случайную выборку — тащить наугад "коронации", "помолвки", "похороны", "свадьбы", "совершеннолетия", "рождения", "смерти" и «венчания в церкви». Вчера он вытащил "похороны" и был отослан к карточке, где с гениальной простотой значилось "печальное событие". Сегодня он зажмурился, вытащил "свадьбы" и был направлен далее к карточке "событие радостное".
Далее в логической последовательности шли "свадьба мистера Икс" и "свадьба мистера Игрек", и Голдвассеру открылись на выбор варианты "не исключение" и "яркий пример". В обоих случаях напрашивалось слово "поистине". Однако, поистине, от какого варианта ни отталкивайся — от коронаций ли, рождений, смертей, — Голдвассер, явно наслаждаясь как математик, замечал, что при всей элегантности решения тут-то и попадаешь в тупик. Он помедлил на "поистине", затем почти без пауз выхватил "особенно радостное событие", "редкостный" и "видел ли кто-нибудь более прославленную молодую пару?"

Последующие выборки принесли Голдвассеру "Икс снискал (снискала) особую любовь всего народа", и пришлось к этому присоединить карточку "а Игрека английский народ явно принял уже в свое сердце".
Голдвассера удивляло и чуть-чуть тревожило, что не попалось еще слово «приятно». Однако он вытянул его со следующей карточкой: "особенно приятно, когда". Это дало ему "жених (невеста) должны..." И свободный выбор между "происходить из знатной и благородной семьи", «быть простолюдинами в наш демократический век», "быть выходцами из страны, с которой наша родина давно поддерживает самую тесную и сердечную дружбу" и "быть выходцами из страны, отношения с которой у нашей родины не всегда складывались удачно".

Сознавая, что в прошлый раз он на редкость талантливо распорядился словом «приятно», Голдвассер теперь нарочно вытянул его еще раз. "Приятно также", — стояло на карточке, а за ней без задержки последовало
"помнить" и "что Икс и Игрек — не только громкие имена, но жизнерадостный молодой человек и прелестная молодая женщина".
Голдвассер зажмурился, перед тем как тащить следующую карточку. На ней оказались слова "в наши дни, когда". Он призадумался, выбрать ли "вошло в моду глумиться над традиционной моралью брака и семейной жизни" или "вышло из моды глумиться над традиционной моралью брака и семейной жизни". Решил, что второй вариант по форме ближе к пышности, присущей стилю барокко. Вытащил еще одну "приятно", но сочтя, что три раза подряд — на один раз больше, чем нужно даже для прекрасного, непревзойденного слова «приятно», он смошенничал и обменял карточку на "полагается, чтобы" за которой так же верно, как ночь за днем, наступило "пожелаем им счастья", и развлечение закончилось.
Заголовок поста прикрывает суть автора.
Набор шаблонов и правил их использования установленный аналитиком (редактор) уже считается выдающимся достижением… Куда катиться этот мир…
Их купит яндекс и допилит сервис рефераты так, что его наконец можно будет использовать по назначению:)
А правильно, зомби пусть кормят компьютеры (читается в обе стороны, хе-хе), люди могут почитать нормальную статью (полностью не вытеснят, моё имхо), или покрутить реальные данные в аналитическом софте/сервисе и сделать выводы самостоятельно.
С ужасом представил робота-журналиста с мицголовским словарем @_@
Лучше бы эти профессора попробовали научить новостников и редакторов большинства сайтов рунета делать то же самое (т.е. генерировать тексты, хотя бы отдаленно похожие на «человеческие»). Имхо, задачка то по труднее будет…
Вспомнился 6-й день, где там ноутбук высчитывает и сообщает вероятность прорыва
image
> Если интересно, этот текст написан человеком

А вот и нет. Я видел имя alizar под статьёй.
НЛО прилетело и опубликовало эту надпись здесь
Нужно учесть что исходные данные для статьи всё таки человек вводит. И если журналист писал статью по просмотренной передаче и поленился ознакомиться с официальными результатами матча. То ничего удивительно что у него статья не получилась: во первых он бегал отлить пиво когда был ключевой момент, а во вторых ему было лень ознакомиться с инфой — потому что пиво. Вывод робот лучше, потому что не пьёт пиво. ;)
НЛО прилетело и опубликовало эту надпись здесь
И Остап Бендер протянул Ухудшанскому лист, на котором было написано: ТОРЖЕСТВЕННЫЙ КОМПЛЕКТ. НЕЗАМЕНИМОЕ ПОСОБИЕ ДЛЯ СОЧИНЕНИЯ ЮБИЛЕЙНЫХ СТАТЕЙ, ТАБЕЛЬНЫХ ФЕЛЬЕТОНОВ, А ТАКЖЕ ПАРАДНЫХ СТИХОТВОРЕНИЙ, ОД И ТРОПАРЕЙ. («Золотой теленок», Ильф и Петров). 1928 г.
Так что для русского языка все формализовано уже более 80 лет.
Теперь одни роботы будут из готовой информации генерировать статьи, а другие роботы из этих статей выжимать информацию для людей. Может, сократим цепочку? ;)
Ага. Уберем из цепочки людей ;)
Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Публикации

Истории