Комментарии 47
Со своего заказчика Hanley Wood фирма берёт по $10 за каждую статью объёмом в 500 слов500 слов это где-то 3000 знаков? Получается по 3 бакса за килобайт. «Статейщики» с фриланса все еще обходятся дешевле (учитывая «сложность» тематики — написание статьи по полному набору исходных данных).
Дело ведь в оперативности.
Всегда дешевле нанять гастарбайтеров выкопать яму, чем вызвать трактор. Вопрос в надежности и скорости выполнения задачи. Вот только в текстах важен человеческий язык. Вряд ли робот может что то оригинальное выдать.
Вы статью читали? В ней как раз и говорится что компания добилась «человечности» статей:
Один из руководителей Hanley Wood, в прошлом — профессиональный журналист из агентства Thomson Reuters, признался, что был поражён качеством статей. «Они перешли через большой лингвистический барьер, — замечает он. — Статьи ни в коей мере не похожи друг на друга».
«Хули бьет по воротам! (пауза) Хули — это футболист такой.»
Роботы на такое не способны. Это могут только люди, в большинстве случаев наши земляки :)
Роботы на такое не способны. Это могут только люди, в большинстве случаев наши земляки :)
Уверяю вас, это не всегда так. На неделе выяснял расценки, выкопать кубометр ямы у гастарбайтеров стоит 1000 руб/кубометр. На мою яму вышло 18000 руб. Смена у эскаватора стоит 12000 руб.
Так что все зависит от масштаба задачи.
Так что все зависит от масштаба задачи.
Офтоп: Кроме объемов следует учитывать еще транспортные расходы. У меня получается так, что припереть тяжелую технику и вернуть ее на место тупо удваивает стоимость работ (там как раз на один день рабочий возни). При этом попытка выполнить такой объем «джамшутами» если и получается дешевле, то незначительно и требует большего времени. А вот если бы мне всего 3-4 куба вынуть нужно было, то вопрос про «джамшут vs техника» бы не возникал.
Хотя конечно было бы интересно взглянуть на то, насколько программа заточена под нужды каждого клиента и какие данные берёт и где хранит каждая такая инсталляция, как реализованы футбольные и баскетбольные термины (количество подборов, передач и пр). Т.е., я боюсь, что уж очень узкая у неё специализация, взглянуть бы на конкретику для подтверждения или опровержения.
Дороговизна программных решений — спасет человечество, и поставит крест на искусственном интеллекте! Даже капчу дешевле человеческим ресурсом обходить, нежили создавать техническое решение. Чего тут говорить о более творческих вещах?
А ведь показательно — одно из первых, что так автоматизировали — спортивные статьи.
Вполнe логично. В данной области нe нужно высокохудожественных изысканий, достаточно более-менее живым языком изложить все факты об игре, и выложить текст в открытый доступ максимально быстро.
Потому что проще всего. Думаю, что вполне реально написать генератор просто на шаблонах.
Набор данных всегда детерминирован:
Возьмем, к примеру, футбольный матч. Какие данные мы имеем:
1. Составы команд
2. Счет (если отчет составляется постфактум)
3. Отчет о событиях матча (удаления, карточки, травмы)
4. Статистика матча (процент владения мячом, кол-во стандартов и т.д.)
Далее набиваем кучу шаблонов в стиле:
В офсайд залез %player_name%. Незаметным он был на футбольном поле во %time_number% тайме.
или
Готовится выйти на футбольное поле %in_player_name%. Заменит он, похоже, %out_player_name%. На нём акцентируют внимания операторы.
Так и есть. %in_player_name% вместо %out_player_name%, которого проводили бурными аплодисментами.
В общем, имея такие данные и кучу шаблонов (которые можно набивать постепенно, отдавая на аутсорс копирайтерам), можно генерировать отчеты о матчах сколь угодно красивые.
Но и это еще не все. Все мы слышали о том, что на одном из ЧМ был применен мяч с датчиком гола. А теперь представьте, что такие датчики встроены не только в мячи, но и в бутсы игроков (например УЕФА/ФИФА обяжет). тогда вообще сказка. Можно выдавать фразы в динамике. Во-первых, в реальном времени можно отслеживать у кого мяч, кто с кем борется за него. Резкое ускорение мяча и игрока одновременно — обострение ситуации, атака, резкое ускорение мяча без игрока — удар по воротам. Я уж не говорю про отслеживание оффсайдов.
Набор данных всегда детерминирован:
Возьмем, к примеру, футбольный матч. Какие данные мы имеем:
1. Составы команд
2. Счет (если отчет составляется постфактум)
3. Отчет о событиях матча (удаления, карточки, травмы)
4. Статистика матча (процент владения мячом, кол-во стандартов и т.д.)
Далее набиваем кучу шаблонов в стиле:
В офсайд залез %player_name%. Незаметным он был на футбольном поле во %time_number% тайме.
или
Готовится выйти на футбольное поле %in_player_name%. Заменит он, похоже, %out_player_name%. На нём акцентируют внимания операторы.
Так и есть. %in_player_name% вместо %out_player_name%, которого проводили бурными аплодисментами.
В общем, имея такие данные и кучу шаблонов (которые можно набивать постепенно, отдавая на аутсорс копирайтерам), можно генерировать отчеты о матчах сколь угодно красивые.
Но и это еще не все. Все мы слышали о том, что на одном из ЧМ был применен мяч с датчиком гола. А теперь представьте, что такие датчики встроены не только в мячи, но и в бутсы игроков (например УЕФА/ФИФА обяжет). тогда вообще сказка. Можно выдавать фразы в динамике. Во-первых, в реальном времени можно отслеживать у кого мяч, кто с кем борется за него. Резкое ускорение мяча и игрока одновременно — обострение ситуации, атака, резкое ускорение мяча без игрока — удар по воротам. Я уж не говорю про отслеживание оффсайдов.
Т.е. профессор фигней занимался 10 лет? Надо было на хабр заглянуть, тут ему за 5 минут расскажут как и что надо было делать чтобы получить качественный результат, за который клиенты будут готовы платить деньги?
Перевирать вот только не нужно. Я лишь отвечал на вопрос о спортивных матчах. Его же программа пишет статьи на любые темы.
Я считаю профессор не фигней занимался 10 лет, а преподавал и писал диссертации. А в действительности этот алгоритм достаточно простой, вот пример задачки из книжки 1987 года ( Клоксина У. и Меллиша К.)
«Написать программу психиатр, которая выдает ответы основываясь на ключевых словах, имеющихся во вводимой информации. Типичный диалог такой программы мог выглядеть следующим образом:
— What is your problem?
— This is too much work.
— What else do you regard as too much work?
— Writing letters.
— I see please continue.
— Also washing my mother's car.
— Tell me about your family.
— Why should I?
— Why should you what?
…
»
Мне тоже не видится в данной задаче ничего не разрешимого. В пример можно привести существующие довольно неплохие спортивные компьютерные комментаторы (в играх) и всякие программы разговорники. А если вливать приличные деньги в проект, то это позволит написать просто большую базу данных правил, благо для спортивных статей, она не должна быть такая уж и большая.
«Написать программу психиатр, которая выдает ответы основываясь на ключевых словах, имеющихся во вводимой информации. Типичный диалог такой программы мог выглядеть следующим образом:
— What is your problem?
— This is too much work.
— What else do you regard as too much work?
— Writing letters.
— I see please continue.
— Also washing my mother's car.
— Tell me about your family.
— Why should I?
— Why should you what?
…
»
Мне тоже не видится в данной задаче ничего не разрешимого. В пример можно привести существующие довольно неплохие спортивные компьютерные комментаторы (в играх) и всякие программы разговорники. А если вливать приличные деньги в проект, то это позволит написать просто большую базу данных правил, благо для спортивных статей, она не должна быть такая уж и большая.
Да они могут преувеличивать. Систему мог сделать недавно, а для красного словца, сказать, что уже 10 лет над этим работает. А на самом деле допустим работал 10 лет над системами искусственного интеллекта, но например конкретно этот алгоритм отношения к нему не имеет.
Да и прибыль что-то не супер какая.
Да и прибыль что-то не супер какая.
НЛО прилетело и опубликовало эту надпись здесь
alizar палит фишку?
А вот и бета-тестер на хабре.
Остается открытым вопрос: «сотрудничает ли Narrative Science с Ализаром?» :)
Лет через 10 вместо «хотя бы в Ворде текст проверяй» будем говорить «Ну ты хотя бы вордом бы его сгенерил»
Похоже грядет новый виток СЕО белиберды в топе.
Очень многообещающий младший брад у Сергея Дацюка!
Этот ( rosd.vniz.net/datsuk.html#form ) славный проект бывало был самым вменяемым собеседником после пары-тройки ящиков пива в студенческие годы! :))
Хоть и старичок уже, но излагает ясно — как никогда:
— …
Если же этого нет, то непонятно, почему до сих пор вроде как не подвергалось сомнению. Знакомясь однако с нынешними технологиями манипулирования информацией средств массовой информации, и он теряет свою должность, теряет свой элитный статус. Также трудно объяснить следующий факт: неоднократно от власти официальные издания получают государственную финансовую поддержку в виде всяких привилегий и льгот, но это не значит, что такие посягательства отсутствуют.
…
Этот ( rosd.vniz.net/datsuk.html#form ) славный проект бывало был самым вменяемым собеседником после пары-тройки ящиков пива в студенческие годы! :))
Хоть и старичок уже, но излагает ясно — как никогда:
— …
Если же этого нет, то непонятно, почему до сих пор вроде как не подвергалось сомнению. Знакомясь однако с нынешними технологиями манипулирования информацией средств массовой информации, и он теряет свою должность, теряет свой элитный статус. Также трудно объяснить следующий факт: неоднократно от власти официальные издания получают государственную финансовую поддержку в виде всяких привилегий и льгот, но это не значит, что такие посягательства отсутствуют.
…
Макл Фрейн — Оловянные солдатики:
Научные сотрудники гнули спины над всеобщим экспериментом, демонстрирующим, что теоретически цифровую
вычислительную машину можно запрограммировать на выпуск абсолютно полноценной ежедневной газеты с заметками столь же разнообразными и содержательными, как и старинные, написанные от руки. Изнывая от скуки, сотрудники молча продирались сквозь пачки газетных вырезок — определяли жанр статей и выявляли в них стандартные переменные и постоянные.
За другими столами другие сотрудники переносили переменные и постоянные на карточки и составляли картотеку в такой логической последовательности, что теоретически вычислительная машина могла сама прокладывать себе путь от карточки к карточке и отбирать нужный материал. Как только Голдвассер с коллегами докажет истинность этой теории, из коммерческих соображений ее, без сомнения, поспешат внедрить в жизнь.
Тогда завершится стилизация современной газеты. Прервется последняя, остаточная связь прессы с рыхлым, бестолковым, склочным миром реальности.
…
Порой Голдвассер давал себе разрядку — притворялся вычислительной машиной и перебирал какой-нибудь готовый комплект карточек, соблюдая те же логические правила и делая тот же случайный отбор, что и вычислительная машина при составлении заметки.
…
Он выдвинул картотечный ящик и взял оттуда первую карточку комплекта. "По традиции", — стояло на ней. Теперь можно было осуществлять случайную выборку — тащить наугад "коронации", "помолвки", "похороны", "свадьбы", "совершеннолетия", "рождения", "смерти" и «венчания в церкви». Вчера он вытащил "похороны" и был отослан к карточке, где с гениальной простотой значилось "печальное событие". Сегодня он зажмурился, вытащил "свадьбы" и был направлен далее к карточке "событие радостное".
Далее в логической последовательности шли "свадьба мистера Икс" и "свадьба мистера Игрек", и Голдвассеру открылись на выбор варианты "не исключение" и "яркий пример". В обоих случаях напрашивалось слово "поистине". Однако, поистине, от какого варианта ни отталкивайся — от коронаций ли, рождений, смертей, — Голдвассер, явно наслаждаясь как математик, замечал, что при всей элегантности решения тут-то и попадаешь в тупик. Он помедлил на "поистине", затем почти без пауз выхватил "особенно радостное событие", "редкостный" и "видел ли кто-нибудь более прославленную молодую пару?"
Последующие выборки принесли Голдвассеру "Икс снискал (снискала) особую любовь всего народа", и пришлось к этому присоединить карточку "а Игрека английский народ явно принял уже в свое сердце".
Голдвассера удивляло и чуть-чуть тревожило, что не попалось еще слово «приятно». Однако он вытянул его со следующей карточкой: "особенно приятно, когда". Это дало ему "жених (невеста) должны..." И свободный выбор между "происходить из знатной и благородной семьи", «быть простолюдинами в наш демократический век», "быть выходцами из страны, с которой наша родина давно поддерживает самую тесную и сердечную дружбу" и "быть выходцами из страны, отношения с которой у нашей родины не всегда складывались удачно".
Сознавая, что в прошлый раз он на редкость талантливо распорядился словом «приятно», Голдвассер теперь нарочно вытянул его еще раз. "Приятно также", — стояло на карточке, а за ней без задержки последовало
"помнить" и "что Икс и Игрек — не только громкие имена, но жизнерадостный молодой человек и прелестная молодая женщина".
Голдвассер зажмурился, перед тем как тащить следующую карточку. На ней оказались слова "в наши дни, когда". Он призадумался, выбрать ли "вошло в моду глумиться над традиционной моралью брака и семейной жизни" или "вышло из моды глумиться над традиционной моралью брака и семейной жизни". Решил, что второй вариант по форме ближе к пышности, присущей стилю барокко. Вытащил еще одну "приятно", но сочтя, что три раза подряд — на один раз больше, чем нужно даже для прекрасного, непревзойденного слова «приятно», он смошенничал и обменял карточку на "полагается, чтобы" за которой так же верно, как ночь за днем, наступило "пожелаем им счастья", и развлечение закончилось.
Научные сотрудники гнули спины над всеобщим экспериментом, демонстрирующим, что теоретически цифровую
вычислительную машину можно запрограммировать на выпуск абсолютно полноценной ежедневной газеты с заметками столь же разнообразными и содержательными, как и старинные, написанные от руки. Изнывая от скуки, сотрудники молча продирались сквозь пачки газетных вырезок — определяли жанр статей и выявляли в них стандартные переменные и постоянные.
За другими столами другие сотрудники переносили переменные и постоянные на карточки и составляли картотеку в такой логической последовательности, что теоретически вычислительная машина могла сама прокладывать себе путь от карточки к карточке и отбирать нужный материал. Как только Голдвассер с коллегами докажет истинность этой теории, из коммерческих соображений ее, без сомнения, поспешат внедрить в жизнь.
Тогда завершится стилизация современной газеты. Прервется последняя, остаточная связь прессы с рыхлым, бестолковым, склочным миром реальности.
…
Порой Голдвассер давал себе разрядку — притворялся вычислительной машиной и перебирал какой-нибудь готовый комплект карточек, соблюдая те же логические правила и делая тот же случайный отбор, что и вычислительная машина при составлении заметки.
…
Он выдвинул картотечный ящик и взял оттуда первую карточку комплекта. "По традиции", — стояло на ней. Теперь можно было осуществлять случайную выборку — тащить наугад "коронации", "помолвки", "похороны", "свадьбы", "совершеннолетия", "рождения", "смерти" и «венчания в церкви». Вчера он вытащил "похороны" и был отослан к карточке, где с гениальной простотой значилось "печальное событие". Сегодня он зажмурился, вытащил "свадьбы" и был направлен далее к карточке "событие радостное".
Далее в логической последовательности шли "свадьба мистера Икс" и "свадьба мистера Игрек", и Голдвассеру открылись на выбор варианты "не исключение" и "яркий пример". В обоих случаях напрашивалось слово "поистине". Однако, поистине, от какого варианта ни отталкивайся — от коронаций ли, рождений, смертей, — Голдвассер, явно наслаждаясь как математик, замечал, что при всей элегантности решения тут-то и попадаешь в тупик. Он помедлил на "поистине", затем почти без пауз выхватил "особенно радостное событие", "редкостный" и "видел ли кто-нибудь более прославленную молодую пару?"
Последующие выборки принесли Голдвассеру "Икс снискал (снискала) особую любовь всего народа", и пришлось к этому присоединить карточку "а Игрека английский народ явно принял уже в свое сердце".
Голдвассера удивляло и чуть-чуть тревожило, что не попалось еще слово «приятно». Однако он вытянул его со следующей карточкой: "особенно приятно, когда". Это дало ему "жених (невеста) должны..." И свободный выбор между "происходить из знатной и благородной семьи", «быть простолюдинами в наш демократический век», "быть выходцами из страны, с которой наша родина давно поддерживает самую тесную и сердечную дружбу" и "быть выходцами из страны, отношения с которой у нашей родины не всегда складывались удачно".
Сознавая, что в прошлый раз он на редкость талантливо распорядился словом «приятно», Голдвассер теперь нарочно вытянул его еще раз. "Приятно также", — стояло на карточке, а за ней без задержки последовало
"помнить" и "что Икс и Игрек — не только громкие имена, но жизнерадостный молодой человек и прелестная молодая женщина".
Голдвассер зажмурился, перед тем как тащить следующую карточку. На ней оказались слова "в наши дни, когда". Он призадумался, выбрать ли "вошло в моду глумиться над традиционной моралью брака и семейной жизни" или "вышло из моды глумиться над традиционной моралью брака и семейной жизни". Решил, что второй вариант по форме ближе к пышности, присущей стилю барокко. Вытащил еще одну "приятно", но сочтя, что три раза подряд — на один раз больше, чем нужно даже для прекрасного, непревзойденного слова «приятно», он смошенничал и обменял карточку на "полагается, чтобы" за которой так же верно, как ночь за днем, наступило "пожелаем им счастья", и развлечение закончилось.
Заголовок поста прикрывает суть автора.
Набор шаблонов и правил их использования установленный аналитиком (редактор) уже считается выдающимся достижением… Куда катиться этот мир…
А правильно, зомби пусть кормят компьютеры (читается в обе стороны, хе-хе), люди могут почитать нормальную статью (полностью не вытеснят, моё имхо), или покрутить реальные данные в аналитическом софте/сервисе и сделать выводы самостоятельно.
Миниправ одобряе!
С ужасом представил робота-журналиста с мицголовским словарем @_@
Лучше бы эти профессора попробовали научить новостников и редакторов большинства сайтов рунета делать то же самое (т.е. генерировать тексты, хотя бы отдаленно похожие на «человеческие»). Имхо, задачка то по труднее будет…
Вспомнился 6-й день, где там ноутбук высчитывает и сообщает вероятность прорыва
> Если интересно, этот текст написан человеком
А вот и нет. Я видел имя alizar под статьёй.
А вот и нет. Я видел имя alizar под статьёй.
НЛО прилетело и опубликовало эту надпись здесь
Нужно учесть что исходные данные для статьи всё таки человек вводит. И если журналист писал статью по просмотренной передаче и поленился ознакомиться с официальными результатами матча. То ничего удивительно что у него статья не получилась: во первых он бегал отлить пиво когда был ключевой момент, а во вторых ему было лень ознакомиться с инфой — потому что пиво. Вывод робот лучше, потому что не пьёт пиво. ;)
И Остап Бендер протянул Ухудшанскому лист, на котором было написано: ТОРЖЕСТВЕННЫЙ КОМПЛЕКТ. НЕЗАМЕНИМОЕ ПОСОБИЕ ДЛЯ СОЧИНЕНИЯ ЮБИЛЕЙНЫХ СТАТЕЙ, ТАБЕЛЬНЫХ ФЕЛЬЕТОНОВ, А ТАКЖЕ ПАРАДНЫХ СТИХОТВОРЕНИЙ, ОД И ТРОПАРЕЙ. («Золотой теленок», Ильф и Петров). 1928 г.
Так что для русского языка все формализовано уже более 80 лет.
Так что для русского языка все формализовано уже более 80 лет.
Теперь одни роботы будут из готовой информации генерировать статьи, а другие роботы из этих статей выжимать информацию для людей. Может, сократим цепочку? ;)
Зарегистрируйтесь на Хабре, чтобы оставить комментарий
Если интересно, этот текст написан человеком