Комментарии / Профиль Durham / Хабр

Денис Тарасов @Durham

Искуственный интеллект

ПрофильСтатьи21ПостыНовостиКомментарии205

Рекурентная нейронная сеть в 10 строчек кода оценила отзывы зрителей нового эпизода “Звездных войн”

Durham 12 янв 2016 в 13:05

Классическое доказательство, см. Siegelmann and Sontag, «On the computational power of neural nets»

Что не значит, однако, что любая рекуррентная сеть обладает этим свойством.

Практические аспекты автоматической генерации уникальных текстов для SEO

Durham 6 дек 2015 в 12:06

Я же говорил, нет смысла спорить. Сейчас это наглядно видно. Вы используете цитаты которых нет в генерируемых текстах: «Х — лучшая причина купить Y прямо сейчас в кредит» — вы придумали сами. Я должен это комментировать? «впаривать ерунду от магазина, которые при первой же проблеме испарится» — абсолютно голословное обвинение, еще и магазина вдобавок. Это мягко говоря не культурно — вы оскорбляете людей про которых ничего не знаете. Ну а фраза «Можно, раз ИИ возможен то 100% можно. » — это набор слов выдающий либо вопиющую некомпетентность в вопросе, или намеренный расчет на таковую аудитории. Искусственный интеллект это плохо очерченная область исследований алгоритмов, включающая кучу всего, и выражение «раз ИИ возможен» смысла не имеет. На сем диалог с вами я прекращаю.

-2

Практические аспекты автоматической генерации уникальных текстов для SEO

Durham 4 дек 2015 в 10:07

Ну к счастью мало помалу поисковики борются с этим и банят такие сайты в выдаче

, кстати говоря, не делают поисковики этого. Они не имеют к этому средств, а часто и желания. В плане того, что сайты содержащие информацию рекламного характера, или даже неверную информацию, не блокируются, и даже не опускаются в выдаче. Если к примеру, ввести запрос «как заработать на онлайн казино», вы не получите ответ, что «заработать на казино нельзя, это может только хозяин казино». Вы получите много «инструкций» как за 10 мин играя в онлайн рулетку получить кучу денег. Это природа поиска — вы получаете то, о чем спрашивали. Вот это действительно проблема, над которой надо думать.

-2

Практические аспекты автоматической генерации уникальных текстов для SEO

Durham 4 дек 2015 в 09:58

К слову табличка с основными данными намного полезнее и пользователь останется на сайте где есть удобный поиск по параметрам и описание значимых характеристик более охотно чем на сайте с таким маркетинговым буллшитом

Учитывая наблюдаемый результат, что пользователь охотнее остается на сайте со сгенерированными текстами, нежели на сайте с табличкой, и предполагая ваш тезис верным, остается сделать вывод, что тексты не содержат «маркетинговый буллшит».

Вообще, спорить с вами бесполезно — как только у вас кончаются аргументы против, вы незаметно переводите тему на другую. Сначала говорили, что тексты предназначены для роботов а не для людей, что они нечитабельны для человека. Теперь не устраивает, что тексты рекламного характера и побуждают людей к покупке. Второй тезис никак не следует из первого, более того, эти тезисы не совместимы. Так мы дойдем до того, что автоматические тексты вредны, потому что расходуют электричество и способствуют глобальному потеплению.

В статье я задал простые вопросы:
1. Можно ли создавать автоматические тексты, которые не попадают под санкции поисковых систем?
2. Считают ли пользователи автоматические описания полезными?
3. Улучшают ли уникальные описания ранжирования интернет-магазина в поиске?
Я мог бы, подобно многим, придумать ответы и к ним объяснения. Типа «мне кажется, что таблица полезнее, значит всем так кажется». Вместо этого я поставил определенные опыты, чтобы получить настоящие ответы:
1. Да
2. Вероятно да, считают
3. Данных в пользу этого не выявлено

Результаты опытов я и изложил в статье, потому что они показались мне интересными. Да, факты противоречат внутренней картине мира многих комментаторов, что поделать у фактов есть такое свойство. Вообще для меня вполне естественно, что проще прочитать краткое, просто написанное описание, чем копаться в длинной таблице непонятных параметров. Описание дает еще и объяснения, обращает внимание на важные моменты и оно не является обманом, поскольку точно соответствует техническим параметрам изделия.

Возможно, в нынешнем виде описания не идеальные, там не очень много разъяснений, есть погрешности в предложениях, ненужные фразы. Но это шаг в правильном направлении — направлении повышения качества информации на сайте. Я не понимаю, почему эта простая мысль так трудна для восприятия, но видно что-то так сильно засело в общественном сознании. И вместо обсуждения того, как сделать тексты лучше (разумного подхода), опять имеем массу бессмысленного негодования.

-2

Практические аспекты автоматической генерации уникальных текстов для SEO

Durham 3 дек 2015 в 08:49

Автоматическое описание — это чушь собачья для 95% товаров

Статистика показывает, что наличие текстового описания повышает не только время нахождения пользователя на странице, но и вероятность того, что он далее перейдет по другим ссылкам на странице, таким как «отзывы о товаре», «доставка товара», «как купить товар» и подобным. Никакое количество абстрактных и предвзятых рассуждений о том, что это «чушь собачья» не может изменить наблюдаемой закономерности. Даже если тут напишут 50 комментариев, что текстовое описание товара никому не нужно, от этого ничего не изменится. Каждый, кто не верит, что это так, может провести собственный опыт и убедиться на практике. Я даже не буду рассуждать, почему люди предпочитают карточки товара с описанием — нафантазировать можно много всего, и «за» и «против». Но, достаточно, что такой факт есть.

это наиболее важные причины купить смеситель… прямо сейчас»

Это довольно стандартный маркетинговый прием, может быть не очень хороший, но к SEO прямо не имеющий отношения — такой оборот часто можно видеть в бумажных материалах, для которых SEO не имеет смысла по определению. Можно говорить, что это «нечестный» маркетинговый прием, или что наоборот, это плохо написано и не вызывает желания купить товар, но это уже совсем другая тема. В приведенных примерах никаких усилий не было приложено для поисковой оптимизации текстов.

Не верите? SEO текст выглядел бы примерно так: «Думаете как купить смеситель онлайн? В нашем интернет-магазине сантехники лучшие цены на смеситель для раковины. Вы можете видеть на фото бесконтактный кран для умывальника...». И так далее, цепляем один за другим запросы разными словами. Вот это был бы SEO текст.

-2

Практические аспекты автоматической генерации уникальных текстов для SEO

Durham 1 дек 2015 в 14:49

1. Средняя цена на заново написанный текст не ниже. Можно найти дешевле, но хуже качеством. Можно найти даже дороже.
2. В приведенном примере 946 знаков — на 50 знаков меньше. И я кстати нигде не говорил, что там ровно 1000, это вы придумали сами. Можно генерировать текст любой длины
3. Много магазинов не имеют своего склада, они делают карточки многих товаров и заказывают по необходимости.
4. Мы не сами придумали эту задачу, люди с ней обращаются, значит для них смысл есть. Они считают, что уникального описания от товара не требуется, но страницы на которых есть уникальное описание ранжируются выше. Как на самом деле — это во многом вопрос веры. Я в статье нигде не говорю о том, какой именно смысл в текстах для продвижения, я показал определенные факты, которые точно можно установить. Все остальное вы самостоятельно додумали, не вижу смысла с этим спорить

Практические аспекты автоматической генерации уникальных текстов для SEO

Durham 1 дек 2015 в 14:29

Речь не про раковину, а про довольно дорогие смесители для раковины, часть моделей имеют электронное управление и требуют подключения к электричеству, в виде подключения к сети или в виде батарейки поэтому эта информация важна. Вы пишите критику, не дав себе труда разобраться в вопросе.

Практические аспекты автоматической генерации уникальных текстов для SEO

Durham 1 дек 2015 в 10:18

Я не знаю, какую угрозу представляет пользователям сайт reviewdot.ru – его смысл собирать отзывы по всему интернету и делать из них выжимку – показывать главные плюсы и минусы. Да, результат приводит к тому, что на сайте проблема с уникальным контентом, на само по себе дело полезное. Конечно, в Яндексе могут посчитать иначе, но надежда на здравый смысл. Мы не скрываем то, что мы делаем, если кто-то считает, что это не правильно – ну так тому и быть.

Вообще, как мне кажется, история с reviewdot поучительная. Вначале мы сделали просто обобщение с использованием цитат из исходных отзывов. Вроде бы дело полезное и нужное. Людям, которых мы спросили нравилась эта функция – можно было видеть подводные камни многих товаров, казавшихся хорошими на первый взгляд. Я сам выбирал стиральную машину для покупки используя раннюю версию алгоритма, и до сих пор доволен выбором.

Но развивать такой сайт оказалось невозможно – страницы не индексировались – содержимое ведь не уникальное. И нет разницы, что подборка имеет самостоятельную ценность. Специалисты по SEO посоветовали заказать уникальных статей на нереальную кучу денег и еще ряд подобных мер.

Мы начали развивать генератор уникальных текстов, чтобы обойти проблему и заниматся другими проектами. Постепенно reviewdot отошел на второй план и остался как хобби, и как удобная испытательная площадка. Сейчас посещаемость подросла и индексация улучшилась, но поезд ушел. А могло бы получится реально полезное дело.

Но поисковики же всегда хорошие, а авторы неуникального/автоматического текста всегда плохие, а борцы за чистоту интернета всегда правы. Вот так…

Практические аспекты автоматической генерации уникальных текстов для SEO

Durham 1 дек 2015 в 09:57

Спасибо на добром слове. Нет в Гугле вообще нет таких проблем, даже не особо уникальные страницы нормально проиндексировались. Впечатление такое, что разработчики Гугла намного меньше озабочены вопросом уникальности текста. Что, возможно, имеет под собой основания – качество поиска от этого сильно не страдает, зато не создается нездоровый ажиотаж вокруг уникального контента.

Практические аспекты автоматической генерации уникальных текстов для SEO

Durham 1 дек 2015 в 09:43

А в описания, мы еще вставили предложения о том, что товар может не подойти если вам нужно то-то или у вас нет того-то. Такого среди типичных рекламно-восхваляющих текстов в магазинах я вообще не видел. Ну и что лучше?

Практические аспекты автоматической генерации уникальных текстов для SEO

Durham 1 дек 2015 в 09:39

На сайте производителя по указанным товарам нет описаний отдельных товарных позиций, пригодного для вставления на сайт. Есть pdf про коллекции в целом, где долго и пространно написано про все на свете, извлечь из него полезную информацию еще сложнее, чем из сгенерированного описания.

Практические аспекты автоматической генерации уникальных текстов для SEO

Durham 1 дек 2015 в 09:37

(100 руб за 1000 знаков) * 10 000 товарных позиций = 1000 000 руб. На выходе примерно такое же качество. Может для вас это небольшие деньги. Но для большинства небольших и начинающих интернет магазинов это неподъемная сумма. И, кстати, вы читали статью? Тексты о которых идет речь в статье не оптимизированы для поисковиков, туда не вставлены поисковые запросы или ключевые слова.

Практические аспекты автоматической генерации уникальных текстов для SEO

Durham 1 дек 2015 в 09:30

1. Когда вы видите сайт с автоматически сгенерированным описанием, то в 80% случаев вы не знаете что смотрите на автоматическое описание. Реально, нельзя отличить шаблон в который подставлены значения, от написанного вручную текста, не посмотрев два десятка описаний. И даже тогда не всегда это возможно. Вам может казаться, что вы знаете, что написал автомат, а что человек, но на практике это не так. Более того, то что вы считаете автогенерацией, часто на самом деле продукт «творчества» копирайтера.

2. Что такое «честное продвижение»? Заказать людям оптимизированный текст за 100 руб/1000 знаков это более честно? Если в магазине 10 000 товарных позиций, то цена вопроса 1 млн руб. Это не совсем 3 копейки. 10 млн. знаков это порядка 5000 страниц, больше того, что один человек может написать в разумное время. Итог: мы потратили 1 млн. рублей, 20 человек месяц занимались, в общем-то, бессмысленной работой, и получили на выходе… примерно тоже самое качество автомата, если не хуже. Ибо 500 штук одинаковых описаний — на 100 уже глаза свернулись в трубочку и пошел авторский бред. А еще потом кто-то должен все это прочитать, чтобы проверить. Чтобы исключить тексты вида «Поскольку до этого места никто читать не будет, напишу что товар этот ужасный, а работа меня достала». В общем, там, где вы видите честность, я вижу бессмысленную трату денег, человеческих сил, с сомнительным результатом. А еще, это дело неподъемное для начинающего предпринимателя без капитала. В поисковом ранжировании сайт такого нового магазина будет внизу, потому что он не может заплатить 20 копирайтерам 1 млн. Это честно?.. И вообще размещение текстов описаний на своем сайте это самое честное, что можно сделать. Не заказть 10 000 постов на форумах и в соц. сетях о том какой магазин хороший. Не разместить 1000 заказных отзывов о магазине.

3. Когда я вижу автоматическое описание, я знаю, что оно по крайней мере с высокой вероятностью описывает действительные характеристики товара, а не содержит фантазии составителя на тему. Все четко, ясно и по делу. Для меня это важнее. Здравомыслящий человек не будет жаловаться на такой текст, даже если он как-то догадается, что его писал автомат. Я пришел за информацией, я получил информацию. Какая мне разница как эта информация получилась, если написано понятно и по делу? Это же не марковским генератором заполнена страница.

В общем, понятно, что бы я не написал, все равно будут недовольные, нежелающие вникать в суть дела и желающие заклеймить автогенераторы и тех кто их делает позором. Да у нас у всех есть аллергия на переоптимизированные тексты, на перечни ключевых слов, на генераторы порождающие текст на основе марковских цепей и иже с ними. Но, прежде чем написать гневный комментарий, пожалуйста, прочитайте статью, прочитайте все выжеизложенное и на секунду задумайтесь. Ведь здесь речь не об этом.

-1

Практические аспекты автоматической генерации уникальных текстов для SEO

Durham 30 ноя 2015 в 15:49

Вы видите вопрос однобоко. Представьте, что пользователь вводит специфический запрос, включающий ряд требуемых свойств товара. Как поисковик понимает, какую страницу ему показать? Только по тексту, который там есть. Картинки, диаграммы и прочее поисковики интерпретировать пока не умеют. Таблица параметров, если они не релевантны запросам, мало помогают. А вот текст, содержащий нужные слова прямо говорит о том, что эта, и именно эта страница нужна. Если текст на странице составлен правильно, то эта страница будет показана по целевым запросам, и только по ним — что и есть цель продвижения любого магазина, и интересы пользователей и владельцев сайта в данном случае совпадают. Не имеет значения сколько текстов всего в Интернете, если эти тексты отвечают на строго определённые вопросы.

-2

Библиотека машинного обучения Google TensorFlow – первые впечатления и сравнение с собственной реализацией

Durham 18 ноя 2015 в 12:41

Это одно из возможных объяснений. Но нет уверенности, что оно правильное. Для чат-бота специально никаких адаптаций не было сделано, использована архитектура сети, сделанной для другой задачи. По второй проблеме, я показываю результаты по новой синтетической задачи, которая похожа на ту, для которой архитектура разрабатывалась, но все равно это разные задачи. Задача реконструкции текста достаточно общая сама по себе, ее можно даже рассматривать как упрощенную модельную систему для машинного перевода. Поэтому, на основании поставленных опытов нельзя уверенно утверждать, что указанные архитектурные улучшения работают лучше, потому что они настроены на конкретную задачу, а не потому, что они вообще работают лучше. Но и обратного утверждать нельзя. Показательным было бы, например, применить мои архитектурные решения для других задач, того же перевода. К сожалению, у меня нет времени этим заниматься.

На TensorFlow как я написал в статье можно перенести другие архитектуры, хотя это будет не просто «тюнинг параметров», а достаточно серъезная работа. Поставленными опытами я пытался выяснить в том числе и стоит ли это делать, и пока не получил убедительных к тому аргументов.

Библиотека машинного обучения Google TensorFlow – первые впечатления и сравнение с собственной реализацией

Durham 18 ноя 2015 в 12:14

Будет ли лучше если сказать, что сеть обучали? В любом случае мы даем системе данные и она учится (как без этого слова?) решать определенную задачу. После этого процесса нейросеть решает задачу, причем мы не знаем точно каким образом.

Библиотека машинного обучения Google TensorFlow – первые впечатления и сравнение с собственной реализацией

Durham 17 ноя 2015 в 19:36

Вы правильно начали с регулярок и написанных вручную правил. Если они не помогают, следующим по тяжести методом является скорее всего машинное обучение. В данном случае мы имеем задачу извлечения информации из последовательности слов. Можно использовать CRF или нейронные сети, или другие классификаторы работающие с последовательностями.

Мы про это писали ранее здесь, здесь и еще тут поэтому можете начать с чтения этих статей. Там описано как сделать на нашем API, но общая идея одинаковая при работе с любыми средствами. Если никогда не делали такого раньше, начинать надо с изучения основ и практиковаться на классических примерах, и только потом переходить к вашей задаче, потому что вы должны почувствовать, что средство работатет, и при каких условиях.

Ну и еще мы делаем готовые решения таких проблем, но это уже за деньги.

Библиотека машинного обучения Google TensorFlow – первые впечатления и сравнение с собственной реализацией

Durham 17 ноя 2015 в 15:36

Рекуррентная сеть обучалась обратным распространением ошибки через время (backpropagation through time).

Библиотека машинного обучения Google TensorFlow – первые впечатления и сравнение с собственной реализацией

Durham 17 ноя 2015 в 15:32

Да, такое можно сделать, я тоже про это думал. Это должно помочь против выражений типа “цена на система”. Но в данном случае ситуация не исправиться сильно, возможно будет вместо “няня для резки крыши”, скажем, “няня для ребенка под крышей”. Более правильно, но к сливной системе для крыши все равно не имеет отношения. И потом, если есть много текстов для генерации триграмм, их можно скормить и нейросети, что тоже улучшит качество (хотя триграммы конечно быстрее делаются)

Что именно заставляет глубинное обучение и нейронные сети работать хорошо?

Durham 23 сен 2015 в 16:24

К сожалению, видимо продолжать эту дискуссию нет большого смысла, так как все стороны все равно останутся при своих заблуждениях.

Произведение на функцию отвечающую за вероятности перехода не поможет, если необходим нелинейный анализ признаков в вершинах графа. Линеечный характер рассматриваемой функции имеет вполне последствия для возможностей модели в целом, которые выражаются в снижении точности результатов, если классы не являются линейно разделимыми в исходном пространстве признаков.

Ну и детектор линии, конечно не устроен так как в вашем примере, иначе все было бы очень просто. Линия бывает слегка разного наклона, прерывистая, размытая, сдвинутая по вертикали или горизонтали и т.п. А ваш пример среагирует и на полностью заполненный белым цветом прямоугольник. А если нужно будет реагировать на наличие линии A+B, наличие линии B без A, и наличие линии A без B. В ветви которая определяет линию A нужно будет повторить все шаги для линии B.

В общем, неудобные способы представления задачи затрудняют с ней работу, хотя и не делают ее невозможной.

Все это похоже на спор о том, что лучше ассемблер или C++, какой процессор круче, с какой стороны разбивать куриное яйцо и тому подобные не очень осмысленные вещи. Давайте лучше вы будете пользоваться своими методами, мы своими и посмотрим, что из этого в итоге получится.

1 2 ...

5 6

8 9 10 11