Обновить
91
0
Денис Тарасов @Durham

Искуственный интеллект

Отправить сообщение
Спасибо за интерес, вы можете оставить свои контактные данные на сайте meanotek.ru или написать письмо нам на почту. Пока это новая технология и нет версии «для всех», т.к. необходима все-таки настройка на конкретную задачу, в индивидуальном порядке можно это сделать.
А их и не может быть, т.к. вы решили все научные работы запретить, а авторов посадить, а создание и публикация обучающих и тестовых коллекций для генераторов текстов точно попадает под запрет. Так что, увы… Особенностью того, когда что-то запрещено является то, что его польза/вред недоказуем в принципе.
Я уже очень подробно объяснил, почему ваша «проверка» не имеет никакого смысла. Нельзя сравнивать яблоки с носорогами. К сожалению, вы меня не услышали, или решили, что разбираться в смысле моих ответов не стоит ваших трудов. Очень жаль.
В этом плане у каждого свои предпочтения, кому-то проще воспринимать перечень, кому-то текст. Кто-то уходит, а кто-то остается и просматривает 15 страниц разных товаров. Все люди разные, у них разные вкусы, и тут нельзя обобщать. Да и на маркете перечень формируется не ручным трудом…
Раз вы не можете проверить, полагаю, не следует и публично заявлять, что система не работает, не имея к тому реальных доказательств
Огромная разница. Если вы заметили, статья про алгоритм, я нигде не утверждал, что конкретный веб-сайт чем-то лучше, я говорю про алгоритмы обобщения, сравнивать и оценивать которые можно только при условии одинаковых начальных параметров, в данном случае одинаковой базы отзывов.

Отзыв о воде я не обнаружил по простой причине, что никогда его не искал.

Про контекстный поиск, если ввести например слово «батарея», то фраза «длительное время автономной работы» или «долго не разряжается», в отсутствие упоминаний батареи или аккумулятора обнаружены не будут. Это известная проблема поиска.
Я просмотрел отзывы контекстным поиском на маркете


Тогда это бессмысленное сравнение, дальше говорить не о чем. Система работает с тем, что она имеет. Во-первых, разные исходные материалы, во-вторых, что находит контекстный поиск, а что он пропускает это отдельный вопрос.
А вы просмотрели все 173 отзыва, чтобы сделать такие выводы? Если да, то мы безусловно учтем данные замечания при дальнейшей разработке системы.

Отмечу, однако, что у данной модели действительно как сказано громкий звонок, и батарея долго держит заряд, действительно есть две сим-карты, громкость и качество связи также безусловно являются достоинствами этой модели. С меню, согласен, тут не вполне корректно. С водой сомнительно, но я, например, впечатлен, что нейросетевой алгоритм, (а это его обобщение), поймал такой момент как «телефон падал в воду высушил работает» и отразил в форме «устойчив к воздействию воды», учитывая, что нейронная сеть изначально не знает вообще что такое вода. За это вам большое спасибо, буду приводить этот пример в докладах и статьях

В целом, я бы не назвал это описание плохим. Оно в целом соответствует реалиям данного телефона, с отдельными недочетами, при этом, вероятно, что человек, при поверхностном прочтении отзывов сделал бы те же ошибки.
Я подбросил монетку два раза, оба раза выпал орел, да я получил некоторую информацию по которой (в отсутствие других сведений) я могу только предположить, что данная монетка всегда падает орлом. Соглашусь, что оценки делать можно, если всегда принимать во внимание степень достоверности этих оценок.
Сначала отмечу, что большинство ваших примеров к вопросу о неправильном использовании, т.е. из серии применения молотка чтобы разбивать головы. На нашем «сайте-полигоне» reviewdot.ru настоящие отзывы четко отделены от обобщений, т.к. перед обобщением написано всегда что-то вроде «По результатам анализа n отзывов пользователи отмечают...», поэтому перепутать не так просто. Исходные отзывы находятся на расстоянии одного клика, справа есть графика, где можно развернуть информацию по каждому аспекту и посмотреть почему сделан такой вывод. Внизу приводятся цитаты из оригинальных отзывов. (см, например эту страницу ) Это сводит на нет большинство из тех проблем, о которых вы говорите, делает ресурс комфортным. Пользователи, которых нам удалось опросить, в основном отмечали, что когда в системе достаточно данных, пользоваться ей удобно и она реально помогает сделать выбор.

Теперь — другой тонкий момент. В попытке избежать машинных отзывов, вы можете столкнуться с другой, более серьезной проблемой, которая называется «ошибка выборки». Вот вы нашли реальный отзыв и прочитали, что некий прибор сломался. Что это означает реально, что он не надежен по сравнению с другим, о котором вы нашли хороший отзыв? Статистика говорит, что это не означает ничего, кроме того, что вам случайно попались два таких отзыва, и решение, которые вы можете принять на этом основании не поддержано опять-таки ничем. А сколько отзывов надо принять во внимание, чтобы сделать достоверный вывод? Мы изучали этот вопрос (можно прочитать здесь) и оказалось, что чтобы выборочные параметры из отзывов начали отражать реальную ситуацию во многих случаях надо изучить сотни отзывов, и причем тщательно вести счет результатам, иначе можно получить прямо противоположные результаты. При этом машинный анализ за счет больших объемов делает правильный вывод. В отличии от примера с одеялом, который рассматривает довольно редкий случай (нерелевантных отзывов и упоминаний такого бывает порядка 10% — и да такие случаи исследуются в автоматическом анализе текстов, и проблема известна, долю ее вклада в общую ошибку тоже можно оценить и она невелика, тем не менее и над ней работают), рассмотренная ситуация будет иметь место в большинстве случаев.

Плевать на интересы разработчиков нехорошо, потому что, если не создавать среду для создания новых (реально новых) систем и приложений, все это приведет к технологическому отставанию и ухудшению качества жизни людей.

Что касается спамеров и поддельных отзывов, то вы реально недооцениваете масштабы явления. По некоторым товарам, доля заказных отзывов превышает число реальных, особенно когда товар недавно запущен в производство. Я не говорю уже об отзывоподобных описаниях, которые есть почти на каждой странице интернет-магазина. Машина, как не странно, может отфильтровывать такие вещи, а люди — не всегда.
Вы не понимаете — мы не генерируем дополнительные отзывы. Создать поисковый спам легко — я могу в пять минут нагенерировать отзывоподобные тексты, которые ни один поисковик не отличит от настоящих. Ну и никуда вы не денетесь от этого, и от заказных отзывов, которые будут писать десятками тысяч, и от более изощренных форм. Если уж брать широко, то где-то 50% новостей это спам, если не больше, и вообще мусора много, но доля высокотехнологичных решений в этом невелика.

Здесь же задача компьютера — прочитать все отзывы, какие есть, выделить важные моменты, и представить пользователю. Такое усреднение, если оно сделано правильно, только повышает достоверность результатов, и фактически освобождает вас от нужды самостоятельно искать ответы в горах мусора. Мы даже делали опыты с автоматической фильтрацией заказных отзывов.

Маркировка обобщающих текстов как автоматических — зло, она поставит высокотехнологичные решения и честных разработчиков в заведомо проигрышную ситуацию по сравнению со спамерами, которые все равно ничего маркировать не будут.
Примерно это мы и сделали изначально:

image

и даже больше того, можно нажать на ссылку и посмотреть отзывы, в которых упоминаются определенные аспекты. И нам тоже казалось, что лишние слова не нужны. Но анализ поведения людей на страницах указывает на обратное. А что касается текстов, то тут я честно привел хорошие и плохие варианты, чтобы был виден весь спектр. А так, процент неудачных предложений несколько меньше. А пример мой, кстати цитата из приведенных текстов.
Сравните:

Достоинства: +Экран +Удобство (так сделано на yandex-маркете) и

Достоинства: Великолепный амолед дисплей, приятно тяжелый, хорошо лежит в руке.

Что из этого более информативно? Что приятнее читать?

Мы тоже когда делали reviewdot, думали как вы, и сделали графический индикатор + список достоинств, но анализ показал, что страницы без текстовых описаний, во-первых не находятся по релевантным запросам, а во-вторых, на них процент отказов гораздо больше. Получается пользователям, по крайней мере их части, больше нравится, когда есть описание.
Пока нет. У нас еще не настолько широкое внедрение…
Вот примеры того, что люди пишут в раздел «Достоинства»:

+ удобно лежит на голове + достаточно простое управление + работает как с телефоном, так и с планшетом + можно использовать для связи через skype

Тихий при невысокой скорости

очень простая в обращении

Отличные высокие частоты, хороший запас по мощности 20 кв метров озвячат с лихвой

Мы таких предположений собрали 57000 штук. Это выжимка из отзыва, где нет воды, и которая помогает быстро понять ситуацию — как раз в этом и задача автоматического генератора кратких аннотаций. При этом, это все же предложения, со своей грамматической и синтаксической структурой, которая только кажется простой.
Theano, это достаточно хороший вариант, я бы сказал наименьшее зло. Для исследовательских целей вообще замечательно. Но… кросс-платформеность заявлена, но как-бы «We develop mainly on 64-bit Linux machines. other architectures are not well-tested» на практике инструкция по установке на Windows требует танцев с бубном, на мобильных платформах, я не знаю, наверное вообще не запускается, или сложно. Очень много зависимостей от разных сторонних библиотек. Плюс, python, лично я недолюблваю, за отсутствие статической проверки типов, что выливается в значительные затраты на отладку приложения. Но это в значительной степени вопрос вкуса. С другой стороны, реализация всего с нуля это хороший опыт, и дает глубокое понимание вопроса.
Нет, я скорее был в роли заказчика текстов, которому стало уж очень жалко денег…
Да, это перечисление достоинств различных моделей телефонов, найденных в отзывах. Стиль похож на то, что люди пишут в разделе «Достоинства» или «Преимущества» на сайтах с отзывами, потому что система на них обучена.
Мы написали собственную библиотеку, потому что нам была нужна гибкость, компактность и кросс-платформенность, которая стандартными фреймворками не достигалась.
Я не понимаю, каким образом суммаризатор засоряет информационное пространство. Весь смысл в том, что система обобщает множество отзывов и выдает наиболее существенные факты, которые в них нашлись. Это не *чушегенератор* лишь бы чего-нибудь написать.

Информация

В рейтинге
Не участвует
Откуда
Россия
Дата рождения
Зарегистрирован
Активность