Comments / Profile of 0decca / Habr

Дмитрий Лобашевский@0decca

User

Subscribers

Не очень большие данные и определение тональности текста

0decca Apr 28 2015 at 03:41

Практического применения здесь нет — слишком затратен метод. Разве что использовать персональный десктоп в качестве зимнего отопления.

Лебедь, рак и щука как решения парадокса Ферми

0decca Feb 16 2015 at 11:47

Очевидно что парадокс Ферми связан не с поиском разумной жизни, т.к. для этого сначала бы стоило определить что это такое — «разумная жизнь».
На самом деле (тм) парадокс Ферми связан с поиском чего-то, похожего на нас — с политиками, радиосигналами, телевизором и международной торговлей, живущими на планете с водой, белковой жизнью и желательно с блондинками.

Мы ищем не разум (что бы это слово не значило), мы ищем зеркало.

Искать будем долго, т.к. независимо от формул Дрейка — мы единственные в галактике и Вселенной.
Не потому, что других больше нет, а потому что мы можем заметить лишь свою копию.
А единственное чего не может существовать в бесконечном Универсуме — это столь детального копирования.
Комбинаторика не позволяет.

Собственно я не вижу как при современном подходе SETI например могло бы заметить например Солярис.

Intel® Parallel Studio XE 2015 — разговор о новых именах и «фишках»

0decca Oct 14 2014 at 20:37

А возможности приобрести отдельно MKL и IPP уже нету, я правильно понимаю?
Только в комплекте со студией?

Чувство боли как программная основа сильного искусственного интеллекта

0decca Sep 16 2014 at 06:56

Не.
В 80-е я был студентом-физиком.
:-)

Собственно тогда считал синергетику (как и кибернетику) лженаукой в чистом виде.
Но в тот момент мне попалась на глаза вот такая книжка
www.twirpx.com/file/444955/

И сам подход мне очень понравился, я решил попробовать с другой стороны и для других целей.
В принципе ничего разумного не вышло — ну начнет животное осциллировать между состояниями, как модель Вольтерра-Лотки, как-то тривиально.
А именно тогда искать условия хаотического поведения мне в голову не пришло.

Чувство боли как программная основа сильного искусственного интеллекта

0decca Sep 15 2014 at 12:14

Lego Mindstorm можно похачить.
Он конечно на автономку больше завязан, там wifi надо отдельно цеплять.

Или Roomba была модель специально для поиграться, но там емнип синийзуб.
Хотя там линукс стоит, можно попытаться подрубить что-то.

Я к тому, что готового железа хватает.

Чувство боли как программная основа сильного искусственного интеллекта

0decca Sep 15 2014 at 11:50

Насколько долго оно так сможет жить — вопрос.
Внутренние ритмы будут постепенно замедляться пока не остановятся.

Чувство боли как программная основа сильного искусственного интеллекта

0decca Sep 15 2014 at 11:09

Дзен надо сильно ограничивать, иначе возникает состояние «Нирвана», когда любая внешняя среда оценивается как позитивная и никаких действий не требуется.

Лучший способ — привязать функцию оценки к производным по времени.
Причем так, чтобы одинаковая внешняя среда с каждым моментом времени вызывала все больше раздражения.

Вообще количество циклов обратной связи в таких моделях зашкаливает, «Нирвана» — это самый простой.

Девайс с самой богатой внутренней жизнью — это странный аттрактор, который никогда не бывает в одной точке дважды.

Чувство боли как программная основа сильного искусственного интеллекта

0decca Sep 15 2014 at 10:14

Много лет назад интересовался я такой окаменелостью, как alife.
И вот в построении моделек я разбил базовую стимуляцию на три компоненты — по срезу оценка/действие.

Девайс мог оценивать оценивал видимую часть мира как позитивную для себя — в этом случае действий не требовалось.
Я назвал этот паттерн «счастьем» — хотя возможно надо было назвать «ленью» или «дзеном».

Девайс мог оценивать среду как неблагоприятную.
И в этом случае могли активизироваться два паттерна.

«Страх» — стремление уйти из ситуации/локации, действие прикладывалось к самому себе.

«Агрессия» — стремление изменить ситуацию в свою пользу, действие прикладывалось к окружающему миру.

Интересно то, что из этих трех основных блоков можно было построить произвольно сложное поведение.
Причем функция оценки (отображения внешего мира на некоторый вес) — она в принципе значения не имела, т.е. вообще ее можно было сделать случайной (но не меняющейся во времени).
Хотя в живых организмах она фиксирована и определена крайне остроумным способом (Danger Theory).

Операцией, которая расширяла поведение до самообучения была «рефлексивность» — когда девайс рассматривал себя как часть окружающего мира в будущем, заменяя «страх» на «агрессию», и, таким образом строил абстракции, моделирую функцию оценки во времени.
Например быстрая скорость роста функции оценки — это позитивная оценка.

Т.е. вместо абстракций структуры девайса можно было оперировать взаимоотношениями функций оценки, подменяемых на разных уровнях.

PS
Собственно модель никогда не существовала в коде, а была комбинацией систем дифуров, энтузиазма и синей изоленты.
И рисовалась емнип в конце 80-х.

Но может кому такое разделение и поможет — хотя сам я и не верю в сильный интеллект.
Имхо антропоцентрические модели в XXI-м веке выглядят несколько натянуто.

Видеопост: сверхзвуковой теннисный шарик, автомат Калашникова и колибри

0decca Aug 23 2014 at 05:20

Интересно было бы посмотреть на подводный выстрел вот такого зверя

Там картинка выстрела должна полностью отличаться, у него пуля использует кавитационный пузырь, да и сама пуля очень специфичной формы.

Twitter собирается объявить войну «Троллям»

0decca Aug 16 2014 at 12:21

Скарказм кстати почти нерешенная проблема, вояки вроде пытались сделать, надо посмотреть что получилось.

Вот тут например есть строчка в таблице:
www.darpa.mil/opencatalog/DEFT.html

А насчет ложных срабатываний — это вполне регулируется, в антивирусах вон вообще ради <0.01% FP детекцию до 60% режут а то и ниже.
Это как раз не такая серьезная головная боль, решается увеличением пропускаемых сообщений.

Ну и опять же — а зачем автоматом все резать, когда можно просто показывать пользователю индикатор эмоциональности или троллеметр.
И пусть каждый юзер сам настраивает когда резать — под свой личный уровень комфорта.
Может ему наоборот нравятся срачи, а блокировать надо мимишных котиков.

PS
В твиттере не сижу, но пробежался по своей ленте в g+ — мне как раз наибольшие непрятности доставляют как раз политхейтеры и матерщинники, их фильтровать — FP практически не будет. Сарказма там маловато, они реально простейшие.

Но это мои личные предпочтения, наверное у кого-то критерии будут другими и соответственно качество фильтрации тоже будет другим.

Пробовать надо на живой системе.

Twitter собирается объявить войну «Троллям»

0decca Aug 15 2014 at 13:06

Можно.
Я делал похожее для английского языка, только без эмоционалки, по другим критериям.

Там другие грабли вылезают.
Я уперся в симметричную ошибку, т.е. если допустим качество 99%, то каждое сотое нормальное сообщение будет пропадать как троллинг.
А реально качество систем анализа текста — далеко не 99%.

Чистую эмоционалку я не делал, там качество может быть не самым высоким.
Но никто не мешает не фильтровать, а выставлять соответствующий флажок.

Вообще думаю заняться этой темой, в сентябре может буду искать спонсора, если другой проект не выстрелит.

Почему это не сделано?
Это на самом деле сделано — обработка отзывов о товарах например или мем-трекеры («а кто это у нас тут про президента плохую шутку повторяет» :) ).

Но это B2B, не для всех, т.к. инвестиции в лингвистику достаточно большие и открывать их никто не хочет.
На толстых котах в энтерпрайзе больше отбивается.

Twitter собирается объявить войну «Троллям»

0decca Aug 15 2014 at 12:48

А в чем проблема натренировать обучалку?
Ну да, дело недешевое — прогнать турком 10К — 100К сообщений, если я сам дома на коленке такое сделаю.
Но как-то для таких монстров как твиттер или мордокнига — в чем проблема оценить пост по эмоциональности?
Ну да, лингвистам посидеть придеться.
Ну картинки не возьмет.
Но большинство постов фильтрануть (причем на основе индивидуальных предпочтений) — не проблема никак.

Насколько мне известно у амазона есть система, которая фильтрует проплаченные описания продуктов.
И в общем никакой супертайной магии там вроде нет.

Сам занимался близкой тематикой и как раз прикидывал стоимость тролль-детектора — для домашней работы не получится, но командой можно организовать относительно малой кровью.

И никакого паспорта или деанонимизации не надо будет.
Все роботом делается.

В Украине не будут блокировать сайты?

0decca Aug 11 2014 at 19:26

Радует.
В свое время мой провайдер очень своеобразно понял патриотизмЪ и вместе с вывешиванием флага на всю стену в офисе заблокировал все, чтоем казалось неправильным.

Похоже веселое время, когда национальное самосознание заменяло не только судебные органы но и здравый смысл — таки уходит и это хорошо.

forum.icn.od.ua/viewtopic.php?f=4&t=490
icn.od.ua/posts/uvazhaemye-abonenty

Но самой фильтрации похоже уже нет.
Хотя куда идут логи у посетителей таких ресурсов — вопрос, хм, интересный.

-1

«Кто я?» — чтение мыслей и никакого мошенничества (посмотрите исходник)

0decca Jun 8 2014 at 14:48

Этот сайт не сумел определить тремор.

Обучаем компьютер чувствам (sentiment analysis по-русски)

0decca May 16 2014 at 09:37

Это не текстовые данные, как я писал — это не NLP задача.
Ну и данные мне не принадлежат — их собирали много лет, это бинарники разных вирусов и не только вирусов.
Интересно что эти самые тупейшие n-граммы ловили ряд полиморфов — что теоретически не должно было иметь места.

Эмоционалкой не занимался, а по NLP вообще могу посоветовать.

Собственно первое что я использую для NLP — дамп википедии, например только англоязычных страниц, относящихся к людям — более миллиона.
Причем часто требуемые метки можно получать сразу из инфобокса, ну или дальше из онтологий поверх википедии.
А n-граммы на тексте получаются сразу двух уровней — посимвольные и как списки слов.
Соответственно атрибутов в два раза больше.

На Kaggle можно много найти.
Еще вот такая свалка archive.ics.uci.edu/ml/datasets.html

Вот для NLP есть некоторые
www.clips.ua.ac.be/conll2003/ner/ — прямо сейчас открыто у меня.
Вообще гуглим CoNLL dataset

Ну и www.americannationalcorpus.org/OANC/index.html
Но тут разметка врет как дышит — я отказался от него, там даже разбивка по предложениям кривая.

Если надо просто большой сет — то files.grouplens.org/datasets/movielens/ml-10m-README.html
Был еще старый 100M NetFlix Prize, но доступ вроде как закрыли, у меня где-то должна была остаться копия, если надо — пишите в личку, могу поискать.

PS
Имхо n-граммы должны хорошо работать когда требуется классификация всего текста, а не его части, причем текст должен быть достаточно объемный.
Если тексты короткие как твиты — то смысла применять нет.

Overclock мозга или Внутренняя виртуализация сознания

0decca Apr 22 2014 at 17:34

У меня очень похоже, зеркало всегда отражало какой-то перманентный морфинг, часто жутковатый.
Именно ощущения от чтения и зеркала во сне на меня производили наибольшее впечатление своей чужеродностью.

Overclock мозга или Внутренняя виртуализация сознания

0decca Apr 22 2014 at 16:10

Вот интересно два вопроса к спецам.

1. Удавалось ли кому-либо во сне прочитать связный текст?
2. Удавалось ли кому-то во сне посмотреть в зеркало и увидеть там что-то разумное?

Чисто из интереса, я на этих двух точках остановился и похоже навсегда.

Логика мышления. Промежуточный итог

0decca Mar 27 2014 at 06:09

Программист, специализируюсь на machine learning и тем, что иногда называют AI. :-)

Я прочел весь цикл статей, правда многие поверхностно.
Модель достаточно интересна и интуитивно понятна тем, кто не испорчен фон Неймановской архитектурой.
Волновые вычисления меня кстати интересовали давно (я физик-теоретик по основному образованию), но давно про их и забыл, т.к. никакого коммерческого интереса не видел. На обычный компьютер они ложаться плохо.
По той же причине кстати стараюсь не использовать в работе нейронки.
Вообще исхожу из «железа», поэтому не собо верю в эффективность волновой модели — у меня специфика нагруженные бэкенды.
Вы сами пишете, что все упирается в быстродействие.

Другое дело — если бы была новая аппаратная архитектура, оптимизированная под такую среду.
Тогда возможно все бы изменилось.

Мое мнение по использованию таких алгоритмов очень прагматично — если бы мы делали автомобили по образцу лошадей, на наших мерседесах были бы железные ноги, а не колеса. И стоили бы они в десятки раз больше.
Поэтому понимание процессов работы мозга очень важно — это ключ ко многим технологиям.
Но понимание и имплементация — разные вещи и любое прямое копирование будет столь же неэффективно, сколь установка ног на мерседес.

В истории техники очень мало успешных технологий, заимствованных у живой природы.

«ZeroMQ».Глава 2: Знакомство с сокетами

0decca Mar 26 2014 at 06:34

Conditional jump or move depends on uninitialised value(s) означает что инициализация в нашем коде прошла успешно

Это означает что переменная b содержит неопределенный мусор.
Если бы вы написали int b=42; то этого сообщения бы не было.
Valgrind совершенно правильно указал на ошибку в коде, не фатальную, но неприятную.

Голосования и информационная безопасность

0decca Mar 17 2014 at 16:21

Ну я как бы и указываю, что в конкретных задачах можно обойтись без голосования вообще.

Я бы разделил возможности использования голосования на следующие юзкейсы.

1. Найти решение проблемы. Самый редкий случай.

Так ведь нахождение решения — это достаточно формальная процедура, которую можно сделать вообще без голосовалки.
Мы что голосуем о доказательстве теоремы Ферма?
Или о погоде через неделю?
Нет, мы либо смотрим доказательство, либо делаем расчет погодной модели.
Здесь вообще нет понятия выборов, разве что для психологического спокойствия.
Методы ad hoc будут лучше всегда — хотя бы по теореме о бесплатных ланчах.

И более того — решения, которые мы ищем обычно лежат в объективном мире. И, значит, привлекать субъективные мнения людей — гарантированно ухудшить решение.

Того же бухгалтера надо просто фильтровать по показателям, пока не останется один.
Смысл голосовать?

2. Найти или продемонстрировать консенсус.
Это как раз более частое применение.
Т.е. есть субъективные мнения.
Надо их агрегировать в коллективное субъективное мнение. Объективным от агрегации оно ведь не станет, правильно?
СМС-голосования за самую попсовую певицу — вот это оно.
Т.е. за самую большую грудь голосовать смысла нет — ее можно измерить.
А вот за субъективные показатели (т.е. существующие только в голове голосующих) — как раз что доктор прописал.

Здесь система работает.
Хотя имхо вхолостую — т.к. разницы между первым и вторым местом по попсовости особо нету.
Зато можно сделать шоу и поднять профитов.
Ну так вот тут открытая рутовая консоль только увеличит эти профиты!
:-)

3. Снять с себя ответственность.
Это уже больше в политике.
Президент плохой — ну сами же выбирали.
Т.е. чистая психология, отмазка.
И опять же грязные хаки здесь — это часть правил игры, как в случае с Дж. Бушем и голосованием во Флориде.

Получается что голосование нужно только как дурилово — в случаях 2 и 3.
А в этом случае — зачем заморачиваться?
Генератор случайных чисел сделает ту же самую работу.

PS
Накатаю ка я свою статейку по своему видению проблемы…

1 2

4 5 ...

9 10