OzzyTech Mar 25 2015 at 14:51

Сериал: Big Data — как мечта. 1-я серия

5 min

17K

PalitrumLab corporate blogBrand Analytics corporate blogResearch and forecasts in IT*

+11

Comments 12

ServPonomarev Mar 26 2015 at 11:03

Насколько я понимаю, метафора с таблицей Мендлеева — это пока недостижимый идеал для современной BD. Взять на вход сырые данные, на выходе получить новые знания. Не закономерности неясной природы, а именно знания. Хотелось-бы увидеть последний пост из этой новой серии как раз про проблему knowledge mining.

OzzyTech Mar 26 2015 at 11:41

Спасибо, запрос понятен, «сакссес стори» по получению новых (над)знаний из океана данных/результатов добавим в следующую серию.

Ranve Mar 26 2015 at 12:55

Меня в контексте этих исследований всегда волнует вот этот переход от абсолютно неструктурированной информации к структурированной (в управлении знанием по-моему даже термин присутствует: формализованное знание), причем в двух аспектах:
1) Если мы грубо формализуем имеющуюся информацию, то велика вероятность того, что мы примем за «белый шум» некую важную информацию, а дьявол, как известно, в деталях;
2) Пока что анализ мной воспринимается только в рамках формализованных четких структур, однако я подозреваю, но в виду отсутствия математической базы не могу быть в этом до конца уверенным, что существуют алгоритмы обработки «полу-структурированных» данных.
Вот про это было бы интересно почитать.
Ну и «сакссес стори», конечно же, — чтобы перейти от процессного восприятия BD к инструментальному.

ServPonomarev Mar 26 2015 at 13:32

Про обработку «полуструктурированных» данных можно почитать, например, про ABBYY Compreno www.slideshare.net/vvagr/reference-dataextraction — тут речь о том, что неструктурирвоанный текст разбирается с учётом априорных знаний о мире — онтологической информации. И это здорово снижает неоднозначность разбора.

OzzyTech Mar 26 2015 at 14:46

Конечно, формализация — обязательный процесс масштабирования количества применимости любой технологии. Но для этапа становления новых индустрий, ранняя формализация может мешать — индустрия будет «окаменевать» раньше, чем выйдет каменный цветок.

OzzyTech Mar 26 2015 at 14:42

С коллегами из Abbyy мы сотрудничаем много лет, у них одна из сильнейших команд и полезнейших разработок (больше всего мне нравится история про гигантское сокращение издержек для режиссера Бекмамбетова). Единственно надо понимать, какой инструментарий и где правильно использовать. В ноябре, на последней нашей встречи с коллегами, они демонстрировали чудесные решения новой версии, о которой объявили вчера. Но Compreno не подходит, например, для наших задач rtBD&A, поскольку скорость обработки 2кб текста составляет порядка 20 сек. А у нас «летит» 1000 сообщений в секунду. Но, повторюсь, на мой взгляд, Abbyy и Compreno в частности — это очень сильный продукт в нужном направлении.

rolechka Mar 26 2015 at 23:18

Интересный «сериал». Жду новых серий с нетерпением.
Вопросов много волнующих — различные юзкейсы, тренды, BD в различных сетях (интернет, распределенные), успехи и падения и много чего еще.
Что еще очень интересует — это какие есть механихмы, методы, подходы, языки для обработки данных и формализации правил их обработки и получения новых знаний. Как пример из старого — Prolog который позволял задавать систему формальных правил. Из текущего — Wolfram Alpha которые — сервис по сути является не только большой базой знаний но и генератором новых соединенных знаний.

OzzyTech Mar 27 2015 at 09:39

Да, интересное было время — время больших мечтаний — в самом конце 80-х была большая буча от японцев, которых мало кто воспринимал на рынке больших софтовых решений (сейчас ситуация поменялась, но не на много), заявивших, что Prolog — язык будущего и что к 90-му году Япония сделает супер-пупер национальную всеобъемлющую умную систему на все случаи жизни. В Европе, кстати, «ставили» на Lisp.
На мой взгляд — не костюм делает человека, так и с ОС/языком-программирования/СУБД/HANA/Vertica/NoSQL и пр. — это все инструментарий. Да, наномикроскопом сложно забивать гвозди, но решения о забитии гвоздя тем или иным инструментарием принимает человек. В итоге — гвоздь будет забит.
Проблема современного человечества — чрезмерная вера в розовых слоников: что кто-то напишет универсальное нечто, которое именно меня освободит от принятия решения. Вот и падают самолеты при тайфуне на пути автопилота, сталкиваются поезда при сломе автострелок и т.д.
WA — новый хороший наномикроскоп, но гвозди нужно забивать.

rolechka Mar 27 2015 at 15:09

Согласна с Вами, OzzyTech, именно инструментарий, я не смотрю на это как на волшебную палочку которая решит все проблемы.Интересно в общем есть ли сейчас еще телодвижения в направлении подобных инструментов «автоматизированной добычи знаний» или это все затихло в 0.

А вообще думаю что знания не добываются а просто неосознанный наш опыт переходит в осознанный и как только мы осознали тогда мы можем и формализовать и дальше все из этого вытекающее.

OzzyTech Mar 27 2015 at 16:26

rolechka, Вы открываете дверь в увлекательнейшую метафизическую вселенную философии знаний, над которой трудились со времен Аристотеля, поругали Канта с Юмом и воплотились в узнаваемую ноосферу Вернадского! Существуют ли знания сами по себе? Есть ли черная кошка в темной комнате? Публичные экспериментальные системы в основном фокусируются на «узнавании» — будь то задачи в робототехнике, или решения Яндекса по распознаванию текста на картинках. Системы наращивания онтологии, новых знаний о мире, активно развиваются, например, в (био)медицине, в астрономии, в высокочастотной физике, — здесь есть знаковые результаты. В «ширпотребной» области — мечт пока больше слоников.
P.S. Буду рад, если кто-то обладает более полной информацией о состоянии дел и поделится таковой.

buriy Apr 6 2015 at 12:51

Да нет, кажется, в целом всё так.
Есть конечно ещё autoencoder-ы, которые вполне способны научиться компактному представлению данных (что в некоторых случаях даёт неплохое обобщение). Но они работают не в realtime, хотя, рано или поздно, модели, генерируемые с помощью Machine Learning, заменят традиционный метод написания софта на части задач — собственно, как уже и происходит. Модели будут постоянные, а реалтайм будет заключаться в прохождении данных по трубопроводу из подобных моделей. А потом уже модели будут на основе собранной статистике и примерах ошибок доучиваться.
Кроме того, если говорить про real-time, есть ещё и методы online learning.
Просто проблема всех автоматических методов получения новых знаний в том, что у системы нет никакого способа проверки нового знания на соответствие реальности. Вот робот-ученый работает, успешно эксперименты проводит — он извлекает новое знание на основе сравнения с реальностью. А подобная система с чем сравнивать должна полученные знания?

OzzyTech Apr 6 2015 at 17:09

Спасибо, хорошее описание впечатления от состояния :-)
Поскольку ни в коем случае не являюсь специалистом в разных Learning могу только добавить про последний абзац — нам пришлось проходить жесткую проблематику проверки неизведанных методологий: кстати, процесс удивительный по ощущениям и эйфории.

В нашей части задач, например, это касалось «предсказательной социологии» — кто победит на выборах в разных странах и регионах, какая реакция сформируется на выход нового телефона и т.д. Когда через часы-день-два-неделю видишь итоговые результаты (про 146% — это не к нам), близкие к прогнозным — кайф. Когда как в Шотландии — все наперекосяк — получаешь много материалов для работы и понимание, что остановились в развитии, поленились рассмотреть важные параметры по конкретной стране, этносу, мировоззрению.

Т.е. нет нового знания, пока на наработан «опыт — сын ошибок трудных» (Пушкин) и проверяемый результат.