Все потоки

Машинное обучение *

Основа искусственного интеллекта

1 177,52

Рейтинг

СтатьиПостыНовостиАвторыКомпании

oleg_bunin 22 сен 2015 в 10:17

Big Data и Machine Learning? Вам на HighLoad++

8 мин

15K

Блог компании Конференции Олега Бунина (Онтико)Машинное обучение * Алгоритмы * Data Mining * Big Data *

Вопреки названию и первому впечатлению, которое возникает у большинства обывателей — «Big Data» не является просто «большими данными» и даже не объединяет под собой все массивы с неограниченными (или постоянно обновляющимися и расширяющимися) данными.

На самом деле «Big Data» — это в первую очередь подходы, инструменты и методы обработки непосредственно данных. Которые, в свою очередь, чаще всего не структурированы, многообразны и разнородны.

И, что наиболее важно, «Big Data» — это новая секция 2015 года в рамках программы HighLoad++, впервые предложенная, к слову, именно на встрече докладчиков. Первые, единичные, доклады, появились еще в прошлых годах:

Читать дальше →

+12

khmelkoff 21 сен 2015 в 10:24

Препарируем t-SNE

10 мин

96K

R * Алгоритмы * Визуализация данных * Машинное обучение *

Туториал

Работая над статьей «Глубокое обучение на R...», я несколько раз встречал упоминание t-SNE — загадочной техники нелинейного снижения размерности и визуализации многомерных переменных (например, здесь), был заинтригован и решил разобраться во всем в деталях. t-SNE это t-distributed stochastic neighbor embedding. Русский вариант с «внедрением соседей» в некоторой мере звучит нелепо, поэтому дальше буду использовать английский акроним.

Читать дальше →

+10

Durham 16 сен 2015 в 09:50

Что именно заставляет глубинное обучение и нейронные сети работать хорошо?

6 мин

35K

Блог компании MeanoTekМашинное обучение * Семантические сети * Веб-разработка *

Сейчас очень много статей, рапортующих об успехах нейронных сетей, в частности, в интересующей нас области понимания естественного языка. Но для практической работы важно еще и понимание того, при каких условиях эти алгоритмы не работают, или работают плохо. Отрицательные результаты по понятным причинам часто остаются за рамками публикаций. Часто пишут так — мы использовали метод А вместе с Б и В, и получили результат. А нужен ли был Б и В остается под вопросом. Для разработчика, внедряющего известные методы в практику эти вопросы очень даже важны, поэтому сегодня поговорим об отрицательных результатах и их значении на примерах. Примеры возьмем, как известные, так и из своей практики.

Читать дальше →

+25

rimsleur 14 сен 2015 в 12:26

Парадигма ситуационно-ориентированного программирования

5 мин

28K

Алгоритмы * Машинное обучение * Программирование *

Из песочницы

Как известно, существует три вида алгоритмов: линейные, разветвленные и циклические:

Основой всего, что сделано в методологии программирования, включая и объектное программирование стало структурное программирование, предложенное Эдсгером Дейкстрой в 1970-х годах. Одной из основных идей было введение блочных операторов ветвления (IF, THEN, ELSE) и цикличности (WHILE, FOR, DO, UNTIL и др.) вместо проблемного оператора GOTO, который приводил к получению запутанного, неудобочитаемого «спагетти-кода».

Для использования в интеллектуальных системах структурное программирование обладает серьезным недостатком.

Читать дальше →

+13

ssh1 11 сен 2015 в 07:48

Зaчем мне AshleyMadison, если я не курю?

5 мин

31K

Программирование * Машинное обучение * Математика * Data Mining * Big Data *

Как вы все уже наверное знаете, недавно были выложены дампы баз AshleyMadison. Я решил не упускать возможность и проанализировать реальные данные дейтинг платформы. Попробуем предсказать платежеспособность клиента по его характиристикам таким как возраст, рост, вес, привычки и т.д.

Попробуем?

Читать дальше →

+19

1cloud 10 сен 2015 в 14:44

Как найти алгоритм работы интеллекта

4 мин

34K

Блог компании 1cloud.ruПрограммирование * Машинное обучение * Анализ и проектирование систем * Алгоритмы *

В нашем блоге мы рассказываем о виртуализации инфраструктуры и соответствующих технологиях. Почерпнуть что-то интересное можно не только из опыта работы с инфраструктурными проектами, но и из теоретических работ, направленных далеко в будущее. Сегодня мы решили взглянуть на книгу Майкла Нилсена, рассуждающего на тему алгоритмизации интеллекта.

Читать дальше →

+12

1cloud 8 сен 2015 в 09:53

Говорит Gartner: «Перегретые» IoT и практичные облака

2 мин

8.3K

Блог компании 1cloud.ruРазработка под e-commerce * Машинное обучение * РобототехникаИнтернет вещей

Пара слов о том, что мы публиковали совсем недавно:

Сегодня мы решили порассуждать на общие темы и затронуть область IoT.

Читать дальше →

+8

nzhiltsov 8 сен 2015 в 08:17

ACM SIGIR 2015: ключевые тренды развития поисковых технологий

8 мин

5.4K

Блог компании TextocatСемантические сети * Поисковые технологии * Машинное обучение * Data Mining *

С 9 по 13 августа в г. Сантьяго (Чили) прошла 38я международная научная конференция по информационному поиску ACM SIGIR. Представляем вашему вниманию основные события данного мероприятия и ключевые тренды развития области информационного поиска как с точки зрения академической среды, так и индустрии.

Читать дальше →

+6

Valr 3 сен 2015 в 09:21

Работа с текстовыми данными в scikit-learn (перевод документации) — часть 2

6 мин

46K

Data Mining * Python * Машинное обучение *

Данная статья представляет собой перевод главы, обучающей работе с текстовыми данными, из официальной документации scikit-learn. Начало статьи вы можете прочесть в части 1.

Обучение классификатора

Теперь, когда мы выделили признаки, можно обучать классификатор предсказывать категорию текста. Давайте начнем с Наивного Байесовского классификатора, который станет прекрасной отправной точкой для нашей задачи. scikit-learn включает в себя несколько вариантов этого классификатора. Самый подходящий для подсчета слов — это его поли номинальный вариант:

>>> from sklearn.naive_bayes import MultinomialNB
>>> clf = MultinomialNB().fit(X_train_tfidf, twenty_train.target)

Читать дальше →

+3

AlexSerbul 1 сен 2015 в 12:42

«Bigdata Conference» — крупнейшая конференция по большим данным уже очень скоро

2 мин

5.4K

Блог компании Битрикс24Big Data * Машинное обучение *

Коллеги, оглянитесь вокруг!

«Большие данные» гораздо ближе к вам и их сильно больше, чем кажется. Несмотря на обилие мероприятий на данную тему, мало кто, «между нами девочками говоря», владеет темой. А чтобы выжать пользу и деньги из информации — нужно очень хорошо разбираться..., именно — в тонкостях.

Технология «отжима больших данных» грубо делится на два, очень очень разных пласта — инженерный и алгоритмический. В первом монолите программное обеспечение пока довольно сырое, бурно развивается, от чего у разработчиков, простыми словами, уже «едет крыша»: приходится разбираться в инструментах от «старого доброго» Hadoop с HDFS, активно используя Hive, Impala, Presto, Vertica и прочая и прочая… и, чтобы не отстать от конкурентов, ювелирно владеть секретами Apache Spark, сваянного на прекрасной лаконичной Scala.

Читать дальше →

+5

marks 27 авг 2015 в 10:29

IBM собрала из нейроморфных чипов нового типа «мозгоподобную» систему

3 мин

35K

Блог компании IBMМашинное обучение * Высоконагруженные системы *

Корпорация IBM работает совместно с DARPA над созданием нейроморфных чипов (Systems of Neuromorphic Adaptive Plastic Scalable Electronics, SyNAPSE) уже много лет, реализация проекта началась еще в 2008 году. Цель — создание чипов и систем, работа которых была бы организована по принципу работы нейронов мозга животных (например, грызунов). Это очень сложная задача, и специалистам пришлось потратить на ее решение немало времени. Сейчас, наконец, представлены первые значительные результаты проекта SyNAPSE.

Система TrueNorth, состоит из отдельных чипов-модулей, которые работают, как нейроны мозга. Соединяя нейроморфные чипы в систему, исследователи получают искусственную нейронную сеть. Версия, которую представила IBM, включает 48 млн соединений — это близко к числу синапсов в мозге крысы. Представленная структура состоит из 48 отдельных чипов-модулей.

Читать дальше →

+28

Kurtosis 26 авг 2015 в 11:08

Кластеризация графов и поиск сообществ. Часть 2: k-medoids и модификации

11 мин

25K

Блог компании DCA (Data-Centric Alliance)Data Mining * Алгоритмы * Машинное обучение *

Привет, Хабр! В этой части мы опишем вам алгоритм, с помощью которого были получены цвета на графах из первой части. В основе алгоритма лежит k-medoids — довольно простой и прозрачный метод. Он представляет собой вариант популярного k-means, про который наверняка большинство из вас уже имеет представление.

В отличие от k-means, в k-medoids в качестве центроидов может выступать не любая точка, а только какие-то из имеющихся наблюдений. Так как в графе между вершинами расстояние определить можно, k-medoids годится для кластеризации графа. Главная проблема этого метода — необходимость явного задания числа кластеров, то есть это не выделение сообществ (сommunity detection), а оптимальное разбиение на заданное количество частей (graph partitioning).

С этим можно бороться двумя путями:

Читать дальше →

+24

ivorobts 26 авг 2015 в 06:09

Новая бесплатная библиотека для аналитики данных Intel® DAAL

5 мин

17K

Блог компании IntelBig Data * Data Mining * Машинное обучение *

Сегодня вышел в свет первый официальный релиз новой библиотеки Intel для аналитики данных — Intel Data Analytics Acceleration Library. Библиотека доступна как в составе пакетов Parallel Studio XE, так и как независимый продукт с коммерческой и бесплатной (community) лицензией. Что это за зверь и зачем она нужна? Давайте разбираться.

Читать дальше →

+9

Kurtosis 24 авг 2015 в 13:00

Кластеризация графов и поиск сообществ. Часть 1: введение, обзор инструментов и Волосяные Шары

10 мин

52K

Блог компании DCA (Data-Centric Alliance)Машинное обучение * Визуализация данных * Data Mining * Big Data *

Привет, Хабр! В нашей работе часто возникает потребность в выделении сообществ (кластеров) разных объектов: пользователей, сайтов, продуктовых страниц интернет-магазинов. Польза от такой информации весьма многогранна – вот лишь несколько областей практического применения качественных кластеров:

Выделение сегментов пользователей для проведения таргетированных рекламных кампаний.
Использование кластеров в качестве предикторов («фичей») в персональных рекомендациях (в content-based методах или как дополнительная информация в коллаборативной фильтрации).
Снижение размерности в любой задаче машинного обучения, где в качестве фичей выступают страницы или домены, посещенные пользователем.
Сличение товарных URL между различными интернет-магазинами с целью выявления среди них групп, соответствующих одному и тому же товару.
Компактная визуализация — человеку будет проще воспринимать структуру данных.

С точки зрения машинного обучения получение подобных связанных групп выглядит как типичная задача кластеризации. Однако не всегда нам бывают легко доступны фичи наблюдений, в пространстве которых можно было бы искать кластеры. Контентые или семантические фичи достаточно трудоемки в получении, как и интеграция разных источников данных, откуда эти фичи можно было бы достать. Зато у нас есть DMP под названием Facetz.DCA, где на поверхности лежат факты посещений пользователями страниц. Из них легко получить количество посещений сайтов, как каждого в отдельности, так и совместных посещений для каждой пары сайтов. Этой информации уже достаточно для построения графов веб-доменов или продуктовых страниц. Теперь задачу кластеризации можно сформулировать как задачу выделения сообществ в полученных графах.

Читать дальше →

+33

Warezovvv 24 авг 2015 в 07:09

Однослойный перцептрон для начинающих

3 мин

66K

C++ * Машинное обучение *

Туториал

Из песочницы

В последнее время всё чаще стали появляться статьи о машинном обучении и о нейронных сетях. «Нейронная сеть написала классическую музыку», «Нейронная сеть распознала стиль по интерьеру», нейронные сети научились очень многому, и на волне возрастющего интереса к этой теме я решил сам написать хотя бы небольшую нейронную сеть, не имея специальных знаний и навыков.

К своему большому удивлению, я не нашел простейших и прозрачных примеров а-ля «Hello world». Да, есть coursera и потрясающий Andrew Ng, есть статьи про нейронные сети на хабре (советую остановиться тут и прочитать, если не знаете самых основ), но нет простейшего примера с кодом. Я решил создать перцептрон для распознования «AND» или «OR» на своем любимом языке C++. Если вам интересно, добро пожаловать под кат.

Читать дальше →

+7

vpuhoff 21 авг 2015 в 01:22

C# — Моделирование «разумной» жизни на базе нейронных сетей

4 мин

85K

Ненормальное программирование * Программирование * Машинное обучение * C# * Занимательные задачки

Данная статья посвящена исследованию возможностей нейронных сетей при их использовании в качестве основы для индивидуального разума моделируемого объекта.

Цель: показать, способна ли нейронная сеть (или ее данная реализация) воспринимать «окружающий» мир, самостоятельно обучаться и на основе собственного опыта принимать решения, которые можно считать относительно разумными.

Читать дальше →

+22

it_man 20 авг 2015 в 10:45

Аппаратное обеспечение для глубокого обучения

3 мин

18K

Блог компании MWS CloudАнализ и проектирование систем * Высоконагруженные системы * Машинное обучение * Программирование *

Глубокое обучение — процесс, требующий больших вычислительных мощностей. Конечно, нет ничего хорошего в том, чтобы тратить деньги на покупку аппаратного обеспечения с обложки журнала, которое потом полетит на помойку. Нужно подходить к этому делу с умом.

Попробуем взглянуть на примеры аппаратных решений, связанные с работой по осваиванию темы deep learning'а. Ну и затронем немного теории.

Читать дальше →

+24

io_io 19 авг 2015 в 12:52

Как подобрать платье с помощью метода главных компонент

3 мин

32K

Блог компании .ioАнализ и проектирование систем * Визуализация данных * Машинное обучение *

Перевод

Итак, кто не против, чтобы одежду ему подбирала программа, машина, нейросеть?

Любой набор изображений возможно проанализировать с помощью метода главных компонент. Этот метод уже довольно успешно применяется при распознавании лиц. Мы же попробуем использовать его на примере женских платьев.

Читать дальше →

+50

io_io 18 авг 2015 в 12:08

Как легко понять логистическую регрессию

5 мин

250K

Блог компании .ioBig Data * Анализ и проектирование систем * Машинное обучение *

Туториал

Перевод

Логистическая регрессия является одним из статистических методов классификации с использованием линейного дискриминанта Фишера. Также она входит в топ часто используемых алгоритмов в науке о данных. В этой статье суть логистической регрессии описана так, что она станет понятна даже людям не очень близким к статистике.

Читать дальше →

+12

IvanLobov 17 авг 2015 в 20:06

Deephack: хакатон по глубокому обучению с подкреплением, или как мы улучшали алгоритм Google Deepmind

6 мин

13K

Машинное обучение * Математика * Алгоритмы * Big Data *

С 19 по 25 июля проходил хакатон Deephack, где участники улучшали алгоритм обучения с подкреплением на базе Google Deepmind. Цель хакатона — научиться лучше играть в классические игры Atari (Space Invaders, Breakout и др.). Мы хотим рассказать, почему это важно и как это было.

Авторы статьи: Иван Лобов IvanLobov, Константин Киселев mrKonstantin, Георгий Овчинников ovchinnikoff.
Фотографии мероприятия: Мария Молокова, Политехнический музей.

Почему хакатон по обучению с подкреплением это круто:

Это первый в России хакатон с использованием глубокого обучения и обучения с подкреплением;
Алгоритм Google Deepmind — одно из последних достижений в области обучения с подкреплением;
Если вас интересует искусственный интеллект, то эта тема — очень близка к этому понятию (хотя мы сами и не хотели бы называть это ИИ).

Читать дальше →

+5

1 2 ...

529

530 531 532 533 534