Как стать автором
Поиск
Написать публикацию
Обновить
755.17

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Для чего финтеху машинное обучение

Время на прочтение11 мин
Количество просмотров9.7K
imageТехнология машинного обучения вызывает интерес у мировых финтех-компаний и финансовых организаций, чей бизнес так или иначе связан с инвестициями, кредитованием, консалтингом и решениями в области безопасности. Мы в компании PayOnline, специализирующейся на автоматизации приема онлайн-платежей, решили рассмотреть международные финтех-кейсы применения технологии машинного обучения.

В 80-х появились компьютеры, и постепенно мы наблюдали, как их использование для хранения и обработки информации становилось нормой для большинства компаний. В 90-х мы стали свидетелями интернет-бума, по-настоящему изменившего мир. Собрать информацию о чем-либо сегодня — сущий пустяк. В середине прошлого десятилетия появились социальные сети и предприниматели заметили, что клиенты начали проводить в них столько времени, сколько до этого не проводили ни на одном другом сайте. В итоге бизнесмены по всему миру начали инвестировать в социальные медиа для увеличения охвата аудитории и в маркетинговых целях. Когда широкой публике были представлены Android и iOS, произошел сдвиг парадигмы. Люди стали проводить больше времени со своими смартфонами, нежели персональными компьютерами. Со временем потребители начали пользоваться смартфонами для принятия решений, совершения покупок и даже платежей. Сегодня, поняв, что смартфоны стали неотъемлемой частью процесса принятия потребителем решений, компании стремятся предоставить им омниканальный опыт взаимодействия. В связи с этим возникает вопрос: «Какие еще существуют инновационные инструменты, способные изменить рынок?» Вероятно, компаниям следует обратить внимание на использование алгоритмов машинного обучения.
Читать дальше →

От черного списка до машинного обучения. Антифишинг в Яндекс.Браузере

Время на прочтение9 мин
Количество просмотров20K
Злоумышленники, специализирующиеся на воровстве паролей, номеров банковских карт и прочей личной информации, появились еще в прошлом веке и с тех пор их число только растет. Согласно отчету Лаборатории Касперского, от 9% до 13% их пользователей в России сталкиваются с фишингом. Ежегодно в мире фишинг и другие формы кражи личных данных наносят ущерб в $5 млрд, согласно оценкам Microsoft. Это в целом соответствует нашим наблюдениям и объясняет, почему в любом более-менее популярном браузере есть защита от фишинга, основанная на «черных списках». В Яндекс.Браузере она тоже есть. Казалось бы, зачем изобретать что-то еще?



Safe Browsing


Самое очевидное решение для защиты пользователей – это использование готовой базы со списком фишинг-сайтов. Проверяем по «черному списку» посещаемые страницы и предупреждаем, если нашлось совпадение. На этой идее и основана защита с использованием технологии Safe Browsing, которая работает в Яндекс.Браузере с момента его появления.
Читать дальше →

Как мы искали компромисс между точностью и полнотой в конкретной задаче ML

Время на прочтение5 мин
Количество просмотров7.7K


Я расскажу о практическом примере того, как мы формулировали требования к задаче машинного обучения и выбирали точку на кривой точность/полнота. Разрабатывая систему автоматической модерации контента, мы столкнулись с проблемой выбора компромисса между точностью и полнотой, и решили ее с помощью несложного, но крайне полезного эксперимента по сбору асессорских оценок и вычисления их согласованности.
Читать дальше →

III Международная конференция АI Ukraine, 8-9 октября, Харьков

Время на прочтение1 мин
Количество просмотров2.4K
Команда FlyElephant приглашает всех c 8 по 9 октября в Харьков на III Международнаю конференцию АI Ukraine, которая посвящена вопросам Data Science, Machine Learning, Big Data и Artificial Intelligence.

На конференции будут рассмотрены темы из различных областей Data Science и Machine Learning:

  • глубокое обучение нейронных сетей;
  • компьютерное зрение;
  • обработка естественного языка;
  • рекомендательные системы;
  • использование Machine Learning в биоинформатике;
  • Big Data инструменты: Hadoop, Spark и др.

Я буду рад видеть всех на нашем стенде, а также на докладе, в котором расскажу об инфраструктуре для работы Data Scientist’а.

Регистрация и все подробности на сайте конференции. Для читателей нашего блога действует скидочный промокод на 7%: flyelephant.

WaveNet: новая модель для генерации человеческой речи и музыки

Время на прочтение5 мин
Количество просмотров41K
Наша облачная платформа Voximplant — это не только телефонные и видео звонки. Это еще и набор «батареек», которые мы постоянно улучшаем и расширяем. Одна из самых популярных функций: возможность синтезировать речь, просто вызвав JavaScript метод say во время звонка. Разрабатывать свой синтезатор речи — на самая лучшая идея, мы все-таки специализируемся на телеком бэкенде, написанном на плюсах и способном обрабатывать тысячи одновременных звонков и снабжать каждый из них JavaScript логикой в реальном времени. Мы используем решения партнеров и внимательно следим за всем новым, что появляется в индустрии. Хочется через несколько лет отойти от мема «Железная Женщина» :) Статья, адаптированный перевод которой мы сделали за эти выходные, рассказывает про WaveNet, модель для генерации звука (звуковых волн). В ней мы рассмотрим как WaveNet может генерировать речь, которая похожа на голос любого человека, а также звучать гораздо натуральнее любых существующих Text-to-Speech систем, улучшив качество более чем на 50%.

Мы также продемонстрируем, что та же самая сеть может использоваться для создания других звуков, включая музыку, и покажем несколько автоматически сгенерированных примеров музыкальных композиций (пианино).
Очень много интересного

Логика сознания. Часть 5. Смысловой подход к анализу информации

Время на прочтение24 мин
Количество просмотров35K

Известный всем тест Тьюринга говорит о том, что понять: мыслит машина или нет, можно по тому отличим ли мы ее в беседе от человека или нет. При этом подразумевается, что вестись будет не светская беседа, а, по сути, допрос с пристрастием в котором мы будем всячески пытаться загнать машину в тупик. Что мы при этом будем проверять? Только одно — понимает ли машина суть задаваемых нами вопросов. Пытается ли она, просто, формально манипулировать словами или она может правильно интерпретировать значения слов, используя при этом знания, полученные ранее в беседе, или, вообще, общеизвестные людям знания.

Пожалуй, во время теста не особо интересно спрашивать у машины: когда была Куликовская битва. Гораздо интереснее что она скажет, например, о том: зачем мы нажимаем сильнее на кнопки пульта, у которого садятся батарейки?

Различие человеческого мышления и большинства компьютерных алгоритмов связано с вопросом понимания смысла. Как правило, в компьютерную программу закладываются достаточно жесткие правила, которые определяют то, как программа воспринимает и интерпретирует входную информацию. С одной стороны, это ограничивает вольность общения с программой, но, с другой стороны, позволяет избежать ошибок, связанных с неправильной трактовкой нечетко сформулированных высказываний.
Читать дальше →

Выявление проблем дорожной сети с помощью Яндекс.Пробок. Лекция в Яндексе

Время на прочтение7 мин
Количество просмотров18K

Яндекс.Пробки и связанные с ними функции в Навигаторе и Картах работают благодаря данным о скорости машин на разных участках дорог. Это совсем не новая, но по-прежнему эффективная схема. Вопрос, возникший уже по мере развития Пробок — можно ли использовать указанные данные как-нибудь ещё?



Аналитик Карт Леонид Медников рассказал о примере такого использования на конференции Яндекса «Пути Сообщения 2016». Под катом — расшифровка доклада и большинство слайдов.


Будущее сайтов: автоматическая сборка на базе ИИ и не только

Время на прочтение7 мин
Количество просмотров27K
Наш технический директор* верит, что искусственный интеллект будет создан ориентировочно к середине этого века, и лет через пятьдесят с большой вероятностью будет достигнута около-сингулярность с виртуализацией, ИИ и вот этим всем.



Но чтобы светлое завтра наступило, уже сегодня нужно решать связанные с ним практические задачи. Так что мы занялись технологией, которая будет делать сайты за людей. Нет, не за специалистов, создающих сложные и высоконагруженные системы. А за ребят с “сайтом-визиткой за 3000” — потому что ИИ, как минимум, не пропадет на месяц после предоплаты.

Прелесть вот в чем: запуск конструктора сайтов с нейросетью и алгоритмическим дизайном** — дело не пятидесяти, а всего пары лет. Это будущее, которое можно пощупать уже сегодня.
Ведь не все хотят делать себе сайты сами

Что такое свёрточная нейронная сеть

Время на прочтение13 мин
Количество просмотров272K


Введение


Свёрточные нейронные сети (СНС). Звучит как странное сочетание биологии и математики с примесью информатики, но как бы оно не звучало, эти сети — одни из самых влиятельных инноваций в области компьютерного зрения. Впервые нейронные сети привлекли всеобщее внимание в 2012 году, когда Алекс Крижевски благодаря им выиграл конкурс ImageNet (грубо говоря, это ежегодная олимпиада по машинному зрению), снизив рекорд ошибок классификации с 26% до 15%, что тогда стало прорывом. Сегодня глубинное обучения лежит в основе услуг многих компаний: Facebook использует нейронные сети для алгоритмов автоматического проставления тегов, Google — для поиска среди фотографий пользователя, Amazon — для генерации рекомендаций товаров, Pinterest — для персонализации домашней страницы пользователя, а Instagram — для поисковой инфраструктуры.


Но классический, и, возможно, самый популярный вариант использования сетей это обработка изображений. Давайте посмотрим, как СНС используются для классификации изображений.


Задача


Задача классификации изображений — это приём начального изображения и вывод его класса (кошка, собака и т.д.) или группы вероятных классов, которая лучше всего характеризует изображение. Для людей это один из первых навыков, который они начинают осваивать с рождения.


Читать дальше →

Логика сознания. Часть 4. Секрет памяти мозга

Время на прочтение21 мин
Количество просмотров51K
Когда с нами что-то происходит наш мозг фиксирует это, создавая воспоминания. Изменения, которые при этом происходят с мозгом, принято называть энграммами или следами памяти.

Вполне естественно, что понимание того, как выглядят следы памяти – основной вопрос изучения мозга. Без этого невозможно построить никакую биологически достоверную модель его работы. Понимание строения памяти непосредственно связано с пониманием того, как мозг кодирует информацию и как он ей оперирует. Все это, пока, — неразгаданная загадка.

Еще большую интригу в загадку памяти вносят исследования по локализации воспоминаний. Еще в первой половине двадцатого века Карл Лэшли поставил очень интересные опыты. Сначала он обучал крыс находить выход в лабиринте, а затем удалял им различные части мозга и снова запускал в тот же лабиринт. Так он пытался найти ту часть мозга, которая отвечает за память о полученном навыке. Но оказалось, что память каждый раз сохранялась, несмотря на временами значительные нарушения моторики. Крысы всегда помнили где искать выход и упорно стремились к нему.
Читать дальше →

Глубинное обучение: возможности, перспективы и немного истории

Время на прочтение7 мин
Количество просмотров20K
Последние несколько лет словосочетание «глубинное обучение» всплывает в СМИ слишком часто. Различные журналы вроде KDnuggets и DigitalTrends стараются не упустить новости из этой сферы и рассказать о популярных фреймворках и библиотеках.

Даже популярные издания вроде The NY Times и Forbes стремятся регулярно писать о том, чем заняты ученые и разработчики из области deep learning. И интерес к глубинному обучению до сих пор не угасает. Сегодня мы расскажем о том, на что способно глубинное обучение сейчас, и по какому сценарию оно будет развиваться в будущем.



/ фото xdxd_vs_xdxd CC
Читать дальше →

Batch Normalization для ускорения обучения нейронных сетей

Время на прочтение5 мин
Количество просмотров77K

В современном мире нейронные сети находят себе всё больше применений в различных областях науки и бизнеса. Причем чем сложнее задача, тем более сложной получается нейросеть.


Обучение сложных нейронных сетей иногда может занимать дни и недели только для одной конфигурации. А чтобы подобрать оптимальную конфигурацию для конкретной задачи, требуется запустить обучение несколько раз — это может занять месяцы вычислений даже на действительно мощной машине.


В какой-то момент, знакомясь с представленным в 2015 году методом Batch Normalization от компании Google мне, для решения задачи связанной с распознаванием лиц, удалось существенно улучшить скорость работы нейросети.



За подробностями прошу под кат.

Читать дальше →

Data Science Week 2016

Время на прочтение2 мин
Количество просмотров4.5K
Хабр, привет! Приглашаем вас на форум Data Science Week, который проходит при поддержке DCA.

Мероприятие пройдёт 8-9 и 12-13 сентября в Москве. Организаторы обещают более 20 выступлений от спикеров из Microsoft, Rambler&Co, Сбербанка, Авито, DCA, E-Contenta, Segmento.

Вот некоторые из тем:
Читать дальше →

Ближайшие события

ML boot camp 2016 новичок в ТОП 10

Время на прочтение5 мин
Количество просмотров8K
Не так давно закончились соревнования по машинному обучению от Mail.ru. Я занял 9 место, и, собственно, хотел бы поделиться тем, как это у это меня получилось. Если коротко, то повезло.


Читать дальше →

Приглашаем на второй хакатон Neurohack

Время на прочтение2 мин
Количество просмотров5.7K


9 сентября в Москве при поддержке Mail.Ru Group стартует Neurohack 2.0 — это 48-часовой марафон, в ходе которого вы сможете воплотить свои идеи, связанные с темой искусственного интеллекта и нейронных сетей. Хакатон проводится благодаря сообществу ведущих ученых России — Science Guide.
Читать дальше →

Логика сознания. Часть 3. Голографическая память в клеточном автомате

Время на прочтение10 мин
Количество просмотров29K
Ранее мы описали клеточный автомат, в котором могут возникать волны, имеющие хитрый внутренний узор. Мы показали, что такие волны способны распространять информацию по поверхности автомата. Оказалось, что любое место автомата может быть, как приемником, так и источником волн. Чтобы принять волну в каком-либо месте, достаточно посмотреть, какой узор получается в нем в момент прохождения волны. Если этот узор запомнить и впоследствии воспроизвести в том же месте, то от этого узора распространится волна, повторяющая на своем пути узор исходной волны.

Все это сильно напоминает радиосвязь. В любом месте земли можно принять сообщение и запомнить. Потом из любого места его можно снова запустить в эфир. При этом широковещательная трансляция подразумевает не конкретного получателя, а доступность сигнала для всех.

Автомат, который мы описываем обладает памятью. Точнее, памятью обладают все его элементы. Память элемента специфична. Единственное, что видит элемент автомата – это узор, составленный из активности своих соседей. Единственное, как элемент может отреагировать на тот или иной узор – это либо самому стать активным, либо, наоборот, выключиться. Память элемента – это набор запомненных им узоров с указанием, как на них реагировать: включаться или выключаться.
Читать дальше →

Data Science Week 2016. Форум о технологиях работы с данными

Время на прочтение2 мин
Количество просмотров4.5K
Всем привет! Рады пригласить вас на второй форум Data Science Week, который пройдет 8, 9, 12 и 13 сентября в Москве. Вас ждет более 20 открытых мастер-классов и лекций от специалистов из таких компаний как Microsoft, Rambler&Co, Сбербанк, Авито, DCA, E-Contenta, Segmento.

Каждый день будет посвящен отдельной теме: взаимоотношения с клиентом, внутренняя оптимизация, Sberbank Data Day, искусственный интеллект.

image
Читать дальше →

Логика сознания. Часть 2. Дендритные волны

Время на прочтение16 мин
Количество просмотров47K
В предыдущей части мы показали, что в клеточном автомате могут возникать волны, имеющие специфический внутренний узор. Такие волны могут запускаться из любого места клеточного автомата и распространяться по всему пространству клеток автомата, перенося информацию. Соблазнительно предположить, что реальный мозг может использовать схожие принципы. Чтобы понять возможность аналогии, немного разберемся с тем, как работают нейроны реального мозга.
Читать дальше →

Как «моделируют будущее» в Университете ИТМО: от предсказания поведения толпы до анализа мнений в соцсетях

Время на прочтение6 мин
Количество просмотров10K
Можно ли предсказать поведение толпы? Ученые из Института наукоемких компьютерных технологий (НИИ НКТ) при Университете ИТМО взялись решить эту задачу. Они создали систему, моделирующую варианты развития событий в местах массового скопления людей, будь то стадион во время футбольного Чемпионата Мира или святые места в период массового паломничества.

От хаоса — к модели


Модель строится на основе особенностей толпы, таких, как социальная структура, и внешних факторов, — например, погодных условий или политической обстановки. Также задаются параметры территории, где происходит действо. В результате, ученые видят наглядную картину поведения людей в заданных условиях. Выглядит это примерно так:


Читать дальше →

Алгоритм Левенберга — Марквардта для нелинейного метода наименьших квадратов и его реализация на Python

Время на прочтение9 мин
Количество просмотров69K



Нахождение экстремума(минимума или максимума) целевой функции является важной задачей в математике и её приложениях(в частности, в машинном обучении есть задача curve-fitting). Наверняка каждый слышал о методе наискорейшего спуска (МНС) и методе Ньютона (МН). К сожалению, эти методы имеют ряд существенных недостатков, в частности — метод наискорейшего спуска может очень долго сходиться в конце оптимизации, а метод Ньютона требует вычисления вторых производных, для чего требуется очень много вычислений.



Для устранения недостатков, как это часто бывает, нужно глубже погрузиться в предметную область и добавить ограничения на входные данные. В частности: МНС и МН имеют дело с произвольными функциями. В статистике и машинном обучении часто приходится иметь дело с методом наименьших квадратов (МНК). Этот метод минимизирует сумму квадрата ошибок, т.е. целевая функция представляется в виде



\frac{1}{2}\sum \limits_{i=1}^{N}(y_i'-y_i)^2 = \frac{1}{2}\sum \limits_{i=1}^{N}r_i^2 \tag{1}


Алгоритм Левенберга — Марквардта является нелинейным методом наименьших квадратов. Статья содержит:


  • объяснение алгоритма
  • объяснение методов: наискорейшего спуска, Ньтона, Гаусса-Ньютона
  • приведена реализация на Python с исходниками на github
  • сравнение методов

Читать дальше →

Вклад авторов