Как стать автором
Обновить
765.05

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Автономный робот бегает по «восьмерке»

Время на прочтение2 мин
Количество просмотров8.8K
Добрый день, коллеги,

Продолжая ранее опубликованную статью про высокоточную систему навигации (+-2см) внутри помещений, мы хотели бы показать, как простой робот на ее основе может кататься по какому угодно сложному маршруту совершенно автономно.

На видео ниже мы повесили мобильный маячок на простого робота и отправили его гулять по маршруту в виде восьмерки, чем он может и заниматься часами:



Или можно его отправить бегать по прямоугольнику:



Читать дальше →

Оптимизация гиперпараметров в Vowpal Wabbit с помощью нового модуля vw-hyperopt

Время на прочтение8 мин
Количество просмотров23K
Привет, Хабр! В этой статье речь пойдет о таком не очень приятном аспекте машинного обучения, как оптимизация гиперпараметров. Две недели назад в очень известный и полезный проект Vowpal Wabbit был влит модуль vw-hyperopt.py, умеющий находить хорошие конфигурации гиперпараметров моделей Vowpal Wabbit в пространствах большой размерности. Модуль был разработан внутри DCA (Data-Centric Alliance).


Для поиска хороших конфигураций vw-hyperopt использует алгоритмы из питоновской библиотеки Hyperopt и может оптимизировать гиперпараметры адаптивно с помощью метода Tree-Structured Parzen Estimators (TPE). Это позволяет находить лучшие оптимумы, чем простой grid search, при равном количестве итераций.

Эта статья будет интересна всем, кто имеет дело с Vowpal Wabbit, и особенно тем, кто досадовал на отсутствие в исходном коде способов тюнинга многочисленных ручек моделей, и либо тюнил их вручную, либо кодил оптимизацию самостоятельно.
Читать дальше →

Применение машинного обучения для увеличения производительности PostgreSQL

Время на прочтение10 мин
Количество просмотров22K
image

Машинное обучение занимается поиском скрытых закономерностей в данных. Растущий рост интереса к этой теме в ИТ-сообществе связан с исключительными результатами, получаемыми благодаря ему. Распознавание речи и отсканированных документов, поисковые машины — всё это создано с использованием машинного обучения. В этой статье я расскажу о текущем проекте нашей компании: как применить методы машинного обучения для увеличения производительности СУБД.
В первой части этой статьи разбирается существующий механизм планировщика PostgreSQL, во второй части рассказывается о возможностях его улучшения с применением машинного обучения.

Читать дальше →

Сборка XGBoost для Python под Windows

Время на прочтение2 мин
Количество просмотров26K
Windows is so evil that consumes extra energy to make the things running.



Библиотека XGBoost гремит на всех соревнованиях по машинному обучению и помогает завоёвывать призовые места. Однако, стать обладателем этого пакета для Python под Windows не так просто.

Процесс установки скудно описан на GitHub и немногим шире на форуме Kaggle. Поэтому попробую описать пошагово и более подробно. Надеюсь это поможет сохранить много времени неопытным пользователям.
Читать дальше →

Математические тайны «больших данных»

Время на прочтение5 мин
Количество просмотров20K
image

Так называемое машинное обучение не перестает удивлять, однако для математиков причина успеха по-прежнему не совсем понятна.

Как-то пару лет назад за ужином, на который меня пригласили, выдающийся специалист в области дифференциальной геометрии Эудженио Калаби вызвался посвятить меня в тонкости весьма ироничной теории о разнице между приверженцами чистой и прикладной математики. Так, зайдя в своих исследованиях в тупик, сторонники чистой математики нередко сужают проблематику, пытаясь таким образом обойти препятствие. А их коллеги, специализирующиеся на прикладной математике, приходят к выводу, что сложившаяся ситуация указывает на необходимость продолжить изучение математики с целью создания более эффективных инструментов.

Мне всегда нравился такой подход; ведь благодаря ему становится понятно, что прикладные математики всегда сумеют задействовать новые концепции и структуры, которые то и дело появляются в рамках фундаментальной математики. Сегодня, когда на повестке дня стоит вопрос изучения «больших данных» – слишком объемных или сложных блоков информации, которые не удается понять, используя лишь традиционные методы обработки данных – тенденция тем более не утрачивает своей актуальности.
Читать дальше →

Устойчивая красота неприличных моделей

Время на прочтение6 мин
Количество просмотров17K
Титаника на КДПВ нет, он утонул
— Не могли бы вы построить нам статистическую модель?
— С удовольствием. Можно посмотреть на ваши исторические данные?
— Данных у нас ещё нет. Но модель всё равно нужна.

Знакомый диалог, не правда ли? Далее возможны два варианта развития событий:

A. «Тогда приходите, когда появятся данные.» Вариант рассматриваться не будет как тривиальный.
Б. «Расскажите, какие факторы по вашему мнению наиболее важны.» Остаток статьи про это.

Под катом рассказ о том, что такое improper model, почему их красота устойчива и чего это стоит. Всё на примере многострадального набора данных о выживании пассажиров Титаника.
Читать дальше →

Новость позвала в дорогу: сверхбыстрый энергоэффективный оптический сопроцессор для больших данных

Время на прочтение4 мин
Количество просмотров11K


На прошлой неделе Phys.org разразился новостью: стартап LightOn предложил альтернативу центральным процессорам (CPU) и графическим процессорам (GPU) для решения задач анализа больших данных. Авторский коллектив базируется в университете Пьера и Марии Кюри, Сорбонне и всех прочих правильных местах во Франции. Решение основано на оптической аналоговой обработке данных «со скоростью света». Звучит интересно. Поскольку в пресс-релизе не было никаких научно-технических подробностей, пришлось поискать информацию в патентных базах данных и на сайтах университетов. Результаты расследования под катом.
Читать дальше →

Что под капотом тревел-стартапов или зачем программисту идти на Hack`n`Roll

Время на прочтение6 мин
Количество просмотров8.7K
26 ноября прошла конференция «TravelTech: перспективы онлайн-сервисов», где эксперты из тревел-отрасли попытались разобраться, что сейчас происходит на рынке.



Сначала у меня было мнение, что все тревел-стартапы — это просто интерфейсные фантики и много пиара, но я пообщался с Романом Спиридоновым (CTO Excursopedia) и он открыл мне глаза на open source, алгоритмы эффективного поиска и фрод в сфере тревел-проектов.

4-6 декабря в Москве будет проходить Hack’n’Roll (типа хакатон), где можно будет продемонстрировать свою программистскую силушку и принять участие в развитии онлайн-сервисов в России.

Под катом — то, какие вызовы и возможности есть для программистов тревел-сегменте.
Читать дальше →

Практические аспекты автоматической генерации уникальных текстов для SEO

Время на прочтение8 мин
Количество просмотров27K
Самая ужасная страшилка для желающих разместить написанный компьютером контент на своих сайтах — санкции поисковых систем. Нас тоже в свое время пугали тем, что сайт с неуникальными и /или сгенерированными текстами, будет плохо индексироваться или что он вообще попадет под бан. При этом точных требований к текстам никто нам сказать не смог. Вообще тема уникального контента и его роли в продвижении сайтов больше похожа на оккультные знания. Каждый следующий «специалист» обещает на своей странице открыть страшную правду, но правда так и не открывается, а суть многих дискуссий на форумах сводиться к тому, что, скажем, Яндекс, распознает сгенерированный контент с помощью магии. Не такими словами, но смысл в этом.

Поскольку недавно к нам обратились заказчики с задачей создать описаний для товаров на сайте, мы решили подробнее изучить этот вопрос. Какие алгоритмы существуют для определения автоматически написанных текстов, какие свойства должен иметь текст чтобы не быть распознанным как веб-спам, и какие средства могут его генерировать?
Читать дальше →

Яндекс анонсирует собственную технологию прогнозирования погоды Метеум. С точностью до дома

Время на прочтение8 мин
Количество просмотров59K
Сегодня мы анонсируем новую технологию Метеум — теперь с её помощью Яндекс.Погода будет строить собственный прогноз погоды, а не полагаться только на данные партнёров, как это было раньше.

Причём прогноз будет рассчитываться отдельно для каждой точки, из которой вы его запрашиваете, и пересчитываться каждый раз, когда вы на него смотрите, чтобы быть максимально актуальным.



В этом посте я хочу рассказать немного о том, как в наше время устроен мир погодных моделей, чем наш подход отличается от обычных, почему мы решились строить собственный прогноз и почему верим, что у нас получится лучше, чем у всех остальных.

Мы построили собственный прогноз с использованием традиционной модели атмосферы и максимально подробной сеткой, но и постарались собрать все возможные источники данных об атмосферных условиях, статистику о том, как ведёт себя погода на деле, и применили к этим данным машинное обучение, чтобы уменьшить вероятность ошибок.

Сейчас в мире есть несколько основных моделей, по которым предсказывают погоду. Например, модель с открытым исходным кодом WRF, модель GFS, которые изначально являлись американской разработкой. Сейчас ее развитием занимается агентство NOAA.
Читать дальше →

Хакатон по машинному обучению: Прийти. Обучить модель. Победить

Время на прочтение6 мин
Количество просмотров11K
Стандартный план любого хакатона

Microsoft Azure Machine Learning Hackathon

В эти выходные пройдет хакатон по машинному обучению, организатором которого является компания Microsoft. У участников хакатона будет 2 дня для того, чтобы крепко не выспаться и сделать мир лучше.

Повествование в этой статье будет проходить в такой же стремительной манере, в какой, как я полагаю, для большинства участников и пройдет хакатон. Никакой воды (если вы не знакомы с Azure ML, то «воду» или какой-то ознакомительный материал лучше все-таки почитать), долгих определений и таких длинных вступлений как это — только то, что вам нужно, чтобы победить на хакатоне.
Level Up

Интенсив по немецкому: как ABBYY Compreno учит новые языки

Время на прочтение11 мин
Количество просмотров9.5K
Как вы знаете, ABBYY занимается разработкой технологии анализа естественных языков Compreno. Сейчас система работает на английском и русском языках, и активно используется во многих проектах. Однако изначально сама технология была задумана как многоязычная, поэтому мы много внимания уделяем и «обучению» другим иностранным языкам. И тут можно провести некоторую аналогию с человеком: после изучения одного иностранного языка другие даются легче. В частности, сейчас мы добавляем в технологию немецкий язык и параллельно исследуем возможности рынка – есть ли интерес к этому направлению. Сразу оговоримся – пока речь о продуктах, поддерживающих немецкий, не идёт, мы в самом начале пути.
Читать дальше →

Машинное обучение как способ анализа микроструктуры рынка и его применение в высокочастотном трейдинге

Время на прочтение9 мин
Количество просмотров17K


В этой статье мы рассмотрим способы применения машинного обучения в сфере высокочастотного трейдинга (HFT) и анализа микроструктурных данных. Машинное обучение – это замечательный раздел информатики, использующий модели и методы из статистики, теории алгоритмов, теории вычислительной сложности, искусственного интеллекта, теории управления и огромного числа других дисциплин. Основным объектом исследования машинного обучения являются эффективные алгоритмы, позволяющие создать хорошие предсказательные модели на основании больших наборов данных – именно поэтому оно так хорошо подходит для решения задач высокочастотного трейдинга: заключения сделок и расчета показателя «альфа».
Читать дальше →

Ближайшие события

Нейросеть в 11 строчек на Python

Время на прочтение8 мин
Количество просмотров550K

О чём статья


Лично я лучше всего обучаюсь при помощи небольшого работающего кода, с которым могу поиграться. В этом пособии мы научимся алгоритму обратного распространения ошибок на примере небольшой нейронной сети, реализованной на Python.

Дайте код!


X = np.array([ [0,0,1],[0,1,1],[1,0,1],[1,1,1] ])
y = np.array([[0,1,1,0]]).T
syn0 = 2*np.random.random((3,4)) - 1
syn1 = 2*np.random.random((4,1)) - 1
for j in xrange(60000):
    l1 = 1/(1+np.exp(-(np.dot(X,syn0))))
    l2 = 1/(1+np.exp(-(np.dot(l1,syn1))))
    l2_delta = (y - l2)*(l2*(1-l2))
    l1_delta = l2_delta.dot(syn1.T) * (l1 * (1-l1))
    syn1 += l1.T.dot(l2_delta)
    syn0 += X.T.dot(l1_delta)


Слишком сжато? Давайте разобьём его на более простые части.
Читать дальше →

Приглашаем на Moscow Data Science 27 ноября

Время на прочтение2 мин
Количество просмотров4.6K


В эту пятницу, 27 ноября, в кинозале московского офиса Mail.Ru Group пройдет юбилейный митап Moscow Data Science — встречам сообщества исполняется два года. Традиционно будут обсуждаться вопросы, связанные с применением алгоритмов машинного обучения для решения задач анализа больших данных, построения рекомендательных систем и SNA.
Читать дальше →

Библиотека машинного обучения Google TensorFlow – первые впечатления и сравнение с собственной реализацией

Время на прочтение10 мин
Количество просмотров31K
Coвсем недавно Google сделал доступной для всех свою библиотеку для машинного обучения, под названием TensorFlow. Для нас это оказалось интересно еще и тем, что в состав входят самые современные нейросетевые модели для обработки текста, в частности, обучения типа “последовательность-в-последовательность” (sequence-to-sequence learning). Поскольку у нас есть несколько проектов, связанных с этой технологией, то мы решили, что это отличная возможность перестать изобретать велосипед (наверное пора уже) и быстро улучшить результаты. Представив себе довольные лица клиентов, мы приступили к работе. И вот что из этого получилось…
Читать дальше →

Как мы учим машинному обучению и анализу данных в «Билайн»

Время на прочтение6 мин
Количество просмотров15K


После длительной подготовки, подборки материала и предварительных апробаций курса 19 октября мы запустились. Корпоративный интенсивный практический курс анализа данных от экспертов этого дела. В настоящий момент у нас прошло 6 занятий, половина нашего курса, и это краткий обзор того, что мы на них делаем.

Прежде всего, нашей задачей было создать курс, на котором мы дадим максимум практики, которую слушатели сразу смогут применять в ежедневной работе.

Мы часто видели, как люди, приходящие к нам на собеседования, несмотря на неплохое знание теории, из-за недостатка опыта не могли воспроизвести все этапы решения типичной задачи машинного обучения – подготовка данных, отбор/конструирование признаков, выбор моделей, их правильная композиция, достижение высокого качества и правильная трактовка полученных результатов.

Поэтому у нас главное – это практика. Открываем тетрадки IPython и сразу с ними работаем.
Читать дальше →

TensorFlow: машинное обучение от Google, теперь – умнее и для всех

Время на прочтение2 мин
Количество просмотров61K
Всего-то пару лет назад мы не могли общаться с приложениями Google сквозь уличный шум, не переводили русские надписи в Google Translate и не искали фото того самого лабрадудля в Google Photos, только лишь о нём услышав. Дело в том, что наши приложения были тогда недостаточно умны. Что ж, очень быстро они стали значительно, значительно умнее. Сегодня, благодаря технологии машинного обучения, все эти замечательные штуки, равно как и многое другое и более серьёзное, мы можем делать играючи.

В общем, встречайте: мы создали принципиально новую систему машинного обучения по имени TensorFlow. TensorFlow быстрее, умнее и гибче в сравнении с нашей предыдущей технологией (DistBelief, с 2011, та самая, что распознавала кошку без учителя), благодаря чему стало значительно проще адаптировать её к использованию в новых продуктах и исследовательских проектах. TensorFlow – высокомасштабируемая система машинного обучения, способная работать как на простом смартфоне, так и на тысячах узлов в центрах обработки данных. Мы используем TensorFlow для всего спектра наших задач, от распознавания речи до автоответчика в Inbox и поиска в Google Photos. Такая гибкость позволяет нам конструировать и тренировать нейросетки до 5 раз быстрее в сравнении с нашей старой платформой, так что мы действительно можем использовать новую технологию значительно оперативнее.

image

Читать дальше →

Некоторые репозитории в помощь изучающим и преподающим Python и машинное обучение

Время на прочтение13 мин
Количество просмотров64K


Привет сообществу!

Я Юрий Кашницкий, раньше делал здесь обзор некоторых MOOC по компьютерным наукам и искал «выбросы» среди моделей Playboy.

Сейчас я преподаю Python и машинное обучение на факультете компьютерных наук НИУ ВШЭ и в онлайн-курсе сообщества по анализу данных MLClass, а также машинное обучение и анализ больших данных в школе данных одного из российских телеком-операторов.

Почему бы воскресным вечером не поделиться с сообществом материалами по Python и обзором репозиториев по машинному обучению… В первой части будет описание репозитория GitHub с тетрадками IPython по программированию на языке Python. Во второй — пример материала курса «Машинное обучение с помощью Python». В третьей части покажу один из трюков, применяемый участниками соревнований Kaggle, конкретно, Станиславом Семеновым (4 место в текущем мировом рейтинге Kaggle). Наконец, сделаю обзор попавшихся мне классных репозиториев GitHub по программированию, анализу данных и машинному обучению на Python.

Читать дальше →

Как я победил в конкурсе BigData от Beeline

Время на прочтение7 мин
Количество просмотров88K
image

Все уже много раз слышали про конкурс по машинному обучению от Билайн и даже читали статьи (раз, два). Теперь конкурс закончился, и так вышло, что первое место досталось мне. И хотя от предыдущих участников меня и отделяли всего сотые доли процента, я все же хотел бы рассказать, что же такого особенного сделал. На самом деле — ничего невероятного.
Читать дальше →

Работа

Data Scientist
47 вакансий