Как стать автором
Обновить
790.29

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Опрос Data Science Tools

Время на прочтение1 мин
Количество просмотров3.8K


Хабр, привет! Хочу пригласить всех дата сайентистов принять участие в небольшом опросе об инструментах, которые вы используете в своей работе. Результаты опроса обязательно опубликуем в нашем блоге.

Формула доверия

Время на прочтение8 мин
Количество просмотров8K
image

Сегодня мы расскажем об одной из ключевых фишек нашей DLP-системы — уровне доверия. Это показатель, который присваивается каждому человеку в компании и отражает вероятность того, что данный сотрудник окажется нарушителем.

Сейчас в DLP-решениях на первый план выходит аналитика. Пару лет назад все российские вендоры стали понемногу пытаться «разворачивать» DLP-системы от борьбы с утечками в сторону выявления и предотвращения других нелегитимных действий сотрудников — мошенничества, откатов, сговоров и т.п. Однако каждый человек генерирует такое количество информации в день, что отслеживать действия каждого невозможно даже в средних компаниях, не говоря о крупном бизнесе. Поэтому способность системы сделать качественную аналитику в автоматическом режиме и очертить круг лиц «под подозрением» была бы очевидным преимуществом. Так возникла идея создания уровня доверия, основной целью которого была прозрачность ситуации с внутренними угрозами в компании.
Читать дальше →

Бот для telegram с состоянием в СУБД и классификацией текста

Время на прочтение7 мин
Количество просмотров15K
Т.к. мой классификатор из прошлого поста таки работает (впрочем, параметры «из коробки» не всегда удачны, потому я вынес возможность слегка настроить Conv1d-слои и скрытый слой) — я решил прикрутить его к боту. Да, запоздал я на этот хайп ) Кстати, заранее уточню, что прикрутить русский я пока таки не пробовал, хотя это не должно стать проблемой — в nltk поддерживаются нужные фичи, обучение word2vec концептуально не отличается от английского, да и предобученные модели вроде бы имеются.

Ну и сходу возникают вопросы:

  • под какие платформы его пилить — пока решил остановиться на telegram. В теории — конструкция позволяет легко дописать обертки для других платформ (как будто он кому-то понадобится )
  • как описывать «сценарий». Навелосипедил свою структуру с классами и сущностями поверх YAML
  • ну и неплохо бы хранить ботов/состояние в какой-нибудь БД

Читать дальше →

МСУИИ AmigaVirtual — универсальный ИИ для каждого

Время на прочтение14 мин
Количество просмотров5.7K
Логотип Привет всем любителям и исследователям искусственного интеллекта! В данной статье я хотел бы рассказать об интересном проекте: модульной системе универсального искусственного интеллекта (МСУИИ) «Amiga Virtual» (AV, «Виртуальная Подружка»). Я расскажу об основных принципах её работы и опишу некоторые детали реализации, а самые любопытные смогут исследовать все исходные коды. Разработка ведётся на Delphi, но модули теоретически могут быть написаны на любом ЯП. Данная система будет интересна как конечным пользователям чат-ботов и связанных с ними систем, так и разработчикам ИИ — ведь на её основе можно разработать практически любой тип ИИ.
Читать дальше →

Порождение и выбор моделей машинного обучения. Лекция в Яндексе

Время на прочтение11 мин
Количество просмотров22K
Применение машинного обучения может включать работу с данными, тонкую настройку уже обученного алгоритма и т. д. Но масштабная математическая подготовка нужна и на более раннем этапе: когда вы только выбираете модель для дальнейшего использования. Можно выбирать «вручную», применяя разные модели, а можно и этот процесс попробовать автоматизировать.


Под катом — лекция ведущего научного сотрудника РАН, доктора наук и главного редактора журнала «Машинное обучение и анализ данных» Вадима Стрижова, а также большинство слайдов.

Как создать торгового робота с помощью генетического программирования

Время на прочтение15 мин
Количество просмотров34K


Доброго времени суток. В этой статье расскажу о создании системы в которой генетические алгоритмы пишут роботов. В теории эти роботы могли бы торговать на бирже.

Я фанат трех вещей — искусственного интеллекта, высокопроизводительных машин и практического применения любых знаний. Имея некоторое свободное время, я спроектировал небольшую задачку, приобрел железо и сел творить.

Проект возник из желания попробовать на практике генетическое программирование. Первым вариантом было создавать бота к какой-нибудь игре, но я остановился на торговых роботах, где биржа тоже своего рода игра.
Читать дальше →

Как мы участвовали в HR-хакатоне. Наши выпускники делятся своим решением и впечатлениями от участия

Время на прочтение7 мин
Количество просмотров5.1K

Всем привет!


23-24 ноября в Digital October проходил хакатон по анализу данных в HR-сфере, в котором победила команда выпускников нашей программы "Специалист по большим данным". Кирилл Данилюк, Игорь Парфенов, Егор Андреев и Александр Иваночкин делятся своим решением и впечатлениями от участия.

Читать дальше →

Deep Learning: Cочетание глубокой сверточной нейронной сети с рекуррентной нейронной сетью

Время на прочтение6 мин
Количество просмотров23K
Представляем вам завершающую статью из цикла по Deep Learning, в которой отражены итоги работы по обучению ГСНС для изображений из определенных областей на примере распознавания и тегирования элементов одежды. Предыдущие части вы найдете под катом.


Читать дальше →

Приглашаем на DevFest Владивосток

Время на прочтение1 мин
Количество просмотров1.7K
Если вы будете во Владивостоке 3 декабря — приходите на конференцию для разработчиков DevFest!

У нас будут доклады и мастер-классы по Android, машинному обучению, web разработке, Kubernetes и Go; Интересные железяки — Google Home, Android TV, Cardboard, Tango.

Конференция проводится GDG Владивосток при поддержке Google.

Участие бесплатное. Почитать подробней и зарегистрироваться можно на сайте.

FlyElephant празднует первый год работы в публичном доступе и анонсирует сотрудничество с HPC-HUB

Время на прочтение2 мин
Количество просмотров2.7K


В ноябре FlyElephant празднует первый год работы в публичном доступе. FlyElephant — это платформа для дата-сайентистов, инженеров и ученых, которая ускоряет бизнес с помощью автоматизации Data Science и Engineering Simulation.
Читать дальше →

data.table: выжимаем максимум скорости при работе с данными в языке R

Время на прочтение9 мин
Количество просмотров15K

На эксклюзивных условиях представляем для вас полный вариант статьи из журнала Хакер, посвященной разработке на R. Под катом вы узнаете, как выжать максимум скорости при работе с табличными данными в языке R.


Читать дальше →

Маленький код для больших данных или Apache Spark за 3 дня

Время на прочтение7 мин
Количество просмотров12K
Пусть Жираф был не прав,
Но виновен не Жираф,
А тот, кто крикнул из ветвей:
«Жираф большой — ему видней!» (с)


Потребовалось оперативно разобраться с технологией Apache Spark заточенную для использования Big Data. В процессе выяснения активно использовал habrahabr, так что попробую вернуть информационный должок, поделившись приобретенным опытом.

А именно: установкой системы с нуля, настройкой и собственно программированием кода решающего задачу обработки данных для создания модели, вычисляющей вероятность банкротства клиента банка по набору таких признаков как сумма кредита, ставка и т.д.

Больших данных вроде как должно быть много, но почему-то не просто найти то злачное место, где их все щупают. Сначала попробовал вариант с ambari, но на моей Window7 валились ошибки настроек сетевого моста. В итоге прокатил вариант с преднастроенной виртуальной машиной от Cloudera (CDH). Просто устанавливаем VirtualBox, запускаем скачанный файл, указываем основные параметры (память, место) и через 5 минут достопочтенный джин Apache Hadoop жаждет ваших указаний.

Несколько слов, почему именно Spark. Насколько я понимаю, ключевые отличия от изначальной MapReduce в том, что данные удерживаются в памяти, вместо сброса на диск, что дает ускорение во много раз. Но, пожалуй, более важны реализации целого ряда статистических функций и удобным интерфейсом для загрузки/обработки данных.

Дальше собственно код для решения следующей задачи. Есть реально большие данные (ибо рука очень устает скролить эти 2000 строк) в формате:



Есть предположение, что дефолт как-то связан с остальными параметрами (кроме первого, к уважаемым Ивановым1…N претензий нет) и нужно построить модель линейной регрессии. Прежде чем начать, стоит оговориться, что это мой первый код на Java, сам я работаю аналитиком и вообще это мой первый запуск Eclipse, настройка Maven и т.д. Так что не стоит ждать изысканных чудес, ниже решение задачи в лоб тем способом, который почему-то заработал. Поехали:
Читать дальше →

Сравнение технологических подходов к решению задач по извлечению данных

Время на прочтение10 мин
Количество просмотров8.5K

Целью статьи является попытка сравнительного анализа основных подходов в решении задач семантического анализа текстов, их различиях и эффективности на уровне концепций, без учета нюансов, комбинаций вариантов и возможных трюков, способствующих улучшению ожидаемого результата.


На сегодняшний день существует огромное количество материалов описывающий те или иные техники решения задач семантического анализа текстов. Это и латентно-семантический анализ, SVM-анализ, «перенос-свертка» и многое другое. Писать очередную статью про обзор и сравнение конкретных алгоритмов – это значит впустую потрать время.


Мне бы хотелось в рамках нескольких статей обсудить базовые идеи и проблемы, лежащие в основе семантического анализа с точки зрения их практического применения, если можно так выразится, с базовой философско-онтологической точки зрения. В какой степени возможно использовать порождающие грамматики для анализа текста? Накапливать ли варианты написания и разного рода "корпуса" или разрабатывать алгоритмы анализа на основании правил?


В рамках нашего рассуждения я осознанно постараюсь уйти от каких-либо терминов и устоявшихся выражений, ибо как говорил У. Куайн – термины это всего лишь имена в рамках онтологий не имеющие никакого практического значения для решения задач логики и понимания чего-либо в частности.[1] Поэтому, с его позволения, будем опираться на единичные дескрипции Рассела, а проще говоря, давать полные описания в ущерб существующим устоявшимся терминам.


Читать дальше →

Ближайшие события

Встреча любителей больших данных и искусства

Время на прочтение1 мин
Количество просмотров3.9K
Во вторник, 29 ноября 2016 года DI Telegraph и Data-Centric Alliance проведут митап Art of Science.



Art of Science – мероприятие, посвященное анализу данных в искусстве. Наука и искусство – что их связывает? Возможно ли взаимодействие этих двух разных миров? Можно ли с помощью big data, нейронных сетей и методов машинного обучения создавать что-то полезное и прекрасное? Как наука о данных может помочь в решении задач современного искусства? Об этом и многом другом расскажут наши спикеры, представители мира технологического «искусства».
Читать дальше →

Как остановить отток людей с онлайн-курса и заодно попасть на хакатон

Время на прочтение4 мин
Количество просмотров5.8K

Онлайн-курсы, кроме своей удобности и доступности, славятся тем, что на них необычайно легко забивать, что с успехом и делают многие слушатели. Забивать слушателям случается по самым разным причинам — непонятен курс, пропущен дедлайн, не успел набрать баллы, вышел Fallout 4 – у всех свои оправдания. А вот у нас оправданий быть не может: если человек покидает курс, мир теряет потенциального разработчика или специалиста по анализу данных, а ещё киловатт-часы и затраченное нашим героем время.


Самая сложная задача здесь — определить, кто из пользователей убежит, а зная их, уже намного проще предотвратить потери: “предупрежден, значит вооружен”.


В конце статьи вы узнаете, как с помощью решения проблемы попасть на хакатон по анализу данных


image


Читать дальше →

Обучаемся самостоятельно: подборка видеокурсов по Computer Science

Время на прочтение11 мин
Количество просмотров130K
image

Содержание


  1. Введение в Computer Science
  2. Структуры данных и Алгоритмы
  3. Системное программирование
  4. Распределенные системы
  5. Базы данных
  6. Объектно-ориентированный дизайн и разработка софта
  7. Искусственный интеллект
  8. Машинное обучение
  9. Веб-разработка и интернет-технологии
  10. Concurrency
  11. Компьютерные сети
  12. Разработка мобильных приложений
  13. Математика для программистов
  14. Теория информатики и языки программирования
  15. Архитектура компьютера
  16. Безопасность
  17. Компьютерная графика
  18. Работа с изображениями и компьютерное зрение
  19. Интерфейс Человек-Компьютер
  20. Вычислительная биология
  21. Прочее

Глубокое обучение для новичков: тонкая настройка нейронной сети

Время на прочтение21 мин
Количество просмотров105K

Введение


Представляем третью (и последнюю) статью в серии, задуманной, чтобы помочь быстро разобраться в технологии глубокого обучения; мы будем двигаться от базовых принципов к нетривиальным особенностям с целью получить достойную производительность на двух наборах данных: MNIST (классификация рукописных цифр) и CIFAR-10 (классификация небольших изображений по десяти классам: самолет, автомобиль, птица, кошка, олень, собака, лягушка, лошадь, корабль и грузовик).
Читать дальше →

Поиск звуковых аномалий

Время на прочтение6 мин
Количество просмотров8.6K

Попробуем решить задачу поиска аномалий в звуке.
Микрофоны, на данное время, представляют из себя одни из самых распространенных универсальных детекторов. Они маленькие, дешевые, надежные. И они по-умолчанию присутствуют в сотовых телефонах. Их можно использовать практически везде. Поэтому задача обработки звука, не только речи, стоит перед нами прямо сейчас. Это классический пример Low hanging fruit — "низко висящего фрукта". :)


Примеры аномалий звука:


  • Неисправности в работе двигателя.
  • Изменения в погоде: дождь, град, ветер.
  • Аномалии работа сердца, желудка, суставов.
  • Необычный трафик на дороге.
  • Неисправности колесных пар у поезда.
  • Неисправности при посадке и взлете самолета.
  • Аномалии движения жидкости в трубе, в канале.
  • Аномалии движения воздуха в системах кондиционирования, на крыле самолета.
  • Неисправности автомобиля, велосипеда.
  • Неисправности станка, оборудования.
  • Расстроенный музыкальный инструмент.
  • Неправильно взятые ноты песни.
  • Эхолокация кораблей и подводных лодок.
Читать дальше →

Деконструкция мифа о глубоком обучении. Лекция в Яндексе

Время на прочтение13 мин
Количество просмотров39K
Оптимизм по поводу нейронных сетей разделяют не все — или, по крайней мере, уровень такого оптимизма бывает разным. Старший преподаватель факультета компьютерных наук ВШЭ Сергей Бартунов согласен, что нейросетевая область сейчас на подъеме. С другой стороны, он хочет внести в происходящее некоторую ясность, определить реальный потенциал нейросетей. Вне зависимости от точки зрения докладчика, глубокое обучение и правда не проникает в нашу сферу совсем уж стремительными темпами. Традиционные методы обучения всё ещё работают и не обязательно будут вытеснены машинным интеллектом в ближайшей будущем.


Под катом — расшифровка лекции и часть слайдов Сергея.

Программа по Deep Learning

Время на прочтение3 мин
Количество просмотров7.1K
Хабр, привет! Из уважения к тем из вас, кто на дух не переносит здесь рекламу, сразу сообщим — да, это рекламный пост. Можно проскроллить дальше. Тем, кто считает, что реклама не всегда вредна и порой помогает принимать нам важные решения, добро пожаловать под кат.
Читать дальше →

Работа

Data Scientist
51 вакансия