Обновить
627.79

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Машинное обучение поможет сократить популяцию мух цеце, чтобы снизить уровень заболеваемости сонной болезнью

Время на прочтение3 мин
Охват и читатели3.9K
Привет, Хабр! Представляю вашему вниманию перевод статьи " Machine learning can control tsetse flies аnd thus reduce sleeping sickness".

Самки мухи цеце спариваются один раз в жизни, что дает возможность контролировать размеры популяции этих вредных насекомых. Так у самки, которая спаривается с бесплодным самцом, не будет потомства. При контроле достаточного количества спариваний, в результате можно снизить их популяцию, следовательно, снизить уровень заболеваемости сонной болезни среди людей и крупного рогатого скота.

Исследование, проводимое в Сенегале, показало, что эта идея осуществима. За последние пять лет самцы мухи цеце, стерилизованные с использованием гамма-лучей, выпускались три раза в неделю в зараженные районы. Это позволило снизить местную популяцию мух на 98%, с соответствующим снижением заболеваемости сонной болезнью. Но такие проекты требуют огромного количества стерильных самцов, которых нужно разводить и доставлять своевременно, а это сложно.

Одна из проблем, заключается в том, что разведение самцов неизбежно затрагивает и размножение самок. Сортировка по половой принадлежности необходима для того чтобы производить облучение исключительно самцов. Элементарное облучение обоих полов вызывает проблемы, поскольку для стерилизации самок требуется более высокая доза облучения, которая может вызвать гибель самцов. Сортировка Цеце заключается в выжидании, пока мухи не вылупятся из куколок. Одновременно охлаждая их, чтобы уменьшить метаболизм и, следовательно, их активность. Отделение самцов от самок производится вручную при помощи кисточки. Самец отличается от самки наличием усиков, что помогает его идентифицировать. Этот процесс является эффективным, но трудозатратным и занимающим много времени. Зелда Моран из Колумбийского университета, считает, что есть способ лучше.
Читать дальше →

Чем на самом деле занимаются специалисты по анализу данных? Выводы из 35 интервью

Время на прочтение7 мин
Охват и читатели12K
Автор материала провел серию бесед с экспертами в области анализа и обработки данных и сделал выводы о перспективах и направлениях развития дата-сайентистов.


Теория и методы обработки данных упростили решение самых разных задач в сфере технологий. Сюда относится оптимизация поисковой выдачи Google, рекомендации в LinkedIn, формирование заголовков материалов на Buzzfeed. Однако работа с данными может ощутимо повлиять и на многие сектора экономики: от розничной торговли, телекоммуникаций, сельского хозяйства до здравоохранения, грузовых перевозок и пенитенциарных систем.
 
И все же термины «наука о данных», «теория и методы анализа данных» и «специалист по анализу данных» (data scientist) остаются понятны не до конца. На практике они употребляются для описания широкого спектра методов работы с информацией.
 
Что на самом деле делают специалисты по data science? Как ведущий подкаста DataFramed я получил замечательную возможность провести интервью более чем с 30 специалистами в области анализа данных из разнообразных отраслей и академических дисциплин. В числе прочего я всякий раз спрашивал, в чем именно состоит их работа.
 
Наука о данных — это действительно обширная область. Мои гости подходили к нашим беседам со всевозможных позиций и точек зрения. Они описывали самую разную деятельность, в том числе масштабные онлайн-фреймворки для разработки продуктов на booking.com и Etsy, используемые Buzzfeed методы решения задачи многорукого бандита в ходе оптимизации заголовков материалов и влияние, которое машинное обучение оказывает на принятие бизнес-решений в Airbnb.
Читать дальше →

Деньги на ветер: почему ваш антифишинг не детектирует фишинговые сайты и как Data Science заставит его работать?

Время на прочтение10 мин
Охват и читатели5.3K
image

В последнее время фишинг является наиболее простым и популярным у киберпреступников способом кражи денег или информации. За примерами далеко ходить не нужно. В прошлом году ведущие российские предприятия столкнулись с беспрецедентной по масштабу атакой — злоумышленники массово регистрировали фейковые ресурсы, точные копии сайтов производителей удобрений и нефтехимии, чтобы заключать контракты от их имени. Средний ущерб от такой атаки — от 1,5 млн рублей, не говоря уже про репутационный ущерб, который понесли компании. В этой статье мы поговорим о том, как эффективно детектировать фишинговые сайты с помощью анализа ресурсов (изображений CSS, JS и т.д.), а не HTML, и как специалист по Data Science может решить эти задачи.
Читать дальше →

Data-driven decision на примере выбора цвета для покраски стен

Время на прочтение8 мин
Охват и читатели2.5K
Начав выбирать себе цвет для покраски стены в комнате, я столкнулся с интересной вещью. Весь этот процесс с самого начала начал напоминать работу над каким-нибудь IT-ML-Blah-blah-blah-аналитическим проектом.

Тут есть и заказчик, который не очень понимает, что именно он хочет, но хочет, чтобы все было хорошо и ему нравилось. Еще есть несколько заинтересованных лиц со стороны заказчика, которые не могут договориться по вопросу, что такое «хорошо». Есть какие-то переформулировки задачи, которые под большим вопросом релевантны этому самому «хорошо», но по-крайней мере как-то решаемы. Есть подбор методов решения и попытки их реализовывать. Есть итеративность, которая имплицитно, но монотонно, ведет к какому-то решению, которое бы всех устроило. И есть некоторые странные выводы, которые бы с трудом можно было бы сделать в «реальном» проекте, потому что из-за общей нервозности и участия в процессе денег фокус внимания редко останавливается на этих местах процесса.


Читать дальше →

Нейросеть обучили распознавать депрессию по произвольной речи человека без контекста

Время на прочтение3 мин
Охват и читатели6.3K

Нейросеть оценивает эмоциональную окраску 30-секундного фрагмента речи говорящего. Иллюстрация из предыдущей научной работы авторов

В последние годы машинное обучение всё чаще применяют как полезное средство диагностики. Существующие модели способны определять слова и интонации речи, которые могут указывать на депрессию. Но эти модели обычно работают только если пациент отвечает на конкретные вопросы врача: например, о его настроении, образе жизни, истории болезни и т. д. То есть работа нейросети в данном случае не отличается от работы обычного психотерапевта, который беседует с пациентом.

Но для медицины нового поколения гораздо эффективнее система, которая определяет депрессию на произвольном наборе слов, без конкретного набора вопросов. Теоретически, в этом случае можно автоматически отслеживать психическое здоровье всего населения в реальном режиме времени (весь голосовой трафик) — и оперативно госпитализировать больных. Модуль автоматического обнаружения депрессии можно внедрить в мобильные приложения и игры.
Читать дальше →

Serverless tensorflow на AWS Lambda

Время на прочтение7 мин
Охват и читатели11K

Image
Машинное обучение и нейросети становятся все более незаменимыми для многих компаний. Одна из основных проблем, с которыми они сталкиваются — деплой такого рода приложений. Я хочу показать показать практичный и удобный способ подобного деплоя, для которого не требуется быть специалистом в облачных технологиях и кластерах. Для этого мы будем использовать serverless инфраструктуру.

Читать дальше →

Анатомия рекомендательных систем. Часть вторая

Время на прочтение12 мин
Охват и читатели41K
Неделю назад я делал здесь обзор существующих алгоритмов рекомендаций. В этой статье я продолжу данный обзор: расскажу об item-based варианте коллаборативной фильтрации, о методах, основанных на матричных разложениях, проблемах тестирования, а также о менее «раскрученных» (но не менее интересных) алгоритмах.

Читать дальше →

Глубокое обучение для идентификации картин

Время на прочтение8 мин
Охват и читатели6.1K

Привет, Хабр! Сегодня я хочу рассказать о том, как глубокое обучение помогает нам лучше разобраться в искусстве. Статья разбита на части в соответствии с задачами, которые мы решали:


  1. поиск картины в базе данных по фотографии, сделанной мобильным телефоном;
  2. определение стиля и жанра картины, которой нет в базе данных.

Все это должно было стать частью сервиса БД Артхив и его мобильных приложений.


Задача идентификации картин состояла в том, чтобы по изображению, приходящему от мобильного приложения, найти в базе данных соответствующую картину, затратив на это менее одной секунды. Обработка целиком в мобильном устройстве была исключена на этапе предпроектного исследования. Кроме того, оказалось, что невозможно трудно гарантированно выполнить на мобильном устройстве отделение картины от фона в реальных условиях съемки. Поэтому мы решили, что наш сервис будет принимать на вход фотографию с мобильного телефона целиком, со всеми искажениями, шумами и возможным частичным перекрытием.



Поможем Даше найти эти картины в базе из более чем 200 000 изображений?

Читать дальше →

AI, практический курс. Настройка модели и гиперпараметров для распознавания эмоций на изображениях

Время на прочтение10 мин
Охват и читатели3.7K


В предыдущих статьях данной обучающей серии были описаны возможные варианты подготовки данных Предобработка и дополнение данных с изображениями, также в этих статьях была построена Базовая модель распознавания эмоций на основе изображений сверточной нейросети.
В данной статье мы построим улучшенную модель сверточной нейросети для распознавания эмоций на изображениях с помощью техники, называемой индуктивным обучением.
Читать дальше →

«Зачем мы все это делаем?» — создатель Prisma и бывший лид проектов VK о своем новом секретном проекте

Время на прочтение21 мин
Охват и читатели23K


Помните приложение Prisma? В 2016 казалось, что через него была пропущена каждая вторая фотка в мире. Историю взлета и спада его популярности обсуждали тоже везде (в том числе и на Хабре).

Но в июне этого года создатель «Призмы» Алексей Моисеенков (darkolorin) вместе с сооснователем покинул компанию, не комментируя причины ухода. Почти сразу они стали известны и так. Алексей запустил новый стартап и уже поднял на него $1 млн инвестиций.

Компания называется Capture Technologies inc., но что она выпустит, пока не говорят. Известно, что это некий «аналог социальной сети, в котором большую роль будет играть камера и технологии искусственного интеллекта».

Мы с fillpackart напросились на беседу и попытались разузнать, хотя бы что у этого проекта под капотом, но снова свалились в обсуждение «быть или не быть».

Динамическое ценообразование на основе LSTM — ANN в ретейле товаров для дома

Время на прочтение10 мин
Охват и читатели14K
Не секрет, что методы машинного обучения стали повсеместно проникать в различные сферы бизнеса, оптимизируя, совершенствуя и даже создавая новые бизнес процессы. Одна из важных областей — это вопрос установления цены на товар и здесь, при достаточном количестве данных, МО помогает сделать то, что раньше было трудно достижимо – восстановить многофакторную кривую спроса из данных. Благодаря восстановленной кривой спроса стало возможным построить динамические системы ценообразования, которые позволяют провести оптимизацию цены в зависимости от цели ценообразования – увеличить выручку или прибыль. Данная статья представляет собой компиляцию моей диссертационной работы, в которой была разработана и опробована на практике в течении 4 недель модель динамического ценообразования LSTM-ANN для одного из товаров ретейлера товаров для дома.
Читать дальше →

3D-реконструкция лиц по фотографии и их анимация с помощью видео. Лекция в Яндексе

Время на прочтение11 мин
Охват и читатели10K
В фильме «Миссия невыполнима 3» был показан процесс создания знаменитых шпионских масок, благодаря которым одни персонажи становятся неотличимы от других. По сюжету, сначала требовалось сфотографировать того, в кого герой хотел превратиться, с нескольких ракурсов. В 2018 году простую 3D-модель лица можно пусть и не напечатать, но, по крайней мере, создать в цифровом виде — причём на основе всего одной фотографии. Научный сотрудник VisionLabs подробно описал процесс на мероприятии Яндекса «Мир глазами роботов» из серии Data&Science — с детализацией до конкретных методов и формул.


— Добрый день. Меня зовут Николай, я работаю в компании VisionLabs, которая занимается компьютерным зрением. Наш основной профиль — распознавание лиц, но также у нас есть технологии, которые применимы в дополненной и виртуальной реальности. В частности, у нас есть технология построения 3D-лица по одному фото, и сегодня я буду рассказывать о ней.

KDD 2018, день пятый, завершающий

Время на прочтение9 мин
Охват и читатели2.2K


Вот и завершился пятый, последний день KDD. Удалось услышать несколько интересных докладов от Facebook и Google AI, помайнить футбольные тактики и погенерировать немного химикатов. Об этом и не только — под катом. До встречи через год в Анкоридже, столице Аляски!
Читать дальше →

Ближайшие события

Mask R-CNN: архитектура современной нейронной сети для сегментации объектов на изображениях

Время на прочтение13 мин
Охват и читатели110K


Времена, когда одной из самых актуальных задач компьютерного зрения была способность отличать фотографии собак от фотографий кошек, уже остались в прошлом. На данный момент нейронные сети способны выполнять куда более сложные и интересные задания по обработке изображений. В частности, сеть с архитектурой Mask R-CNN позволяет выделять на фотографиях контуры («маски») экземпляров разных объектов, даже если таких экземпляров несколько, они имеют различный размер и частично перекрываются. Сеть так же способна к распознаванию поз людей на изображении.
Читать дальше →

Сегментация спутниковых снимков на примере распознавания деревьев

Время на прочтение6 мин
Охват и читатели21K
image

Автоматическое распознавание спутниковых или аэро-снимков — это наиболее перспективный способ получения информации о расположении различных объектов на местности. Отказ от ручной сегментации снимков особенно актуален, когда речь заходит о обработке больших участков земной поверхности в сжатые сроки.

Недавно у меня появилась возможность применить теоретические навыки и попробовать себя в области машинного обучения на реальном проекте сегментации изображений. Цель проекта — распознавание лесных насаждений, а именно крон деревьев на спутниковых снимках высокого разрешения. Под катом я поделюсь полученным опытом и результатами.
Читать дальше →

Как мы сократили время на разработку скоринговых моделей в пять раз, переключившись на Python

Время на прочтение10 мин
Охват и читатели27K
image

Сейчас все очень много говорят про искусственный интеллект и его применение во всех сферах работы компании. Однако есть некоторые области, где еще с давних времён главенствует один вид модели, так называемый «белый ящик» — логистическая регрессия. Одна из таких областей – банковский кредитный скоринг.
Читать дальше →

Почему не стоит выкидывать Radeon, если ты увлекся машинным обучением?

Время на прочтение4 мин
Охват и читатели57K

image


Свою рабочую станцию мне выдалось собирать, будучи студентом. Достаточно логично, что я отдавал предпочтение вычислительным решениям AMD. потому что это дешево выгодно по соотношению цена/качество. Я долго подбирал компоненты, в итоге уложился в 40к с комплектом из FX-8320 и RX-460 2GB. Сначала этот комплект казался идеальным! Мы с соседом по комнате слегка майнили Monero и мой набор показывал 650h/s против 550h/s на наборе из i5-85xx и Nvidia 1050Ti. Правда, от моего набора в комнате бывало слегка жарковато по ночам, но это решилось, когда я приобрел башенный кулер к CPU.

Читать дальше →

Системы ИИ оптимизируют охлаждение ЦОД

Время на прочтение4 мин
Охват и читатели2.7K
Год назад мировые дата-центры потребляли 2% всей генерируемой на планете электроэнергии. По прогнозам аналитиков, эта цифра вырастет до 5% к 2020 году. При этом примерно половина всей этой энергии расходуется на охлаждение. Эти затраты и призваны сократить системы ИИ.

Сегодня поговорим о последних разработках в этой области.

Читать дальше →

KDD 2018, день четвертый, выступает нобелевский лауреат

Время на прочтение16 мин
Охват и читатели3.9K


Второй день основной программы KDD. Под катом снова много интересного: от машинного обучения в Pinterest до разных способов прокопаться к водопроводным трубам. В том числе было выступление нобелевского лауреата по экономике — рассказ о том, как NASA работает с телеметрией, и много графовых эмбедингов :)
Читать дальше →

Moscow Data Science Major: анонс и регистрация

Время на прочтение4 мин
Охват и читатели5.9K


1 сентября Mail.Ru Group и сообщество Open Data Science проведут крупнейший митап Moscow Data Science Major. Событие состоит из пяти тематических блоков докладов, одной ML-тренировки и целого зала для нетворкинга и знакомств.

Знакомьтесь с программой и регистрируйтесь! Вход на событие бесплатный, по одобренной регистрации.
Читать дальше →

Вклад авторов