Всем привет! Публикуем отчёт с митапа Avito Data Science Meetup: Personalization, который проходил у нас в офисе. Участники обсуждали моделирование пользовательских предпочтений в мультимодальных данных и кластеризацию волатильных объявлений с помощью EM-алгоритма. Под катом — видеозаписи, презентации, ссылка на фотоотчёт.
User
Ассоциативные правила, или пиво с подгузниками
Введение в теорию
Обучение на ассоциативных правилах (далее Associations rules learning — ARL) представляет из себя, с одной стороны, простой, с другой — довольно часто применимый в реальной жизни метод поиска взаимосвязей (ассоциаций) в датасетах, или, если точнее, айтемсетах (itemsests). Впервые подробно об этом заговорил Piatesky-Shapiro G [1] в работе “Discovery, Analysis, and Presentation of Strong Rules.” (1991) Более подробно тему развивали Agrawal R, Imielinski T, Swami A в работах “Mining Association Rules between Sets of Items in Large Databases” (1993) [2] и “Fast Algorithms for Mining Association Rules.” (1994) [3].
Самые страшные ошибки, которые допускают DS. Встреча в офисе Авито 24 апреля
Привет! На следующей неделе, во вторник, 24 апреля, приглашаем специалистов по Data Science на митап, который мы организуем вместе с AI Community и AI Today. Будем говорить о самых страшных ошибках, которые допускают DS. Подробно обсудим CRISP-DM и Tips&Tricks, которые можно использовать в работе. Вы услышите доклады Ивана Гуза, Игоря Слинько и Станислава Гафарова. Регистрируйтесь на встречу и приглашайте коллег. Под катом — тезисы выступлений, ссылки на регистрацию и видеотрансляцию митапа.
Нейронные сети, генетические алгоритмы и прочее… Мифы и реальность. Версия II
Конечно же, искусственный интеллект уже существует! Если посмотреть заголовки статей в популярных СМИ, названия и слоганы различных научных конференций на эту тему – безусловно это так. Нельзя не поверить, особенно когда очень этого хочется наконец-то оказаться в XXI веке — «настоящем», как это описывалось во всех научно-фантастических романах. Но так ли это? А если нет, то что существует на самом деле. В попытке разобраться в мифах и реалиях была написана эта статья.
Первоначально хотелось начать как-то так: «впервые упоминание термина «Искусственный интеллект» появилось у Д. Мккарти в 1956 году на конференции в Дартмундском университете, основоположниками ИИ следует считать У.Мак-Каллока, У.Питса, Ф.Розенблата» и т.д. Однако, это уже слишком поздно и не совсем отвечает целям статьи, да и википедия опередила с таким началом.
Анализируя последние «победы» ИИ, а также критические статьи неизбежно приходишь к выводу, что все крутится вокруг нескольких общих особенностей. Одна часть статей критикует невозможность прохождения тестов, а другая полна патетики о «невероятных победах». При этом игнорируется тот факт, что победы были достигнуты в узкоспециализированных задачах, где основным преимуществом машины была скорость переборов по базе фактов и «умении» видеть закономерности там, где человек просто-напросто быстро устает это делать. Блестящие примеры кластерного анализа в том или ином виде и формирование базы шаблонов-фактов. Всё это следствия, причины же в большинстве случаев или не анализируются совсем, или рассматриваются поверхностно.
Вероятностная интерпретация классических моделей машинного обучения
Этой статьей я начинаю серию, посвященную генеративным моделям в машинном обучении. Мы посмотрим на классические задачи машинного обучения, определим, что такое генеративное моделирование, посмотрим на его отличия от классических задач машинного обучения, взглянем на существующие подходы к решению этой задачи и погрузимся в детали тех из них, что основаны на обучении глубоких нейронных сетей. Но прежде, в качестве введения, мы посмотрим на классические задачи машинного обучения в их вероятностной постановке.
Генеративное Моделирование и AI
В США впервые разрешили ИИ проводить диагностику людей без участия врачей
Управление по санитарному надзору за качеством пищевых продуктов и медикаментов США (FDA) приняла историческое решение, впервые разрешив Искусственному интеллекту самостоятельно проводить медицинское обследование людей без участия живого специалиста.
FDA выдало разрешение компании IDx, которая разрабатывает диагностическую систему IDx-DR для офтальмологии. Как сказано в материалах производителя, устройство работает под управлением ИИ.
Программное обеспечение IDx-DR по фотографиям глаза распознаёт признаки диабетической ретинопатии. Это широко распространённое осложнение при диабете, поражающее сосуды сетчатой оболочки глазного яблока. Оно наблюдается у 90% пациентов при сахарном диабете и может привести к потере зрения.
Учёные раскритиковали американскую криминалистику за ненаучность
Generative adversarial networks
Применение сверточных нейронных сетей для задач NLP
Сверточные нейронные сети
Для начала немного теории. Что такое свертка? Мы не будем на этом останавливаться подробно, так как про это написана уже тонна материалов, но все-таки кратко пробежаться стоит. Есть красивая визуализация от Стэнфорда, которая позволяет ухватить суть:
Источник
Все цвета, игнорируемые нашими глазами
Нашим глазам пришлось пойти на жертвы, чтобы помочь нам выжить
Большая часть млекопитающих полагается на обоняние больше, чем на зрение. Посмотрите на собачьи глаза – они расположены по бокам морды, не так, как у людей, у которых они находятся близко и направлены вперёд. Глаза по бокам позволяют увеличить область обзора, но плохо передают ощущению глубины и расстояние до объектов. Вместо хорошего зрения у собак, лошадей, мышей, антилоп – и в принципе у большинства млекопитающих – есть длинные влажные носы. Отличаемся от них мы, люди, человекообразные и обычные обезьяны. И у нашего зрения есть определённая необычная особенность, которую необходимо объяснить.
Со временем, занимая более освещённые экологические ниши, мы стали всё меньше полагаться на запах и всё больше на зрение. Мы потеряли влажные носы и рыльца, наши глаза подвинулись вперёд на лице и сблизились друг с другом, что улучшило наше умение оценивать расстояние (мы выработали улучшенное бинокулярное зрение). Кроме того, обезьяны Старого Света, или узконосые обезьяны, catarrhini, выработали трихроматизм: цветное зрение из красного, зелёного и синего. У большинства других млекопитающих в глазах содержится два разных типа фоторецепторов (колбочек), но предок узконосых обезьян перенёс дупликацию генов, что создало три разных гена для цветового зрения. Каждый из них кодирует фоторецептор, настроенный на свет разных длин волн: короткие (синий), средние (зелёный) и длинные (красный). Итак, наши предки в результате эволюции выработали глаза, смотрящие вперёд и трихроматическое зрение – и больше мы не оглядывались.
Как программирование влияет на мозг и мышление
Это правда, что мышление программистов устроено иначе, чем у других людей. Не сказать, что они обязательно умнее, логичнее или рациональнее остальных. Однако не так давно учёные приступили к изучению влияния программирования на мозг, и пришли к интересным заключениям.
Как занятия искусствами могут по-разному менять ваше мышление, так и программирование влияет на ваш образ мыслей — возможно, не так, как вы ожидали.
Нейрогенез у взрослых людей все же есть
Всем нам известно выражение, что нервные клетки не восстанавливаются. Так считали еще несколько десятков лет назад, но оказалось, что это не совсем верное утверждение. Нервные клетки восстанавливаются, а новые нейроны появляются в мозге у взрослых людей. И у птиц, и у млекопитающих нейрогенез был подтвержден, причем неоднократно.
В марте на Geektimes публиковалась статья, где говорилось о том, что нейрогенез у взрослого человека сомнителен. Его либо вообще нет, либо скорость появления нервных клеток слишком мала, чтобы считать процесс важным и существенным. Незначительное количество новых нейронов авторы исследования обнаружили лишь в мозге 13-летнего подростка. Сейчас опубликованы результаты нового исследования, все же подтверждающего нейрогенез у взрослых людей.
При перегрузке рабочей памяти у человека нарушается синхронизация между тремя отделами мозга
Корковая архитектура в соответствии с канонической моделью нейронного микроконтура в коре головного мозга примата. Четыре типа нейронов (звёздчатые нейроны, поверхностные и глубокие пирамидальные нейроны и тормозные интернейроны) соединяются возбуждающими (красные) и тормозящими (чёрные) соединениями. Такой набор нейронов и соединений мотивирован анатомическими и теоретическими соображениями в пользу канонической модели
Человек способен одновременно удерживать в рабочей памяти ограниченное количество объектов. Объём рабочей памяти напрямую связан с когнитивной способностью, которая снижается при неврологических заболеваниях и психических расстройствах. Учёные уже несколько десятилетий изучают, как загрузка рабочей памяти влияет на обработку нейронных сигналов в мозге. Они пытаются понять, почему у рабочей памяти такой небольшой объём. И почему когнитивные способности резко падают, если загрузить рабочую память сверх положенного.
Как решить 90% задач NLP: пошаговое руководство по обработке естественного языка
Обработкой естественного языка (NLP) называется активно развивающаяся научная дисциплина, занимающаяся поиском смысла и обучением на основании текстовых данных.
Как вам может помочь эта статья
За прошедший год команда Insight приняла участие в работе над несколькими сотнями проектов, объединив знания и опыт ведущих компаний в США. Результаты этой работы они обобщили в статье, перевод которой сейчас перед вами, и вывели подходы к решению наиболее распространенных прикладных задач машинного обучения.
Мы начнем с самого простого метода, который может сработать — и постепенно перейдем к более тонким подходам, таким как feature engineering, векторам слов и глубокому обучению.
После прочтения статьи, вы будете знать, как:
- осуществлять сбор, подготовку, и инспектирование данных;
- строить простые модели, и осуществлять при необходимости переход к глубокому обучению;
- интерпретировать и понимать ваши модели, чтобы убедиться, что вы интерпретируете информацию, а не шум.
Пост написан в формате пошагового руководства; также его можно рассматривать в качестве обзора высокоэффективных стандартных подходов.
Обзор кейсов интересных внедрений Big Data в компаниях финансового сектора
Кейсы практического применения Больших данных
в компаниях финансового сектора
Зачем эта статья?
В данном обзоре рассматриваются случаи внедрения и применения Больших данных в реальной жизни на примере «живых» проектов. По некоторым, особенно интересным, во всех смыслах, кейсам осмелюсь дать свои комментарии.
Диапазон рассмотренных кейсов ограничивается примерами, представленными в открытом доступе на сайте компании Cloudera.
Что такое «Большие данные»
Есть в технических кругах шутка, что «Большие данные» это данные, для обработки которых недостаточно Excel 2010 на мощном ноутбуке. То есть если для решения задачи вам надо оперировать 1 миллионом строк на листе и более или 16 тысяч столбцов и более, то поздравляем, ваша данные относятся к разряду «Больших».
Среди множества более строгих определений приведем, например следующее: «Большие данные» — наборы данных, которые настолько объемны и сложны, что использование традиционных средств обработки невозможно. Термин обычно характеризует данные, над которыми применяются методы предиктивной аналитики или иные методы извлечения ценности из данных и редко соотносится только с объемом данных.
Как музыка влияет на интеллект: популярные мифы и научные гипотезы
Когда и как появились устойчивые представления о том, что музыка влияет на ум?
Разбираемся в устройстве популярных мифов: ищем доказательства или развенчиваем их.
Мозговые имплантаты сегодня и в будущем
На протяжении последних тридцати лет учёные пытаются создать устройство, имитирующее происходящие в гиппокампе процессы с целью восстановить способность людей создавать новые воспоминания — переводить данные из кратковременной памяти в долговременную. В одной из последних работ команда из нескольких американских университетов улучшила результаты решения задач на запоминание на 35-37%.
Давайте обсудим, как далеко исследователи зашли в этой области и от кого нам ждать новых решений в будущем.
Кадр из фильма «Джонни Мнемоник»
Конфабуляция: почему мы верим в наши собственные выдумки
В ставшем уже классическим эксперименте психологи Ричард Нисбет и Тимоти Уилсон из Мичиканского университета раскладывали перед людьми различные вещи, такие, например, как пары носков, и просили выбрать одну. Участники последовательно выбирали вещи, расположенные от них с правой стороны. Но когда их просили объяснить их выбор, они не упоминали расположение вещи, а в качестве причин своего выбора называли более качественную текстуру ткани, или более яркий цвет, даже если перед ними лежали абсолютно одинаковые пары носков. Люди демонстрировали конфабуляцию. Не зная реальных факторов, определявших их выбор, они не связывали его с определившими выбор причинами, а просто придумывали правдоподобное объяснение того, чем выбранная вещь оказалась лучше.
Такое поведение не ограничивается ситуациями в экспериментах. В повседневной жизни мы часто убедительно объясняем наш выбор, даже если не знаем некоторых факторов, влиявших на него. Когда мы предлагаем объяснение выбора, мы приводим правдоподобные аргументы в его пользу. Допустим, комиссия выбрала двух кандидатов на вакансию и оценивает их после тщательного рассмотрения их резюме и поведения на интервью. Большая часть людей из комиссии склоняются в сторону Джона, выбирая между ним и Арией.
Умный «фейс-контроль»: алгоритмы машинного обучения для эффективного кэширования данных на SSD
Данная статья была представлена на конференции SECR2017, где получила премию Бертрана Мейера за лучший исследовательский доклад.
В этом материале руководитель исследовательской лаборатории «Рэйдикс» Светлана Лазарева рассказывает о новом алгоритме заполнения параллельного кэша в СХД, который основан на алгоритме машинного обучения.
Information
- Rating
- Does not participate
- Registered
- Activity