Articles / Bookmarks / Profile of joedoedoe / Habr

How to become an author

User

Profile Publications Comments 7Bookmarks 41

onetruecolor Apr 19 2018 at 11:04

Персонализируй это. Отчёт с Avito Data Science Meetup: Personalization

2 min

3K

AvitoTech corporate blogProgramming*Data Mining*Data visualization*Machine learning*

Всем привет! Публикуем отчёт с митапа Avito Data Science Meetup: Personalization, который проходил у нас в офисе. Участники обсуждали моделирование пользовательских предпочтений в мультимодальных данных и кластеризацию волатильных объявлений с помощью EM-алгоритма. Под катом — видеозаписи, презентации, ссылка на фотоотчёт.

+23

McKenzy Apr 19 2018 at 14:09

Ассоциативные правила, или пиво с подгузниками

19 min

76K

Open Data Science corporate blogPython*R*Algorithms*Machine learning*

Введение в теорию

Обучение на ассоциативных правилах (далее Associations rules learning — ARL) представляет из себя, с одной стороны, простой, с другой — довольно часто применимый в реальной жизни метод поиска взаимосвязей (ассоциаций) в датасетах, или, если точнее, айтемсетах (itemsests). Впервые подробно об этом заговорил Piatesky-Shapiro G [1] в работе “Discovery, Analysis, and Presentation of Strong Rules.” (1991) Более подробно тему развивали Agrawal R, Imielinski T, Swami A в работах “Mining Association Rules between Sets of Items in Large Databases” (1993) [2] и “Fast Algorithms for Mining Association Rules.” (1994) [3].

Читать дальше →

+59

Oldtuna Apr 20 2018 at 14:22

Самые страшные ошибки, которые допускают DS. Встреча в офисе Авито 24 апреля

2 min

7.7K

AvitoTech corporate blogWeb analytics*Mathematics*Machine learning*Studying in IT

Привет! На следующей неделе, во вторник, 24 апреля, приглашаем специалистов по Data Science на митап, который мы организуем вместе с AI Community и AI Today. Будем говорить о самых страшных ошибках, которые допускают DS. Подробно обсудим CRISP-DM и Tips&Tricks, которые можно использовать в работе. Вы услышите доклады Ивана Гуза, Игоря Слинько и Станислава Гафарова. Регистрируйтесь на встречу и приглашайте коллег. Под катом — тезисы выступлений, ссылки на регистрацию и видеотрансляцию митапа.

Читать дальше →

+19

MaximKovalev May 15 2017 at 12:02

Нейронные сети, генетические алгоритмы и прочее… Мифы и реальность. Версия II

24 min

15K

Algorithms*Machine learning*Robotics development*Semantics*

Прежде всего, я хотел бы поблагодарить всех, кто дал свои критические комментарии по первой версии статьи. Мне показалось, что написать версию два, а не просто оставить все как есть, было бы правильной идеей.

Конечно же, искусственный интеллект уже существует! Если посмотреть заголовки статей в популярных СМИ, названия и слоганы различных научных конференций на эту тему – безусловно это так. Нельзя не поверить, особенно когда очень этого хочется наконец-то оказаться в XXI веке — «настоящем», как это описывалось во всех научно-фантастических романах. Но так ли это? А если нет, то что существует на самом деле. В попытке разобраться в мифах и реалиях была написана эта статья.

Первоначально хотелось начать как-то так: «впервые упоминание термина «Искусственный интеллект» появилось у Д. Мккарти в 1956 году на конференции в Дартмундском университете, основоположниками ИИ следует считать У.Мак-Каллока, У.Питса, Ф.Розенблата» и т.д. Однако, это уже слишком поздно и не совсем отвечает целям статьи, да и википедия опередила с таким началом.

Анализируя последние «победы» ИИ, а также критические статьи неизбежно приходишь к выводу, что все крутится вокруг нескольких общих особенностей. Одна часть статей критикует невозможность прохождения тестов, а другая полна патетики о «невероятных победах». При этом игнорируется тот факт, что победы были достигнуты в узкоспециализированных задачах, где основным преимуществом машины была скорость переборов по базе фактов и «умении» видеть закономерности там, где человек просто-напросто быстро устает это делать. Блестящие примеры кластерного анализа в том или ином виде и формирование базы шаблонов-фактов. Всё это следствия, причины же в большинстве случаев или не анализируются совсем, или рассматриваются поверхностно.

Читать дальше →

+14

Monnoroch Dec 4 2017 at 16:17

Вероятностная интерпретация классических моделей машинного обучения

8 min

30K

Algorithms*Mathematics*Machine learning*

Translation

Этой статьей я начинаю серию, посвященную генеративным моделям в машинном обучении. Мы посмотрим на классические задачи машинного обучения, определим, что такое генеративное моделирование, посмотрим на его отличия от классических задач машинного обучения, взглянем на существующие подходы к решению этой задачи и погрузимся в детали тех из них, что основаны на обучении глубоких нейронных сетей. Но прежде, в качестве введения, мы посмотрим на классические задачи машинного обучения в их вероятностной постановке.

Читать дальше →

+24

Monnoroch Feb 1 2018 at 13:39

Генеративное Моделирование и AI

10 min

12K

Programming*Machine learning*Mathematics*Algorithms*

В предыдущей главе мы поговорили о классических дискриминативных моделях в машинном обучении и разобрали простейшие примеры таких моделей. Давайте теперь посмотрим на более общую картину.

Читать дальше →

+20

alizar Apr 12 2018 at 18:26

В США впервые разрешили ИИ проводить диагностику людей без участия врачей

3 min

5.8K

HealthArtificial IntelligenceThe future is here

Управление по санитарному надзору за качеством пищевых продуктов и медикаментов США (FDA) приняла историческое решение, впервые разрешив Искусственному интеллекту самостоятельно проводить медицинское обследование людей без участия живого специалиста.

FDA выдало разрешение компании IDx, которая разрабатывает диагностическую систему IDx-DR для офтальмологии. Как сказано в материалах производителя, устройство работает под управлением ИИ.

Программное обеспечение IDx-DR по фотографиям глаза распознаёт признаки диабетической ретинопатии. Это широко распространённое осложнение при диабете, поражающее сосуды сетчатой оболочки глазного яблока. Оно наблюдается у 90% пациентов при сахарном диабете и может привести к потере зрения.

+17

ivansychev Apr 12 2018 at 10:12

Учёные раскритиковали американскую криминалистику за ненаучность

4 min

11K

BiotechnologiesPopular science

Криминалистика играет важную роль в отправлении правосудия, но многие используемые в ней методы никогда не были научно обоснованы. Это отметила группа инициативных учёных, которые ранее служили в Национальной комиссии по криминалистике. Теперь они утверждают, что необходимо расширить исследования и финансирование этой отрасли, чтобы представить новые методы, в том числе исключающие субъективность при вынесении экспертных решений.

Читать дальше →

+26

Monnoroch Apr 11 2018 at 12:26

Generative adversarial networks

12 min

28K

Programming*Machine learning*Mathematics*Algorithms*

В прошлой статье мы рассмотрели простейшую линейную генеративную модель PPCA. Вторая генеративная модель, которую мы рассмотрим — Generative Adversarial Networks, сокращенно GAN. В этой статье мы рассмотрим самую базовую версию этой модели, оставив продвинутые версии и сравнение с другими подходами в генеративном моделировании на следующие главы.

Читать дальше →

+21

madrugado Apr 10 2018 at 14:00

Применение сверточных нейронных сетей для задач NLP

9 min

63K

Open Data Science corporate blogData Mining*Natural Language Processing*Python*Machine learning*

Когда мы слышим о сверточных нейронных сетях (CNN), мы обычно думаем о компьютерном зрении. CNN лежали в основе прорывов в классификации изображений — знаменитый AlexNet, победитель соревнования ImageNet в 2012 году, с которого начался бум интереса к этой теме. С тех пор сверточные сети достигли большого успеха в распознавании изображений, в силу того факта, что они устроены наподобие зрительной коры головного мозга — то есть умеют концентрироваться на небольшой области и выделять в ней важные особенности. Но, как оказалось, CNN хороши не только для этого, но и для задач обработки естественного языка (Natural Language Processing, NLP). Более того, в недавно вышедшей статье [1] от коллектива авторов из Intel и Carnegie-Mellon University, утверждается, что они подходят для этого даже лучше RNN, которые безраздельно властвовали областью на протяжении последних лет.

Сверточные нейронные сети

Для начала немного теории. Что такое свертка? Мы не будем на этом останавливаться подробно, так как про это написана уже тонна материалов, но все-таки кратко пробежаться стоит. Есть красивая визуализация от Стэнфорда, которая позволяет ухватить суть:

Источник

Читать дальше →

+67

SLY_G Apr 9 2018 at 10:00

Все цвета, игнорируемые нашими глазами

5 min

31K

Popular scienceBrain

Translation

Нашим глазам пришлось пойти на жертвы, чтобы помочь нам выжить

Большая часть млекопитающих полагается на обоняние больше, чем на зрение. Посмотрите на собачьи глаза – они расположены по бокам морды, не так, как у людей, у которых они находятся близко и направлены вперёд. Глаза по бокам позволяют увеличить область обзора, но плохо передают ощущению глубины и расстояние до объектов. Вместо хорошего зрения у собак, лошадей, мышей, антилоп – и в принципе у большинства млекопитающих – есть длинные влажные носы. Отличаемся от них мы, люди, человекообразные и обычные обезьяны. И у нашего зрения есть определённая необычная особенность, которую необходимо объяснить.

Со временем, занимая более освещённые экологические ниши, мы стали всё меньше полагаться на запах и всё больше на зрение. Мы потеряли влажные носы и рыльца, наши глаза подвинулись вперёд на лице и сблизились друг с другом, что улучшило наше умение оценивать расстояние (мы выработали улучшенное бинокулярное зрение). Кроме того, обезьяны Старого Света, или узконосые обезьяны, catarrhini, выработали трихроматизм: цветное зрение из красного, зелёного и синего. У большинства других млекопитающих в глазах содержится два разных типа фоторецепторов (колбочек), но предок узконосых обезьян перенёс дупликацию генов, что создало три разных гена для цветового зрения. Каждый из них кодирует фоторецептор, настроенный на свет разных длин волн: короткие (синий), средние (зелёный) и длинные (красный). Итак, наши предки в результате эволюции выработали глаза, смотрящие вперёд и трихроматическое зрение – и больше мы не оглядывались.

Читать дальше →

+11

Barrayar Apr 9 2018 at 12:25

Как программирование влияет на мозг и мышление

4 min

57K

VK corporate blogLifehacks for geeksHealth

Translation

Это правда, что мышление программистов устроено иначе, чем у других людей. Не сказать, что они обязательно умнее, логичнее или рациональнее остальных. Однако не так давно учёные приступили к изучению влияния программирования на мозг, и пришли к интересным заключениям.

Как занятия искусствами могут по-разному менять ваше мышление, так и программирование влияет на ваш образ мыслей — возможно, не так, как вы ожидали.

Читать дальше →

+18

marks Apr 9 2018 at 17:02

Нейрогенез у взрослых людей все же есть

3 min

22K

Popular scienceBrain

Всем нам известно выражение, что нервные клетки не восстанавливаются. Так считали еще несколько десятков лет назад, но оказалось, что это не совсем верное утверждение. Нервные клетки восстанавливаются, а новые нейроны появляются в мозге у взрослых людей. И у птиц, и у млекопитающих нейрогенез был подтвержден, причем неоднократно.

В марте на Geektimes публиковалась статья, где говорилось о том, что нейрогенез у взрослого человека сомнителен. Его либо вообще нет, либо скорость появления нервных клеток слишком мала, чтобы считать процесс важным и существенным. Незначительное количество новых нейронов авторы исследования обнаружили лишь в мозге 13-летнего подростка. Сейчас опубликованы результаты нового исследования, все же подтверждающего нейрогенез у взрослых людей.

Читать дальше →

+28

alizar Apr 10 2018 at 02:08

При перегрузке рабочей памяти у человека нарушается синхронизация между тремя отделами мозга

3 min

25K

BrainPopular science

Корковая архитектура в соответствии с канонической моделью нейронного микроконтура в коре головного мозга примата. Четыре типа нейронов (звёздчатые нейроны, поверхностные и глубокие пирамидальные нейроны и тормозные интернейроны) соединяются возбуждающими (красные) и тормозящими (чёрные) соединениями. Такой набор нейронов и соединений мотивирован анатомическими и теоретическими соображениями в пользу канонической модели

Человек способен одновременно удерживать в рабочей памяти ограниченное количество объектов. Объём рабочей памяти напрямую связан с когнитивной способностью, которая снижается при неврологических заболеваниях и психических расстройствах. Учёные уже несколько десятилетий изучают, как загрузка рабочей памяти влияет на обработку нейронных сигналов в мозге. Они пытаются понять, почему у рабочей памяти такой небольшой объём. И почему когнитивные способности резко падают, если загрузить рабочую память сверх положенного.

Читать дальше →

+19

e_finkel Apr 5 2018 at 12:10

Как решить 90% задач NLP: пошаговое руководство по обработке естественного языка

16 min

114K

Конференции Олега Бунина (Онтико) corporate blogMachine learning*Big Data*

Translation

Неважно, кто вы — зарекомендовавшая себя компания, или же только собираетесь запустить свой первый сервис — вы всегда можете использовать текстовые данные для того, чтобы проверить ваш продукт, усовершенствовать его и расширить его функциональность.

Обработкой естественного языка (NLP) называется активно развивающаяся научная дисциплина, занимающаяся поиском смысла и обучением на основании текстовых данных.

Как вам может помочь эта статья

За прошедший год команда Insight приняла участие в работе над несколькими сотнями проектов, объединив знания и опыт ведущих компаний в США. Результаты этой работы они обобщили в статье, перевод которой сейчас перед вами, и вывели подходы к решению наиболее распространенных прикладных задач машинного обучения.

Мы начнем с самого простого метода, который может сработать — и постепенно перейдем к более тонким подходам, таким как feature engineering, векторам слов и глубокому обучению.

После прочтения статьи, вы будете знать, как:

осуществлять сбор, подготовку, и инспектирование данных;
строить простые модели, и осуществлять при необходимости переход к глубокому обучению;
интерпретировать и понимать ваши модели, чтобы убедиться, что вы интерпретируете информацию, а не шум.

Пост написан в формате пошагового руководства; также его можно рассматривать в качестве обзора высокоэффективных стандартных подходов.

+34

Belkau77 Apr 7 2018 at 15:37

Обзор кейсов интересных внедрений Big Data в компаниях финансового сектора

11 min

22K

Big Data*Hadoop*Project management*

Кейсы практического применения Больших данных
в компаниях финансового сектора

Зачем эта статья?

В данном обзоре рассматриваются случаи внедрения и применения Больших данных в реальной жизни на примере «живых» проектов. По некоторым, особенно интересным, во всех смыслах, кейсам осмелюсь дать свои комментарии.

Диапазон рассмотренных кейсов ограничивается примерами, представленными в открытом доступе на сайте компании Cloudera.

Что такое «Большие данные»

Есть в технических кругах шутка, что «Большие данные» это данные, для обработки которых недостаточно Excel 2010 на мощном ноутбуке. То есть если для решения задачи вам надо оперировать 1 миллионом строк на листе и более или 16 тысяч столбцов и более, то поздравляем, ваша данные относятся к разряду «Больших».

Среди множества более строгих определений приведем, например следующее: «Большие данные» — наборы данных, которые настолько объемны и сложны, что использование традиционных средств обработки невозможно. Термин обычно характеризует данные, над которыми применяются методы предиктивной аналитики или иные методы извлечения ценности из данных и редко соотносится только с объемом данных.

Читать дальше →

+17

Audioman Apr 5 2018 at 16:16

Как музыка влияет на интеллект: популярные мифы и научные гипотезы

5 min

46K

Аудиомания corporate blogLifehacks for geeksSoundBrainLogic games

Вокруг влияния музыки на обучаемость и интеллект появляется много мифов. Самый распространенный из них слышал, пожалуй, каждый: если ребенка с рождения заставлять слушать Моцарта, он вырастет талантливым. Так ли это?

Когда и как появились устойчивые представления о том, что музыка влияет на ум?

Разбираемся в устройстве популярных мифов: ищем доказательства или развенчиваем их.

Читать дальше →

+20

ivansychev Apr 6 2018 at 13:17

Мозговые имплантаты сегодня и в будущем

7 min

19K

Popular scienceBiotechnologiesScience fictionBrainHealth

Имплантируемые в мозг однонаправленные датчики или устройства с обратной связью могут применяться для лечения различных заболеваний вроде эпилепсии и болезни Альцгеймера, для управления протезами конечностей и экзоскелетами, для получения сигналов от бионического глаза, а также для выполнения функций самого мозга.

На протяжении последних тридцати лет учёные пытаются создать устройство, имитирующее происходящие в гиппокампе процессы с целью восстановить способность людей создавать новые воспоминания — переводить данные из кратковременной памяти в долговременную. В одной из последних работ команда из нескольких американских университетов улучшила результаты решения задач на запоминание на 35-37%.

Давайте обсудим, как далеко исследователи зашли в этой области и от кого нам ждать новых решений в будущем.

Кадр из фильма «Джонни Мнемоник»

+20

SLY_G Apr 6 2018 at 15:00

Конфабуляция: почему мы верим в наши собственные выдумки

5 min

19K

Translation

В ставшем уже классическим эксперименте психологи Ричард Нисбет и Тимоти Уилсон из Мичиканского университета раскладывали перед людьми различные вещи, такие, например, как пары носков, и просили выбрать одну. Участники последовательно выбирали вещи, расположенные от них с правой стороны. Но когда их просили объяснить их выбор, они не упоминали расположение вещи, а в качестве причин своего выбора называли более качественную текстуру ткани, или более яркий цвет, даже если перед ними лежали абсолютно одинаковые пары носков. Люди демонстрировали конфабуляцию. Не зная реальных факторов, определявших их выбор, они не связывали его с определившими выбор причинами, а просто придумывали правдоподобное объяснение того, чем выбранная вещь оказалась лучше.

Такое поведение не ограничивается ситуациями в экспериментах. В повседневной жизни мы часто убедительно объясняем наш выбор, даже если не знаем некоторых факторов, влиявших на него. Когда мы предлагаем объяснение выбора, мы приводим правдоподобные аргументы в его пользу. Допустим, комиссия выбрала двух кандидатов на вакансию и оценивает их после тщательного рассмотрения их резюме и поведения на интервью. Большая часть людей из комиссии склоняются в сторону Джона, выбирая между ним и Арией.

Читать дальше →

+20

raidixteam Mar 29 2018 at 17:09

Умный «фейс-контроль»: алгоритмы машинного обучения для эффективного кэширования данных на SSD

15 min

4.6K

RAIDIX corporate blogAlgorithms*Mathematics*Machine learning*Data storage*

Данная статья была представлена на конференции SECR2017, где получила премию Бертрана Мейера за лучший исследовательский доклад.

В этом материале руководитель исследовательской лаборатории «Рэйдикс» Светлана Лазарева рассказывает о новом алгоритме заполнения параллельного кэша в СХД, который основан на алгоритме машинного обучения.

+8

1