Дерево решений CART (Classification and Regressoin Tree) — алгоритм классификации и регрессии, основанный на бинарном дереве и являющийся фундаментальным компонентом случайного леса и бустингов, которые входят в число самых мощных алгоритмов машинного обучения на сегодняшний день. Деревья также могут быть не бинарными в зависимости от реализации. К другим популярным реализациям решающего дерева относятся следующие: ID3, C4.5, C5.0.
Пользователь
Метод опорных векторов (SVM). Подходы, принцип работы и реализация с нуля на Python
Метод опорных векторов (Support Vector Machines или просто SVM) — мощный и универсальный набор алгоритмов для работы с данными любой формы, применяемый не только для задач классификации и регрессии, но и также для выявления аномалий. В данной статье будут рассмотрены основные подходы к созданию SVM, принцип работы, а также реализации с нуля его наиболее популярных разновидностей.
Линейный дискриминантный анализ (LDA). Принцип работы и реализация с нуля на Python
Линейный дискриминантный анализ (Linear Discriminant Analysis или LDA) — алгоритм классификации и понижения размерности, позволяющий производить разделение классов наилучшим образом. Основная идея LDA заключается в предположении о многомерном нормальном распределении признаков внутри классов и поиске их линейного преобразования, которое максимизирует межклассовую дисперсию и минимизирует внутриклассовую. Другими словами, объекты разных классов должны иметь нормальное распределение и располагаться как можно дальше друг от друга, а одного класса — как можно ближе.
Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов
Аналитические системы должны эффективно обрабатывать сложные пользовательские запросы к десяткам и сотням терабайт данных (пета-?). Продвинутый оптимизатор запросов является важнейшим компонентом любого big data движка. В данной статье мы рассмотрим, как устроен оптимизатор запросов в массивно-параллельном аналитическом SQL-движке Trino.
Как быстро собрать кубик для простых задач: играемся с TinyOLAP
Привет, Хабр. Сегодняшняя статья будет интересна тем, кто хочет собрать простой OLAP‑куб для анализа данных, чтобы понять, как он устроен и работает. Экспериментировать будем с помощью TinyOLAP, одного из немногих OpenSource движков на Python.
Отсечение и поиск / Prune and search
Решал задачу на LeetCode (Word Search) и наткнулся на незнакомый мне термин "search pruning", либо "Prune and search". Немного погуглив, узнал, что это метод решения задач оптимизации, на Википедии есть соответствующая статья (ссылка). На русском языке я не нашел такого термина, только некоторые работы на studfile и автоматический корявый перевод на Wiki5, из-за чего решил перевести статью на Википедии, которую привел выше и немного пояснить, что этот термин означает. Перевод любительский и вольный, если будут ошибки, то поправьте, пожалуйста. Перевожу для ссылки из своего расширения LeetCode to Russian и для тех, кто наткнется на такой термин и решит погуглить его на русском языке. Если в русском языке существует похожее определение, но называется по-другому, то прошу написать в комментариях, чтобы я поправил статью.
Отсечение и поиск - это метод оптимизации, при котором мы ищем что-либо
в большом объеме данных
, одновременно отсекая часть вариантов, которые с высокой долей вероятности не приведут к желаемому результату
. Этот метод экономит время и ресурсы, позволяя сконцентрироваться на подходящих вариантах.
Подборка датасетов для машинного обучения
Меня зовут Рушан, и я автор Telegram‑канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие статьи.
Перед тобой статья-путеводитель по открытым наборам данных для машинного обучения. В ней я, для начала, соберу подборку интересных и свежих (относительно) датасетов. А бонусом, в конце статьи, прикреплю полезные ссылки по самостоятельному поиску датасетов.
Меньше слов, больше данных.
Подборка датасетов для машинного обучения:
- Данные смертей и сражений из игры престолов — этот набор данных объединяет три источника данных, каждый из которых основан на информации из серии книг.
- Глобальная база данных терроризма — Более 180 000 террористических атак по всему миру, 1970-2017.
- Биткойн, исторические данные — данные биткойнов с интервалом в 1 минуту с избранных бирж, январь 2012 г. — март 2019 г.
Введение в геномику для программистов
Гены: краткое введение
Геном человека состоит из двух копий примерно по 3 миллиарда пар оснований ДНК, для кодирования которых используются буквы A, C, G и T. Это около двух бит на каждую пару оснований:
3 000 000 000 × 2 × 2 / 8 = 1 500 000 000 или около 1,5 ГБ данных.
На самом деле эти копии очень похожи, и ДНК всех людей практически одинаков: от торговцев с Уолл-Стрит до австралийских аборигенов.
Существует ряд «референсных геномов», таких как файлы Ensembl Fasta. Эталонные геномы помогают построить карту с конкретными характеристикам, которые присутствуют в ДНК человека, но не уникальны для конкретных людей.
Как нас анализируют в магазинах и ресторанах — продолжение истории
В первой части статьи я рассказывал про новый инструмент для бизнеса по подсчету и анализу людского трафика с помощью видеокамер. На рынке представлено довольно много продуктов по подсчету людей, но практически нет таких, которые это делают методом анализа человеческого лица. При распознавании лиц можно получить следующую информацию: пол, возраст, эмоциональный фон и, собственно, самое главное, уникальный идентификатор лица. Последнее нужно для того, чтобы понимать, что это лицо мы видели ранее: тогда-то, столько-то раз, с такой-то периодичностью и т.п.
Данные видеоаналитики прекрасно используются в ритейле, сфере услуг, кафе и ресторанах. Теперь можно более предметно и точно анализировать покупателей: их трафик, уникальность, повторяемость, пол и возраст и, конечно, эмоции. В счетчике по лицам можно наконец-то отделять сотрудников от посетителей, считать длительность обслуживания и выстраивать маркетинговые активности по увеличению лояльности покупателей.
Напомню, что для примера взята одна точка – кафе (по принципу столовой) в Москве, в котором камера установлена на кассе.
Вижу, значит существую: обзор Deep Learning в Computer Vision (часть 1)
Wolfram Engine теперь открыт для разработчиков (перевод)
21 мая 2019 Wolfram Researh объявили о том, что они дали доступ к Wolfram Engine для всех разработчиков софта. Вы можете скачать его и использовать в своих некоммерческих проектах по ссылке
Свободный Wolfram Engine для разработчиков дает им возможность использовать Wolfram Language в любом стеке разработки. Wolfram Language, который доступен в виде песочницы — это мультипарадигмальный вычислительный язык, лежащий в основе самых известных продуктов Wolfram: Mathematica и Wolfram Alpha. Бесплатный Wolfram Engine также имеет полный доступ к базе знаний Wolfram и ее предварительно подготовленным нейронным сетям. Но для его использования вам необходимо оформить бесплатную подписку на Wolfram Cloud.
Введение в глубокое обучение с использованием TensorFlow
Оригинальный курс на английском доступен по этой ссылке.
Введение в машинное обучение
Оригинальный курс на английском доступен по этой ссылке.
AlphaFold: Использование ИИ для научных открытий
Сегодня мы расскажем о первом важном событии в истории развития DeepMind, чтобы показать, как исследования с помощью искусственного интеллекта могут стимулировать появление научных открытий. Благодаря междисциплинарному характеру нашей работы, DeepMind объединил экспертов из области структурной биологии, физики и машинного обучения, чтобы использовать передовые методы прогнозирования трехмерной структуры белка на основе исключительно его генетической последовательности.
Соревнование ML-систем на лингвистическом материале. Как мы учились заполнять пропуски
Этот год станет уже 9-ым по счету, когда на «Диалоге» проводится Dialogue Evaluation. Каждый год количество соревнований разное. Темами для дорожек уже становились такие задачи NLP, как анализ тональности (Sentiment Analysis), разрешение лексической многозначности (Word Sense Induction), нахождение опечаток (Automatic Spelling Correction), выделение сущностей (Named Entity Recognition) и другие.
В этом году четыре группы организаторов подготовили такие дорожки:
- Генерация заголовков для новостных статей.
- Разрешение анафоры и кореференции.
- Морфологический анализ на материале малоресурсных языков.
- Автоматический анализ одного из видов эллипсиса (гэппинга).
Сегодня мы расскажем про последнюю из них: что такое эллипсис и зачем учить машину восстанавливать его в тексте, как мы создавали новый корпус, на котором можно решить эту задачу, как проходили сами соревнования и каких результатов смогли добиться участники.
Первая модель: набор данных Fashion MNIST
Оригинальный курс на английском доступен по этой ссылке.
Выход новых лекций запланирован каждые 2-3 дня.
Книга «Машинное обучение: алгоритмы для бизнеса»
Машинное обучение меняет практически каждый аспект нашей жизни, алгоритмы МО выполняют задачи, которые до недавнего времени доверяли только проверенным экспертам. В ближайшем будущем машинное обучение будет доминировать в финансах, гадание на кофейной гуще уйдет в прошлое, а инвестиции перестанут быть синонимом азартных игр.
Воспользуйтесь шансом поучаствовать в «машинной революции», для этого достаточно познакомиться с первой книгой, в которой приведен полный и систематический анализ методов машинного обучения применительно к финансам: начиная со структур финансовых данных, маркировки финансового ряда, взвешиванию выборки, дифференцированию временного ряда… и заканчивая целой частью, посвященной правильному бэктестированию инвестиционных стратегий.
Rekko Challenge — как занять 2-е место в конкурсе по созданию рекомендательных систем
Всем привет. Моя команда в Тинькофф занимается построением рекомендательных систем. Если вы довольны вашим ежемесячным кэшбэком, то это наших рук дело. Также мы построили рекомендательную систему спецпредложений от партнеров и занимаемся индивидуальными подборками Stories в приложении Tinkoff. А еще мы любим участвовать в соревнованиях по машинному обучению чтобы держать себя в тонусе.
На Boosters.pro в течении двух месяцев с 18 февраля по 18 апреля проходило соревнование по построению рекомендательной системы на реальных данных одного из крупнейших российских онлайн-кинотеатров Okko. Организаторы преследовали цель улучшить существующую рекомендательную систему. На данный момент соревнование доступно в режиме песочницы, в которой вы можете проверить свои подходы и отточить навыки в построении рекомендательных систем.
Samsung открывает бесплатный онлайн-курс по нейросетям в задачах компьютерного зрения
Мы запускаем открытый курс «Нейронные сети и компьютерное зрение», который адресован тем, кто в этой области делает первые шаги. Курс разработан экспертами Samsung Research Russia: Исследовательского центра Samsung и Центра искусственного интеллекта Samsung в Москве. Сильные стороны курса:
- авторы курса знают, о чем говорят: это инженеры московского Центра искусственного интеллекта Samsung, Михаил Романов и Игорь Слинько;
- есть как теория с задачками, так и практика на PyTorch
- приступаем к практике сразу после освоения минимальных теоретических знаний.
- лучшие студенты будут приглашены на собеседование в Samsung Research Russia!
Всё, что вы знали о word2vec, неправда
while(1) {
1. vf = vector of focus word
2. vc = vector of focus word
3. train such that (vc . vf = 1)
4. for(0 <= i <= negative samples):
vneg = vector of word *not* in context
train such that (vf . vneg = 0)
}
Действительно, если погуглить [word2vec skipgram], что мы видим:
- Страница Википедии, которая описывает алгоритм на высоком уровне
- Страница Tensorflow с тем же объяснением
- Блог Towards Data Science c описанием того же алгоритма, и список продолжается.
Но все эти реализации ошибочны.
Информация
- В рейтинге
- Не участвует
- Зарегистрирован
- Активность