Как стать автором
Обновить
0
0

Пользователь

Отправить сообщение

Дерево решений (CART). От теоретических основ до продвинутых техник и реализации с нуля на Python

Уровень сложностиСложный
Время на прочтение22 мин
Количество просмотров10K

Дерево решений CART (Classification and Regressoin Tree) — алгоритм классификации и регрессии, основанный на бинарном дереве и являющийся фундаментальным компонентом случайного леса и бустингов, которые входят в число самых мощных алгоритмов машинного обучения на сегодняшний день. Деревья также могут быть не бинарными в зависимости от реализации. К другим популярным реализациям решающего дерева относятся следующие: ID3, C4.5, C5.0.

Читать далее
Всего голосов 9: ↑9 и ↓0+9
Комментарии0

Метод опорных векторов (SVM). Подходы, принцип работы и реализация с нуля на Python

Уровень сложностиСложный
Время на прочтение14 мин
Количество просмотров13K

Метод опорных векторов (Support Vector Machines или просто SVM) — мощный и универсальный набор алгоритмов для работы с данными любой формы, применяемый не только для задач классификации и регрессии, но и также для выявления аномалий. В данной статье будут рассмотрены основные подходы к созданию SVM, принцип работы, а также реализации с нуля его наиболее популярных разновидностей.

Читать далее
Всего голосов 16: ↑16 и ↓0+16
Комментарии4

Линейный дискриминантный анализ (LDA). Принцип работы и реализация с нуля на Python

Уровень сложностиСложный
Время на прочтение7 мин
Количество просмотров9.8K

Линейный дискриминантный анализ (Linear Discriminant Analysis или LDA) — алгоритм классификации и понижения размерности, позволяющий производить разделение классов наилучшим образом. Основная идея LDA заключается в предположении о многомерном нормальном распределении признаков внутри классов и поиске их линейного преобразования, которое максимизирует межклассовую дисперсию и минимизирует внутриклассовую. Другими словами, объекты разных классов должны иметь нормальное распределение и располагаться как можно дальше друг от друга, а одного класса — как можно ближе.

Читать далее
Всего голосов 8: ↑8 и ↓0+8
Комментарии0

Почему Trino такой быстрый: архитектура оптимизатора SQL-запросов

Время на прочтение12 мин
Количество просмотров27K

Аналитические системы должны эффективно обрабатывать сложные пользовательские запросы к десяткам и сотням терабайт данных (пета-?). Продвинутый оптимизатор запросов является важнейшим компонентом любого big data движка. В данной статье мы рассмотрим, как устроен оптимизатор запросов в массивно-параллельном аналитическом SQL-движке Trino.

И как же он устроен?
Всего голосов 14: ↑14 и ↓0+14
Комментарии2

Как быстро собрать кубик для простых задач: играемся с TinyOLAP

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров3.4K

Привет, Хабр. Сегодняшняя статья будет интересна тем, кто хочет собрать простой OLAP‑куб для анализа данных, чтобы понять, как он устроен и работает. Экспериментировать будем с помощью TinyOLAP, одного из немногих OpenSource движков на Python.

Читать далее
Всего голосов 8: ↑8 и ↓0+9
Комментарии11

Отсечение и поиск / Prune and search

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров2.5K

Решал задачу на LeetCode (Word Search) и наткнулся на незнакомый мне термин "search pruning", либо "Prune and search". Немного погуглив, узнал, что это метод решения задач оптимизации, на Википедии есть соответствующая статья (ссылка). На русском языке я не нашел такого термина, только некоторые работы на studfile и автоматический корявый перевод на Wiki5, из-за чего решил перевести статью на Википедии, которую привел выше и немного пояснить, что этот термин означает. Перевод любительский и вольный, если будут ошибки, то поправьте, пожалуйста. Перевожу для ссылки из своего расширения LeetCode to Russian и для тех, кто наткнется на такой термин и решит погуглить его на русском языке. Если в русском языке существует похожее определение, но называется по-другому, то прошу написать в комментариях, чтобы я поправил статью.

Отсечение и поиск - это метод оптимизации, при котором мы ищем что-либо в большом объеме данных, одновременно отсекая часть вариантов, которые с высокой долей вероятности не приведут к желаемому результату. Этот метод экономит время и ресурсы, позволяя сконцентрироваться на подходящих вариантах.

Читать далее
Всего голосов 7: ↑7 и ↓0+7
Комментарии8

Подборка датасетов для машинного обучения

Время на прочтение6 мин
Количество просмотров156K
Привет, читатель!

Меня зовут Рушан, и я автор Telegram‑канала Нейрон. Не забудьте поделиться с коллегами или просто с теми, кому интересны такие статьи.

Перед тобой статья-путеводитель по открытым наборам данных для машинного обучения. В ней я, для начала, соберу подборку интересных и свежих (относительно) датасетов. А бонусом, в конце статьи, прикреплю полезные ссылки по самостоятельному поиску датасетов.

Меньше слов, больше данных.

image

Подборка датасетов для машинного обучения:


Читать дальше →
Всего голосов 66: ↑64 и ↓2+62
Комментарии6

Введение в геномику для программистов

Время на прочтение4 мин
Количество просмотров15K
Об авторе. Энди Томасон — ведущий программист Genomics PLC. Он с 70-х годов занимается графическими системами, играми и компиляторами; специализация — производительность кода.

Гены: краткое введение


Геном человека состоит из двух копий примерно по 3 миллиарда пар оснований ДНК, для кодирования которых используются буквы A, C, G и T. Это около двух бит на каждую пару оснований:

3 000 000 000 × 2 × 2 / 8 = 1 500 000 000 или около 1,5 ГБ данных.

На самом деле эти копии очень похожи, и ДНК всех людей практически одинаков: от торговцев с Уолл-Стрит до австралийских аборигенов.

Существует ряд «референсных геномов», таких как файлы Ensembl Fasta. Эталонные геномы помогают построить карту с конкретными характеристикам, которые присутствуют в ДНК человека, но не уникальны для конкретных людей.
Читать дальше →
Всего голосов 37: ↑35 и ↓2+33
Комментарии32

Как нас анализируют в магазинах и ресторанах — продолжение истории

Время на прочтение11 мин
Количество просмотров8.4K

В первой части статьи я рассказывал про новый инструмент для бизнеса по подсчету и анализу людского трафика с помощью видеокамер. На рынке представлено довольно много продуктов по подсчету людей, но практически нет таких, которые это делают методом анализа человеческого лица. При распознавании лиц можно получить следующую информацию: пол, возраст, эмоциональный фон и, собственно, самое главное, уникальный идентификатор лица. Последнее нужно для того, чтобы понимать, что это лицо мы видели ранее: тогда-то, столько-то раз, с такой-то периодичностью и т.п.




Данные видеоаналитики прекрасно используются в ритейле, сфере услуг, кафе и ресторанах. Теперь можно более предметно и точно анализировать покупателей: их трафик, уникальность, повторяемость, пол и возраст и, конечно, эмоции. В счетчике по лицам можно наконец-то отделять сотрудников от посетителей, считать длительность обслуживания и выстраивать маркетинговые активности по увеличению лояльности покупателей.


Напомню, что для примера взята одна точка – кафе (по принципу столовой) в Москве, в котором камера установлена на кассе.

Читать дальше →
Всего голосов 15: ↑13 и ↓2+11
Комментарии10

Вижу, значит существую: обзор Deep Learning в Computer Vision (часть 1)

Время на прочтение17 мин
Количество просмотров29K
Компьютерное зрение. Сейчас о нём много говорят, оно много где применяется и внедряется. И как-то давненько на Хабре не выходило обзорных статей по CV, с примерами архитектур и современными задачами. А ведь их очень много, и они правда крутые! Если вам интересно, что сейчас происходит в области Computer Vision не только с точки зрения исследований и статей, но и с точки зрения прикладных задач, то милости прошу под кат. Также статья может стать неплохим введением для тех, кто давно хотел начать разбираться во всём этом, но что-то мешало ;)

image
Читать дальше →
Всего голосов 18: ↑17 и ↓1+16
Комментарии5

Wolfram Engine теперь открыт для разработчиков (перевод)

Время на прочтение2 мин
Количество просмотров3.5K

21 мая 2019 Wolfram Researh объявили о том, что они дали доступ к Wolfram Engine для всех разработчиков софта. Вы можете скачать его и использовать в своих некоммерческих проектах по ссылке


Свободный Wolfram Engine для разработчиков дает им возможность использовать Wolfram Language в любом стеке разработки. Wolfram Language, который доступен в виде песочницы — это мультипарадигмальный вычислительный язык, лежащий в основе самых известных продуктов Wolfram: Mathematica и Wolfram Alpha. Бесплатный Wolfram Engine также имеет полный доступ к базе знаний Wolfram и ее предварительно подготовленным нейронным сетям. Но для его использования вам необходимо оформить бесплатную подписку на Wolfram Cloud.

Читать дальше →
Всего голосов 10: ↑9 и ↓1+8
Комментарии7

Введение в глубокое обучение с использованием TensorFlow

Время на прочтение3 мин
Количество просмотров19K
Полный курс на русском языке можно найти по этой ссылке.
Оригинальный курс на английском доступен по этой ссылке.


Всего голосов 25: ↑20 и ↓5+15
Комментарии2

Введение в машинное обучение

Время на прочтение19 мин
Количество просмотров61K
Полный курс на русском языке можно найти по этой ссылке.
Оригинальный курс на английском доступен по этой ссылке.


Всего голосов 40: ↑36 и ↓4+32
Комментарии25

AlphaFold: Использование ИИ для научных открытий

Время на прочтение6 мин
Количество просмотров5.4K
И снова здравствуйте! Делимся публикацией, перевод которой подготовлен специально для студентов курса «Нейронные сети на Python».



Сегодня мы расскажем о первом важном событии в истории развития DeepMind, чтобы показать, как исследования с помощью искусственного интеллекта могут стимулировать появление научных открытий. Благодаря междисциплинарному характеру нашей работы, DeepMind объединил экспертов из области структурной биологии, физики и машинного обучения, чтобы использовать передовые методы прогнозирования трехмерной структуры белка на основе исключительно его генетической последовательности.
Читать дальше →
Всего голосов 18: ↑17 и ↓1+16
Комментарии2

Соревнование ML-систем на лингвистическом материале. Как мы учились заполнять пропуски

Время на прочтение10 мин
Количество просмотров3.4K
Каждый год в Москве проходит конференция "Диалог", в которой участвуют лингвисты и специалисты по анализу данных. Они обсуждают, что такое естественный язык, как научить машину его понимать и обрабатывать. В рамках конференции традиционно проводятся соревнования (дорожки) Dialogue Evaluation. В них могут участвовать как представители крупных компаний, создающих решения в области обработки естественного языка (Natural Language Processing, NLP), так и отдельные исследователи. Может показаться, что если ты простой студент, то тебе ли тягаться с системами, которые крупные специалисты больших компаний создают годами. Dialogue Evaluation — это как раз тот случай, когда в итоговой турнирной таблице простой студент может оказаться выше именитой компании.

Этот год станет уже 9-ым по счету, когда на «Диалоге» проводится Dialogue Evaluation. Каждый год количество соревнований разное. Темами для дорожек уже становились такие задачи NLP, как анализ тональности (Sentiment Analysis), разрешение лексической многозначности (Word Sense Induction), нахождение опечаток (Automatic Spelling Correction), выделение сущностей (Named Entity Recognition) и другие.

В этом году четыре группы организаторов подготовили такие дорожки:
  • Генерация заголовков для новостных статей.
  • Разрешение анафоры и кореференции.
  • Морфологический анализ на материале малоресурсных языков.
  • Автоматический анализ одного из видов эллипсиса (гэппинга).

Сегодня мы расскажем про последнюю из них: что такое эллипсис и зачем учить машину восстанавливать его в тексте, как мы создавали новый корпус, на котором можно решить эту задачу, как проходили сами соревнования и каких результатов смогли добиться участники.
Читать дальше →
Всего голосов 16: ↑15 и ↓1+14
Комментарии0

Первая модель: набор данных Fashion MNIST

Время на прочтение21 мин
Количество просмотров41K
Полный курс на русском языке можно найти по этой ссылке.
Оригинальный курс на английском доступен по этой ссылке.

Выход новых лекций запланирован каждые 2-3 дня.
Читать дальше →
Всего голосов 16: ↑14 и ↓2+12
Комментарии5

Книга «Машинное обучение: алгоритмы для бизнеса»

Время на прочтение5 мин
Количество просмотров11K
image Привет, Хаброжители! Маркос Лопез де Прадо делится тем, что обычно скрывают, — самыми прибыльными алгоритмами машинного обучения, которые он использовал на протяжении двух десятилетий, чтобы управлять большими пулами средств самых требовательных инвесторов.

Машинное обучение меняет практически каждый аспект нашей жизни, алгоритмы МО выполняют задачи, которые до недавнего времени доверяли только проверенным экспертам. В ближайшем будущем машинное обучение будет доминировать в финансах, гадание на кофейной гуще уйдет в прошлое, а инвестиции перестанут быть синонимом азартных игр.

Воспользуйтесь шансом поучаствовать в «машинной революции», для этого достаточно познакомиться с первой книгой, в которой приведен полный и систематический анализ методов машинного обучения применительно к финансам: начиная со структур финансовых данных, маркировки финансового ряда, взвешиванию выборки, дифференцированию временного ряда… и заканчивая целой частью, посвященной правильному бэктестированию инвестиционных стратегий.
Читать дальше →
Всего голосов 17: ↑16 и ↓1+15
Комментарии3

Rekko Challenge — как занять 2-е место в конкурсе по созданию рекомендательных систем

Время на прочтение6 мин
Количество просмотров11K

Всем привет. Моя команда в Тинькофф занимается построением рекомендательных систем. Если вы довольны вашим ежемесячным кэшбэком, то это наших рук дело. Также мы построили рекомендательную систему спецпредложений от партнеров и занимаемся индивидуальными подборками Stories в приложении Tinkoff. А еще мы любим участвовать в соревнованиях по машинному обучению чтобы держать себя в тонусе.


На Boosters.pro в течении двух месяцев с 18 февраля по 18 апреля проходило соревнование по построению рекомендательной системы на реальных данных одного из крупнейших российских онлайн-кинотеатров Okko. Организаторы преследовали цель улучшить существующую рекомендательную систему. На данный момент соревнование доступно в режиме песочницы, в которой вы можете проверить свои подходы и отточить навыки в построении рекомендательных систем.


alt_text

Читать дальше →
Всего голосов 59: ↑56 и ↓3+53
Комментарии6

Samsung открывает бесплатный онлайн-курс по нейросетям в задачах компьютерного зрения

Время на прочтение4 мин
Количество просмотров24K
Вы пока не разбираетесь, почему ReLU лучше сигмоиды, чем отличается Rprop от RMSprop, зачем нормализировать сигналы и что такое skip connection? Зачем нейронной сети нужен граф, и какую он совершил ошибку, что она распространяется обратно? У вас есть проект с компьютерным зрением или, может быть, делаете межгалактического робота для борьбы с грязными тарелками, и хотите, чтобы он мог сам решать, отмывать или и так сойдет?

Мы запускаем открытый курс «Нейронные сети и компьютерное зрение», который адресован тем, кто в этой области делает первые шаги. Курс разработан экспертами Samsung Research Russia: Исследовательского центра Samsung и Центра искусственного интеллекта Samsung в Москве. Сильные стороны курса:

  • авторы курса знают, о чем говорят: это инженеры московского Центра искусственного интеллекта Samsung, Михаил Романов и Игорь Слинько;
  • есть как теория с задачками, так и практика на PyTorch
  • приступаем к практике сразу после освоения минимальных теоретических знаний.
  • лучшие студенты будут приглашены на собеседование в Samsung Research Russia!


Читать дальше →
Всего голосов 40: ↑39 и ↓1+38
Комментарии17

Всё, что вы знали о word2vec, неправда

Время на прочтение4 мин
Количество просмотров13K
Классическое объяснение word2vec как архитектуры Skip-gram с отрицательной выборкой в оригинальной научной статье и бесчисленных блог-постах выглядит так:

while(1) {
   1. vf = vector of focus word
   2. vc = vector of focus word
   3. train such that (vc . vf = 1)
   4. for(0 <= i <= negative samples):
           vneg = vector of word *not* in context
           train such that (vf . vneg = 0)
}

Действительно, если погуглить [word2vec skipgram], что мы видим:


Но все эти реализации ошибочны.
Читать дальше →
Всего голосов 57: ↑54 и ↓3+51
Комментарии6

Информация

В рейтинге
Не участвует
Зарегистрирован
Активность