Обновить
671.57

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Новый протокол машинного обучения Confidential-DPproof от Brave

Уровень сложностиСложный
Время на прочтение5 мин
Количество просмотров996

Краткое содержание. Модели машинного обучения, обученные на данных участников без каких-либо гарантий конфиденциальности, могут допустить утечку чувствительной информации.

Наша модель верифицируемого конфиденциального обучения под названием Confidential-DPproof (Confidential proof of differentially private training) способствует более конфиденциальному обучению и не раскрывает никакой информации об использованных данных и самой модели.

Confidential-DPproof доступна с открытым исходным кодом и может использоваться организациями для предоставления гарантий верифицируемой конфиденциальной защиты клиентских данных в продуктах на основе машинного обучения.

Читать далее

Самый лучший в мире курс по Машинному обучению — Алгоритмы Машинного обучения с нуля

Время на прочтение1 мин
Количество просмотров27K

Краткий обзор курса, который я недавно закончил пилить на степике. Курс хардкорный :) В нем необходимо с нуля писать алгоритмы машинного. Наверное это один из лучший способов досконально разобраться в алгоритме.

Мои курсы: Разработка LLM с нуля | Алгоритмы Машинного обучения с нуля

Читать далее

Линейный дискриминантный анализ (LDA). Принцип работы и реализация с нуля на Python

Уровень сложностиСложный
Время на прочтение7 мин
Количество просмотров16K

Линейный дискриминантный анализ (Linear Discriminant Analysis или LDA) — алгоритм классификации и понижения размерности, позволяющий производить разделение классов наилучшим образом. Основная идея LDA заключается в предположении о многомерном нормальном распределении признаков внутри классов и поиске их линейного преобразования, которое максимизирует межклассовую дисперсию и минимизирует внутриклассовую. Другими словами, объекты разных классов должны иметь нормальное распределение и располагаться как можно дальше друг от друга, а одного класса — как можно ближе.

Читать далее

Наивный байесовский классификатор. Основная идея, модификации и реализация с нуля на Python

Уровень сложностиСложный
Время на прочтение8 мин
Количество просмотров41K

Наивный байесовский классификатор (Naive Bayes classifier) — вероятностный классификатор на основе формулы Байеса со строгим (наивным) предположением о независимости признаков между собой при заданном классе, что сильно упрощает задачу классификации из-за оценки одномерных вероятностных плотностей вместо одной многомерной.

Помимо теории и реализации с нуля на Python, в данной статье также будет приведён небольшой пример использования наивного Байеса в контексте фильтрации спама со всеми подробными расчётами вручную.

Читать далее

Нейрогенератор игровых миров: рассказ о моём интригующем пет проекте

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров5.1K

Представьте себе игру с полностью открытым и бесконечным миром, этот мир живет своей жизнью, и игрок полностью свободен делать всё, что заблагорассудиться, а игра просимулирует результаты его действий. Такой, open world со своей уникальной вселенной. Интересная такая идея для петпроекта, не правда ли? В этой статье я расскажу о своей попытке реализовать подобную игру, по крайней мере её фундамент.

Читать далее

Искусственный интеллект на CES 2024: к чему бы ещё прикрутить «мозги»?

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.9K

Выставка CES (Consumer Electronics Show), каждый год проходящая в январе в Лас-Вегасе, считается крупнейшей выставкой в мире высоких технологий. Часто она задает тренды на весь оставшийся год, как это было когда-то, например, с плоскими экранами или умным домом. Иногда яркие тренды CES вскоре угасают — как в случае с 3D-телевизорами. В этом году тоже не обошлось без телевизоров (в центре внимания оказались OLED-панели), но доминирующей темой стал искусственный интеллект. Далее мы вкратце расскажем про некоторые примечательные новинки в этой сфере, продемонстрированные на CES.

В прошлом году чуть ли не на каждой бизнес-конференции говорили, что ИИ изменит всё. Но когда доходило до подробностей, как же он всё изменит, спикеры обычно терялись.


Читать далее

Метод опорных векторов (SVM). Подходы, принцип работы и реализация с нуля на Python

Уровень сложностиСложный
Время на прочтение14 мин
Количество просмотров24K

Метод опорных векторов (Support Vector Machines или просто SVM) — мощный и универсальный набор алгоритмов для работы с данными любой формы, применяемый не только для задач классификации и регрессии, но и также для выявления аномалий. В данной статье будут рассмотрены основные подходы к созданию SVM, принцип работы, а также реализации с нуля его наиболее популярных разновидностей.

Читать далее

Как оценка актуальности резюме помогла работодателям эффективнее находить кандидатов

Время на прочтение8 мин
Количество просмотров6.5K

Владислав Урих, продуктовый аналитик Авито Работы, рассказал, как мы придумали новый подход к оценке актуальности резюме, и, благодаря этому, увеличили количество сделок, повысили retention работодателей в повторную покупку, и выросли в выручке категории.

Читать далее

Коэффициенты для экстраполяции прогнозов компонент CLTV на 5 лет

Время на прочтение8 мин
Количество просмотров5.6K

Эта статья описывает, как из прогнозов ряда ML-моделей получить ценность клиента с горизонтом в 5 лет. Напомним, что показатель CLTV представляет из себя композицию прогнозов ее компонент (подробнее в статье). В нашей реализации максимальный период прогнозирования моделей - 24 месяца. Важно отметить, что чем выше горизонт прогнозирования, тем менее точный прогноз способна сделать модель. А показатель CLTV интересен бизнесу на более длинном горизонте, в нашем случае - пять лет. Как же из прогнозов на два года получить прогноз на пять лет? Ответ прост: экстраполировать прогнозы.

Основная идея продления (экстраполяции) прогнозов - это разбиение пользователей на несколько групп, а в каждой группе единообразно продлить ряд прогноза. 

Далее мы обсудим:

- подходы к экстраполяции ряда, их достоинства и проблемы
- как выбирать группы и подготовить данные для экстраполяции
- достоинства выбранного подхода к продлению прогнозов на 5 лет, трудности и пути их решения.

Читать далее

Нейросети в авторитете: вы не угадаете, сколько статей про нейронки и ML было в 2013 году на Хабре

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров11K

Человечество не умеет жить без мечты. Глобальной, размашистой, такой — чтобы всё или ничего. Люди мечтали летать, как птицы, видеть, как звери, обгонять самых быстрых, создавать золото из олова, не болеть, лечить рак, чинить гены, жить вечно, летать в космос, дотронуться до Луны… Что-то получается, что-то не сразу, что-то — и вовсе нет. Вторую половину XX и пока весь XXI век человечество мечтает…научиться думать. Только не головами, которые как раз мечтают и воплощают мечты в конкретные решения, а железными мозгами: создать компьютеры, обрабатывающие информацию по тому же принципу, что и люди, а то и способные к абстракции и воображению, — обучить машину думать. Это весьма практичная мечта, которая по задумке должна сделать мир лучше и перевернуть медицину, психологию, культуру, искусство, инженерию и почти всё, где мы используем мысль и речь. Догадались, о чём речь?

Читать далее

Метод K-ближайших соседей (KNN). Принцип работы, разновидности и реализация с нуля на Python

Уровень сложностиСложный
Время на прочтение9 мин
Количество просмотров48K

К-ближайших соседей (K-Nearest Neighbors или просто KNN) — алгоритм классификации и регрессии, основанный на гипотезе компактности, которая предполагает, что расположенные близко друг к другу объекты в пространстве признаков имеют схожие значения целевой переменной или принадлежат к одному классу.

Читать далее

Как DDoS-атаки стали для нас рутиной и как ML помогает их отражать

Время на прочтение10 мин
Количество просмотров8.5K

Несколько лет назад увидеть DDoS-атаку было целым событием. Если такое и случалось, то инцидент тщательно анализировала целая команда специалистов, а каждая извлечённая крупица информации использовалась для обучения моделей, формирования новых факторов и улучшения подходов для защиты от новых потенциальных атак. 

Но постепенно число атак увеличивалось, и в какой-то момент отбить очередной DDoS стало обычным делом. Только за прошедший 2023 год мы в Яндексе отразили 1002 атаки. В этом нам помогло инхаус-решение — Антиробот, который работает на уровне L7 сетевой модели OSI.

В этом посте я хочу рассказать о том, как работает, на чём обучается Антиробот и с какими атаками ему приходится иметь дело. А ещё расскажу, почему важно системно подходить к анализу каждой атаки и как ML помогает отражать их.

Читать далее

Дерево решений (CART). От теоретических основ до продвинутых техник и реализации с нуля на Python

Уровень сложностиСложный
Время на прочтение22 мин
Количество просмотров18K

Дерево решений CART (Classification and Regressoin Tree) — алгоритм классификации и регрессии, основанный на бинарном дереве и являющийся фундаментальным компонентом случайного леса и бустингов, которые входят в число самых мощных алгоритмов машинного обучения на сегодняшний день. Деревья также могут быть не бинарными в зависимости от реализации. К другим популярным реализациям решающего дерева относятся следующие: ID3, C4.5, C5.0.

Читать далее

Ближайшие события

Общее описание и реализация Word2Vec с помощью PyTorch

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров16K

В данной статье даётся общее описание векторного представления вложений слов - модель word2vec. Также рассматривается пример реализации модели word2vec с использованием библиотеки PyTorch. Приведена реализация как архитектуры skip-gram так и CBOW.

Читать далее

Анализ зависимостей бинарных файлов на основе ML. Заключительная часть

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров1.3K

В прошлой статье мы разобрали идею нашего компонентного анализатора и поделились результатами некоторых экспериментов, проведенных в лабораторных условиях. Результаты, полученные на маленькой части датасета в размере 3000 библиотек, вышли довольно оптимистичными. В этой статье опишем сложности, с которыми мы столкнулись при попытках применить решение на ~105к библиотек, и расскажем, как с ними справлялись.

Читать далее

Как графы знаний и LLM могут друг другу помочь

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров6.5K

Предобученные языковые модели генерируют качественный текст, сравнимый по качеству с человеческим (иногда даже превосходящий его). Но некоторые проблемы остаются даже у лучших LLM — сеть не понимает, что говорит. Может получаться хоть и виртуозный с точки зрения грамматики и лексики, но всё-таки неверный по смыслу результат. 

Читать далее

Превратите свой пет-проект из хобби в карьеру

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров27K

Привет, Хабр!

Меня зовут Данил Картушов, в этом посте я расскажу, почему и как именно pet-project'ы могут стать ключом к вашей карьере.

Надеюсь, что после этого поста ты сможешь раскрыть свой потенциал к обучению и по-новому взглянуть на процесс обучения.

Начнем!

Услышать несказанное: преобразование движений мышц в речь

Время на прочтение18 мин
Количество просмотров1.3K


Одним из самых явных эволюционных отличий человека от других обитателей планеты является умение говорить. Конечно, другие животные также способны издавать звуки, используемые для коммуникации между особями. Но именно человек способен на вербальное, связанное по смыслу и логике общение. Для реализации вербальной передачи сигналов человеку нужны голосовые связки. Однако из-за травм, заболеваний или хирургического вмешательства у человека может развиться дисфония (нарушение речи) или полная дисфункция речи. Ученые из Калифорнийского университета в Лос-Анджелесе (США) разработали тонкое гибкое устройство, которое прикрепляется к шее и преобразует движения мышц гортани в слышимую речь. В создании этого устройства использовалось машинное обучение, позволяющее распознавать и сопоставлять определенные движения мышц с определенными словами. Из чего сделано чудо-устройство, как именно оно работает, и насколько оно эффективно? Ответы на эти вопросы мы найдем в докладе ученых.
Читать дальше →

Ищем Арнольда Шварценеггера среди мужчин, женщин и детей с помощью нейросети на С++

Уровень сложностиСредний
Время на прочтение24 мин
Количество просмотров11K

Привет, Хабр! Меня зовут Кирилл Колодяжный, я ведущий инженер-программист в YADRO. Помимо основных рабочих задач, включающих исследование проблем производительности СХД, я увлекаюсь машинным обучением. Участвовал в коммерческих проектах, связанных с техническим зрением, 3D-сканерами и обработкой фотографий. В задачах часто использовал С++, хотя машинное обучение традиционно ассоциируется с Python. Этот язык программирования буквально захватил сферу, его используют повсюду — от обучающих курсов до серьезных ML-проектов.

Однако Python — не единственный язык, на котором можно решать задачи машинного обучения. Так, альтернативой может стать С++. Если последний вам ближе, вам будет интересен и полезен этот текст.

Под катом разберемся:

как организовать работу с данными и загрузку обучающего датасета, 

как описать структуру нейронной сети, 

как использовать уже готовые алгоритмы машинного обучения из доступных библиотек и фреймворков, 

как организовать конвейер обучения сети, 

как использовать предобученные глубокие сети для решения задач. 

Читать далее

Google DeepMind создал новый ИИ, способный неплохо играть в компьютерные игры. На что он способен?

Время на прочтение4 мин
Количество просмотров3.5K

На Хабре не раз и не два писали об искусственном интеллекте, который превосходит человека в разных настольных и компьютерных играх. Но это специально обученные агенты, которые специализируются на какой-то конкретной игре. А можно ли разработать систему, способную взаимодействовать с трёхмерным окружением любой игры без длительной предварительной подготовки? Корпорация Google считает, что да, и подтвердила свои слова делом. Она создала агента, способного на это. Какие возможности у новой разработки?

Читать далее

Вклад авторов