Машинное обучение *

Основа искусственного интеллекта

Статьи Посты Новости Авторы Компании

fokus-lop 17 мая 2021 в 10:31

Алгоритм на основе Deep Learning от Dynamic Yield позволяет точно персонализировать показ товаров в онлайн-магазине

3 мин

1.7K

Разработка под e-commerce*Машинное обучение*

Рекомендательные алгоритмы много лет работают в качестве инструмента персонализации на площадках вроде Amazon, eBay, AliExpress, Wallmart и десятков других. С течением времени алгоритмы становятся все более совершенными, позволяя покупателям видеть в выдаче товары, которые нужны именно им, а компаниям — продавать больше товаров.

Площадок с обычными каталогами товаров, где покупатель каждый раз должен сам искать то, что ему нужно, становится все меньше. Конечно, если покупатель зашел на площадку впервые, ему придется выбирать самостоятельно, но с каждым новым кликом и просмотром алгоритм в реальном времени оптимизирует выдачу товаров, так, что она становится все более персонализированной. Кроме того, появляются и новые алгоритмы, которые разрабатывают hi-tech компании. Один из них разработан компанией Dynamic Yield.

Читать дальше →

averkij 16 мая 2021 в 21:33

Сам себе Гутенберг. Делаем параллельные книги

12 мин

22K

Open source*Python*Машинное обучение*Изучение языковNatural Language Processing*

Туториал

Lingtrain parallel books

Upd. 04.12.2021 — Наш телеграм канал

Если вам нравится изучать языки (или вы их преподаете), то вы наверняка сталкивались с таким способом освоения языка как параллельное чтение. Он помогает погрузиться в контекст, увеличивает лексикон и позволяет получить удовольствие от обучения. Читать тексты в оригинале параллельно с русскоязычными, на мой взгляд, стоит, когда уже освоены азы грамматики и фонетики, так что учебники и преподавателей никто не отменял. Но когда дело все же доходит до чтения, то хочется подобрать что-то по своему вкусу, либо что-то уже знакомое или любимое, а это часто невозможно, потому что такого варианта параллельной книги никто не выпускал. А если вы учите не английский язык, а условный японский или венгерский, то трудно найти вообще хоть какой-то интересный материал с параллельным переводом.

Сегодня мы сделаем решительный шаг в сторону исправления этой ситуации.

Из чего делаем

На входе у нас будут два текстовых файла с оригинальным текстом и его переводом. Для примера возьмем книгу "Убить пересмешника" Харпер Ли на русском и английском языках.

Начало документов выглядит так (отрывки приведены в таком виде, в котором они были найдены в сети):

Выровнять пересмешника

+106

Serg_SH 15 мая 2021 в 22:40

ML разработка — инхаус vs аутсорс?

6 мин

2.6K

Big Data*Машинное обучение*

Вопрос, который актуален для любого вида разработки и машинное обучение (ML) тут не исключение. Но при этом наверняка многие спросят - чем ваш ML отличается от стандартной разработки? Статей на эту тему уже написано вагон - читай, анализируй и выбирай нужный путь.

С одной стороны так оно и есть - и статей вагон и проанализировать есть что. С другой, стороны есть специфика - и этапность ML разработки несколько отличается от стандартной и работа идет не только с кодом, но и с данными.

Но давайте обо всем по порядку - в двух словах пробежимся по отличиям, а потом разберемся есть ли место аутсорсу в ML разработке и какое оно это место.

DunRoam 15 мая 2021 в 16:34

Матрица-Перематрица

10 мин

8.1K

Python*Математика*Машинное обучение*

Из песочницы

Работа нейронной сети основана на манипуляциях с матрицами. Для обучения используются разнообразные методы, многие из которых выросли из метода градиентного спуска, где необходимо умение обращаться с матрицами, вычислять градиенты (производные по матрицам). Если заглянуть “под капот” нейронной сети, можно увидеть цепочки из матриц, выглядящие зачастую устрашающе. Проще говоря, “нас всех подстерегает матрица”. Пора познакомиться поближе.

Для этого сделаем следующие шаги:

рассмотрим манипуляции с матрицами : транспонирование, умножение, градиент;

построим игрушечную нейронную сеть;

познакомимся с методом обратного распространения ошибки с использованием метода градиентного спуска.

Все шаги сопровождаются примерами кода с использованием только NumPy . Вычисления, не выходящие, впрочем, за рамки элементарной математики, приведены подробно. За индексами придется внимательно следить, но не отчаивайтесь, просто представьте, что каждый индекс - винтик, который надо закрутить, следуя простым правилам, но не пропустить. Если вдруг не разберетесь, ничего страшного - одно из двух: либо сбой в матрице, либо одно из двух.

Red pill

sagol 15 мая 2021 в 13:49

CatBoost и ML-конкурсы

8 мин

4.6K

Python*Программирование*Визуализация данных*Машинное обучение*

Технотекст 2021

Эта статья основана на данных конкурса, который компания Driven Data опубликовала для решения проблем с источниками воды в Танзании. Краткий анализ данных, подготовка данных и бэйзлайн модель с использованием CatBoost. Целевая аудитория - те, кто хотят начать свой путь в ML-соревнованиях.

dim2r 15 мая 2021 в 11:28

RL — Trust Region Policy Optimization (TRPO) Explained. (Часть 1)

6 мин

2.6K

Машинное обучение*

Recovery Mode

Перевод

Методы градиента политики PG довольно популярны в обучении с подкреплением (RL). Базовый принцип состоит в использовании градиентного спуска и подъема в направлениях, где ожидается наибольшая награда. Но при первом приближении оптимизация получается неаккуратной. При чрезмерной самоуверенности мы можем сделать действия, которые разрушат прогресс, достигнутый предыдущей тренировкой. Работы, посвященные TRPO, являются наиболее цитируемыми по этой проблеме. При этом его объясняют без должного введения в три базовые концепции: MM алгоритм, регион доверия и выборка по значимости (перенормировка).

Читать дальше →

olya_twin 14 мая 2021 в 18:26

Эволюция методов mesh denoising: от простых фильтров до 3D глубокого обучения

7 мин

Блог компании twin3dРабота с 3D-графикой*Алгоритмы*Математика*Машинное обучение*

В этой обзорной статье вы узнаете, что такое mesh denoising, какие методы использовались и используются для устранения шума на полигональных сетках (от классических фильтров до передовых графовых нейронных сетей), и получите общее представление о развитии направления.

С помощью технологии трехмерного сканирования можно получить 3D-модель реального объекта. Но знаете ли вы, что почти всегда такие объекты содержат шумы и неточности? В Twin3d мы сканируем людей (и не только) и с помощью фотограмметрии получаем 3D-модели, которые дальше необходимо обрабатывать в зависимости от конечной цели их использования. Естественно, от шумов надо избавляться, чтобы применять виртуальную модель человека в кино/играх/рекламе. Нужно много чего еще делать, но об этом мы поговорим потом.

+15

MagisterLudi 14 мая 2021 в 17:59

Улучшение улучшенного фотореализма

1 мин

9.4K

Блог компании Timeweb CloudОбработка изображений*Машинное обучение*Научно-популярное

Перевод

Разработчики из Intel Labs при помощи сверточной нейросети улучшают синтетические изображения, повышаеют их стабильность и реализм.

GTA V to Cityscapes

Модификации, выполненные нашим методом, геометрически и семантически согласуются с исходными изображениями.

+16

ipostny 14 мая 2021 в 15:27

Искусственный интеллект в юриспруденции. Вебинар № 3: Архитектура Legal AI

2 мин

Машинное обучение*Искусственный интеллектNatural Language Processing*

Продолжая цикл вебинаров об искусственном интеллекте для юристов, мы предлагаем поговорить об архитектуре Legal AI, а именно: о технологической основе, о задачах, которые необходимо решить при разработке подобных решений, а также о том, как данные задачи могут быть решены сегодня.

MagisterLudi 14 мая 2021 в 10:53

Исследование движения глаз для улучшения здоровья и доступности

7 мин

3.5K

Блог компании Timeweb CloudИнтерфейсы*Машинное обучение*Научно-популярноеЗдоровье

Перевод

Пример отслеживания взгляда для участника без усталости (слева) и с умственным утомлением (справа), когда они отслеживают объект, следующий по круговой траектории.

Движение глаз широко изучается специалистами по зрению, языкам и юзабилити с 1970-х годов. Помимо фундаментальных исследований, наилучшее понимание движения глаз может быть полезно в самых разных приложениях, включая исследования удобства использования и пользовательского опыта, игры, вождения и взаимодействия на основе взгляда для доступности здравоохранения. Однако прогресс был ограниченным, потому что большинство предыдущих исследований было сосредоточено на специализированных аппаратных айтрекерах, которые были дорогими и сложно масштабируемыми.

В «Accelerating eye movement research via accurate and affordable smartphone eye tracking», опубликованной в Nature Communications, и «Digital biomarker of mental fatigue», опубликованной в npj Digital Medicine, мы представляем точное отслеживание глаз с помощью смартфона и машинного обучения, которое имеет потенциал для открытия новых исследований приложений в областях зрения, доступности, здравоохранения и благополучия, при этом дополнительно обеспечивая масштабирование для различных групп населения в мире, и все это с использованием фронтальной камеры на смартфоне. Мы также обсуждаем потенциальное использование этой технологии в качестве цифрового биомаркера умственной усталости, который может быть полезен для улучшения самочувствия.

Читать дальше →

NewTechAudit 14 мая 2021 в 10:49

NLP: разбираем на пальцах практические кейсы без заморочек с ML

3 мин

5.6K

Python*Программирование*Машинное обучение*

Сравнение текстов

Допустим у нас есть три текста: два из них про собачек и один про кошечек. Как их сравнить между собой?

topilskiyak 14 мая 2021 в 09:44

SIRR, не соизволите ли удалить отражение?

12 мин

4.7K

Блог компании ЯндексАлгоритмы*Обработка изображений*Машинное обучение*Исследования и прогнозы в IT*

Привет! Меня зовут Артём, я учусь на совместной кафедре анализа данных Яндекса и Физтеха. Хочу поделиться с ML-сообществом Хабра темой, тесно связанной с моей научной работой: «Удаление отражений с помощью свёрточной сети, обученной на синтетическом датасете». А чтобы вы могли попробовать всё описанное далее самостоятельно, прилагаю PyTorch-код на GitHub и в Yandex DataSphere.

^{Источник: SIRR Using Deep Encoder-Decoder Network}

Читать дальше →

+20

iamakarov 13 мая 2021 в 19:22

Что такое графовые нейронные сети

10 мин

23K

Блог компании VKАлгоритмы*Машинное обучение*

Графовые сети — это способ применения классических моделей нейронных сетей к графовым данным. Графы, не обладая регулярной структурой как изображения (каждый пиксель имеет 8 соседей) или тексты (последовательность слов), долгое время оставались вне поля зрения классических нейронных моделей, которые получили широкое распространение в области машинного обучения и искусственного интеллекта. Большинство моделей векторизации графов (построения векторного представления вершин в графе) были достаточно медленными и использовали алгоритмы на основе матричной факторизации или спектральной декомпозиции графа. В 2015-16 годах появились более эффективные модели (DeepWalk, Line, Node2vec, Hope) на основе случайных блужданий. Однако и они имели ограничения, потому что никак не затрагивали при построении векторной модели графа дополнительных признаков, которые могут храниться в вершинах или на ребрах. Появление графовых нейронных сетей стало логичным продолжением исследований в области графовых эмбеддингов и позволило унифицировать под единым фреймворком предыдущие подходы.

Читать дальше →

+21

MaxRokatansky 13 мая 2021 в 15:47

Цепочка пользовательских преобразований DataFrame в Spark

4 мин

2.7K

Блог компании OTUSПрограммирование*Машинное обучение*Hadoop*

Перевод

Для цепочки преобразований DataFrame в Spark можно использовать implicit classes или метод Dataset#transform. В этой статье блога будет продемонстрировано, как выстраивать цепочки преобразований DataFrame, и объяснено, почему метод Dataset#transform предпочтительнее, чем implicit classes.

Структурирование кода Spark в виде преобразований DataFrame отличает сильных программистов Spark от "спагетти-хакеров", как подробно описано в статье "Написание идеального кода Spark (Writing Beautiful Spark Code)". После публикации в блоге, ваш код Spark будет намного проще тестировать и повторно использовать.

Если вы используете PySpark, смотрите эту статью о цепочке пользовательских преобразований PySpark DataFrame.

katerinakovalenko 13 мая 2021 в 12:56

ИИ-технологии компании Aflorithmic помогли цифровому помощнику заговорить голосом Эйнштейна

2 мин

1.1K

Блог компании Neuro.netBig Data*Машинное обучение*Искусственный интеллектГолосовые интерфейсы*

Перевод

Технологии быстро развиваются, это касается многих отраслей и направлений. Одно из них - цифровые помощники, которые учатся общаться с человеком при помощи искусственного интеллекта. Ученым из компании Aflorithmic удалось не только научить своего робота общаться, но и восстановить голос Альберта Эйнштейна. Теперь умный ассистент компании говорит голосом великого ученого.

В проекте Aflorithmic также принял участие стартап UneeQ. Они разместили чат-бота на своем сайте, так что при желании поговорить с ним может любой желающий. Восстановление голоса ученого реализовано благодаря сохранившимся записям, пусть и неидеального качества, и описаниям людей, которые с ним общались.

klimensky 12 мая 2021 в 19:24

Монетизация машинного обучения: как превратить данные в деньги

7 мин

10K

Блог компании SkillfactoryМашинное обучение*Карьера в IT-индустрииЛайфхаки для гиков

Машинное обучение — одна из самых быстрорастущих отраслей в IT. Каждый год эта сфера растёт на 44 %. И, по аналитике экспертов-прогнозистов, до 2024 года размер рынка будет составлять уже свыше 30 млрд. долларов — это в 25 раз больше, чем было в 2017 году. Многие компании уже понимают ценность машинного обучения для собственного бизнеса. И цель здесь прагматичная — деньги. ML-специалисты помогают компаниям увеличивать свой доход.

Но если инженер машинного обучения может приносить профит компаниям, то он может и создать собственный успешный проект. В этом материале мы расскажем, в каких отраслях и как именно он сможет монетизировать свои навыки.

Итак, поехали!

ph_piter 12 мая 2021 в 15:30

Книга «Роман с Data Science. Как монетизировать большие данные»

12 мин

Блог компании Издательский дом «Питер»Big Data*Профессиональная литература*Машинное обучение*Управление продажами*

Привет, Хаброжители! Как выжать все из своих данных? Как принимать решения на основе данных? Как организовать анализ данных (data science) внутри компании? Кого нанять аналитиком? Как довести проекты машинного обучения (machine learning) и искусственного интеллекта до топового уровня? На эти и многие другие вопросы Роман Зыков знает ответ, потому что занимается анализом данных почти двадцать лет. В послужном списке Романа — создание с нуля собственной компании с офисами в Европе и Южной Америке, ставшей лидером по применению искусственного интеллекта (AI) на российском рынке. Кроме того, автор книги создал с нуля аналитику в Ozon.ru. Эта книга предназначена для думающих читателей, которые хотят попробовать свои силы в области анализа данных и создавать сервисы на их основе. Она будет вам полезна, если вы менеджер, который хочет ставить задачи аналитике и управлять ею. Если вы инвестор, с ней вам будет легче понять потенциал стартапа. Те, кто «пилит» свой стартап, найдут здесь рекомендации, как выбрать подходящие технологии и набрать команду. А начинающим специалистам книга поможет расширить кругозор и начать применять практики, о которых они раньше не задумывались, и это выделит их среди профессионалов такой непростой и изменчивой области.

Читать дальше →

Zashibis 12 мая 2021 в 12:44

Создаем Сильный AI. Конкретика

12 мин

9.6K

Машинное обучение*Искусственный интеллектNatural Language Processing*

Почему голосовые помощники так хорошо, но плохо говорят? Основная их проблема - отсутствие логического мышления: по большому счету это просто очень продвинутые попугайчики, которые услышав фразу подбирают к ней наиболее подходящий ответ. Уровень выше - Искусственный интеллект, он может неплохо управлять машиной. Но попробуйте заставить его протереть пыль на полках. Как это ни удивительно, данная задача на порядок сложнее, здесь уже требуется Сильный искусственный интеллект (Artificial General Intelligence): поднять вазу, убрать носки в стиральную машину, все это требует объемных знаний об окружающем мире.

Про Сильный AI очень много разговоров, но мало конкретики: "мы сначала должны постигнуть все секреты нашего мозга", "AI оставит людей без работы" и "он поработит человечество". Нет даже четкого определения, что такое AGI, не говоря уже об инструкциях, как его построить. А между тем, почти все ответы уже найдены и остается только собрать этот пазл. Сейчас мы разберемся, что такое Сильный AI, можно ли выжать его из нейронных сетей, и как его создать правильно.

MaxRokatansky 11 мая 2021 в 15:09

Демистификация Join в Apache Spark

9 мин

11K

Блог компании OTUSПрограммирование*Машинное обучение*Hadoop*

Перевод

Операции Join часто используются в типовых потоках анализа данных для корреляции двух наборов данных. Apache Spark, будучи унифицированным аналитическим движком, также обеспечил прочную основу для выполнения широкого спектра сценариев Join.

На очень высоком уровне Join работает с двумя наборами входных данных, операция выполняется путем сопоставления каждой записи данных, принадлежащей одному из наборов входных данных, с каждой другой записью, принадлежащей другому набору входных данных. При обнаружении совпадения или несовпадения (в соответствии с заданным условием) операция Join может либо вывести отдельную сопоставляемую запись из любого из двух наборов данных, либо объединенную (Joined) запись. Объединенная запись представляет собой комбинацию отдельных сопоставляемых записей из обоих наборов данных.

abv_gbc 10 мая 2021 в 10:00

ML и DS оттенки кредитного риск-менеджмента | LGD, или Жизнь после дефолта

13 мин

16K

Блог компании GlowByteМашинное обучение*

Хабр, привет!

Мы продолжаем цикл статей ([1], [2], [3]), посвященных применению ML-методов в ряде задач управления кредитным риском. В этой мы расскажем про задачу, которая возникает в ходе жизненного цикла кредитного договора: моделирование доли невозврата по договору в случае его дефолта (loss given default, LGD).

Зачем это нужно делать, ведь дефолт случился и на первый взгляд кажется, что прогнозировать уже ничего не нужно? Действительно, можно считать, что клиент уже ничего не вернет и под такие договоры закладывать 100%-ное резервирование.

Однако в действительности после дефолта клиенты могут вносить платежи или, если договор был обеспечен (залог), то в ходе продажи обеспечения вся сумма договора или ее часть могут быть погашены за счет суммы реализации (продажи) залога.

Также стоит обратить внимание, что для банковской сферы (в других индустриях зависит от продукта и политики резервирования) прогноз должен производиться как по договорам, находящимся в дефолте

$(PD = 100\%)$ (default сегмент), так и по тем, по которым нет дефолта на момент расчета резервов

$(PD \neq 100\%)$ (non-default сегмент). Разработка прогнозной модели возможна только на договорах в дефолте. В этом случае возникает проблема переноса модели на сегмент недефолтных договоров.

Об особенности расчета компоненты LGD, ее моделирования, распространении прогноза на весь портфель, а также подходах к валидации расскажем далее.

~~Бегите, глупцы.~~ Добро пожаловать под кат!

Читать дальше →

1 2 ...

152 153

154

155 156 ...

324 325

Машинное обучение *

Алгоритм на основе Deep Learning от Dynamic Yield позволяет точно персонализировать показ товаров в онлайн-магазине

Сам себе Гутенберг. Делаем параллельные книги

Из чего делаем

ML разработка — инхаус vs аутсорс?

Матрица-Перематрица

Истории

CatBoost и ML-конкурсы

RL — Trust Region Policy Optimization (TRPO) Explained. (Часть 1)

Эволюция методов mesh denoising: от простых фильтров до 3D глубокого обучения

Улучшение улучшенного фотореализма

GTA V to Cityscapes

Искусственный интеллект в юриспруденции. Вебинар № 3: Архитектура Legal AI

Исследование движения глаз для улучшения здоровья и доступности

NLP: разбираем на пальцах практические кейсы без заморочек с ML

SIRR, не соизволите ли удалить отражение?

Что такое графовые нейронные сети

Ближайшие события

Цепочка пользовательских преобразований DataFrame в Spark

ИИ-технологии компании Aflorithmic помогли цифровому помощнику заговорить голосом Эйнштейна

Монетизация машинного обучения: как превратить данные в деньги

Книга «Роман с Data Science. Как монетизировать большие данные»

Создаем Сильный AI. Конкретика

Демистификация Join в Apache Spark

ML и DS оттенки кредитного риск-менеджмента | LGD, или Жизнь после дефолта

Вклад авторов

Работа