Обновить
729.46

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

Следуй за человеком. Об ориентировании роботов в толпе

Время на прочтение12 мин
Количество просмотров2.7K

Минувшим летом я знакомил сына с Москвой, а также с моими московскими друзьями из разных времён. Мы даже успели заглянуть в офис Хабра в компании с @Boomburum Неудивительно, что нам довелось посетить разные уголки прекрасного московского метрополитена, считая светло‑синий Арбат, Смоленскую, ВДНХ, Сокол, Выхино, Некрасовку, Бауманскую и Окружную. Сын мне то и дело напоминал, что «нужно идти туда, куда больше людей идёт» — признаться, стратегия не лучшая, хотя и логичная. Развивая его идею, я предложил ему пофантазировать, как бы в московском метро ориентировался робот, на что бы он обращал внимание? На инфографики, сквозняки, расположение эскалаторов или, всё‑таки, на человеческие потоки? Постепенно я пришёл к выводу, что в многолюдном пространстве именно человеческие потоки были бы самым важным ориентиром для мобильного робота, и под катом попробую разобрать этот вопрос подробнее.

Наверняка я бы и не подумал обращаться к этой теме, если бы не бесценный опыт помощи с подготовкой научных статей, приобретённый мной в 2019–2021 годах в лаборатории автономных робототехнических систем (ЛАРС) в институте СПИИРАН, бессменным руководителем которой с тех и до сих пор является уважаемый Антон Савельев.

Читать далее

Какие ML-платформы нужны бизнесу, и кто их может сделать

Время на прочтение11 мин
Количество просмотров7.5K

Привет, Хабр! Меня зовут Виктор Кантор, я директор Big Data МТС. Около 14 лет я работаю с технологиями, связанными с Machine Learning, Big Data, Data Science. Но есть одна проблема, с которой я постоянно сталкиваюсь. Например, поставлена задача, которую нужно решить при помощи ML-моделей. А потом появляется новая, с аналогичным процессом разработки и кодом. А затем ещё одна, вторая, третья…

В итоге я решил всё это формализовать, структурировать, привести к состоянию платформ, которые можно использовать повторно. Зачем? Чтобы специалисты по ML, Data Science и из смежных отраслей не писали один и тот же код много раз. В статье об этом и поговорим. Если тема вас заинтересовала, прошу под кат.

Читать далее

Подручный для бизнеса

Время на прочтение10 мин
Количество просмотров2.8K

В статье рассказываем про разработку решения, которое помогает руководителям, продуктовым менеджерам и аналитикам искать точки роста и скрытые закономерности в продукте. Сервис принимает на вход описание продукта, бизнес-процесса или системы в табличном виде, а на выходе отдает набор гипотез — утверждений о данных, выраженных в виде текста и графиков. Конечная цель — создать полноценный помощник бизнесу.

Читать далее

Как мы победили в двух хакатонах Цифрового Прорыва. История вторая

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров1.2K

Всем привет! Это продолжение рассказа о том, как наша команда Ling Bizkit победила в двух хакатонах. В первый раз это было соревнование Северо-Западного региона в рамках Цифрового Прорыва, а во второй — уже всероссийский этап.

Читать далее

«Промышленный интеллект», или как мы создали нейросеть для контроля качества продукции машиностроительного завода

Время на прочтение4 мин
Количество просмотров5.5K

Я, Илья Померанцев, руководитель ML-направления в Globus IT. Хочу поделиться интересным кейсом по использованию нейросетей в промышленности.

Читать далее

ИИ, алкоголь и хирургия

Время на прочтение14 мин
Количество просмотров2.3K


Опасность скрывается повсюду. Любой вид деятельности человека, будь то работа или развлечение, может быть источником больших проблем или даже летальных последствий. Звучит вполне пугающе и крайне пессимистично. Если же бояться всего на свете, то жизнь теряет смысл, но никто не запрещает применять осторожность там, где она необходима. А в рамках употребления алкоголя осторожность просто неотъемлема. Ученые из Мичиганского университета (Анн-Арбор, Мичиган, США) провели исследование, в котором предполагается, что использование искусственного интеллекта для сканирования медицинских карт хирургических пациентов на наличие признаков рискованного употребления алкоголя может помочь выявить тех, у кого употребление алкоголя повышает риск возникновения проблем во время и после операции. Как был настроен ИИ, как проходила его работа, и что нового ИИ рассказал? Ответы на эти вопросы мы найдем в докладе ученых.
Читать дальше →

Семантический поиск и генерация текста на R. Часть 2

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров1.1K

В первой части говорили про использование поиска и генерации ответа с помощью языковых моделей. В этой части рассмотрим память и агентов.

Читать далее

Прокачиваем навыки в сфере ML — что изучать в 2024-м

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров18K

Бизнесу нужны технологии, способные обрабатывать огромные объемы данных, предоставлять релевантные рекомендации, оценивать финансовую надежность клиентов и обеспечивать эффективный поиск информации. Ключевым элементом для автоматизации рутинных задач и создании бизнес-решений на основе данных становится ML.

Ритейл, банки, технологические предприятия, компании-разработчики и все те, кто собирает большие массивы неструктурированных данных, для запуска сложных моделей могут использовать вычислительные ресурсы облака. Например, строить нейросети с помощью ML-платформы или использовать объектное хранилище для обработки Big Data.

Но чтобы грамотно использовать инструменты для работы с AI- и ML-задачами, нужно приобрести необходимо знания и навыки. Поможет разобраться в машинном обучении и инструментах для работы с ML-моделями подборка новых и высокооцененных специализированных курсов, книг и других тематических материалов.

Читать далее

Взгляд моего гуру на проблему AI alignment

Уровень сложностиСложный
Время на прочтение6 мин
Количество просмотров4.7K

Дисклеймер: в данной статье нет математического доказательства возможности или невозможности alignment. Приведены рассуждения гуру (см. фото выше) с его философских позиций:

В связи с недавними событиями в индустрии искусственного интеллекта, происходит очень много обсуждений о проблеме выравнивания (alignment). Лично мне кажется, что идея о том, что мы каким-то образом сможем контролировать сверхчеловеческий ИИ, когда он достигнет этой стадии, интересна, но нереалистична. Это все равно как если бы муравьи пытались заалайнить нас в соответствие со своими нуждами (хотя некоторые утверждают, что кошки успешно подчинили себе людей). Однако, кроме кошачьих, никто другой не смог провернуть такой трюк. Конечно, люди все равно будут пытаться это сделать, несмотря на тщетность подобных попыток. Уже написанно немало книг по этой теме, за авторством очень умных людей. По крайней мере это дает нам ложное чувство контроля. Достаточно почитать книги популярных теоретиков типа Ника Бострома, чтобы понять что они ни к чему не пришли.

Уже сейчас есть эксцессы с AI, напримр недавно машина AI стартапа Cruise сбила женщину в Сан Франциско. Печальная история, однако это лишь рябь на воде по сравнению с цунами что идет в нашу сторону.

Для начала давайте ответим на очень важный для многих вопрос - а зачем нам нужен ИИ? 42 не предлагать. Ответ настолько очевиден что его даже не сразу видно. ИИ нам ни для чего не нужен, но это ничего не меняет. Это все равно что спрашивать зачем нужна атомная энергия (и как следствие ядерное оружие)  - она есть вне зависимости от наших пожеланий, мы лишь используем этот феномен природы. ИИ будет несмотря на на что, просто потому что он возможет и такова траектория развития событий. Как только началась гонка в этой области, ее уже невозможно остановить, потому что Равновесие Нэша.

Читать далее

Как сделать Spark в Kubernetes простым в использовании: опыт команды VK Cloud

Время на прочтение10 мин
Количество просмотров6.8K


Сегодня Spark — отраслевой стандарт среди инструментов обработки данных. Его часто используют в связке с Hadoop, однако Hadoop не очень подходит для работы в облаке. Альтернативой может быть Kubernetes, однако самостоятельно его настраивать и конфигурировать очень сложно. Чтобы упростить ситуацию и помочь пользоваться всеми преимуществами технологий, не сталкиваясь с трудностями, мы сделали в VK Cloud Spark в Kubernetes. Для работы с ним не нужна глубокая экспертиза в K8s. 

Меня зовут Алексей Матюнин, я ведущий программист команды разработки ML Platform в компании VK Cloud. Расскажу, почему мы решили делать Spark в Kubernetes, с какими сложностями столкнулись и как их обходили, а также что получили в итоге.

Материал подготовлен по мотивам моего выступления на конференции VK Data Meetup.
Читать дальше →

Эмбеддинги для начинающих

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров71K

Привет, Хабр!

В широком смысле, эмбеддинг - это процесс преобразования каких-либо данных (чаще всего текста, но могут быть и изображения, звуки и т.д.) в набор чисел, векторы, которые машина может не только хранить, но и с которыми она может работать. Звучит очень интересно. Казалось бы, наша речь - это так просто, все связано и понятно. Но как это объяснить машине?

В этой статье мы рассмотрим, что такое эмбеддинги и какие они бывают.

Проще говоря эмбеддинг - это способ преобразования чего-то абстрактного, например слов или изображений в набор чисел и векторов. Эти числа не случайны; они стараются отражают суть или семантику нашего исходного объекта.

В NLP, например, эмбеддинги слов используются для того, чтобы компьютер мог понять, что слова «кошка» и «котенок» связаны между собой ближе, чем, скажем, «кошка» и «окошко». Это достигается путем присвоения словам векторов, которые отражают их значение и контекстное использование в языке.

Эмбеддинги не ограничиваются только словами. В компьютерном зрении, например, можно использовать их для преобразования изображений в вектора, чтобы машина могла понять и различать изображения.

Читать далее

Исследуем Скрытые Сокровища: Малоизвестные Библиотеки Python для Аналитики Данных

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров9.2K

Введение: Привет, Хабр! Сегодня мы исследуем мир менее известных, но чрезвычайно полезных библиотек Python, которые могут значительно обогатить ваш аналитический инструментарий.

? Подписывайтесь на мой телеграмм-канал DataTechCommunity для получения ежедневных обновлений о Python и аналитике данных!

Содержание:

Рассматриваем 5 малоизвестных, но полезных библиотек для аналитиков данных. Они помогут вам в машинном обучении, обработке больших данных и визуализации.

Читать далее

Как работают трансформеры: разбираем математику

Уровень сложностиСредний
Время на прочтение28 мин
Количество просмотров26K

В этом посте я представлю подробный пример математики, используемой внутри модели трансформера, чтобы вы получили хорошее представление о работе модели. Чтобы пост был понятным, я многое упрощу. Мы будем выполнять довольно много вычислений вручную, поэтому снизим размерность модели. Например, вместо эмбеддингов из 512 значений мы используем эмбеддинги из 4 значений. Это позволит упростить понимание вычислений. Мы используем произвольные векторы и матрицы, но при желании вы можете выбрать собственные значения.

Как вы увидите, математика модели не так уж сложна. Сложность возникает из-за количества этапов и количества параметров. Перед прочтением этой статьи я рекомендую прочитать пост Illustrated Transformer (или читать их параллельно) [перевод на Хабре]. Это отличный пост, объясняющий модель трансформера интуитивным (и наглядным!) образом, поэтому я не буду объяснять то, что уже объяснено в нём. Моя цель заключается в том, чтобы объяснить, как работает модель трансформера, а не что это такое. Если вы хотите углубиться в подробности, то изучите известную статью Attention is all you need [перевод на Хабре: первая и вторая части].

Читать далее

Ближайшие события

Делаем обучающие датасеты для больших языковых моделей

Уровень сложностиПростой
Время на прочтение12 мин
Количество просмотров13K

Дообучение больших языковых моделей на кастомных датасетах делает модели гораздо сообразительнее. Есть история успеха датасета alpaca. Он творит чудеса с моделями, которые сначала если и умели что-то делать, то делали это очень плохо. Мы решили понять, как это делается, а главное - какие проблемы есть на этом пути и могут ли новички вроде нас разобраться в этом. История взлетов и падений - под катом.

Читать далее

«Пора ли гнать на мороз Computer Vision — scientist'ов ?» (Fondation Models и вокруг)

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров20K

Прошлый год в Computer Vision запомнился тем, что появилось множество больших претрейненных сетей (Fondation Models). Самая известная - GPT4v (ChatGPT с обработкой изображений).
В статье я попробую простым языком объяснить что это такое (для тех кто пропустил), как меняет индустрию. Какие задачи стало проще решать. Какие продукты появились в последнее время и появятся в будущем.
И можно ли уже выгнать на мороз лишних "ресерчеров"?!

Читать далее

Книга «System Design. Машинное обучение. Подготовка к сложному интервью»

Время на прочтение10 мин
Количество просмотров13K
image Привет, Хаброжители!

Собеседования по проектированию систем машинного обучения — самые сложные. Если нужно подготовиться к такому, книга создана специально для вас.

Также она поможет всем, кто интересуется проектированием систем МО, будь то новички или опытные инженеры.

Что внутри?
  • О чем на самом деле спрашивают на собеседовании по System Design в МО и почему (инсайдерская информация!).
  • 7 основных шагов для решения любой задачи МО, предлагаемой на собеседовании.
  • 10 вопросов из реальных собеседований по System Design в МО с подробным разбором ответов.
  • 211 диаграмм, которые наглядно объясняют, как работают различные системы.
Читать дальше →

Классификация действий на видео (Action Classification)

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров2.3K

Данная статья показывает, как можно решить задачу Action Classification, а именно следить за рабочим процессом на производстве, где необходимо определить работает человек или нет.

Для начала необходимо определить проблематику данной задачи. Она состоит в том, что для стандартной задачи классификации изображения мы используем свёрточную сеть, на которую передаем изображение и получаем предсказание. А теперь вопрос на засыпку: можно ли по одному изображению классифицировать действие человека на снимке ниже? 

Читать далее

Как художники за рабочие места с ИИ борются

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров6.9K

Громоподобный шаг научно-технического прогресса слышен издалека: сквозь года до нас доносится эхо шагов из будущего. Шрамы ран, полученных в предыдущие промышленные революции, априорные, переданные через учебники и опыт предков, болезненно сжимаются под воздействием этого эха. Как и всё великое, дела человечества пугающе красивы.

Наверное, поэтому все мы стали в той или иной мере, но скажем честно, опасаться ИИ заранее. А пока фантазировали, он зашёл не совсем оттуда, откуда его ждали. 

Читать далее

Разметка трёхмерных моделей миокарда

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров1.2K

Здравствуйте, мы студенческая команда APIzza. Мы хотим поделиться с вами нашим опытом по разметке трёхмерных моделей из набора данных MedShapeNet, который был опубликован в 2023 году.

Так как набор данных включает в себя огромное количество трёхмерных моделей внутренних органов, кровеносных сосудов и костей, то было принято решение остановиться на разметке сердца, а точнее, миокарда.

Читать далее

Статистика на примерах с Python #1

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров21K
Читать далее

Вклад авторов