Все потоки
Поиск
Написать публикацию
Обновить
761.34

Машинное обучение *

Основа искусственного интеллекта

Сначала показывать
Порог рейтинга
Уровень сложности

ChatGPT на темной и светлой стороне

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров10K

OpenAI был основан 7 лет назад. На тот момент времени уже возникало понимание, что в сфере искусственного интеллекта происходит нечто важное, качественный прорыв. И создатели OpenAI (не более сотни человек в исследовательской лаборатории) поставили перед собой цель катализировать знания, использовав технологию языковых моделей для создания позитивного управляемого инструмента массового применения.

Прогресс в технологии machine learning радует, беспокоит и вызывает эти два чувства одновременно: сейчас весь мир определяет возможности технологии, которая в будущем будет одной из неотъемлемых частей нашей жизни. Хочется верить, что мы сможем использовать искусственный интеллект правильно, но встречаются совершенно разные кейсы его применения как на светлой, так и на темной стороне ИБ. Давайте посмотрим, что представляет собой ChatGPT сегодня и какие основополагающие принципы лежат в основе технологии.

 

Читать далее

Дружим YOLACT и RockChip: запуск инстанс-сегментации на китайском одноплатнике

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров6.9K

Приветствую всех читателей Хабра! Сегодня я хочу поделиться своим опытом запуска YOLACT на edge-устройстве RockChip. Несмотря на то, что процесс занял больше времени, чем я ожидал, я решил поделиться с вами своими наработками, чтобы помочь другим разработчикам, которые могут столкнуться с той же задачей. В конце концов я нашёл способ запуска yolact, который позволил достичь высокой производительности и качества модели. Надеюсь, что мой опыт будет полезен для вас и поможет вам избежать ошибок, которые я совершил. Приятного чтения!

Читать далее

Как создать свою первую модель машинного обучения на Python

Время на прочтение11 мин
Количество просмотров38K

В этой статье вы узнаете, как создать свою первую модель машинного обучения на Python. В частности, вы будете строить регрессионные модели, используя традиционную линейную регрессию, а также другие алгоритмы машинного обучения.

Читать далее

Machine Learning: хорошая подборка книг для начинающего специалиста

Время на прочтение4 мин
Количество просмотров31K

Книга, как раньше, так и сейчас, — основной источник знаний. Во всяком случае, один из основных. И читать книги нужно специалисту любого профиля и уровня. Сегодня публикуем относительно небольшую подборку книг для специалистов по машинному обучению. Как всегда, просьба: если у вас есть собственные предпочтения по книгам в этой отрасли, расскажите о них в комментариях.

Читать далее

Как понять, что клиента пора реактивировать?

Уровень сложностиПростой
Время на прочтение15 мин
Количество просмотров2.2K

В идеальном мире мы точно знаем, в какой момент времени пользователю нужно напомнить о нашем продукте. Причём таким образом, чтобы он не отказался от наших услуг, а совершил бы новый платёж. Если мы будем излишне активными, отправляя всем нашим клиентам сообщения, то это может стать и раздражающим фактором, и оказаться не дешевым вариантом. Подходы, основанные на анализе вероятности оттока каждого клиента в отдельности - это, безусловно, отличные варианты, но они требуют времени и ресурсов на исследование и разработку.

А что делать, если прямо сейчас у вас нет ни времени на разработку сложных подходов, ни приблизительного понимания, как долго живёт ваш среднестатистический клиент, а задача от бизнеса дать какие-то рекомендации есть?

Меня зовут Артём, я антифрод-аналитик в Каруне, и в данной статье мы рассмотрим достаточно простой подход, с помощью которого можно решить обозначенную проблему. Если вы скажете, что антифрод решает абсолютно другой спектр задач, то будете абсолютно правы. Однако во время работы с одним из проектов при переосмыслении использованного алгоритмического стека в нём, мы пришли к выводу, что отдельные небольшие кусочки этого стека вполне могут подходить и для решения других задач. На базе нашего опыта расскажу, как с помощью байесовского моделирования и библиотеки PyMC3 можно получить примерную картину о том, как долго ваш клиент должен быть неактивным, чтобы считать его отточником. Это может помочь ответить на базовые вопросы бизнеса и подготовиться к реализации более точных и качественных моделей (если это потребуется).

Читать далее

Книга «Математика в машинном обучении»

Время на прочтение10 мин
Количество просмотров15K
image Привет, Хаброжители!

Фундаментальные математические дисциплины, необходимые для понимания машинного обучения, — это линейная алгебра, аналитическая геометрия, векторный анализ, оптимизация, теория вероятностей и статистика. Традиционно все эти темы размазаны по различным курсам, поэтому студентам, изучающим data science или computer science, а также профессионалам в МО, сложно выстроить знания в единую концепцию.

Эта книга самодостаточна: читатель знакомится с базовыми математическими концепциями, а затем переходит к четырем основным методам МО: линейной регрессии, методу главных компонент, гауссову моделированию и методу опорных векторов.

Тем, кто только начинает изучать математику, такой подход поможет развить интуицию и получить практический опыт в применении математических знаний, а для читателей с базовым математическим образованием книга послужит отправной точкой для более продвинутого знакомства с машинным обучением.
Читать дальше →

Влад Грозин о PhD в США, философии в Data Science, пузыре рекомендаций и голодающих геймерах

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров4.7K

К нам в гости заглянул Влад Грозин — создатель ODS Pet Projects, ex. Head of Data Science из компании INCYMO, чтобы поговорить за жизнь про получение PhD в Америке и экзистенциальные риски, связанные с разработкой рекомендательных систем: пузыри рекомендаций и появление алгоритмов, которые будут предсказывать желания пользователя.

Читать далее

Руководство по масштабированию MLOps

Время на прочтение8 мин
Количество просмотров2.1K

Команды MLOps вынуждены развивать свои возможности по масштабированию ИИ. В 2022 году мы столкнулись со взрывом популярности ИИ и MLOps в бизнесе и обществе. В 2023 год ажиотаж, учитывая успех ChatGPT и развитие корпоративных моделей, будет только расти.

Столкнувшись с потребностями бизнеса, команды MLOps стремятся расширять свои мощности. Эти команды начинают 2023 год с длинного списка возможностей постановки ИИ на поток. Как мы будем масштабировать компоненты MLOps (развёртывание, мониторинг и governance)? Каковы основные приоритеты нашей команды?

AlignAI совместно с Ford Motors написали это руководство, чтобы поделиться с командами MLOps своим успешным опытом масштабирования.
Читать дальше →

Чем мы можем заменить тест Тьюринга

Время на прочтение6 мин
Количество просмотров3.6K

На самой заре появления и стремительного распространения социальных сетей возник такой простой лайфхак. Если вы хотите убедиться в том, что собеседник присылает вам свои фотографии, а не чужие, попросите его прислать фотографию, на которой будет видно четыре пальца. Появились большие языковые модели и все как‑то сразу решили, что тест Тьюринга пройден. А это означает, что теперь отличить живого собеседника от виртуального не так‑то просто. Есть ли какой‑то относительно простой способ сделать это? Об этом и о тесте Тьюринга поговорим ниже.

Читать далее

Как (быстро) сделать русский локальный ChatGPT

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров50K

Эта история началась в начале марта этого года. ChatGPT тогда был в самом расцвете. Мне в Telegram пришёл Саша Кукушкин, с которым мы знакомы довольно давно. Спросил, не занимаемся ли мы с Сашей Николичем языковыми моделями для русского языка, и как можно нам помочь.

И так вышло, что мы действительно занимались, я пытался собрать набор данных для обучения нормальной базовой модели, rulm, а Саша экспериментировал с существующими русскими базовыми моделями и кустарными инструктивными наборами данных.

После этого мы какое-то время продолжали какое-то время делать всё то же самое. Я потихоньку по инерции расширял rulm новыми наборами данных. Посчитав, что обучить базовую модель нам в ближайшее время не светит, мы решили сосредоточиться на дообучении на инструкциях и почти начали конвертировать то, что есть, в формат инструкций по аналогии с Flan. И тут меня угораздило внимательно перечитать статью.

Читать далее

«SAM и тут и сям»: Segment Anything Model в задачах компьютерного зрения (часть 2)

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров4.3K

В предыдущей части мы разобрали, как можно улучшить качество предсказаний SAM и ускорить её работу. Мы уже упоминали, что SAM — это фундаментальная модель, а значит, она может использоваться не только для сегментации, но и легко адаптироваться для решения других задач компьютерного зрения. Сегодня мы рассмотрим, как SAM может применяться для решения таких задач, как Image Inpainting, Object Tracking, 3D-сегментация и 3D-генерация, а также увидим, как SAM работает на датасетах из медицинской сферы и сравним дообученную модель с базовыми весами. А еще мы поделимся своим опытом и расскажем, как SAM облегчила нам разметку данных при сборе датасета бьютификации изображений.

SAM и тут и сям...

LLaMa vs GigaChat: может ли опенсорсная модель работать лучше LLM с 13 млрд параметрами?

Время на прочтение9 мин
Количество просмотров12K

Всем привет, меня зовут Алан, я разработчик-исследователь в MTS AI, мы сейчас активно изучаем LLM, тестируя их возможности. В настоящее время в России вышло несколько коммерческих языковых моделей, в том числе GigaChat и YandexGPT, которые хорошо выполняют текстовые задачи. В этой статье показывается, что языковая модель меньшего размера, обученная на открытых данных за несколько часов, показывает сравнительно неплохую, а в некоторых случаях и лучшую производительность относительно больших коммерческих решений. На небольшом количестве примеров мы проверим способность моделей решать простые математические задачи, отвечать на вопрос по заданному контексту, в котором содержатся числа и выполнять простые текстовые инструкции. Затем мы кратко рассмотрим, как и на чем обучалась наша модель.

Читать далее

YandexGPT 2 — большое обновление языковой модели Яндекса

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров55K
Сегодня на конференции Practical ML Conf была представлена новая версия нашей большой языковой модели YandexGPT 2. Она уже работает в навыке Алисы «Давай придумаем», где помогает структурировать информацию, генерировать идеи, писать тексты и многое другое. Новая модель отвечает лучше старой в 67% случаев, а в некоторых сценариях побеждает с ещё бо́льшим перевесом. Этого результата мы добились благодаря улучшениям на каждом этапе обучения модели, но ключевое изменение — новый pretrain.

Коротко расскажу о том, что изменилось в процессе обучения модели, в каких сценариях это принесло наибольший эффект и чем мы планируем заниматься дальше.



Читать дальше →

Ближайшие события

Чему учат на курсах Data Science? Примеры задач для аналитика на фармрынке

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров11K

В заметке приведены некоторые актуальные аналитические задачи индустрии. С помощью этого списка вы можете оценить насколько вам может быть интересно учиться на DA/DS, а если у вас уже есть опыт, то обогатите свои знания задачами из фармацевтической отрасли.

Читать далее

Как мы внедряем машинное обучение в продукты Positive Technologies

Время на прочтение6 мин
Количество просмотров5K

Привет! На связи Николай Лыфенко и Артем Проничев, мы занимаемся разработкой и внедрением моделей машинного обучения в продукты Positive Technologies. Сегодня расскажем, как ML помогает автоматизировать действия специалистов по безопасности и детектировать кибератаки. Сначала разберем теоретическую основу, а после подкрепим ее кейсами из нашей работы.

Читать

8 инструментов для аннотирования изображений в 2023 году

Время на прочтение7 мин
Количество просмотров6.3K

Аннотирование изображений — основа для обучения моделей машинного обучения. В статье мы расскажем о лучших инструментах аннотирования, которые сделают этот процесс эффективным.

Что такое аннотирование изображений?


После завершения ручного аннотирования модель машинного обучения учится на размеченных изображениях. Все ошибки разметки также моделью выучиваются и дублируются, потому что аннотирование изображений задаёт критерии, которым стремится соответствовать модель.

Разметка или категоризация изображения описательными данными, помогающими в идентификации и классификации объектов, людей или сцен на картинке, называется аннотированием изображений.

Аннотирование изображений критически важно в таких сферах, как компьютерное зрение, роботостроение и беспилотное вождение, потому что оно позволяет роботам воспринимать и интерпретировать визуальные данные.


Примерами аннотирования изображений являются отрисовка ограничивающих прямоугольников вокруг объектов на фотографии, разметка объектов текстом или разделение изображения на части на основании его визуальных признаков.
Читать дальше →

Reinforcment Learning: Google Recsim

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров1.6K

Всем привет. Сегодня поговорим про RL в ML с использованием Google RecSim.

Reinforcement Learning (RL) - это подход в машинном обучении, который для того, чтобы максимизировать некоторую целевую функцию, в обучении агентов (испытуемых систем) принимать решение в окружении, использует методы обучения с подкреплением. Основной идеей RL является то, что агент взаимодействует с окружением, выполняя действия и получает обратную связь в виде награды или штрафа за свои действия. Агент стремится научиться выбирать такие действия, которые максимизируют накопленную награду на протяжении времени. RL может использоваться для решения разнообразных задач, таких как управление роботами, игры, автономная навигация и многое другое.

Читать далее

Автоматическая разметка данных

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров8.4K

В задачах машинного обучения значительную часть времени занимает процесс подготовки данных. К этапу подготовки относятся: сбор, фильтрация, разметка и предобработка данных.В данной статье я буду рассматривать процесс автоматической разметки данных для задач компьютерного зрения.

09.03.2023 года была представлена модель Grounding DINO. Данная модель позволяет детектировать объекты на изображениях по текстовому описанию. Согласно аннотации к статье Grounding DINO, модель достигает значения 52,5 AP на бенчмарке "Zero-Shot Object Detection on MS-COCO". Далее мы рассмотрим как использовать эту модель для автоматической разметки данных.

Читать далее

Codeium и StarCoder: нейросети с автодополнением кода

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров31K

Привет, Хабр!

На связи участники профессионального сообщества NTA Коробова Марина и Котов Илья.

В мире технологий происходит настоящая революция. На передовом фронте этой революции стоят нейронные сети — мощные и удивительные инструменты искусственного интеллекта, которые сегодня изменяют наше представление о возможностях компьютеров.

Мы познакомим вас с двумя моделями‑помощниками с автодополнением кода: StarCoder и Codeium. Для демонстрации работы AI‑плагинов используем запросы, которые часто возникают в нашей работе.

Подробнее под катом.

Узнать больше

Строим удобные автомобильные маршруты

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров13K

Хороший автомобильный маршрут из точки А в точку Б должен, с одной стороны, быть кратчайшим, а с другой — удобным для водителя. Как правильно вычислить время в пути мы уже рассказали, теперь — об удобстве маршрутов: что это такое, как его измерить и как мы его повышали.

Читать далее

Вклад авторов