Обновить
93
10.2
Куцев Роман @kucev

Тестируйте и сравнивайте лучшие LLM на LLMarena.ru

Отправить сообщение

Руководство по Human Pose Estimation

Время на прочтение12 мин
Количество просмотров16K

Обычно эту задачу решают при помощи глубокого обучения.

Это одна из самых интересных областей исследований, получившая популярность благодаря своей полезности и универсальности — она находит применение в широком спектре сфер, в том числе в гейминге, здравоохранении, AR и спорте.

В этой статье приведён исчерпывающий обзор определения положения тела человека (Human Pose Estimation, HPE) и того, как оно работает. Также в ней рассматриваются различные подходы к решению задачи HPE — классические методы и методы на основе глубокого обучения, метрики и способы оценки, а также многое другое.
Читать дальше →

В чём различия между Data Science, машинным обучением, ИИ, глубоким обучением и Data Mining

Время на прочтение13 мин
Количество просмотров38K
image

Данные становятся движущей силой современного мира, поэтому почти каждый уже сталкивался с такими терминами, как data science, «машинное обучение», «искусственный интеллект», «глубокое обучение» и data mining. Но что же обозначают эти понятия? Какие различия и связи между ними существуют?

Все перечисленные выше термины, несмотря на их взаимосвязь, нельзя использовать в качестве синонимов. Эта статья поможет вам не только понять, какие исследования и опыт позволяют извлекать знания из данных, чтобы делать машины умнее, но и как конкретно это происходит.
Читать дальше →

Как за неделю разметить миллион примеров данных

Время на прочтение7 мин
Количество просмотров1.9K

В 2019 году компания OpenAI опубликовала статью о точной настройке GPT-2, в которой она использовала Scale AI для сбора мнений живых разметчиков с целью совершенствования своих языковых моделей. Хотя в то время мы уже размечали миллионы задач обработки текста и computer vision, уникальные требованиях к срокам и субъективная природа задач OpenAI создали для нас новую сложность. В частности, трудность заключалась в следующем: как поддерживать качество меток в больших масштабах без возможности проверки чужой работы разметчиками? Сегодня мы подробно расскажем о своём подходе к решению этой проблемы, о системе автоматического майнинга бенчмарков, которую мы для этого создали, а также об уроках, которые получили в процессе. Этой статьёй мы хотим проиллюстрировать небольшую часть тех сложностей, делающих масштабируемую разметку данных такой интересной сферой работы.
Читать дальше →

CVAT. Инструкция по разметке

Время на прочтение58 мин
Количество просмотров57K

Немногие знают, что популярный инструмент Computer Vision Annotation Tool разрабатывали наши ребята в Нижегородском офисе Intel.

Весной Intel приостановил все деловые операции в России. Таким образом ребятам вырубили все доступы, а open source инструмент перестал обновляться.

Но не все так плохо! Сейчас команда CVAT сделала трансформацию, отделилась от Intel и продолжила развивать уже новый CVAT.ai своими силами.

Подробнее о том, как CVAT.ai будет развиваться, вы можете узнать из

Читать далее

Разметка данных в машинном обучении: процесс, разновидности и рекомендации

Время на прочтение14 мин
Количество просмотров67K

Когда люди слышат про искусственный интеллект, глубокое обучение и машинное обучение, многие представляют роботов из фильмов, интеллект которых сравним или даже превосходит интеллект человека. Другие считают, что такие машины просто потребляют информацию и учатся на ней самостоятельно. Но на самом деле это далеко от истины: без человеческой помощи возможности компьютерных систем ограничены, и чтобы они стали «умными», необходима разметка данных.

В этой статье мы расскажем, что такое разметка данных, как она работает, о типах разметки данных и о рекомендациях, позволяющих сделать этот процесс беспроблемным.
Читать дальше →

Как срубить бабла с хомяков

Время на прочтение3 мин
Количество просмотров60K

Влетайте в майнинг! Это безумно прибыльно! А еще безопасно: если крипта упадет то у вас хотя бы останется оборудование, вещали из Ютюб каналов.

Читать далее

Как стать цифровым кочевником

Время на прочтение12 мин
Количество просмотров42K

Подготовка к цифровому кочевничеству

Кочевническая жизнь

Я цифровой кочевник. Это значит, что я могу работать из любой точки мира. В этой статье представлены советы о том, как стать цифровым кочевником и длительно путешествовать.
Читать дальше →

Опенсорсные массивы данных для Computer Vision

Время на прочтение8 мин
Количество просмотров4.2K

Модели Computer Vision, обучаемые на опенсорсных массивах данных


Computer Vision (CV) — одна из самых увлекательных тем в сфере искусственного интеллекта (Artificial Intelligence, AI) и машинного обучения (Machine Learning, ML). Это важная часть многих современных конвейеров AI/ML, преобразующая практически все отрасли и позволяющая компаниям осуществлять революцию в работе машин и бизнес-систем.

В науке CV многие десятилетия была уважаемой областью computer science, и за многие годы в этой сфере было проведено множество исследований по её совершенствованию. Однако революцию в ней совершило недавно начавшееся применение глубоких нейросетей, ставшее стимулом ускорения её развития.
Читать дальше →

Как мы масштабируем машинное обучение

Время на прочтение13 мин
Количество просмотров5.5K

Введение


Наша компания еженедельно размечает порядка 10 миллиардов аннотаций. Чтобы обеспечивать высокое качество аннотаций для такого огромного объёма данных, мы разработали множество методик, в том числе sensor fusion для выявления подробностей о сложных окружениях, активный инструментарий для ускорения процесса разметки и автоматизированные бенчмарки для измерения и поддержания качества работы разметчиков. С расширением количества заказчиков, разметчиков и объёмов данных мы продолжаем совершенствовать эти методики, чтобы повышать качество, эффективность и масштабируемость разметки.

Как мы используем ML


Обширные объёмы передаваемых компании данных предоставляют ей бесценные возможности обучения и надстройки наших процессов аннотирования, и в то же время позволяют нашей команде разработчиков машинного обучения обучать модели, расширяющие набор доступных нам функций.
Читать дальше →

Генерация меток для обучения модели при помощи слабого контроля

Время на прочтение8 мин
Количество просмотров1.3K

Компаниям сложно следить за всеми новостями и мнениями о них в социальных сетях; существует огромное множество потенциально релевантных постов, и их фильтрация заняла бы много времени. Новый продукт Borealis AI был создан для решения этой проблемы путём извлечения в реальном времени информации социальных сетей, распознавания тематики и добавления метки для каждого поста с обозначением его типа. Например, пост может быть помечен как «пресс-релиз», «обзор пользователя» или «шум». Такие метки позволяют пользователям находить более чистые подмножества постов в соцсетях, которые им интересны.

Чтобы создать модель машинного обучения для классификации постов по таким категориям, необходимо получить высококачественные размеченные данные обучения. Иными словами, нам нужны примеры постов в социальных сетях, которые вручную размечены как пресс-релизы или обзоры пользователей, чтобы модель могла учиться тому, как распознавать новые примеры того же типа.
Читать дальше →

Ручное аннотирование по-прежнему незаменимо для разработки моделей глубокого обучения

Время на прочтение5 мин
Количество просмотров1.3K

Не подлежит сомнению, что высококачественные размеченные массивы данных играют критичную роль в разработке новых алгоритмов глубокого обучения. Однако понимание ML и глубокого обучения по-прежнему остаётся в зачаточном состоянии. Именно поэтому команды прикладного ML и исследований ML нашей компании совместно трудятся над пониманием последних исследований в сфере ML, пытаясь разобраться, как мы можем преодолеть одну из самых больших сложностей в современной разработке ИИ, как у наших клиентов, так и для отрасли в целом.

Недавно наша команда исследователей провела глубокий анализ состояния данных в области компьютерного зрения. Исследовательская статья, одобренная для Human-in-the-Loop Learning Workshop на ICML 2021, показала, что высококачественная разметка по-прежнему остаётся незаменимой для разработки точных моделей глубокого обучения.
Читать дальше →

20+ популярных опенсорсных датасетов для Computer Vision

Время на прочтение5 мин
Количество просмотров17K
image

ИИ в первую очередь развивается благодаря данным, а не коду.

Это смелое заявление несколько лет назад могло показаться нелепым, но сегодня это не так. Однако, по-прежнему существует одна проблема: высокого качества данных обучения достичь иногда очень сложно. На поиск подходящего для задач компьютерного зрения массива данных могут потребоваться дни или недели.

Но не стоит волноваться, в этой статье мы составили исчерпывающий список качественных массивов данных для компьютерного зрения в свободном доступе.
Читать дальше →

Десять лучших опенсорсных инструментов аннотирования 2021 года для Computer Vision

Время на прочтение7 мин
Количество просмотров9.2K

Мы осознаём важность подбора качественных инструментов разметки и аннотирования изображений для создания точных и полезных массивов данных. В нашем блоге можно найти серию Tools we love, в которой мы проводим анализ некоторые из наших любимых инструментов аннотирования, а также списки лучших инструментов аннотирования на 2019, 2020 и 2021 годы.

Сфера аннотирования изображений развивается, поэтому мы наблюдаем рост количества опенсорсных инструментов, позволяющих бесплатно размечать изображения и использовать большой набор функций. В этой статье мы расскажем о десяти лучших опенсорсных инструментах аннотирования для компьютерного зрения.
Читать дальше →

Что такое краудсорсинг и как он работает?

Время на прочтение6 мин
Количество просмотров10K

Краудсорсинг вносит свой вклад в большинство отраслей по всему миру. Он может быть чрезвычайно мощным, если использовать его в нужное время и в нужном месте. Возможно, вы уже слышали этот термин, но что же он означает? В этой статье мы расскажем, что такое краудсорсинг, как он работает, и почему множество компаний используют этот формат для совершенствования своей работы.

Что такое краудсорсинг?


Краудсорсинг — это практика использования знаний группы ради общей цели. Больше всего она полезна при решении сложных проблем инновационным образом или для упрощения сложных процессов.

Этот термин впервые был применён Джеффом Хоувом в статье 2006 года о подобной практике. Хотя краудсорсинг в той или иной форме существовал уже многие века, популярность его начала увеличиваться примерно с развитием электронной коммерции, социальных сетей и культуры смартфонов. Больше всего повлияла на рост интереса к этой практике увеличившаяся связность между людьми всего мира.
Читать дальше →

7 элементов продуманной стратегии развития ИИ: опыт Salesforce

Время на прочтение4 мин
Количество просмотров2.2K

Искусственный интеллект перестал быть вотчиной исключительно крупных компаний. Он становится мейнстримом для бизнеса, однако, по словам президента и исполнительного директора Salesforce Брета Тейлора, успех способствует ему не всегда. Продуманная стратегия развития ИИ должна в первую очередь учитывать интересы клиента и чётко определять результаты для бизнеса, а ключевым аспектом для всего этого являются данные.

В своём докладе на конференции Scale TransformX 2021 Тейлор рассказал об основных вопросах, которые компании любого размера должны учитывать, чтобы выполнять задачи клиентов и достигать стабильных результатов.

В этой статье мы вкратце изложим семь основных выводов из презентации Тейлора. Более подробную информацию можно посмотреть в видео.
Читать дальше →

Если вы устраняете систематическую ошибку модели, то уже слишком поздно

Время на прочтение7 мин
Количество просмотров6.1K

Введение


Машинное обучение — это технологический прорыв, случающийся раз в поколение. Однако с ростом его популярности основной проблемой становятся систематические ошибки алгоритма. Если модели ML не обучаются на репрезентативных данных, у них могут развиться серьёзные систематические ошибки, оказывающие существенный вред недостаточно представленным группам и приводящие к созданию неэффективных продуктов. Мы изучили массив данных CoNLL-2003, являющийся стандартом для создания алгоритмов распознавания именованных сущностей в тексте, и выяснили, что в данных присутствует серьёзный перекос в сторону мужских имён. При помощи наших технологии мы смогли компенсировать эту систематическую ошибку:

  1. Мы обогатили данные, чтобы выявить сокрытые систематические ошибки
  2. Дополнили массив данных недостаточно представленными примерами, чтобы компенсировать гендерный перекос

Модель, обученная на нашем расширенном массиве данных CoNLL-2003, характеризуется снижением систематической ошибки и повышенной точностью, и это показывает, что систематическую ошибку можно устранить без каких-либо изменений в модели. Мы выложили в open source наши аннотации Named Entity Recognition для исходного массива данных CoNLL-2003, а также его улучшенную версию, скачать их можно здесь.
Читать дальше →

Датацентрический и моделецентрический подходы в машинном обучении

Время на прочтение12 мин
Количество просмотров6.1K
image

Код и данные — фундамент ИИ-системы. Оба эти компонента играют важную роль в разработке надёжной модели, но на каком из них следует сосредоточиться больше? В этой статье мы сравним методики, ставящие в центр данные, либо модель, и посмотрим, какая из них лучше; также мы поговорим о том, как внедрять датацентрическую инфраструктуру.
Читать дальше →

Хотите усовершенствовать цикл обработки данных? Попробуйте задействовать людей

Время на прочтение4 мин
Количество просмотров1.1K

На саммите iMerit ML Data Ops глава отдела искусственного интеллекта Cruise Хуссейн Мехенна провёл с Рагаваном Сринивасаном из Facebook AI беседу, озаглавленную Emerging AI Companies are Driving a Paradigm Shift.

В беседе они обсудили важность объединения цикла обработки данных ИИ с циклом обработки данных людьми, а также поговорили о том, что люди играют критическую роль в выявлении и разрешении пограничных случаев. Сочетание лучших практик human-in-the-loop, бесперебойного сотрудничества в цикле обработки данных и образ мышления, ставящий на первое место безопасность, в конечном итоге позволят достичь высочайшей степени успеха в сфере ИИ и ML.

Важность Humans-in-the-Loop


Успех таких ИИ-продуктов, как беспилотные автомобили, зависит от усложнения цикла обработки данных, на которых они построены. Надёжные циклы работы с данными одновременно генерируют, аннотируют и непрерывно применяют новые данные в продакшене. Однако для улучшения циклов работы с данными, например, в компании Cruise, интегрируется участие человека.

Благодаря участию человека в циклах обработки данных гарантируется безопасное и эффективное выполнение высокоуровневых действий в ИИ-системах. Humans-in-the-loop непрерывно оценивают характеристики автомобиля, и обеспечивают выполнение всех связанных с автомобилем действий так, как это делал бы человек.
Читать дальше →

Ускорение семантической сегментации при помощи машинного обучения

Время на прочтение6 мин
Количество просмотров2.5K

Зачем создавать процесс разметки данных на основе ML?


Быстрое создание высококачественной разметки данных — сложная задача. Парсинг и правильное аннотирование изображений и видео, обычно используемых в сфере беспилотного транспорта или робототехники, могут быть композиционно сложны даже для людей. Наша компания использует машинное обучение, чтобы дополнить реализуемые людьми рабочие процессы, позволяя повысить и качество, и скорость разметки. Так как модели глубокого обучения могут испытывать трудности с устойчивой производительностью в предметных областях с большим разнообразием данных, например, в сценах с участием беспилотных автомобилей, для обеспечения стабильно высокого качества необходимо найти оптимальный баланс между ML-автоматизацией и человеческим контролем.
Читать дальше →

Самое важное с конференции NeurIPS 2021

Время на прочтение3 мин
Количество просмотров1.6K
image

6–14 декабря 2021 года была виртуально проведена конференция Neural Information Processing Systems (NeurIPS). Это одна из самых влиятельных конференций, собирающих лучших инженеров по ML, дата-саентистов и исследователей искусственного интеллекта со всего света. Это место для обмена информацией об исследованиях нейронных систем обработки информации в их биологическом, технологическом, математическом и теоретическом аспектах.

Так как конференция проходит в декабре, обычно она позволяет получить представление о новых тенденциях в сообществе Data Science на следующий год.

Так какими же будут тенденции в обработке данных на 2022 год? В этой статье я поделюсь основными темами, которые обсуждались на NeurIPS.
Читать дальше →

Информация

В рейтинге
709-й
Откуда
Москва, Москва и Московская обл., Россия
Зарегистрирован
Активность