Куцев Роман @kucev

Тестируйте и сравнивайте лучшие LLM на LLMarena.ru

ProfileArticles186PostsNewsComments66

kucev Jul 24 2023 at 09:57

Data Engineering: концепции, процессы и инструменты

Medium

16 min

11K

Data storage * Machine learning * System Analysis and Design * Data Mining * Data Engineering *

Review

Translation

Data science, машинное обучение и искусственный интеллект — не просто громкие слова: многие организации стремятся их освоить. Но прежде чем создавать интеллектуальные продукты, необходимо собрать и подготовить данные, которые станут топливом для ИИ. Фундамент для аналитических проектов закладывает специальная дисциплина — data engineering. Связанные с ней задачи занимают первые три слоя иерархии потребностей data science, предложенной Моникой Рогати.

Слои data science для реализации ИИ.

В этой статье мы рассмотрим процесс data engineering, расскажем о его базовых компонентах и инструментах, опишем роль дата-инженера.

Читать дальше →

+1

kucev Jul 13 2023 at 09:07

Аннотирование повреждений автомобилей для обучения искусственного интеллекта

Easy

6 min

2K

Big Data * Data Mining * Artificial IntelligenceMachine learning * Image processing *

Translation

Благодаря доступности систем компьютерного зрения на основе ИИ, способных автоматизировать большую часть процессов, в последние годы активно развивается сфера визуального контроля, связанного с технологиями страхования. При помощи мобильных приложений или веб-сайтов пользователи могут выполнять удалённую оценку повреждений и мгновенно получать расчёт цены, что упрощает процесс и сильно снижает стресс пользователей. Эта сфера уже охватила не только оценку повреждений транспорта, но и другие виды собственности, например, недвижимость.

Однако обучение систем визуального контроля при помощи ИИ имеет свои сложности, поскольку требует постоянного наполнения высококачественными и разнообразными данными. Из-за расширения области действия таких сервисов на разные регионы стало необходимым получение из каждого региона данных, аннотированных в точности согласно таксономии каждой страховой компании.

Читать дальше →

+3

kucev Jun 1 2023 at 08:32

Все события в мире синтетических данных за 2022 год

12 min

1.4K

Image processing * Machine learning * Artificial IntelligenceData Mining * Big Data *

Translation

В течение прошлого года мы наблюдали существенный рост в мире синтетических данных и радостные изменения на этом рынке. В своей статье я поделюсь своими заметками о годе мониторинга рынка. Из неё вы узнаете о новых игроках, разработках и перспективах эволюции экосистемы.

Новые игроки и анализ рынка синтетических данных

Когда в 2021 году я опубликовала пост о состоянии рынка синтетических данных, на нём присутствовало 67 поставщиков:

28 поставщиков структурированных синтетических данных,
10 поставщиков синтетических тестовых данных,
6 опенсорсных поставщиков,
и 29 поставщиков неструктурированных данных.

Год спустя картина изменилась:

На карте появилось 28 новых поставщиков, а всего продавать продукты и сервисы синтетических данных стали 97 компаний.

Мы добавляем на карту ещё 31 поставщика, что суммарно даёт 100 компаний, занимающихся продажей продуктов и сервисов синтетических данных. Пять компаний закрылось и ещё я убрала с этой карты опенсорсные решения. Обновлённый список компаний, занимающихся синтетическими данными, можно посмотреть в этой статье.

Читать дальше →

+3

kucev May 3 2023 at 14:42

Лучшие ИИ-инструменты для аннотирования видео в 2023 году

4 min

8.2K

Big Data * Data Mining * Artificial IntelligenceMachine learning * Image processing *

Translation

Процесс добавления метаданных, тэгов или меток к различным объектам, действиям или событиям в видео называется аннотированием видео. Живые аннотаторы могут выполнять эту задачу вручную, однако благодаря ИИ существенную часть процесса можно автоматизировать. Алгоритмы ИИ используют компьютерное зрение (computer vision, CV) для изучения и понимания покадрового содержания видео, а затем распознают и классифицируют объекты, действия или события на основании их визуальных элементов.

Давайте рассмотрим некоторые из лучших инструментов аннотирования видео на основе ИИ.

Читать дальше →

+3

kucev Apr 20 2023 at 09:01

Что такое модерация контента? Типы модерации и инструменты

Medium

7 min

6.1K

Media management * Spamming and anti-spammingSocial networks and communitiesMachine learning * Artificial Intelligence

Tutorial

Translation

Цифровой мир находится в состоянии постоянного движения, и одной из его мощных движущих сил является генерируемый контент. Сегодня люди охотнее поверят мнению, высказанному другими людьми онлайн, чем информации, предоставляемой компаниями и государственными органами. В этой статье мы расскажем, что такое модерация контента.

Ежедневно публикуются невообразимые объёмы текста, изображений и видео, поэтому компаниям необходимо отслеживать контент, хранящийся на их платформах. Это критически важно для обеспечения безопасной и надёжной среды для клиентов, а также для мониторинга социальных влияний на восприятие брендов и соответствия государственным требованиям.

Наиболее эффективным способом достижения всех этих целей является модерация контента.

Под модерацией контента понимается отсев недопустимого контента, публикуемого пользователями на платформе. Этот процесс включает в себя применение заранее установленных правил мониторинга контента. Если контент не соответствует требованиям, он помечается и удаляется. Причины этого могут быть разными: насилие, оскорбления, экстремизм, нагота, враждебные высказывания, нарушения авторских прав и тому подобное.

Задача модерации контента — обеспечение безопасности платформы и её соответствия политике компании по обеспечению доверия и защиты. Модерация контента широко применяется в социальных сетях, на веб-сайтах и в приложениях для онлайн-знакомств, на торговых площадках, форумах и других подобных платформах.

Читать дальше →

-1

kucev Apr 12 2023 at 15:47

Пять примеров успешного использования ИИ на производстве

Easy

11 min

31K

Image processing * Machine learning * Artificial IntelligenceData Mining * Big Data *

Review

Translation

В октябре 2019 года компания Microsoft заявила о том, что искусственный интеллект помогает производственным компаниям обгонять по показателям конкурентов: использующие ИИ производители показывают результаты на 12% лучше, чем их соперники. Поэтому мы скорее всего увидим всплеск применения технологий ИИ на производстве, а также рост новых высокооплачиваемых должностей в этой области.

В статье мы расскажем о пяти примерах использования ИИ-технологий на производстве. Также мы поделимся историями успеха современных промышленных компаний, проанализировав, как внедрение ИИ помогло их бизнесу.

Читать дальше →

+2

kucev Apr 6 2023 at 18:45

Segment Anything: создание первой базисной модели для сегментации изображений

9 min

6.2K

Big Data * Data Mining * Artificial IntelligenceMachine learning * Image processing *

Translation

Сегментация, то есть распознавание пикселей изображения, принадлежащих объекту — базовая задача компьютерного зрения, используемая в широком спектре применений, от анализа научных снимков до редактирования фотографий. Однако для создания точной модели сегментации под конкретные задачи обычно требуется высокоспециализированный труд технических экспертов, имеющих доступ к инфраструктуре обучения ИИ и большим объёмам тщательно аннотированных данных, относящихся к предметной области.

Наша лаборатория Meta AI* стремится сделать сегментацию более доступной, основав проект Segment Anything: новую задачу, датасет и модель для сегментации изображений (подробности см. в нашей исследовательской статье). Мы публикуем нашу Segment Anything Model (SAM) и датасет масок Segment Anything 1-Billion mask dataset (SA-1B) (крупнейший в мире датасет сегментации), чтобы их можно было использовать во множестве разных областей и стимулировать дальнейшие исследования базисных моделей компьютерного зрения. Мы открываем доступ к датасету SA-1B, позволяя использовать его в исследовательских целях; модель Segment Anything Model доступна по открытой лицензии (Apache 2.0). Вы можете протестировать демо SAM со своими собственными изображениями.

* Принадлежит корпорации Meta Platforms, которая признана экстремистской организацией, её деятельность в России запрещена.

Читать дальше →

+14

kucev Apr 3 2023 at 08:19

Пять причин, по которым вам нужны синтетические данные

6 min

3K

Image processing * Machine learning * Artificial IntelligenceData Mining * Big Data *

Translation

Сбор и разметка данных в реальном мире может быть длительным и дорогостоящим занятием. Кроме того, у этих данных могут быть проблемы с качеством, разнообразием и количеством. К счастью, подобные проблемы можно решать при помощи синтетических данных.

Для обучения модели машинного обучения нужны данные. Задачи data science обычно непохожи на соревнования Kaggle, где у вас есть отличный крупный датасет с готовой разметкой. Иногда приходится собирать, упорядочивать и очищать данные самостоятельно. Такой процесс сбора и разметки данных в реальном мире может быть долгим, неудобным, неточным, а иногда и опасным. Более того, в конце этого процесса может оказаться, что полученные в реальном мире данные не соответствуют вашим требованиям с точки зрения качества, разнообразия (например, дисбаланс классов) и количества.

Читать дальше →

+3

kucev Mar 27 2023 at 09:31

Andrej Karpathy: глубокие нейросети 33 года назад и 33 года спустя

10 min

6.9K

Big Data * Data Mining * Artificial IntelligenceMachine learning * Image processing *

Translation

На мой взгляд, статья Янна Лекуна с соавторами Backpropagation Applied to Handwritten Zip Code Recognition (1989 год) имеет определённую историческую ценность, поскольку, насколько мне известно, это первое реальное применение нейронной сети, от начала до конца обученной при помощи обратного распространения (backpropagation). Если не учитывать крошечный датасет (7291 изображений цифр в градациях серого размером 16x16) и крошечный размер использованной нейронной сети (всего тысяча нейронов), эта статья спустя 33 года ощущается вполне современной — в ней описана структура датасета, архитектура нейронной сети, функция потерь, оптимизация и приведены отчёты об величинах экспериментальных ошибок классификации для обучающего и тестового датасетов. Всё это очень узнаваемо и воспринимается как современная статья о глубоком обучении, только написанная 33 года назад. Я решил воспроизвести эту статью 1) для развлечения, а ещё 2) чтобы использовать это упражнение как исследование природы прогресса глубокого обучения.

Читать дальше →

+17

kucev Mar 16 2023 at 07:36

Синтетические данные для машинного обучения: их природа, типы и способы генерации

14 min

13K

Image processing * Machine learning * Artificial IntelligenceData Mining * Big Data *

Translation

Данные — один из самых ценных в наше время ресурсов. Однако из-за затрат, конфиденциальности и времени обработки сбор реальных данных не всегда возможен. В таком случае для подготовки моделей машинного обучения хорошей альтернативой могут стать синтетические данные. В этой статье мы объясним, что такое синтетические данные, почему они используются и когда их лучше применять, какие существуют модели и инструменты генерации и какими способами можно задействовать синтетические данные.

Читать дальше →

+1

kucev Mar 15 2023 at 06:52

Процесс ELT: основные компоненты, преимущества и инструменты создания

11 min

8.6K

Data Mining * Big Data * Data storage *

Translation

Если ваша задача заключается в аналитике данных или в машинном обучении, то успех её выполнения зависит от создаваемых вами конвейеров данных и способов их создания. Но даже для опытных дата-инженеров проектирование нового конвейера данных каждый раз становится уникальным событием.

Интеграция данных из множества разделённых источников и их обработка для обеспечения контекста содержит в себе и возможности, и трудности. Один из способов преодоления трудностей и получения новых возможностей в области интеграции данных — создание конвейера ELT (Extract, Load, Transform).

В этой статье мы подробно рассмотрим процесс ELT, в том числе его работу, преимущества и распространённые способы применения. Также мы поговорим о различиях между ELT и ETL (Extract, Transform, Load) и дадим советы по созданию и оптимизации конвейера ELT.

Читать дальше →

+7

kucev Mar 14 2023 at 07:59

Медицинские датасеты для машинного обучения: цели, типы и способы применения

12 min

13K

Image processing * Machine learning * Artificial IntelligenceHealthBig Data *

Translation

Международная система здравоохранения ежедневно генерирует множество медицинских данных, которые (по крайней мере, теоретически) можно использовать для машинного обучения. В любой отрасли данные считаются ценным ресурсом, который помогает компаниям обгонять конкурентов, и здравоохранение не является исключением.

В этом посте мы вкратце рассмотрим сложности, с которыми приходится сталкиваться при работе с медицинскими данными, и сделаем обзор публичных медицинских датасетов, а также практических задач, которые они помогают выполнять.

Читать дальше →

+3

kucev Mar 13 2023 at 06:20

Десять самых распространённых проблем с качеством данных и способы их устранения

5 min

4.8K

Data storage * Data visualization * System Analysis and Design * Data Mining *

Translation

Введение

Данные стали основой всех бизнесов мира. В процессе принятия решений организации сильно полагаются на свои ресурсы данных, но, к сожалению, «на 100% чистых и точных данных» не существует. На данные влияют различные факторы, снижающие их качество. По словам специалистов, лучшим способом борьбы с проблемами данных является выявление их первопричин и внедрение новых процессов для повышения их качества. В этой статье рассказывается о распространённых проблемах с качеством данных и об оптимальных способах их устранения. Но сначала давайте разберёмся, почему важно знание этих проблем и как они могут влиять на ведение бизнеса.

Читать дальше →

+1

kucev Feb 21 2023 at 08:31

Business Intelligence и бизнес-аналитика: стратегия, этапы, процессы и инструменты

17 min

69K

System Analysis and Design * Data Mining * Data visualization * Data storage *

Translation

Все бизнесы работают с данными — информацией, генерируемой множеством внутренних и внешних источников компании. Эти каналы данных служат органами чувств руководства, предоставляя ему информацию о том, что происходит с бизнесом и рынком. Следовательно, любое ошибочное представление, неточность или нехватка информации могут привести к искажённому восприятию ситуации на рынке и неверному пониманию внутренних операций, что в свою очередь несёт за собой ошибочные решения.

Для принятия решений на основе данных необходимо чётко видеть все аспекты своего бизнеса, даже те, о которых вы не думаете. Но как превратить неструктурированные фрагменты данных в что-то полезное? В этом вам поможет business intelligence.

Мы уже говорили о стратегии организации машинного обучения. В этой статье мы расскажем о том, как интегрировать business intelligence в существующую корпоративную инфраструктуру. Вы узнаете, как подготавливается стратегия business intelligence и интегрируются инструменты в рабочие процессы компании.

Читать дальше →

+1

kucev Feb 20 2023 at 08:16

Руководство по аутсорсингу разметки данных для машинного обучения

15 min

2.5K

Image processing * Machine learning * Artificial IntelligenceData Mining * Big Data *

Translation

Аннотирование и разметка сырых данных (изображений и видео) для моделей машинного обучения (ML) — это самая длительная и трудоёмкая, хотя и необходимая часть любого проекта компьютерного зрения.

Качественные результаты и точность работы команды аннотаторов непосредственно влияет на точность любой модели машинного обучения, вне зависимости от того, применяются ли к массивам данных изображений AI (искусственный интеллект) или алгоритм глубокого обучения.

Организации из различных сфер (здравоохранения, производства, спорта, ВПК, автоматизации и возобновляемой энергетики) используют модели машинного обучения и компьютерного зрения для решения задач, выявления паттернов и интерпретирования тенденций в массивах данных изображений и видео.

Любой проект компьютерного зрения начинается с разметки и аннотирования сырых данных командами аннотаторов; это огромные объёмы изображений и видео. Успешные результаты аннотирования гарантируют, что модель сможет «учиться» на этих данных обучения, решая задачи, поставленные перед ней организацией.

После формулирования задачи и целей проекта у организаций возникает непростой выбор перед этапом аннотирования: нужно ли отдавать эту работу на аутсорс, или выполнять аннотирование массивов данных изображений и видео собственными силами?

Читать дальше →

0

kucev Feb 17 2023 at 12:10

7 способов улучшения датасетов медицинских снимков для машинного обучения

9 min

2.6K

Image processing * Machine learning * Artificial IntelligenceHealthBig Data *

Translation

Качество датасета медицинских снимков (как и датасетов изображений в любой другой области) напрямую влияет на точность модели машинного обучения.

В секторе здравоохранения это ещё более важно, ведь качество крупных массивов данных медицинских снимков для диагностического и медицинского AI (искусственного интеллекта) или моделей глубокого обучения может стать для пациентов вопросом жизни и смерти.

Как знают команды клинических исследователей, сложность, форматы и слои информации в медицине больше и затейливее, чем в немедицинских изображениях и видео. Отсюда и берётся необходимость в алгоритмах искусственного интеллекта, машинного обучения (ML) и глубокого обучения с целью понимания, интерпретации и обучения на аннотированных массивах данных медицинских снимков.

В этой статье мы расскажем о сложностях создания обучающих массивов данных из медицинских снимков и видео (особенно в сфере радиологии), а также поделимся рекомендациями по созданию обучающих массивов данных высочайшего качества.

Читать дальше →

+1

kucev Jan 30 2023 at 11:16

Сравнение систем Machine Learning as a Service: Amazon, Microsoft Azure, Google Cloud AI, IBM Watson

26 min

6.3K

Big Data * Data Mining * Artificial IntelligenceMachine learning * Image processing *

Translation

Большинству компаний машинное обучение кажется чем-то сверхсложным, дорогим и требующим серьёзных специалистов. И если вы намереваетесь создавать новую систему рекомендаций Netflix, то так и есть. Однако тенденция превращения всего в сервис затронула и эту сложную сферу. Начать с нуля проект ML можно без особых инвестиций, и это будет правильным решением, если ваша компания новичок в data science и хочет начать с решения самых простых задач.

Одна из самых вдохновляющих историй об ML — это рассказ о японском фермере, решившем автоматически сортировать огурцы, чтобы помочь своим родителям в этой утомительной работе. В отличие от крупных корпораций, этот парень не имел ни опыта в машинном обучении, ни большого бюджета. Однако ему удалось освоить TensorFlow и применить глубокое обучение для распознавания разных классов огурцов.

Благодаря облачным сервисам машинного обучения вы можете начать создавать свои первые рабочие модели, делая ценные выводы из прогнозов даже при наличии небольшой команды. Мы уже говорили о стратегии машинного обучения. Теперь давайте рассмотрим лучшие на рынке платформы машинного обучения и поговорим об инфраструктурных решениях, которые нужно принять.

Читать дальше →

+2

kucev Jan 29 2023 at 17:33

Как структурировать процессы контроля качества для аннотаций медицинских снимков

13 min

2K

Image processing * Machine learning * Artificial IntelligenceHealthBig Data *

Translation

При создании любой модели компьютерного зрения командам разработчиков машинного обучения требуются высококачественные массивы данных с высококачественными аннотациями, чтобы обеспечить хорошую точность модели.

Однако когда дело касается создания моделей искусственного интеллекта для применения в здравоохранении, ставки становятся ещё выше — эти модели могут непосредственно влиять на жизни людей. Их необходимо обучать на данных, аннотированных опытными медицинскими специалистами, у которых не очень много свободного времени. Также они должны удовлетворять высоким научным и нормативным стандартам, поэтому чтобы вывести модель из разработки в продакшен, командам разработчиков ML необходимо обучать их на лучших данных с лучшими аннотациями.

Именно поэтому у любой компании, занимающейся компьютерным зрением (особенно если она создаёт модели для медицинской диагностики), должен существовать процесс контроля качества аннотаций медицинских данных.

Читать дальше →

+4

kucev Jan 10 2023 at 11:48

Разметка данных: бизнес на миллиарды долларов, лежащий в основе прогресса AI

12 min

11K

Big Data * Data Mining * Artificial IntelligenceMachine learning * Image processing *

Translation

Когда два года назад Лэй Ван стала аннотатором данных, её работа была относительно простой: определять гендер людей на фотографиях. Но с тех пор Ван заметила, что сложность её задач становится всё выше: от разметки гендера до разметки возраста, от рамок вокруг 2D-объектов до 3D-разметки, от фотографий при дневном свете до сцен ночью и в тумане, и так далее.

Ван 25 лет. Она работала секретарём в приёмной, однако когда в 2017 году её компания закрылась, друг, работавший разработчиком алгоритмов, предложил ей исследовать новый карьерный путь в аннотировании данных — процессе разметки данных, позволяющем применять их в системах искусственного интеллекта, особенно с использованием машинного обучения с учителем. Став безработной, она решила рискнуть.

Два года спустя Ван уже работала помощником проект-менеджера в пекинской компании Testin. Обычно она начинает свой рабочий день со встречи с клиентами, которые в основном представляют китайские технологические компании и стартапы в сфере AI. Клиент сначала передаёт ей в качестве теста небольшую долю массива данных. Если результаты удовлетворяют требованиям, Ван получает массив данных полностью. Затем она передаёт его производственной команде, обычно состоящей из десяти разметчиков и трёх контролёров. Такие команды настроены на эффективность и могут, например, аннотировать 10 тысяч изображений для распознавания дорожных полос примерно за восемь дней с точностью в 95%.

Читать дальше →

+5

kucev Jan 3 2023 at 16:56

Как опенсорсные инструменты замедляют разработку моделей для анализа медицинских снимков

7 min

5.7K

Data storage * Machine learning * Artificial IntelligenceHealthBig Data *

Translation

Существует множество опенсорсного ПО и инструментов для проектов компьютерного зрения и машинного обучения в сфере медицинских визуализаций.

Иногда может быть выгодно использовать опенсорсные инструменты при тестировании и обучении модели ML на массивах данных медицинских снимков. Вы можете экономить деньги, а многие инструменты, например, 3DSlicer и ITK-Snap, предназначены специально для аннотирования медицинских снимков и обучения моделей ML на массивах данных из сферы здравоохранения.

В здравоохранении критически важны качество массива данных и эффективность инструментов, используемых для аннотирования и обучения моделей ML. Это может стать вопросом жизни и смерти для пациентов, ведь для их диагностирования медицинским специалистам и врачам нужны максимально точные результаты моделей компьютерного зрения и машинного обучения.

Как известно командам клиницистов и обработки данных, слои данных в медицинских снимках сложны и детализированы. Для выполнения работы вам нужны подходящие инструменты. Применение неверного инструмента, например, опенсорсного приложения для аннотирования, может негативно повлиять на разработку модели.

В этой статье мы расскажем об основных опенсорсных инструментах для аннотирования медицинских снимков, сценариях применения таких инструментов и о том, как они препятствуют развитию вашего проекта. Мы перечислим те возможности инструмента аннотирования, которые помогут вам преодолеть эти трудности, в том числе и функции, которые обеспечат нужные вам результаты.

Читать дальше →

-26

6