Обновить
93
10.2
Куцев Роман @kucev

Тестируйте и сравнивайте лучшие LLM на LLMarena.ru

Отправить сообщение

Руководство по масштабированию MLOps

Время на прочтение8 мин
Количество просмотров2.2K

Команды MLOps вынуждены развивать свои возможности по масштабированию ИИ. В 2022 году мы столкнулись со взрывом популярности ИИ и MLOps в бизнесе и обществе. В 2023 год ажиотаж, учитывая успех ChatGPT и развитие корпоративных моделей, будет только расти.

Столкнувшись с потребностями бизнеса, команды MLOps стремятся расширять свои мощности. Эти команды начинают 2023 год с длинного списка возможностей постановки ИИ на поток. Как мы будем масштабировать компоненты MLOps (развёртывание, мониторинг и governance)? Каковы основные приоритеты нашей команды?

AlignAI совместно с Ford Motors написали это руководство, чтобы поделиться с командами MLOps своим успешным опытом масштабирования.
Читать дальше →

20 лучших инструментов для таск-менеджмента, планирования и интеллект-карт

Время на прочтение16 мин
Количество просмотров27K

В мире ПО управления продуктами существует множество систем и решений, каждое из которых имеет собственные уникальные преимущества. Ваш выбор должен определяться и личными предпочтениями, и требованиями бизнеса. В этой статье мы расскажем о лучших инструментах для таск-менеджмента, создания дорожных карт, OKR и интеллект-карт. Разобрав эти концепции, их задачи и основные характеристики, мы поможем вам выбрать подходящее решение в зависимости от размера, целей, проблем и бюджета компании.

Что делает ПО управления продуктами?


ПО управления продуктами оптимизирует управление производством, позволяя реализовывать стратегическое планирование, отслеживание прогресса, совместную работу и анализ. Также оно учитывает распределение ресурсов и организацию рабочего процесса agile. Инструменты управления продуктами упрощают командную работу и её согласованность благодаря функциям сотрудничества в реальном времени. Это приводит к эффективной расстановке приоритетов и принятию решений, повышает продуктивность и позволяет успешно справляться с целями.
Читать дальше →

8 инструментов для аннотирования изображений в 2023 году

Время на прочтение7 мин
Количество просмотров6.4K

Аннотирование изображений — основа для обучения моделей машинного обучения. В статье мы расскажем о лучших инструментах аннотирования, которые сделают этот процесс эффективным.

Что такое аннотирование изображений?


После завершения ручного аннотирования модель машинного обучения учится на размеченных изображениях. Все ошибки разметки также моделью выучиваются и дублируются, потому что аннотирование изображений задаёт критерии, которым стремится соответствовать модель.

Разметка или категоризация изображения описательными данными, помогающими в идентификации и классификации объектов, людей или сцен на картинке, называется аннотированием изображений.

Аннотирование изображений критически важно в таких сферах, как компьютерное зрение, роботостроение и беспилотное вождение, потому что оно позволяет роботам воспринимать и интерпретировать визуальные данные.


Примерами аннотирования изображений являются отрисовка ограничивающих прямоугольников вокруг объектов на фотографии, разметка объектов текстом или разделение изображения на части на основании его визуальных признаков.
Читать дальше →

Неструктурированные данные: примеры, инструменты, методики и рекомендации

Время на прочтение17 мин
Количество просмотров17K
В современном построенном на данных мире организации накапливают огромные объёмы информации, позволяющие принимать важные решения и выводы. Целых 80% от этой цифровой сокровищницы представляют собой неструктурированные данные, в которых отсутствует формат и упорядоченность.

Чтобы продемонстрировать объём неструктурированных данных, мы сошлёмся на десятую ежегодную инфографику Data Never Sleeps, показывающую, какое количество данных ежеминутно генерируется в Интернете.


Сколько данных генерировалось ежеминутно в 2013 и 2022 годах. Источник: DOMO

Только представьте: в 2022 году пользователи каждую минуту отправляли 231,4 миллиона электронных писем, загружали на YouTube пятьсот часов видео и делились 66 тысячами фотографий в Instagram. Разумеется, доступ к такому огромному пулу неструктурированных данных может дать компаниям большие возможности глубже понимать своих клиентов, рынки и операции, в конечном итоге приводя к росту и успеху.

В этой статье мы окунёмся в мир неструктурированных данных, подчеркнём их важность и представим практичные советы по извлечению ценной информации из этого часто недооцениваемого ресурса. Мы рассмотрим разные типы данных, варианты хранения и управления ими, а также различные методики и инструменты для анализа неструктурированных данных. Подробно разобравшись в этих аспектах, вы сможете овладеть истинным потенциалом неструктурированных данных и преобразовать их в стратегический ресурс.
Читать дальше →

14 типов атак, которые должны выявлять системы лицевой биометрии

Время на прочтение5 мин
Количество просмотров3.1K

Системы лицевой биометрии начинают активно использоваться во множестве ситуаций: при цифровой регистрации покупателей, аутентификации доступа к веб-сервисам, разблокировке сотовых телефонов, проходе в офис или на спортивные мероприятия, и так далее.

Такое распространение технологии неизбежно сопровождается новыми способами обмана с целью получения мошеннического доступа. Только в одних Соединённых Штатах, по оценкам Федеральной торговой комиссии (FTC), в 2021 году потери из-за мошенничества с личными данными составили приблизительно 2331,2 миллиона долларов, что вдвое больше, чем в 2019 году. Согласно данным FTC, мошенничество с личными данными составляет больше 50% от общего зафиксированного числа мошеннических действий.

Нельзя сказать, что мошенничество — это что-то новое; любой процесс, связанный с идентификацией личности, как с участием биометрии, так и без неё, становится целью злоумышленников, стремящихся получить доступ к не принадлежащим им правам пользования.

И с биометрией ситуация ничем не отличается, различия заключаются лишь в способе организации мошенничества. В этом посте мы ответим на некоторые вопросы о мошеннических действиях в системе лицевой биометрии и о технологиях, способных защитить от них.
Читать дальше →

Сбор данных для машинного обучения: этапы, методики и рекомендации

Время на прочтение15 мин
Количество просмотров10K

Все успешные компании постоянно собирают данные. Они отслеживают поведение людей в Интернете, организуют опросы, мониторят отзывы, слушают сигналы от умных устройств, извлекают значимые слова из электронных писем и предпринимают другие шаги для накопления фактов и чисел, помогающих им принимать бизнес-решения. Хотя современный мир изобилует данными, сбор ценной информации включает в себя множество организационных и технических трудностей, которые мы и рассмотрим в этой статье. Особое внимание мы уделим методикам сбора данных и инструментам для аналитики и проектов машинного обучения.
Читать дальше →

Целостность, точность, согласованность: три фактора, обеспечивающие качество машинного обучения

Время на прочтение4 мин
Количество просмотров2.3K

Эффективность моделей машинного обучения напрямую зависит от обучающих данных. Если данные неполны или размечены неверно, то эти пробелы отразятся на прогнозах модели.

Но как выявлять высококачественные данные и обеспечивать их уровень уже в процессе работы над проектом? И что означает «качество данных» в контексте машинного обучения?

Можно упростить ответ на этот вопрос, сведя качество данных к трём основным характеристикам: целостности (integrity), точности (accuracy) и согласованности (consistency).

  • Целостность: надёжность используемого датасета
  • Точность: степень валидности и корректности присвоенных аннотаций
  • Согласованность: степень согласованности присвоенных аннотаций во всём датасете

Можно воспринимать каждый из этих факторов как часть высокоуровневой дорожной карты для обеспечения качества данных на всех этапах конвейера аннотирования.
Читать дальше →

Как аннотировать документы для обучения ИИ распознавания текста

Время на прочтение6 мин
Количество просмотров2.7K

Введение в ИИ для распознавания текста



Автоматизированная обработка документов — необходимое требование для модернизации рабочих процессов современных компаний; оно связано с широким спектром процессов, например, с управлением расходами, автоматизацией кредиторских задолженностей, снабжением, бухгалтерским делом, страхованием, адаптацией пользователей и сотрудников, подачей заявок на кредит, приёмом на страхование и так далее.

Однако обработка неструктурированных данных, например, PDF или отсканированных документов, при помощи ИИ — не такая уж простая задача. Для обучения и поддержки инструментов ИИ обработки и парсинга документов необходимо высококачественное аннотирование данных.

По оценкам специалистов, рынок интеллектуальной обработки документов к 2028 году вырастет до 6,3 миллиардов долларов, а большая часть решений для распознавания текста в этой сфере уже использует ИИ и машинное обучение.
Читать дальше →

Data Engineering: концепции, процессы и инструменты

Уровень сложностиСредний
Время на прочтение16 мин
Количество просмотров12K
Data science, машинное обучение и искусственный интеллект — не просто громкие слова: многие организации стремятся их освоить. Но прежде чем создавать интеллектуальные продукты, необходимо собрать и подготовить данные, которые станут топливом для ИИ. Фундамент для аналитических проектов закладывает специальная дисциплина — data engineering. Связанные с ней задачи занимают первые три слоя иерархии потребностей data science, предложенной Моникой Рогати.


Слои data science для реализации ИИ.

В этой статье мы рассмотрим процесс data engineering, расскажем о его базовых компонентах и инструментах, опишем роль дата-инженера.
Читать дальше →

Аннотирование повреждений автомобилей для обучения искусственного интеллекта

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров2.1K

Благодаря доступности систем компьютерного зрения на основе ИИ, способных автоматизировать большую часть процессов, в последние годы активно развивается сфера визуального контроля, связанного с технологиями страхования. При помощи мобильных приложений или веб-сайтов пользователи могут выполнять удалённую оценку повреждений и мгновенно получать расчёт цены, что упрощает процесс и сильно снижает стресс пользователей. Эта сфера уже охватила не только оценку повреждений транспорта, но и другие виды собственности, например, недвижимость.

Однако обучение систем визуального контроля при помощи ИИ имеет свои сложности, поскольку требует постоянного наполнения высококачественными и разнообразными данными. Из-за расширения области действия таких сервисов на разные регионы стало необходимым получение из каждого региона данных, аннотированных в точности согласно таксономии каждой страховой компании.
Читать дальше →

Все события в мире синтетических данных за 2022 год

Время на прочтение12 мин
Количество просмотров1.4K

В течение прошлого года мы наблюдали существенный рост в мире синтетических данных и радостные изменения на этом рынке. В своей статье я поделюсь своими заметками о годе мониторинга рынка. Из неё вы узнаете о новых игроках, разработках и перспективах эволюции экосистемы.

Новые игроки и анализ рынка синтетических данных


Когда в 2021 году я опубликовала пост о состоянии рынка синтетических данных, на нём присутствовало 67 поставщиков:

  • 28 поставщиков структурированных синтетических данных,
  • 10 поставщиков синтетических тестовых данных,
  • 6 опенсорсных поставщиков,
  • и 29 поставщиков неструктурированных данных.

Год спустя картина изменилась:


На карте появилось 28 новых поставщиков, а всего продавать продукты и сервисы синтетических данных стали 97 компаний.

Мы добавляем на карту ещё 31 поставщика, что суммарно даёт 100 компаний, занимающихся продажей продуктов и сервисов синтетических данных. Пять компаний закрылось и ещё я убрала с этой карты опенсорсные решения. Обновлённый список компаний, занимающихся синтетическими данными, можно посмотреть в этой статье.
Читать дальше →

Лучшие ИИ-инструменты для аннотирования видео в 2023 году

Время на прочтение4 мин
Количество просмотров8.5K

Процесс добавления метаданных, тэгов или меток к различным объектам, действиям или событиям в видео называется аннотированием видео. Живые аннотаторы могут выполнять эту задачу вручную, однако благодаря ИИ существенную часть процесса можно автоматизировать. Алгоритмы ИИ используют компьютерное зрение (computer vision, CV) для изучения и понимания покадрового содержания видео, а затем распознают и классифицируют объекты, действия или события на основании их визуальных элементов.

Давайте рассмотрим некоторые из лучших инструментов аннотирования видео на основе ИИ.
Читать дальше →

Что такое модерация контента? Типы модерации и инструменты

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров6.3K

Цифровой мир находится в состоянии постоянного движения, и одной из его мощных движущих сил является генерируемый контент. Сегодня люди охотнее поверят мнению, высказанному другими людьми онлайн, чем информации, предоставляемой компаниями и государственными органами. В этой статье мы расскажем, что такое модерация контента.

Ежедневно публикуются невообразимые объёмы текста, изображений и видео, поэтому компаниям необходимо отслеживать контент, хранящийся на их платформах. Это критически важно для обеспечения безопасной и надёжной среды для клиентов, а также для мониторинга социальных влияний на восприятие брендов и соответствия государственным требованиям.

Наиболее эффективным способом достижения всех этих целей является модерация контента.


Под модерацией контента понимается отсев недопустимого контента, публикуемого пользователями на платформе. Этот процесс включает в себя применение заранее установленных правил мониторинга контента. Если контент не соответствует требованиям, он помечается и удаляется. Причины этого могут быть разными: насилие, оскорбления, экстремизм, нагота, враждебные высказывания, нарушения авторских прав и тому подобное.

Задача модерации контента — обеспечение безопасности платформы и её соответствия политике компании по обеспечению доверия и защиты. Модерация контента широко применяется в социальных сетях, на веб-сайтах и в приложениях для онлайн-знакомств, на торговых площадках, форумах и других подобных платформах.
Читать дальше →

Пять примеров успешного использования ИИ на производстве

Уровень сложностиПростой
Время на прочтение11 мин
Количество просмотров32K

В октябре 2019 года компания Microsoft заявила о том, что искусственный интеллект помогает производственным компаниям обгонять по показателям конкурентов: использующие ИИ производители показывают результаты на 12% лучше, чем их соперники. Поэтому мы скорее всего увидим всплеск применения технологий ИИ на производстве, а также рост новых высокооплачиваемых должностей в этой области.

В статье мы расскажем о пяти примерах использования ИИ-технологий на производстве. Также мы поделимся историями успеха современных промышленных компаний, проанализировав, как внедрение ИИ помогло их бизнесу.
Читать дальше →

Segment Anything: создание первой базисной модели для сегментации изображений

Время на прочтение9 мин
Количество просмотров6.3K

Сегментация, то есть распознавание пикселей изображения, принадлежащих объекту — базовая задача компьютерного зрения, используемая в широком спектре применений, от анализа научных снимков до редактирования фотографий. Однако для создания точной модели сегментации под конкретные задачи обычно требуется высокоспециализированный труд технических экспертов, имеющих доступ к инфраструктуре обучения ИИ и большим объёмам тщательно аннотированных данных, относящихся к предметной области.

Наша лаборатория Meta AI* стремится сделать сегментацию более доступной, основав проект Segment Anything: новую задачу, датасет и модель для сегментации изображений (подробности см. в нашей исследовательской статье). Мы публикуем нашу Segment Anything Model (SAM) и датасет масок Segment Anything 1-Billion mask dataset (SA-1B) (крупнейший в мире датасет сегментации), чтобы их можно было использовать во множестве разных областей и стимулировать дальнейшие исследования базисных моделей компьютерного зрения. Мы открываем доступ к датасету SA-1B, позволяя использовать его в исследовательских целях; модель Segment Anything Model доступна по открытой лицензии (Apache 2.0). Вы можете протестировать демо SAM со своими собственными изображениями.

* Принадлежит корпорации Meta Platforms, которая признана экстремистской организацией, её деятельность в России запрещена.
Читать дальше →

Пять причин, по которым вам нужны синтетические данные

Время на прочтение6 мин
Количество просмотров3K
Сбор и разметка данных в реальном мире может быть длительным и дорогостоящим занятием. Кроме того, у этих данных могут быть проблемы с качеством, разнообразием и количеством. К счастью, подобные проблемы можно решать при помощи синтетических данных.


Для обучения модели машинного обучения нужны данные. Задачи data science обычно непохожи на соревнования Kaggle, где у вас есть отличный крупный датасет с готовой разметкой. Иногда приходится собирать, упорядочивать и очищать данные самостоятельно. Такой процесс сбора и разметки данных в реальном мире может быть долгим, неудобным, неточным, а иногда и опасным. Более того, в конце этого процесса может оказаться, что полученные в реальном мире данные не соответствуют вашим требованиям с точки зрения качества, разнообразия (например, дисбаланс классов) и количества.
Читать дальше →

Andrej Karpathy: глубокие нейросети 33 года назад и 33 года спустя

Время на прочтение10 мин
Количество просмотров7K

На мой взгляд, статья Янна Лекуна с соавторами Backpropagation Applied to Handwritten Zip Code Recognition (1989 год) имеет определённую историческую ценность, поскольку, насколько мне известно, это первое реальное применение нейронной сети, от начала до конца обученной при помощи обратного распространения (backpropagation). Если не учитывать крошечный датасет (7291 изображений цифр в градациях серого размером 16x16) и крошечный размер использованной нейронной сети (всего тысяча нейронов), эта статья спустя 33 года ощущается вполне современной — в ней описана структура датасета, архитектура нейронной сети, функция потерь, оптимизация и приведены отчёты об величинах экспериментальных ошибок классификации для обучающего и тестового датасетов. Всё это очень узнаваемо и воспринимается как современная статья о глубоком обучении, только написанная 33 года назад. Я решил воспроизвести эту статью 1) для развлечения, а ещё 2) чтобы использовать это упражнение как исследование природы прогресса глубокого обучения.
Читать дальше →

Синтетические данные для машинного обучения: их природа, типы и способы генерации

Время на прочтение14 мин
Количество просмотров14K

Данные — один из самых ценных в наше время ресурсов. Однако из-за затрат, конфиденциальности и времени обработки сбор реальных данных не всегда возможен. В таком случае для подготовки моделей машинного обучения хорошей альтернативой могут стать синтетические данные. В этой статье мы объясним, что такое синтетические данные, почему они используются и когда их лучше применять, какие существуют модели и инструменты генерации и какими способами можно задействовать синтетические данные.
Читать дальше →

Процесс ELT: основные компоненты, преимущества и инструменты создания

Время на прочтение11 мин
Количество просмотров8.8K

Если ваша задача заключается в аналитике данных или в машинном обучении, то успех её выполнения зависит от создаваемых вами конвейеров данных и способов их создания. Но даже для опытных дата-инженеров проектирование нового конвейера данных каждый раз становится уникальным событием.

Интеграция данных из множества разделённых источников и их обработка для обеспечения контекста содержит в себе и возможности, и трудности. Один из способов преодоления трудностей и получения новых возможностей в области интеграции данных — создание конвейера ELT (Extract, Load, Transform).

В этой статье мы подробно рассмотрим процесс ELT, в том числе его работу, преимущества и распространённые способы применения. Также мы поговорим о различиях между ELT и ETL (Extract, Transform, Load) и дадим советы по созданию и оптимизации конвейера ELT.
Читать дальше →

Медицинские датасеты для машинного обучения: цели, типы и способы применения

Время на прочтение12 мин
Количество просмотров14K

Международная система здравоохранения ежедневно генерирует множество медицинских данных, которые (по крайней мере, теоретически) можно использовать для машинного обучения. В любой отрасли данные считаются ценным ресурсом, который помогает компаниям обгонять конкурентов, и здравоохранение не является исключением.

В этом посте мы вкратце рассмотрим сложности, с которыми приходится сталкиваться при работе с медицинскими данными, и сделаем обзор публичных медицинских датасетов, а также практических задач, которые они помогают выполнять.
Читать дальше →

Информация

В рейтинге
703-й
Откуда
Москва, Москва и Московская обл., Россия
Зарегистрирован
Активность