Как стать автором
Обновить
79.26

Big Data *

Большие данные и всё о них

Сначала показывать
Порог рейтинга
Уровень сложности

12 лучших инструментов аннотирования изображений на 2023 год

Время на прочтение11 мин
Количество просмотров2.5K

С развитием сферы искусственного интеллекта (AI) увеличивается и спрос на высококачественные инструменты аннотирования изображений. Аннотирование изображений — это процесс добавления в изображения метаданных, например, меток или тэгов, чтобы их было проще распознавать и выполнять по ним поиск машинам. Этот процесс критически важен для обучения моделей ИИ, чтобы они могли точно распознавать и классифицировать изображения.

При таком большом количестве имеющихся инструментов аннотирования изображений может быть сложно понять, какие из них лучше подходят под ваши потребности. Чтобы помочь вам сделать более обоснованное решение, мы составили список двенадцати лучших инструментов аннотирования изображений на 2023 год.

В этой статье мы обсудим критерии, использованные для оценки этих инструментов, их плюсы и минусы, а также сравним их между собой. Также мы приведём отзывы и рейтинги пользователей, варианты цен и тарифов и информацию об интеграции с другим ПО и платформами.
Читать дальше →
Рейтинг0
Комментарии0

Без работы не останемся: к 2030 году ИИ добавит семь новых профессий

Время на прочтение9 мин
Количество просмотров11K

ChatGPT стремительно захватывает весь мир. Уже сейчас у нейросети более 100 миллионов пользователей — ни у какого другого приложения не было таких темпов роста. Без сомнения, с его появлением мы будем работать по-другому. 


Другие компании тоже почти не отстают от OpenAI — каждый день мы видим революционные достижения генеративного ИИ. За этими инновациями стоят не только NVIDIA, Midjourney и другие ИТ-гиганты, но и стартапы, и Open-Source-сообщество. В ближайшие годы рынок труда ждут кардинальные перемены. ИИ заменит самые разные работы, но, думаю, он же предложит нам новые очень интересные профессии. 

Читать дальше →
Всего голосов 20: ↑19 и ↓1+18
Комментарии2

Почему важна разметка данных: в основе ChatGPT лежит труд людей

Время на прочтение4 мин
Количество просмотров3.1K

Чат-боты стали неотъемлемой частью жизни, они в равной степени помогают нам и в работе, и в развлечениях. Одним из примеров таких ботов является ChatGPT компании OpenAI — обученная в беспрецедентных масштабах языковая модель, способная генерировать похожие на человеческие ответы на широкий спектр промтов. ChatGPT быстро набрал популярность, продемонстрировав мощь ИИ, и привлёк внимание общественности к этой сфере. Однако хотя его успех часто связывают с лежащими в его основе современными технологиями, многие недооценивают человеческий труд, вложенный в создание ChatGPT.
Читать дальше →
Всего голосов 6: ↑2 и ↓4-2
Комментарии5

«Большие вызовы» в «Сириусе», или как мы обычно проводим лето

Время на прочтение6 мин
Количество просмотров1.8K

Привет, Хабр! Третий год подряд летом мы в ВТБ снаряжаем команду IT-специалистов менторить школьников, которые пробуют себя в роли разработчиков на конкурсе «Большие вызовы» в образовательном центре «Сириус». В этом году на «Больших вызовах» побывали наши дата-сайентисты — они помогали команде подростков сделать сервис геоаналитики.

В этой статье мы расскажем, как устроено менторство в «Сириусе» и чем это полезно взрослым компаниям. Так, однажды мы нашли на конкурсе талантливого разработчика себе в команду. Но обо всём по порядку. Добро пожаловать под кат.

Читать далее
Всего голосов 8: ↑7 и ↓1+6
Комментарии1

Истории

Разметка данных при помощи GPT-4

Время на прочтение9 мин
Количество просмотров6.9K

Разметка данных — критически важный компонент проектов машинного обучения. К ней применима старая поговорка «мусор на входе — мусор на выходе». В процессе разметки создаются аннотированные датасеты для обучения и проверки. Однако этот процесс может быть длительным и дорогостоящим, особенно для проектов с большими объёмами данных. Но что если мы сможем воспользоваться прогрессом LLM для снижения затрат и усилий, необходимых для выполнения задач разметки данных?

GPT-4 — это современная языковая модель, разработанная компанией OpenAI. Она способна понимать запросы и генерировать текст, напоминающий составленный людьми. В этом посте мы расскажем о том, как можно использовать GPT-4 с целью настройки меток для различных задач. Это может существенно снизить затраты времени и труда, связанные с процессом разметки. Чтобы показать, как инжиниринг промтов способен помочь в создании точных и надёжных меток при помощи GPT-4 и как эту методику можно использовать для гораздо более мощных возможностей, мы воспользуемся примером с классификацией эмоционального настроя (sentiment classification).
Читать дальше →
Всего голосов 5: ↑5 и ↓0+5
Комментарии1

YTsaurus SPYT: помогаем планировщику Apache Spark быть ещё эффективнее

Уровень сложностиСложный
Время на прочтение13 мин
Количество просмотров2.2K

В больших распределённых системах многое зависит от эффективности запросов: если на гигабайте данных неоптимальный запрос может выполняться за миллисекунды, то при увеличении массива в тысячи раз, сервер начнёт кряхтеть, пыхтеть и жаловаться. Чтобы избежать этого, помогут знания о работе распределённых систем и их частей, а именно — планировщиков.   

Ещё с университетских времён я исследую распределённые системы, а последние два года в Яндексе адаптирую Apache Spark к внутренней инфраструктуре. Эта статья посвящена Apache Spark, а именно: как мы в рамках YTsaurus делали его ещё эффективнее. Написана она по мотивам моего доклада для «Онтико».

Читать далее
Всего голосов 17: ↑17 и ↓0+17
Комментарии4

От A/B-тестирования к Causal Inference в оффлайн ритейле

Уровень сложностиСредний
Время на прочтение31 мин
Количество просмотров9.8K

Приветствуем всех читателей! Сегодня команда Ad-Hoc аналитики X5 Tech приоткроет дверь в увлекательный мир A/B-тестирования Causal Inference. С момента написания предыдущей статьи прошло уже 4 года. За это время наш подход к оценке инициатив значительно эволюционировал. Мы собирали бизнес-кейсы, изучали научную литературу, экспериментировали с реальными данными и в итоге пришли не только к другой модели для оценки эффекта, но и изменили методологию в целом. 

Читать далее
Всего голосов 6: ↑6 и ↓0+6
Комментарии28

Размерности качества данных: обеспечение качества данных с помощью Great Expectations

Время на прочтение7 мин
Количество просмотров1.8K

Качество данных играет критически важную роль в любом процессе управления данными. Организации используют данные для принятия решений и улучшения различных бизнес-показателей. Однако если данные усеяны неточностями, ошибками или несогласованностями, то они могут нанести больше вреда, чем пользы.

Согласно опросу Gartner за 2020 год, в среднем потери из-за низкого качества данных составляют примерно $12,8 миллиона за год. Как сообщается в последнем отчёте State of Data Quality, задержки продакшена (задержки с выпуском продукта) — характерный симптом низкого качества данных. Высококачественные и безошибочные данные повышают надёжность и верность полученных из них выводов.

Для повышения качества данных необходима система его оценки. В достижении этой цели вам помогут размерности качества данных. Размерности позволяют измерять покрытие и выявлять компоненты, требующие тестирования качества данных.

В этой статье рассматриваются шесть размерностей качества данных: полнота, согласованность, целостность, вневременная актуальность, уникальность и валидность. Определив их, вы сможете обеспечить исчерпывающее понимание качества данных и выявить аспекты, требующие совершенствования. И здесь нам на помощь приходит Great Expectation (GX).
Читать дальше →
Рейтинг0
Комментарии1

Поговорите с детьми об ИИ: шесть вопросов, которые стоит обсудить

Время на прочтение6 мин
Количество просмотров2.4K


ИИ, и в том числе ChatGPT, активно входит в нашу жизнь. Сейчас многие взрослые уже освоились с технологией, а школы решили исследовать, как использовать системы ИИ для обучения детей важному навыку — критическому мышлению. Но и в школе, и в жизни дети сталкиваются не только с чат-ботами. Искусственный интеллект проникает всюду: он рекомендует нам видео на Netflix, помогает Alexa отвечать на вопросы, управляет любимыми интерактивными фильтрами в Snapchat и способами разблокировки смартфона.

Команда VK Cloud перевела статью о том, почему детям важно знать об ИИ как можно больше и понимать принципы работы этих систем. В статье раскрывается, что важно рассказать об ИИ детям — хотя и взрослым это будет полезно.
Читать дальше →
Всего голосов 33: ↑27 и ↓6+21
Комментарии0

9 лучших инструментов аннотирования изображений для Computer Vision

Время на прочтение9 мин
Количество просмотров2.7K

На дворе 2023 год, но аннотирование изображений по-прежнему остаётся одним из самых трудоёмких этапов вывода на рынок проекта компьютерного зрения. В помощь вам мы составили список самых популярных инструментов аннотирования изображений.

Это руководство поможет вам сравнить лучшие инструменты аннотирования и выбрать подходящий.

Мы будем сравнивать каждый из них по ключевым факторам, в том числе по функциональности аннотирования, поддержке различных типов данных и сценариев использования, возможностям QA/QC, безопасности и конфиденциальности данных, управлению данными, интеграции с конвейером машинного обучения и клиентской поддержке.
Читать дальше →
Рейтинг0
Комментарии0

Обработка больших данных при помощи библиотеки .NET for Apache Spark

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров1.8K

Привет Хабр!

Сегодня с вами Станевич Антон, участник профессионального сообщества NTA и ваш проводник в мир .NET for Apache Spark.

В моей работе я часто сталкиваюсь с необходимостью загрузки, трансформации, интерпретации различных данных и в этом посте я расскажу об использованном мной инструменте — фреймворке .NET for Apache Spark.

Погрузиться в .NET for Apache Spark
Всего голосов 3: ↑1 и ↓2-1
Комментарии2

DataOps Platform: из чего состоит наша платформа для работы с данными и как мы её создавали

Время на прочтение5 мин
Количество просмотров2.3K

Привет, Хабр! Меня зовут Наджим Мохаммад, я руководитель продукта МТС. Вместе с моим коллегой, руководителем направления разработки платформы МТС Big Data Максимом Бартеневым сегодня мы  поговорим об эволюции платформ данных и нюансах работы платформы МТС для работы с данными. Также обсудим историю развития самой DataOps Platform.

Читать далее
Всего голосов 13: ↑11 и ↓2+9
Комментарии1

MLOps в билайн: как катить машинное обучение в production без ML-инженеров. Часть I

Уровень сложностиСредний
Время на прочтение10 мин
Количество просмотров5.8K

Всем привет! Меня зовут Николай Безносов, я отвечаю за применение и развитие машинного обучения и продвинутой аналитики в билайне. В одной из прошлых статей мои коллеги рассказывали о месте Seldon в ML-инфраструктуре компании, а сегодня мы поднимемся на уровень выше и поговорим о том, что из себя представляет MLOps в билайне в целом - как с точки зрения инфраструктуры, так и с точки зрения процессов.

В статье речь пойдет о нашем опыте создания ML-платформы, которая помогает дата-сайентистам самостоятельно управлять всем жизненным циклом ML-моделей - от разработки до постановки в production. Я рассчитываю, что статья будет полезна как небольшим командам, которые только начинают выстраивать у себя ML-инфраструктуру, так и корпорациям с большим количеством команд и жесткими требованиями к безопасности, которые при этом хотят эффективно масштабироваться.

Статья будет состоять из двух частей. В первой части мы посмотрим верхнеуровнево, как и по каким причинам менялись наши ML-процессы и инфраструктура в билайне - с чего мы начинали и к чему в итоге пришли. Во второй части поговорим о конкретных инструментах и технологиях, которые мы внедрили, чтобы сделать наш процесс разработки и деплоя моделей простым, воспроизводимым, автоматизируемым и наблюдаемым.

Читать далее
Всего голосов 19: ↑18 и ↓1+17
Комментарии5

Ближайшие события

PG Bootcamp 2024
Дата16 апреля
Время09:30 – 21:00
Место
МинскОнлайн
EvaConf 2024
Дата16 апреля
Время11:00 – 16:00
Место
МоскваОнлайн
Weekend Offer в AliExpress
Дата20 – 21 апреля
Время10:00 – 20:00
Место
Онлайн

Потоковая обработка данных: анализ альтернативных решений

Время на прочтение8 мин
Количество просмотров3.3K

Всем привет! Я Алексей Пономаревский, разработчик решений для платформ сбора и обработки больших данных.

Два года назад мы в ITSumma создали решение для потоковой обработки данных с помощью Apache Spark и базы данных Greenplum — spark-greenplum-connector. Это многофункциональный плагин для Spark, на его основе инженеры могут строить ETL-решения и анализировать данные in-memory.

Изначально мы разработали его, как часть клиентской платформы потоковой обработки данных. Но со временем он прирос одной интересной функциональностью, которая недоступна сейчас в других подобных решениях. В этой статья я хочу сделать краткое сравнение между двумя opensource-продуктами Apache Spark и Flink, а также рассказать об одной интересной особенности Spark, которую мы реализовали в коннекторе.

Читать далее
Всего голосов 23: ↑22 и ↓1+21
Комментарии2

С чем едят self service и что есть в Российском меню BI платформ

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров2.2K

Последнее время очень много на рынке говорят про Self Service BI (SS), что это такое и почему каждый пытается сейчас заявить, что он и есть настоящий self service?

Давайте разбираться по порядку.

Читать далее
Всего голосов 5: ↑1 и ↓4-3
Комментарии4

Каталог данных — почему без него непросто и как всё организовать с максимальной пользой

Уровень сложностиСредний
Время на прочтение12 мин
Количество просмотров5.1K

В этом посте мы расскажем, как организовали каталог данных в МКБ в текущих условиях — когда многие вендоры ушли, и по-настоящему рабочих вариантов осталось два: или пилить что-то самим с нуля, или обратиться к опенсорсным решениям.

Пилить самим — тут как всегда, это и дорого, и долго. Брать же готовую коробку и использовать ее вчистую тоже достаточно сложно, вы же не знаете наверняка и досконально, чего там и как на самом деле внутри работает. 

Когда речь идет о корпоративных данных, это важно. К примеру, та же OpenMetadata — если не знать ее подкапотное устройство, работать с ней будет сложно. А разобраться сложно, потому что документация по ней на сегодня скудноватая, и экспертизы у людей на рынке еще не набралось, из-за чего до много приходится додумываться самим уже в процессе.

Под катом — немного о проблематике работы с данными (и о доверии), о плюсах, которые даст вам каталог данных, а также наша подробная инструкция для разворачивания каталога у себя.

Читать далее
Всего голосов 15: ↑14 и ↓1+13
Комментарии5

Эконометрическое моделирование трафика: зачем мы изучали влияние дождя и времени года на посещаемость магазинов

Время на прочтение8 мин
Количество просмотров5.5K

Приветствую, Хабр! Моя работа связана с оценкой эффективности различных инициатив бизнеса, а также, в том числе, с прогнозированием спроса и трафика. Я не буду долго и нудно рассказывать, зачем ритейлу подобные прогнозы. Думаю, что тут всё достаточно очевидно. Лучше подробнее расскажу о нашем собственном подходе к моделированию медиа‑эффектов, о том, что у нас получилось, когда мы решили усовершенствовать систему прогноза посещаемости торговых точек, исходя из будущей рекламной активности, ожиданий относительно рекламы конкурентов и влияния прочих факторов.

Читать далее
Всего голосов 7: ↑4 и ↓3+1
Комментарии8

Главное из книги Fundamentals of Data engineering — фундаментального труда о дата-инжиниринге

Время на прочтение10 мин
Количество просмотров9.1K


Команда VK Cloud перевела статью, в которой автор кратко излагает основные мысли книги Джо Рейса и Мэтта Хаусли Fundamentals of Data engineering. Здесь приводится краткий конспект глав и самые важные моменты, которые полезно знать любому человеку, работающему с данными.
Читать дальше →
Всего голосов 25: ↑25 и ↓0+25
Комментарии0

Введение в библиотеку Diffusers и диффузионные модели

Уровень сложностиПростой
Время на прочтение16 мин
Количество просмотров6.7K

Diffusers — это библиотека от Hugging Face, которая позволяет работать с сотнями предобученных моделей класса Stable Diffusion для создания изображений и аудио.

Всегда хотели стать художником, но у вас лапки? :) Тогда Diffusers этот то, что вам нужно!

В этой статье рассмотрим основные возможности библиотеки, ее компонентов, а также моделей Stable Diffusion в целом.

З.Ы. Подписывайтесь на мой телеграм-канал :)

Читать далее
Всего голосов 11: ↑11 и ↓0+11
Комментарии2

Проблематика Open Source: профиль риска, лицензирование, как выбирать продукт и подход к разработке решений

Время на прочтение12 мин
Количество просмотров3.6K
Привет, я Ольга Свитнева, идеолог и менеджер продукта «Платформа данных» в VK Cloud. В современном мире ИТ тема Open Source поднимается довольно часто. Особенно когда речь идет о работе с данными. И тому есть ряд объективных причин.

В этой статье я предлагаю взглянуть на Open Source прагматично и разобрать неочевидные аспекты разработки и использования открытого ПО, в том числе лицензирование. Также мы поговорим об уникальном профиле риска OSS, о подходах к выбору решений и промышленных стандартах OSS для Data Pipeline.
Читать дальше →
Всего голосов 23: ↑23 и ↓0+23
Комментарии0
Изменить настройки темы

Вклад авторов

Работа

Data Scientist
62 вакансии