Big Data *

Большие данные и всё о них

Статьи Посты Новости Авторы Компании

kucev 25 окт 2023 в 08:50

12 лучших инструментов аннотирования изображений на 2023 год

11 мин

2.5K

Data Mining*Обработка изображений*Big Data*Машинное обучение*Искусственный интеллект

Перевод

С развитием сферы искусственного интеллекта (AI) увеличивается и спрос на высококачественные инструменты аннотирования изображений. Аннотирование изображений — это процесс добавления в изображения метаданных, например, меток или тэгов, чтобы их было проще распознавать и выполнять по ним поиск машинам. Этот процесс критически важен для обучения моделей ИИ, чтобы они могли точно распознавать и классифицировать изображения.

При таком большом количестве имеющихся инструментов аннотирования изображений может быть сложно понять, какие из них лучше подходят под ваши потребности. Чтобы помочь вам сделать более обоснованное решение, мы составили список двенадцати лучших инструментов аннотирования изображений на 2023 год.

В этой статье мы обсудим критерии, использованные для оценки этих инструментов, их плюсы и минусы, а также сравним их между собой. Также мы приведём отзывы и рейтинги пользователей, варианты цен и тарифов и информацию об интеграции с другим ПО и платформами.

Читать дальше →

shpringer 24 окт 2023 в 07:10

Без работы не останемся: к 2030 году ИИ добавит семь новых профессий

9 мин

11K

Блог компании VKBig Data*Машинное обучение*Искусственный интеллект

Перевод

ChatGPT стремительно захватывает весь мир. Уже сейчас у нейросети более 100 миллионов пользователей — ни у какого другого приложения не было таких темпов роста. Без сомнения, с его появлением мы будем работать по-другому.

Другие компании тоже почти не отстают от OpenAI — каждый день мы видим революционные достижения генеративного ИИ. За этими инновациями стоят не только NVIDIA, Midjourney и другие ИТ-гиганты, но и стартапы, и Open-Source-сообщество. В ближайшие годы рынок труда ждут кардинальные перемены. ИИ заменит самые разные работы, но, думаю, он же предложит нам новые очень интересные профессии.

Читать дальше →

+18

kucev 23 окт 2023 в 13:17

Почему важна разметка данных: в основе ChatGPT лежит труд людей

4 мин

3.1K

Data Mining*Big Data*Машинное обучение*Искусственный интеллект

Перевод

Чат-боты стали неотъемлемой частью жизни, они в равной степени помогают нам и в работе, и в развлечениях. Одним из примеров таких ботов является ChatGPT компании OpenAI — обученная в беспрецедентных масштабах языковая модель, способная генерировать похожие на человеческие ответы на широкий спектр промтов. ChatGPT быстро набрал популярность, продемонстрировав мощь ИИ, и привлёк внимание общественности к этой сфере. Однако хотя его успех часто связывают с лежащими в его основе современными технологиями, многие недооценивают человеческий труд, вложенный в создание ChatGPT.

Читать дальше →

-2

VTB 23 окт 2023 в 07:44

«Большие вызовы» в «Сириусе», или как мы обычно проводим лето

6 мин

1.8K

Блог компании ВТБBig Data*Машинное обучение*Учебный процесс в ITIT-компании

Привет, Хабр! Третий год подряд летом мы в ВТБ снаряжаем команду IT-специалистов менторить школьников, которые пробуют себя в роли разработчиков на конкурсе «Большие вызовы» в образовательном центре «Сириус». В этом году на «Больших вызовах» побывали наши дата-сайентисты — они помогали команде подростков сделать сервис геоаналитики.

В этой статье мы расскажем, как устроено менторство в «Сириусе» и чем это полезно взрослым компаниям. Так, однажды мы нашли на конкурсе талантливого разработчика себе в команду. Но обо всём по порядку. Добро пожаловать под кат.

kucev 19 окт 2023 в 11:26

Разметка данных при помощи GPT-4

9 мин

6.9K

Data Mining*Big Data*Машинное обучение*Искусственный интеллект

Перевод

Разметка данных — критически важный компонент проектов машинного обучения. К ней применима старая поговорка «мусор на входе — мусор на выходе». В процессе разметки создаются аннотированные датасеты для обучения и проверки. Однако этот процесс может быть длительным и дорогостоящим, особенно для проектов с большими объёмами данных. Но что если мы сможем воспользоваться прогрессом LLM для снижения затрат и усилий, необходимых для выполнения задач разметки данных?

GPT-4 — это современная языковая модель, разработанная компанией OpenAI. Она способна понимать запросы и генерировать текст, напоминающий составленный людьми. В этом посте мы расскажем о том, как можно использовать GPT-4 с целью настройки меток для различных задач. Это может существенно снизить затраты времени и труда, связанные с процессом разметки. Чтобы показать, как инжиниринг промтов способен помочь в создании точных и надёжных меток при помощи GPT-4 и как эту методику можно использовать для гораздо более мощных возможностей, мы воспользуемся примером с классификацией эмоционального настроя (sentiment classification).

Читать дальше →

Flexxxey 19 окт 2023 в 10:00

YTsaurus SPYT: помогаем планировщику Apache Spark быть ещё эффективнее

Сложный

13 мин

2.2K

Блог компании Конференции Олега Бунина (Онтико)Блог компании Yandex Cloud & Yandex InfrastructureBig Data*Data Engineering*

В больших распределённых системах многое зависит от эффективности запросов: если на гигабайте данных неоптимальный запрос может выполняться за миллисекунды, то при увеличении массива в тысячи раз, сервер начнёт кряхтеть, пыхтеть и жаловаться. Чтобы избежать этого, помогут знания о работе распределённых систем и их частей, а именно — планировщиков.

Ещё с университетских времён я исследую распределённые системы, а последние два года в Яндексе адаптирую Apache Spark к внутренней инфраструктуре. Эта статья посвящена Apache Spark, а именно: как мы в рамках YTsaurus делали его ещё эффективнее. Написана она по мотивам моего доклада для «Онтико».

+17

nikita_volkov 19 окт 2023 в 09:55

От A/B-тестирования к Causal Inference в оффлайн ритейле

Средний

31 мин

9.8K

Блог компании X5 TechData Mining*Big Data*Машинное обучение*

Туториал

✏️ Технотекст 2023

Приветствуем всех читателей! Сегодня команда Ad-Hoc аналитики X5 Tech приоткроет дверь в увлекательный мир ~~A/B-тестирования~~ Causal Inference. С момента написания предыдущей статьи прошло уже 4 года. За это время наш подход к оценке инициатив значительно эволюционировал. Мы собирали бизнес-кейсы, изучали научную литературу, экспериментировали с реальными данными и в итоге пришли не только к другой модели для оценки эффекта, но и изменили методологию в целом.

kucev 19 окт 2023 в 09:32

Размерности качества данных: обеспечение качества данных с помощью Great Expectations

7 мин

1.8K

Data Mining*Администрирование баз данных*Big Data*Хранение данных*Data Engineering*

Перевод

Качество данных играет критически важную роль в любом процессе управления данными. Организации используют данные для принятия решений и улучшения различных бизнес-показателей. Однако если данные усеяны неточностями, ошибками или несогласованностями, то они могут нанести больше вреда, чем пользы.

Согласно опросу Gartner за 2020 год, в среднем потери из-за низкого качества данных составляют примерно $12,8 миллиона за год. Как сообщается в последнем отчёте State of Data Quality, задержки продакшена (задержки с выпуском продукта) — характерный симптом низкого качества данных. Высококачественные и безошибочные данные повышают надёжность и верность полученных из них выводов.

Для повышения качества данных необходима система его оценки. В достижении этой цели вам помогут размерности качества данных. Размерности позволяют измерять покрытие и выявлять компоненты, требующие тестирования качества данных.

В этой статье рассматриваются шесть размерностей качества данных: полнота, согласованность, целостность, вневременная актуальность, уникальность и валидность. Определив их, вы сможете обеспечить исчерпывающее понимание качества данных и выявить аспекты, требующие совершенствования. И здесь нам на помощь приходит Great Expectation (GX).

Читать дальше →

shpringer 19 окт 2023 в 09:12

Поговорите с детьми об ИИ: шесть вопросов, которые стоит обсудить

6 мин

2.4K

Блог компании VKBig Data*Машинное обучение*Искусственный интеллект

Перевод

ИИ, и в том числе ChatGPT, активно входит в нашу жизнь. Сейчас многие взрослые уже освоились с технологией, а школы решили исследовать, как использовать системы ИИ для обучения детей важному навыку — критическому мышлению. Но и в школе, и в жизни дети сталкиваются не только с чат-ботами. Искусственный интеллект проникает всюду: он рекомендует нам видео на Netflix, помогает Alexa отвечать на вопросы, управляет любимыми интерактивными фильтрами в Snapchat и способами разблокировки смартфона.

Команда VK Cloud перевела статью о том, почему детям важно знать об ИИ как можно больше и понимать принципы работы этих систем. В статье раскрывается, что важно рассказать об ИИ детям — хотя и взрослым это будет полезно.

Читать дальше →

+21

kucev 19 окт 2023 в 09:05

9 лучших инструментов аннотирования изображений для Computer Vision

9 мин

2.7K

Data Mining*Обработка изображений*Big Data*Машинное обучение*Искусственный интеллект

Перевод

На дворе 2023 год, но аннотирование изображений по-прежнему остаётся одним из самых трудоёмких этапов вывода на рынок проекта компьютерного зрения. В помощь вам мы составили список самых популярных инструментов аннотирования изображений.

Это руководство поможет вам сравнить лучшие инструменты аннотирования и выбрать подходящий.

Мы будем сравнивать каждый из них по ключевым факторам, в том числе по функциональности аннотирования, поддержке различных типов данных и сценариев использования, возможностям QA/QC, безопасности и конфиденциальности данных, управлению данными, интеграции с конвейером машинного обучения и клиентской поддержке.

Читать дальше →

NewTechAudit 19 окт 2023 в 07:25

Обработка больших данных при помощи библиотеки .NET for Apache Spark

Средний

7 мин

1.8K

Big Data*

Туториал

Привет Хабр!

Сегодня с вами Станевич Антон, участник профессионального сообщества NTA и ваш проводник в мир .NET for Apache Spark.

В моей работе я часто сталкиваюсь с необходимостью загрузки, трансформации, интерпретации различных данных и в этом посте я расскажу об использованном мной инструменте — фреймворке .NET for Apache Spark.

Погрузиться в .NET for Apache Spark

-1

nadzhim 18 окт 2023 в 12:14

DataOps Platform: из чего состоит наша платформа для работы с данными и как мы её создавали

5 мин

2.3K

Блог компании МТСОблачные вычисления*Big Data*Хранилища данных*История IT

Привет, Хабр! Меня зовут Наджим Мохаммад, я руководитель продукта МТС. Вместе с моим коллегой, руководителем направления разработки платформы МТС Big Data Максимом Бартеневым сегодня мы поговорим об эволюции платформ данных и нюансах работы платформы МТС для работы с данными. Также обсудим историю развития самой DataOps Platform.

x-sile 17 окт 2023 в 12:33

MLOps в билайн: как катить машинное обучение в production без ML-инженеров. Часть I

Средний

10 мин

5.8K

Блог компании билайнIT-инфраструктура*Big Data*Машинное обучение*DevOps*

Туториал

Всем привет! Меня зовут Николай Безносов, я отвечаю за применение и развитие машинного обучения и продвинутой аналитики в билайне. В одной из прошлых статей мои коллеги рассказывали о месте Seldon в ML-инфраструктуре компании, а сегодня мы поднимемся на уровень выше и поговорим о том, что из себя представляет MLOps в билайне в целом - как с точки зрения инфраструктуры, так и с точки зрения процессов.

В статье речь пойдет о нашем опыте создания ML-платформы, которая помогает дата-сайентистам самостоятельно управлять всем жизненным циклом ML-моделей - от разработки до постановки в production. Я рассчитываю, что статья будет полезна как небольшим командам, которые только начинают выстраивать у себя ML-инфраструктуру, так и корпорациям с большим количеством команд и жесткими требованиями к безопасности, которые при этом хотят эффективно масштабироваться.

Статья будет состоять из двух частей. В первой части мы посмотрим верхнеуровнево, как и по каким причинам менялись наши ML-процессы и инфраструктура в билайне - с чего мы начинали и к чему в итоге пришли. Во второй части поговорим о конкретных инструментах и технологиях, которые мы внедрили, чтобы сделать наш процесс разработки и деплоя моделей простым, воспроизводимым, автоматизируемым и наблюдаемым.

+17

ITSumma 16 окт 2023 в 11:27

Потоковая обработка данных: анализ альтернативных решений

8 мин

3.3K

Блог компании ITSummaАдминистрирование баз данных*Apache*Big Data*Data Engineering*

Обзор

Всем привет! Я Алексей Пономаревский, разработчик решений для платформ сбора и обработки больших данных.

Два года назад мы в ITSumma создали решение для потоковой обработки данных с помощью Apache Spark и базы данных Greenplum — spark-greenplum-connector. Это многофункциональный плагин для Spark, на его основе инженеры могут строить ETL-решения и анализировать данные in-memory.

Изначально мы разработали его, как часть клиентской платформы потоковой обработки данных. Но со временем он прирос одной интересной функциональностью, которая недоступна сейчас в других подобных решениях. В этой статья я хочу сделать краткое сравнение между двумя opensource-продуктами Apache Spark и Flink, а также рассказать об одной интересной особенности Spark, которую мы реализовали в коннекторе.

+21

DataBanksy 15 окт 2023 в 15:54

С чем едят self service и что есть в Российском меню BI платформ

Простой

5 мин

2.2K

Анализ и проектирование систем*Big Data*Визуализация данных*Софт

Мнение

Последнее время очень много на рынке говорят про Self Service BI (SS), что это такое и почему каждый пытается сейчас заявить, что он и есть настоящий self service?

Давайте разбираться по порядку.

-3

Isenanao 12 окт 2023 в 17:16

Каталог данных — почему без него непросто и как всё организовать с максимальной пользой

Средний

12 мин

5.1K

Блог компании Московский кредитный банкBig Data*DevOps*

В этом посте мы расскажем, как организовали каталог данных в МКБ в текущих условиях — когда многие вендоры ушли, и по-настоящему рабочих вариантов осталось два: или пилить что-то самим с нуля, или обратиться к опенсорсным решениям.

Пилить самим — тут как всегда, это и дорого, и долго. Брать же готовую коробку и использовать ее вчистую тоже достаточно сложно, вы же не знаете наверняка и досконально, чего там и как на самом деле внутри работает.

Когда речь идет о корпоративных данных, это важно. К примеру, та же OpenMetadata — если не знать ее подкапотное устройство, работать с ней будет сложно. А разобраться сложно, потому что документация по ней на сегодня скудноватая, и экспертизы у людей на рынке еще не набралось, из-за чего до много приходится додумываться самим уже в процессе.

Под катом — немного о проблематике работы с данными (и о доверии), о плюсах, которые даст вам каталог данных, а также наша подробная инструкция для разворачивания каталога у себя.

+13

X5Tech 12 окт 2023 в 13:50

Эконометрическое моделирование трафика: зачем мы изучали влияние дождя и времени года на посещаемость магазинов

8 мин

5.5K

Блог компании X5 TechАнализ и проектирование систем*Big Data*

Приветствую, Хабр! Моя работа связана с оценкой эффективности различных инициатив бизнеса, а также, в том числе, с прогнозированием спроса и трафика. Я не буду долго и нудно рассказывать, зачем ритейлу подобные прогнозы. Думаю, что тут всё достаточно очевидно. Лучше подробнее расскажу о нашем собственном подходе к моделированию медиа‑эффектов, о том, что у нас получилось, когда мы решили усовершенствовать систему прогноза посещаемости торговых точек, исходя из будущей рекламной активности, ожиданий относительно рекламы конкурентов и влияния прочих факторов.

shpringer 12 окт 2023 в 10:17

Главное из книги Fundamentals of Data engineering — фундаментального труда о дата-инжиниринге

10 мин

9.1K

Блог компании VKАдминистрирование баз данных*Big Data*Профессиональная литература*

Перевод

Команда VK Cloud перевела статью, в которой автор кратко излагает основные мысли книги Джо Рейса и Мэтта Хаусли Fundamentals of Data engineering. Здесь приводится краткий конспект глав и самые важные моменты, которые полезно знать любому человеку, работающему с данными.

Читать дальше →

+25

slivka_83 12 окт 2023 в 08:22

Введение в библиотеку Diffusers и диффузионные модели

Простой

16 мин

6.7K

Python*Data Mining*Big Data*Машинное обучение*Искусственный интеллект

Туториал

✏️ Технотекст 2023

Diffusers — это библиотека от Hugging Face, которая позволяет работать с сотнями предобученных моделей класса Stable Diffusion для создания изображений и аудио.

Всегда хотели стать художником, но у вас лапки? :) Тогда Diffusers этот то, что вам нужно!

В этой статье рассмотрим основные возможности библиотеки, ее компонентов, а также моделей Stable Diffusion в целом.

З.Ы. Подписывайтесь на мой телеграм-канал :)

+11

OlgaSvit 11 окт 2023 в 07:59

Проблематика Open Source: профиль риска, лицензирование, как выбирать продукт и подход к разработке решений

12 мин

3.6K

Блог компании VKBig Data*Машинное обучение*

Обзор

✏️ Технотекст 2023

Привет, я Ольга Свитнева, идеолог и менеджер продукта «Платформа данных» в VK Cloud. В современном мире ИТ тема Open Source поднимается довольно часто. Особенно когда речь идет о работе с данными. И тому есть ряд объективных причин.

В этой статье я предлагаю взглянуть на Open Source прагматично и разобрать неочевидные аспекты разработки и использования открытого ПО, в том числе лицензирование. Также мы поговорим об уникальном профиле риска OSS, о подходах к выбору решений и промышленных стандартах OSS для Data Pipeline.

Читать дальше →

+23

1 2 ...

6 7

9 10 ...

49 50

Big Data *

12 лучших инструментов аннотирования изображений на 2023 год

Без работы не останемся: к 2030 году ИИ добавит семь новых профессий

Почему важна разметка данных: в основе ChatGPT лежит труд людей

«Большие вызовы» в «Сириусе», или как мы обычно проводим лето

Истории

Разметка данных при помощи GPT-4

YTsaurus SPYT: помогаем планировщику Apache Spark быть ещё эффективнее

От A/B-тестирования к Causal Inference в оффлайн ритейле

Размерности качества данных: обеспечение качества данных с помощью Great Expectations

Поговорите с детьми об ИИ: шесть вопросов, которые стоит обсудить

9 лучших инструментов аннотирования изображений для Computer Vision

Обработка больших данных при помощи библиотеки .NET for Apache Spark

DataOps Platform: из чего состоит наша платформа для работы с данными и как мы её создавали

MLOps в билайн: как катить машинное обучение в production без ML-инженеров. Часть I

Ближайшие события

Потоковая обработка данных: анализ альтернативных решений

С чем едят self service и что есть в Российском меню BI платформ

Каталог данных — почему без него непросто и как всё организовать с максимальной пользой

Эконометрическое моделирование трафика: зачем мы изучали влияние дождя и времени года на посещаемость магазинов

Главное из книги Fundamentals of Data engineering — фундаментального труда о дата-инжиниринге

Введение в библиотеку Diffusers и диффузионные модели

Проблематика Open Source: профиль риска, лицензирование, как выбирать продукт и подход к разработке решений

Вклад авторов

Работа