Все потоки

Big Data *

Большие данные и всё о них

СтатьиПостыНовостиАвторыКомпании

@evgeniatro 14 ноя 2024 в 10:10

Машинное обучение в оценке кредитных рисков: как ML меняет правила игры?

7 мин

2.2K

Блог компании Data LightBig Data *

Машинное обучение в оценке кредитных рисков: как ML меняет правила игры?

Современные скоринговые системы — это не просто статистика и математические модели, а мощные инструменты анализа рисков, которые могут определять не только кредитоспособность клиентов, но и выявлять угрозы для бизнеса на ранних стадиях.

В условиях быстро меняющихся финансовых рынков и растущей неопределенности использование ML в оценке рисков становится решающим фактором для банков и финансовых организаций. ML позволяет выйти за рамки стандартных моделей и анализировать гораздо больше факторов, включая поведение клиента, макроэкономические условия и другие непрямые признаки.

Подходы, о которых пойдет речь в этой статье, будут полезны как специалистам в области data science и нейронных сетей, так и бизнесу, ищущему надежные решения для управления рисками.

Читать далее

+6

@full_moon 14 ноя 2024 в 09:17

Big Data мертвы, да здравствуют Smart Data

Средний

10 мин

5.9K

Блог компании Magnus TechBig Data * Data Engineering * Data Mining * Анализ и проектирование систем *

Big data is dead. Во всяком случае, так утверждает генеральный директор MotherDuck в статье, перевод которой собрал 140 плюсов на Хабре. Обработку и использование больших данных обсуждали в течение последнего десятилетия, но они потеряли актуальность как драйвер развития компаний. Означает ли это их окончательную смерть?

Есть и другое мнение: концепция не умерла, а эволюционирует. Фокус смещается от количества собираемой информации к ее качеству. Этот сдвиг парадигмы привел к появлению понятия Smart Data — «умных» данных, которые являются продуктом интеллектуальной обработки и эволюции Big Data.

Давайте рассмотрим концепцию Smart Data и выясним, действительно ли Big Data превращаются во что-то более интеллектуальное.

Читать далее

+15

@n_glebko 13 ноя 2024 в 11:21

Инхаус-разметка с нуля. Реально ли это и насколько полезно?

Средний

12 мин

543

Блог компании NtechLabBig Data *

Мнение

Разметка данных нужна для обучения нейронных сетей. К примеру, если мы учим сеть отличать живое лицо человека от фотографии или силиконовой маски для Face ID, то нам нужно разметить много-много фотографий человека, показать ИИ его маску и живое лицо. В этом посте расскажу, как мы это делаем в NtechLab и где берем людей для разметки большого объема данных. Также попытаюсь ответить на вопрос, стоит ли создавать собственные отделы по разметке данных внутри компании или можно ограничиться краудсорсингом или аутсорсингом, расскажу о некоторых рабочих кейсах. Приятного чтения!)

Что такое разметка данных?

Привет, Хабр! Меня зовут Надя Глебко. В NtechLab я проработала почти 4 года. Когда-то я пришла в компанию в качестве junior менеджера по разметке без особого опыта – но уже спустя полгода начала строить команду внутри компании. А уже через три года стала руководителем команды в составе 8 менеджеров и 3 валидаторов, а база наших инхаус-разметчиков составила около 100 человек. За это время был пройден невероятный путь роста и развития, проб и ошибок – и мне видится полезным поделиться этим опытом со всеми, кому интересна эта сфера. Но начнем с базы)

Читать далее

+4

@savrus_pub 13 ноя 2024 в 07:00

Новые динтаблицы: вторичные индексы, web assembly и ещё много улучшений к версии YTsaurus 24.1.0

17 мин

1.9K

Блог компании ЯндексБлог компании Yandex Cloud & Yandex InfrastructureBig Data * Open source * Хранение данных *

Динамические таблицы — это распределённая база данных, key‑value‑пары которой объединяются в привычные пользователям реляционных СУБД таблицы. В YTsaurus в них можно хранить огромные массивы данных, при этом их можно быстро читать — поэтому YTsaurus используют почти все сервисы Яндекса: Реклама, Маркет, Такси, даже Поиск при построении поисковой базы, и другие.

Я руковожу службой разработки динамических таблиц в Yandex Infrastructure и раньше уже рассказывал, как мы оптимизировали чтение, улучшали выборку строк в SQL‑запросах и защищались от перегрузок. Сегодня вышла новая версия YTsaurus 24.1.0, в которой динамические таблицы получили ещё несколько долгожданных доработок. В статье расскажу про них подробнее.

Читать далее

+32

@ASDF102030 9 ноя 2024 в 05:18

Выбираем BI платформу для начинающего специалиста

Простой

4 мин

9.2K

Визуализация данных * Big Data * Карьера в IT-индустрии

Из песочницы

Привет! Я работаю аналитиком данных в IT компании и только начинаю писать статьи на habr. Как и все когда-то я только начинала входить в IT и не понимала, что мне необходимо знать. Эта статья поможет тем кто находится в поисках подходящей BI платформы для изучения.

Читать далее

+2

@skillfactory_school 8 ноя 2024 в 15:43

Support Vector Machine: +1 алгоритм машинного обучения для начинающих

Простой

5 мин

4K

Блог компании SkillfactoryBig Data * Data Engineering *

Туториал

Recovery Mode

Метод опорных векторов — это алгоритм машинного обучения, применяемый для задач линейной и нелинейной классификации, регрессии и обнаружения аномальных данных. С его помощью можно классифицировать текст, изображения, обнаружить спам, идентифицировать почерк, анализировать экспрессии генов, распознавать лица, делать прогнозы и так далее. SVM адаптируется и эффективен в различных приложениях, поскольку может управлять многомерными данными и нелинейными отношениями.

Читать далее

+5

@evgeniatro 8 ноя 2024 в 14:25

Как создать датасет для машинного обучения за 6 шагов

9 мин

7K

Блог компании Data LightData Mining * Big Data *

Recovery Mode

Устали искать идеальный набор данных для обучения ваших моделей машинного обучения? Часто в таких случаях оптимальное решение — это создать его самостоятельно.

Сегодня мы обсудим шесть шагов для создания наборов данных, которые идеально подойдут под ваши задачи, и разберем их на примере датасета, который мы собрали в Data Light.

Читать далее

+11

@koanse 8 ноя 2024 в 13:01

Определяем доли и коэффициенты проникновения с помощью DAX

Простой

4 мин

1.4K

Блог компании VisiologyВизуализация данных * Big Data * SQL *

Кейс

Привет, Хабр! Одной из важных задач в аналитических запросах является расчет долей, который позволяет узнать, какая часть записей из общего количества по всей таблице соответствует какому-либо критерию. Также нередко полезными оказываются коэффициенты проникновения (в общем-то тоже являющиеся долями). Они позволяют оценить продажи, найти взаимосвязи признаков и сделать много еще чего полезного. Чтобы проводить такого рода расчеты идеально подходит язык DAX. Если Вам интересно, насколько это удобно и как именно сделать это в DAX — добро пожаловать под кат :)

Читать далее

+3

@evgeniatro 8 ноя 2024 в 07:11

Как разметить данные для классификации изображений: руководство с примерами

6 мин

1.2K

Блог компании Data LightBig Data * Data Engineering *

Представьте, что вам нужно научить машину "видеть" и понимать мир вокруг. Нет, не просто распознавать лица или выделять дороги на фотографиях – а по-настоящему разбираться, что изображено на любом снимке, будь то лес, чашка кофе или картина. Классификация изображений – это ключ к машинному зрению. Но как этому научить модель?

В этой статье мы поговорим о том, как классификация может использоваться в бизнесе, какие этапы подготовки таких данных существуют, а также разберемся, как выполнить аннотацию для этой задачи.

Читать далее

+3

@k0rsakov 8 ноя 2024 в 06:00

Что такое Data Driven подход

Простой

4 мин

6.3K

Data Engineering * Big Data * IT-стандарты * Терминология ITАнализ и проектирование систем *

Туториал

В современном мире бизнес сталкивается с необходимостью постоянно принимать решения. От их качества зависит не только успех отдельных проектов, но и будущее всей компании.

В этой статье мы разберём основные подходы к принятию решений в бизнесе и узнаем, почему компании всё чаще строят свою работу на данных. А ещё расскажу о роли, без которой data-driven подход попросту невозможен – о роли дата-инженера.

Читать далее

+1

@appp_master 7 ноя 2024 в 12:00

Apache Flink: Сериализация и JacksonStateSerializer

12 мин

1K

Блог компании МТСData Engineering * Распределённые системы * Big Data * Java *

Привет, Хабр! На связи Александр Бобряков, техлид в команде МТС Аналитики. Это мой десятый материал про Apache Flink. В предыдущей части мы закончили разбирать оператор с Flink-таймерами, использующими внутреннее состояние. Также я показал, как их можно тестировать с помощью классов TestHarness или Flink MiniCluster. В дополнение тестами была покрыта вся Flink-джоба, включая E2E-тесты.

В этой части мы посмотрим сериализацию данных и состояний в операторах. Также напишем свой сериализатор, поддерживающий эволюцию схемы. В следующих частях протестируем его и внедрим в наше приложение.

Весь разбираемый исходный код можно найти в репозитории AlexanderBobryakov/flink-spring. В master-ветке представлен итоговый проект по всей серии статей. Эта часть соответствует релизной ветке с названием release/9_JacksonStateSerializer.

По мере выхода новых материалов на Хабре ссылки на них будут появляться ниже.

Читать далее

+9

@kucev 7 ноя 2024 в 07:34

Оценка LLM: комплексные оценщики и фреймворки оценки

10 мин

862

Машинное обучение * Искусственный интеллектData Mining * Data Engineering * Big Data *

Перевод

В этой статье подробно описываются сложные статистические и предметно-ориентированные оценщики, которые можно использовать для оценки производительности больших языковых моделей. В ней также рассматриваются наиболее широко используемые фреймворки оценки LLM, которые помогут вам начать оценивать производительность модели.

Читать далее

0

@PereslavlFoto 6 ноя 2024 в 16:51

Национальный Суперкомпьютерный Форум пройдёт в Переславле 26—29 ноября 2024 года

Простой

2 мин

527

СуперкомпьютерыПроизводство и разработка электроники * КонференцииВысоконагруженные системы * Big Data *

Тринадцатый НСКФ пройдёт с 26 по 29 ноября 2024 года. В его программе будут научно-практическая конференция, мастер-классы, выставка, пресс-конференция и круглый стол. В холле будут чай, кофе, печенье и неформальное общение. Добро пожаловать!

Читать дальше →

+1

@supervisor 6 ноя 2024 в 09:09

Открытый датасет TelecomX

Простой

5 мин

1.2K

Блог компании ArenadataBig Data *

Аналитика

Всем привет! Хочу поделиться с теми, кто интересуется большими данными, своей работой. Дело в том, что довольно часто, когда мы читаем какую-либо статью или техдоку по этой предметной области, приводимые примеры опираются на крохотные наборы данных. И это не даёт понимания и погружения в специфику — напоминает обучение вождению на Need for speed. Более того, я не смог найти более-менее крупные наборы реальных бизнесовых данных или те, что были хотя бы похожи на реальные. Ну и как это часто бывает, пришлось сделать самому. Если вас интересует эта тематика, проследуйте под кат.

Читать далее

+10

@SergeyProkhorenko 3 ноя 2024 в 21:05

Смещение значения таймстемпа UUIDv7

Средний

2 мин

1.9K

Высоконагруженные системы * Анализ и проектирование систем * IT-стандарты * Big Data * Хранение данных *

Аналитика

UUIDv7 – это удобный и безопасный 128-битный уникальный идентификатор, который призван заменить целочисленные суррогатные ключи формата bigint в качестве первичного ключа в высоконагруженных базах данных и распределенных системах.

Читать далее

+5

@evgenijkkk 2 ноя 2024 в 10:28

GigaChat MAX — новая, сильная модель GigaChat

Средний

22 мин

28K

Блог компании СберБлог компании SberDevicesBig Data * Искусственный интеллектМашинное обучение *

Обзор

Салют, Хабр! Прошедший сезон оказался богат на релизы: ровно год назад мы делились новостями о GigaChat Pro, затем весной рассказали об увеличении контекста и улучшении возможностей модели, а совсем недавно завершили обучение GigaChat Vision: мы научили GigaChat понимать картинки и уже пишем про это статью.

Наши модели непрерывно развиваются, обретая всё больше новых функций, и сегодня повод рассказать о них. Встречайте наш новый GigaChat MAX!

+102

@Neurocore_AI 1 ноя 2024 в 19:48

Почему оценить стоимость датасета не так просто, как кажется на первый взгляд

Средний

9 мин

1.3K

Обработка изображений * Машинное обучение * Искусственный интеллектData Mining * Big Data *

Из песочницы

Представьте, что вы получили заказ на разметку датасета из 1,000 изображений. Вы берете 20 картинок из сета, проводите тесты и получаете примерную стоимость 1 изображения. В итоге вы оцениваете проект, основываясь на количестве изображений, и устанавливаете цену за каждое. Однако, когда данные приходят, оказывается, что на каждом изображении не один объект к разметке, как было на тестах, а десятки! В итоге вы тратите гораздо больше времени и средств, чем планировали в начале.

Как избежать таких распространенных ошибок и защитить свой бизнес от неожиданных затрат и задержек? Давайте обсудим, какие ошибки чаще всего возникают при оценке проектов по сбору и разметке данных для машинного обучения, и на что важно обращать внимание, чтобы гарантировать корректную оценку ваших проектов. Узнайте больше в статье Романа Фёдорова, эксперта в области подготовки датасетов для машинного обучения.

Читать далее

+1

@evgeniatro 1 ноя 2024 в 11:17

Семантическая сегментация: самый полный гайд 2024

10 мин

3.5K

Блог компании Data LightData Mining * Data Engineering * Big Data *

Что общего между автономными автомобилями, медицинскими диагностическими системами и спутниковыми снимками Земли?

Ответ прост: все они зависят от способности машин «видеть» и понимать окружающий мир. Чтобы компьютер мог распознать объекты на изображении и отличить небо от дороги, человека от автомобиля или лес от здания, необходимо использовать технологии сегментации изображений. Но как именно машины учатся такому зрению и как использовать эту технологию для бизнеса? Давайте поговорим о семантической сегментации.

Читать далее

+1

@digitalsibur 1 ноя 2024 в 10:18

Импортозамещение Data Quality стека в нефтегазохимии: опыт СИБУРа

Средний

6 мин

1.8K

Блог компании Цифровой СИБУРBig Data * Data Engineering * Промышленное программирование * Хранение данных *

Кейс

В СИБУРе много данных, которые текут в режиме реального времени с многочисленных датчиков на разных производствах, эти данные нужно собирать, хранить, обрабатывать и анализировать, чтобы компания могла принимать правильные бизнес-решения. И от качества инфраструктуры для работы с данными зависит рентабельность производств и прибыль компании в целом, а это жизненно важные показатели.

В небольшом цикле из двух статей мы разберём опыт СИБУРа в создании, поддержке и развитии DQ (Data Quality — качество данных) сервиса для DWH (Data Warehouse — хранилище данных) в условиях санкций и исчезающих вендоров проверенных и привычных решений.

Рассказывать об этом опыте будет Александр Бергер, Lead DQ Analyst в Цифровом СИБУРе, которому посчастливилось лидить процесс создания DQ-сервиса на решениях вендора, который решил покинуть рынок РФ в разгар рабочего процесса.

Читать далее

+6

@Beeline_tech 1 ноя 2024 в 09:07

Система сквозного логирования с передачей единого идентификатора между независимыми задачами Airflow

Средний

7 мин

34K

Блог компании билайнBig Data * Хранение данных *

Туториал

Привет! Меня зовут Никита Хилов, я работаю в билайне уже более десяти лет. Начинал я работать с поддержкой систем фиксированного фиксированного биллинга, впоследствии я отвечал за разработку и поддержку различных расчетов по системам управленческой или корпоративной отчетности. А сейчас я работаю в роли тимлида дата-инженеров в блоке по архитектуре и инфраструктуре данных и отвечаю за управление разработкой и сопровождением программных продуктов компании по различным точкам бизнес-приложения.

Итак, какие же вопросы мы обсудим в этой серии постов. Сегодня я хочу осветить вопросы касаемо того, как же нам организовывать, компоновать и в принципе заставить работу систему журналирования наших расчетов для таких случаев, когда наш общепринятый ключ периодики, на котором мы обычно строим свои расчеты, перестает быть однозначным идентификатором той итерации процесса подготовки данных, на которую мы сейчас смотрим, и от которых мы ждем результаты.

Мы обсудим, например, когда такое происходит и что для этого является катализатором. Рассмотрим механики и механизмы, которые дают возможность связывать независимые процессы и цепочки подготовки данных в единое целое.

И в дополнение расскажу, как мы эту проблему решали в своем продукте.

Но прежде всего давайте определим для чего нам это, в принципе, нужно.

Читать далее

+8

1 2 ...

33

34 35 ...