Как стать автором
Поиск
Написать публикацию
Обновить
123.6

Big Data *

Большие данные и всё о них

Сначала показывать
Период
Уровень сложности

Почему рейтинги лгут: разбираемся, как и почему рейтинги BI не говорят всей правды

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.6K

Мы, Luxms, создаём передовые решения для обработки и анализа данных. В этой статье мы поговорим о том, как на основе рейтингов можно пропустить подходящий вам BI-инструмент и о том, как выбрать неподходящий.

Рейтинг кажется находкой для бизнеса: посмотрел кто в топе, выбрал лучшее решение среди более чем сотни существующих на рынке. Но всё не так просто: рейтинги ошибаются, не дают полной картины, иногда даже намеренно вводят читателей в заблуждение.

Хотите разобраться, как подобрать BI-решение для своего бизнеса? Узнать, что делать, чтобы не полагаться только на рейтинги? Или просто заглянуть за кулису того, как работают аналитические инструменты и почему они бывают неточны? Заходите под кат, там всё расскажем и дадим советы по осознанному выбору: наш материал для всех ЛПР и ЛВР, а также технарей, которым будет забавно увидеть, как искажаются канонические термины и названия продуктов.

Читать далее

Как LLM может валидировать данные

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров3K

Привет! Меня зовут Мира и я работаю DQE (Data Quality Engineer) в крупной международной компании.

В этой статье я расскажу, как у нас получилось автоматизировать работу аналитиков DQ и разработать продукт, который генерирует тесты автоматически на любой source.

Всё началось с того, что в компании зародилась новая команда, целью которой было построить качественное хранилище данных. Хранилище, которому можно доверять «без угрызения совести». И, конечно же, без DQ здесь не обойтись. 

Читать далее

Что такое Data Driven подход

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров7K

В современном мире бизнес сталкивается с необходимостью постоянно принимать решения. От их качества зависит не только успех отдельных проектов, но и будущее всей компании.

В этой статье мы разберём основные подходы к принятию решений в бизнесе и узнаем, почему компании всё чаще строят свою работу на данных. А ещё расскажу о роли, без которой data-driven подход попросту невозможен – о роли дата-инженера.

Читать далее

Национальный Суперкомпьютерный Форум пройдёт в Переславле 26—29 ноября 2024 года

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров646


Тринадцатый НСКФ пройдёт с 26 по 29 ноября 2024 года. В его программе будут научно-практическая конференция, мастер-классы, выставка, пресс-конференция и круглый стол. В холле будут чай, кофе, печенье и неформальное общение. Добро пожаловать!
Читать дальше →

Почему оценить стоимость датасета не так просто, как кажется на первый взгляд

Уровень сложностиСредний
Время на прочтение9 мин
Количество просмотров1.7K

Представьте, что вы получили заказ на разметку датасета из 1,000 изображений. Вы берете 20 картинок из сета, проводите тесты и получаете примерную стоимость 1 изображения. В итоге вы оцениваете проект, основываясь на количестве изображений, и устанавливаете цену за каждое. Однако, когда данные приходят, оказывается, что на каждом изображении не один объект к разметке, как было на тестах, а десятки! В итоге вы тратите гораздо больше времени и средств, чем планировали в начале.

Как избежать таких распространенных ошибок и защитить свой бизнес от неожиданных затрат и задержек? Давайте обсудим, какие ошибки чаще всего возникают при оценке проектов по сбору и разметке данных для машинного обучения, и на что важно обращать внимание, чтобы гарантировать корректную оценку ваших проектов. Узнайте больше в статье Романа Фёдорова, эксперта в области подготовки датасетов для машинного обучения.

Читать далее

Семантическая сегментация: самый полный гайд 2024

Время на прочтение10 мин
Количество просмотров4.2K

Что общего между автономными автомобилями, медицинскими диагностическими системами и спутниковыми снимками Земли?

Ответ прост: все они зависят от способности машин «видеть» и понимать окружающий мир. Чтобы компьютер мог распознать объекты на изображении и отличить небо от дороги, человека от автомобиля или лес от здания, необходимо использовать технологии сегментации изображений. Но как именно машины учатся такому зрению и как использовать эту технологию для бизнеса? Давайте поговорим о семантической сегментации.

Читать далее

Как оценить LLM модель

Время на прочтение13 мин
Количество просмотров2.6K

В одном из прошлых блогов я представил концепцию тестирования LLM. Однако тестирование больших языковых моделей - достаточно сложная тема, которая требует дальнейшего изучения. Существует несколько соображений относительно тестирования моделей машинного обучения и, в частности, LLM, которые необходимо учитывать при разработке и развертывании вашего приложения. В этом блоге я предложу общую структуру, которая будет служить минимальной рекомендацией для тестирования приложений, использующих LLM, включая разговорные агенты, расширенную генерацию поиска и агентов и т. д.

Читать далее

Что такое DWH?

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров30K

DWH (Data Warehouse или по русски Хранилище данных) - это специализированная система для хранения и управления большими объемами данных, которые объединяются из разных источников с целью анализа и построения отчетов 

Короче, это место, где все нужные данные из разных мест собираются и потом ими уже удобно пользоваться - строить разные отчетики, строить ИИ на благо всему человечеству и подобные вещи

Грубо говоря, задача при построении хорошего DWH состоит в том, чтобы построить Базу Данных и все необходимое вокруг него, в которой будут лежать правильные данные в удобном виде и в которую можно слать большие-сложные SQL запросы и не бояться, что что-то сломается и всем этим было удобно пользоваться

Читать далее

5 способов оптимизации функций в Python

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров3.3K

Всегда полезно уметь ускорить выполнение кода на python, особенно если мы имеем дело с большими объемами данных или часто вызываемыми функциями. 

В этой статье мы рассмотрим 5 простых, но эффективных способов оптимизации функций в Python, которые помогут вам сделать ваш код быстрее и эффективнее.

Ускорить свой код!

Инфраструктура для data engineer Kafka

Уровень сложностиПростой
Время на прочтение8 мин
Количество просмотров3.9K

В этой статье я хочу показать как можно использовать Kafka в дата-инженерии и как её "пощупать".

Рекомендуется всем кто не знает что такое Kafka.

Читать далее

Конспект-обзор на статьи по Recsys+Transformers

Время на прочтение6 мин
Количество просмотров2.8K

Конспект-обзор на статьи по Recsys+Transformers

Миссия рекомендательных систем - угадывать потребности человека. Примитивные модели не способны уловить скрытые паттерны поведения пользователя. Однако эту задачу способно решить моделирование последовательности рекомендаций (Sequential Recommendation). Особенного успеха в последнее время в моделировании последовательностей добились Transformer-подобные архитектуры. Ниже представлен краткий обзор на важные в области статьи, частично покрывающие тематику Recsys+Transformers.

Читать далее

Полезные курсы по ИИ

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров2.6K

Лето — прекрасное время для того, чтобы неспешно заниматься тем, что нам нравится. А что нам нравится? Конечно же, ИИ!

Мы хотим поделиться с вами бесплатными курсами по искусственному интеллекту и машинному обучению, которые идеально неспешно проходить летом. В следующий раз, когда будете смотреть очередной видосик на YouTube, подумайте про нашу подборочку!

1. Coursera “Deep Learning Specialization” (Специализация глубокое обучение)

Эта программа поможет понять возможности и проблемы глубокого обучения. Вы узнаете про архитектуры нейронных сетей, LSTM и трансформеры, освоите теоретические концепции и их применение, используя Python и TensorFlow, для решения задач распознавания речи, машинного перевода и др.

2. Coursera “ChatGPT Prompt Engineering for Developers” (Промт инжиниринг ChatGPT для разработчиков)

Маленький урок, в рамках которого вы научитесь быстро и эффективно создавать новые приложения с использованием LLM. Курс охватывает работу LLM, практики инженерии запросов и использование API LLM для различных задач. Знаете, кто ведет этот курс? Лиза Фулфорд (OpenAI) и Эндрю Нг (DeepLearningAI) —неплохой каст, да?

3. edX “HarvardX: Data Science: Machine Learning” (ГарвардХ: Наука о данных: Машинное обучение)

Крутой бесплатный курс от Гарвардского университета по машинному обучению — надо! Здесь вы пройдетесь по основам машинного обучения; узнаете, как выполнять кросс-валидацию; изучите несколько популярных алгоритмов машинного обучения и др.

4. Harvard University “Machine Learning and AI with Python” (Машинное обучение и ИИ на Python)

Читать далее

Кто такой Data Engineer | Дата Инженер

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров4.1K

В статье вы узнаете кто такой Data Engineer | Дата Инженер. Какие бывают направления и куда можно посмотреть, чтобы развиваться в дата-инженерии

Читать далее

Ближайшие события

Как построить MVP AI-сервис и сэкономить время

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров2.7K

Всем привет!
Меня зовут Дима Савелко, я лид команды нейро-сети.рф. Зачастую на старте создания сервисов люди концентрируются на вещах, которые стоит делать в самую последнюю очередь, после чего теряют кучу времени на расхлёбывание проблем.

В нашей статье мы рассказываем о том, как построить сервис с AI, а именно с диффузионной моделью, когда нужно обучать модель, как нужно обучать, и что делать если не можете обучить модель, также делимся ценным опытом предобработки данных и практическими советами, как начать с базовых решений и только при необходимости переходить к более сложным методам.

Узнайте, как существующие ИИ-инструменты могут уже сейчас удовлетворить ваши потребности, сохраняя высокое качество продукта.

Читать далее

Честные рейтинги и отзывы: роль машинного обучения в борьбе с фродом рейтинга и отзывов товаров в ритейле

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров2.1K

Приветствуем читателей Хабра! Мы, команда дата-сайентистов и дата-аналитиков компании «ДатаЛаб»* (ГК «Автомакон»), продолжаем рассказывать о насущных проблемах ML-разработки, делимся подходами к их решению и рассуждаем на актуальные темы.

В данной статье мы рассмотрим технические методы применения ML для борьбы с фродом в рейтингах и отзывах товаров в ритейле.

Читать далее

Разметка данных в Label Studio при помощи GPT-4: интеграция ML Backend

Время на прочтение7 мин
Количество просмотров3.3K

Введение


Получение качественных данных — краеугольный камень любого проекта машинного обучения. Этот процесс, в котором традиционно доминирует трудозатратная разметка данных, часто может превращаться в длительную и дорогостоящую задачу. Но что, если мы сможем воспользоваться прогрессом в развитии больших языковых моделей (LLM) для перехода от разметки данных к проверке разметки?

На сцене появляется GPT-4. Эта система (разработанная на основе GPT-4), имеющая более ста миллионов пользователей — одна из самых популярных языковых моделей.

В предыдущей статье мы показали, как можно ускорить процесс разметки предварительным аннотированием данных при помощи GPT-4. Эта методика позволяет нам загружать готовый к проверке предварительно размеченный датасет, а не выполнять монотонный процесс, начиная с нуля. В этой статье мы продолжим развивать эту тему, оказав, как можно объединить GPT-4 с бэкендом машинного обучения (ML Backend) Label Studio.

При помощи Label Studio ML Backend можно размечать данные непосредственно в Label Studio, что позволяет нам совершить переход от трудозатратной задачи разметки данных к гораздо более эффективному процессу проверки и совершенствования предварительных меток, что существенно ускоряет работу.
Читать дальше →

Анализ рынка акций мировых компаний на брокерской платформе Tinkoff Инвестиции

Уровень сложностиПростой
Время на прочтение28 мин
Количество просмотров1.9K

В мире, где цифровые технологии играют все более важную роль в повседневной жизни, рынок ценных бумаг становятся объектом увеличивающегося интереса исследователей, инвесторов, а также экономических и финансовых институтов. Цифровые активы и способы прогнозирования их стоимости быстро привлекают внимание своей децентрализованной природой, возможностью проведения глобальных финансовых транзакций и перспективой защиты от инфляции. Однако, они также характеризуются высокой волатильностью, что делает их предметом повышенного финансового риска. Этот рынок играет ключевую роль в экономике, поскольку предоставляет компаниям доступ к капиталу для финансирования своей деятельности, а также дает инвесторам возможность вложить свои деньги с целью получения прибыли [1, 2].

Платформа Tinkoff Инвестиции — это онлайн-сервис от Tinkoff Bank, который предоставляет клиентам возможность инвестировать в различные финансовые инструменты, включая акции, облигации, фонды, ETF и другие. Широкий выбор активов, удобный интерфейс и наглядная аналитика, и отчетность на платформе делает ее привлекательной для новичков и опытных инвесторов. Онлайн-брокерские компании позволяют инвесторам быстро и легко зарегистрироваться и приступить к торговле [3].

В условиях непредсказуемости и динамичности рынка, возникает потребность в прогностических моделях [4], способных предсказывать изменение цен акций в будущем. Моделирование и прогнозирование цен акций представляет собой сложную многомерную задачу, которая может быть решена с применением различных методов анализа данных и финансовых инструментов. На сегодняшний день существует широкий спектр подходов к предсказанию цен на цифровые активы, который охватывает как традиционные статистические методы, так и передовые алгоритмы машинного обучения [5].

Читать далее

Грейды в аналитике. Как быстро повысить свой грейд?

Уровень сложностиПростой
Время на прочтение3 мин
Количество просмотров10K

Привет, Хабр!

Меня зовут Денис, я Ведущий Продуктовый Аналитик из МТС. Давайте сегодня поговорим про грейды в аналитике. Чем они отличаются? Расскажу, как можно быстро повышать свой грейд.

В целом, в разных компаниях разное понимание того, чем должен обладать тот или иной грейд. Однако, есть основные пункты, которые повторяются во многих командах, про них мы сегодня и поговорим.

Читать далее

Первый IT-фестиваль KODE Waves о технологиях будущего: регистрация уже началась

Уровень сложностиПростой
Время на прочтение2 мин
Количество просмотров762

10 мая в Светлогорске под Калининградом пройдет IT-фестиваль KODE Waves — о технологиях будущего, которые волнуют всех. Вот, о чем он будет.

Читать далее

Сотни миллионов рублей: посчитали, сколько тратит бизнес на российские BI-решения

Уровень сложностиПростой
Время на прочтение7 мин
Количество просмотров2.7K

Из чего складывается стоимость BI-решения? Сколько стоят отечественные BI-системы? Достоверные ответы на эти вопросы вы не нагуглите просто так. Да и для заказчиков ценник часто становится сюрпризом, уже не говоря о полной стоимости владения BI-системами.

Мы решили подсчитать, во сколько же на самом деле обходится BI для российских компаний, и провели небольшое исследование. О результатах которого я и рассказываю в этой статье (плюс провожу небольшой опрос).

Читать статью и пройти опрос

Вклад авторов