Как стать автором
Поиск
Написать публикацию
Обновить
106.18

Big Data *

Большие данные и всё о них

Сначала показывать
Период
Уровень сложности

Оценка систем больших языковых моделей (LLM): метрики, проблемы и лучшие практики

Время на прочтение19 мин
Количество просмотров2.2K

В последнее время разработка и развертывание больших языковых моделей (LLM) стали ключевыми в формировании интеллектуальных приложений в различных областях. Но реализация этого потенциала требует строгого и систематического процесса оценки. Прежде чем углубляться в метрики и вызовы, связанные с оценкой LLM-систем, стоит задуматься: не сводится ли ваш процесс оценки к бесконечному циклу запуска LLM-приложений на наборе промптов, ручному анализу выходных данных и субъективной оценке их качества? Если да, то пора осознать, что оценка — это не разовая процедура, а многоэтапный итеративный процесс, оказывающий значительное влияние на производительность и жизненный цикл вашей LLM-системы. С развитием LLMOps (расширения MLOps, адаптированного для больших языковых моделей) интеграция процессов CI/CE/CD (непрерывная интеграция, непрерывная оценка и непрерывное развертывание) становится неотъемлемой частью управления жизненным циклом LLM-приложений.

Итеративный характер оценки включает в себя несколько ключевых компонентов. Во-первых, необходимо постоянно обновлять и улучшать тестовый датасет. Во-вторых, важно выбирать и внедрять метрики оценки, наиболее подходящие для конкретного сценария использования. Наконец, надежная инфраструктура оценки позволяет проводить тестирование в реальном времени на протяжении всего жизненного цикла LLM-приложения. Крайне важно признать значимость оценки как непрерывного и динамического процесса. Это компас, помогающий разработчикам и исследователям совершенствовать и оптимизировать LLM для повышения производительности и практического применения.

Читать далее

Приключение по перереносу аналитики из Oracle в Iceberg

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров3.1K

Мы начали с простой цели: разобраться в небольших операционных данных из нашей среды Oracle E-Business Suite (OEBS). Сначала всё казалось несложным. У нас был классический data warehouse: пакетная обработка, массовые загрузки и привычная реляционная СУБД. Но по мере того как мы углублялись в проект, казалось бы рутинная задача превратилась в исследование и эксперименты с неожиданными поворотами и поиском чего-то действительно универсального.

Читать далее

Государственные гранты для IT-проектов или почему финансирование достаётся единицам?

Уровень сложностиСредний
Время на прочтение8 мин
Количество просмотров5K

В 2019 г. активизировались Фонды и Министерства, занимающиеся выдачей грантов для IT‑компаний, а с 2022 г. начался российский «IT‑бум». Казалось бы, государство выделяет огромные средства на IT‑проекты, но финансирование получают лишь единицы. Почему? Ошибки у большинства команд типичны. Будем разбираться постепенно и с примерами.

Читать далее

О прогнозировании в станкостроении

Уровень сложностиСредний
Время на прочтение27 мин
Количество просмотров1.4K

Станкостроение традиционно рассматривается как “материнская отрасль” промышленности. От доступности современных, технологически совершенных станков напрямую зависит эффективность многих других секторов — от машиностроения до приборостроения и высокотехнологичных производств. В условиях мировой экономической конкуренции и санкционных ограничений вопросы развития отечественного станкостроения приобрели особую актуальность:

Читать далее

От зеленой до красной: как CatBoost помогает распознавать AML риски

Уровень сложностиПростой
Время на прочтение5 мин
Количество просмотров557

Привет! Меня зовут Булат Юсупов, я бизнес-аналитик команды T2 Fintech и сегодня продолжается серия публикаций на тему разработки необычных ML моделей для B2B сегмента. Сегодня хочу рассказать вам о том, как мы построили модель для оценки рисков в рамках двух важных направлений — KYC (ЗСК, «знай своего клиента») и AML («anti money laundering»). Если говорить проще, речь пойдет о том, как определить, насколько организация или ИП могут оказаться в так называемой «желтой» или «красной» зоне по критериям, установленным ЦБ РФ. Такие зоны связаны с рисками возможного отмывания денег или недостаточно добросовестным поведением на рынке.

И, хотя это звучит в определенной степени формально, посмотрим на задачу с точки зрения практики и технологий. Ведь в современном финансовом мире, где регуляторы ужесточают требования к банкам, а объемы проверок растут, умение быстро и точно оценивать контрагентов становится критически важным.

Читать далее

Подходы к архитектуре и принципам проектирования хранилищ данных

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров7K

Многомерная схема специально разработана для моделирования систем хранилищ данных. Схемы предназначены для удовлетворения уникальных потребностей очень больших баз данных, разработанных для аналитических целей OLAP.

Читать далее

Конфигурирование алертов prometheus или как мы настраивали алерты для бизнес-метрик

Уровень сложностиСредний
Время на прочтение4 мин
Количество просмотров2.5K

В статье расскажу, как настроить мониторинг Apache NiFi и алерты при переполнении очереди по достижении 8000 FlowFiles.

Зачем вам читать эту статью? Переполнение очереди FlowFiles в Apache NiFi может привести к замедлению или остановке обработки данных, мониторинг позволит своевременно среагировать на проблемы с производительностью и выявить узкие места.

Читать далее

Causal Inference методы на практике

Уровень сложностиСредний
Время на прочтение18 мин
Количество просмотров3K

Обычно, когда возникает необходимость оценить эффект от продуктовой фичи, аналитики проверяют гипотезы через A/B эксперименты. Но иногда запустить эксперимент нет возможности, а оценить эффект все еще хочется. Столкнувшись в очередной раз с такой ситуацией, я решил погрузиться в нашумевший в последнее время мир причинно-следственного анализа или Causal Inference и поделиться опытом применения различных подходов на практике.

Случалось ли с вами что-нибудь из этого?

Читать далее

Расширенный CUPAC для снижения дисперсии в A/B экспериментах

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров1.3K

Задача снижения дисперсии при проведении A/B экспериментов, кажется, никогда не перестанет быть актуальной. Хочу поделиться небольшим разбором свежей статьи, в которой авторы предлагают еще один довольно-таки провокационный метод для снижения дисперсии.

Читать далее

Data driven на практике: с чего начать, как избежать ошибок и эффективно применять

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров1.9K

Привет, меня зовут Александр Окороков, я основатель и генеральный директор ИТ-компании и автор медиа вАЙТИ. Мы помогаем заказчикам выстроить оптимальную стратегию принятия управленческих решений, чтобы эффективно использовать ресурсы и не терять деньги. Именно эту задачу решает data-driven-подход к принятию решений и управлению продуктом с опорой на данные.

Читать далее

Тестирование систем и движков массивно-параллельных вычислений. Сравнение Impala, Trino и GreenPlum

Уровень сложностиСредний
Время на прочтение13 мин
Количество просмотров3.3K

Успешные тестирование производительности и нагрузочные испытания – важнейшие условия для выбора аналитической системы массивной обработки больших данных. В этой публикации я хочу поделиться подходами к тестированию, которые используются нашей командой как в проектной работе, так и при разработке Lakehouse-платформы данных Data Ocean Nova, и познакомить вас с результатами сравнения различных движков и систем. Вы узнаете, как правильно ставить цели, выбирать методику и из каких сценариев ее нужно составлять, как протоколировать результаты и делать выводы. И самое главное – получите ответ на вопросы: кто быстрее: заяц Trino или антилопа Impala?

Читать далее

Оценка RAG: Полное руководство по модульному тестированию RAG в CI/CD

Время на прочтение10 мин
Количество просмотров3.4K

Генерация дополненного извлечения (RAG) стала самым популярным способом предоставления LLM дополнительного контекста для создания адаптированных выходных данных. Это отлично подходит для приложений LLM, таких как чат-боты или агенты ИИ, поскольку RAG предоставляет пользователям гораздо более контекстуальный опыт, выходящий за рамки данных, на которых обучались LLM, такие как GPT-4.

Неудивительно, что практикующие LLM столкнулись с проблемами оценки приложений RAG во время разработки. Но благодаря исследованиям, проведенным RAGA, оценка общих характеристик генератора-извлекателя систем RAG в 2024 году является в некоторой степени решенной проблемой. Однако создание приложений RAG до сих пор остается проблемой — вы можете использовать неправильную модель встраивания, плохую стратегию фрагментации или выводить ответы в неправильном формате, что как раз и пытаются решить такие фреймворки, как LlamaIndex.

Но теперь, по мере того как архитектуры RAG становятся все более сложными, а сотрудничество между специалистами LLM в этих проектах усиливается, возникновение критических изменений становится более частым, чем когда-либо.

Читать далее

Руководство для начинающих по оценке конвейеров RAG с использованием RAGAS

Время на прочтение7 мин
Количество просмотров1.8K

В постоянно развивающемся мире машинного обучения и искусственного интеллекта разработка приложений языковых моделей, в частности систем генерации дополненного извлечения (RAG), становится все более сложной. Однако настоящая проблема возникает не во время первоначального создания, а при постоянном обслуживании и улучшении этих приложений. Именно здесь в игру вступает RAGAS — оценочная библиотека, предназначенная для предоставления метрик для конвейеров RAG. В этой статье мы рассмотрим библиотеку RAGAS и научим вас использовать ее для оценки конвейеров RAG.

Читать далее

Ближайшие события

Безграничная расширяемость: как экосистема плагинов помогает Trino работать в любом аналитическом ландшафте

Время на прочтение6 мин
Количество просмотров751

"Trino — это PostgreSQL для аналитики" — нескромно охарактеризовали Trino в одном из блогов. Я не люблю кликбейтные заголовки, но эта фраза действительно емко описывает одну из самых сильных сторон Trino — расширяемость.

В этом блоге я расскажу, как устроены плагины Trino — строительные блоки, которые позволяют гибко адаптировать возможности продукта под потребности современных аналитических платформ.

Читать далее

Применение методов машинного обучения для анализа цен на вторичное жильё в Липецке

Уровень сложностиСредний
Время на прочтение3 мин
Количество просмотров3.8K

📊 Применение методов машинного обучения для проведения кластерного анализа по стоимости квартир на вторичном рынке недвижимости города Липецка.

Читать далее

Генерация дополненного извлечения (RAG): от теории к реализации LangChain

Время на прочтение7 мин
Количество просмотров4.7K

От теории из оригинальной академической статьи до ее реализации на Python с OpenAI, Weaviate и LangChain

Читать далее

Размер имеет значение: как исторические данные помогают на этапе дизайна A/B-теста

Время на прочтение10 мин
Количество просмотров1.4K

Метод CUPED уже давно завоевал популярность в анализе A/B-тестов, предоставляя возможность выявлять эффекты меньших размеров. В этой статье мы подробно рассмотрим применение данного подхода на этапе дизайна эксперимента. Мы исследуем, как можно сократить размеры выборок, не теряя при этом в статистической мощности теста.

Читать далее

Почему рейтинги лгут: разбираемся, как и почему рейтинги BI не говорят всей правды

Уровень сложностиПростой
Время на прочтение6 мин
Количество просмотров1.6K

Мы, Luxms, создаём передовые решения для обработки и анализа данных. В этой статье мы поговорим о том, как на основе рейтингов можно пропустить подходящий вам BI-инструмент и о том, как выбрать неподходящий.

Рейтинг кажется находкой для бизнеса: посмотрел кто в топе, выбрал лучшее решение среди более чем сотни существующих на рынке. Но всё не так просто: рейтинги ошибаются, не дают полной картины, иногда даже намеренно вводят читателей в заблуждение.

Хотите разобраться, как подобрать BI-решение для своего бизнеса? Узнать, что делать, чтобы не полагаться только на рейтинги? Или просто заглянуть за кулису того, как работают аналитические инструменты и почему они бывают неточны? Заходите под кат, там всё расскажем и дадим советы по осознанному выбору: наш материал для всех ЛПР и ЛВР, а также технарей, которым будет забавно увидеть, как искажаются канонические термины и названия продуктов.

Читать далее

Как LLM может валидировать данные

Уровень сложностиПростой
Время на прочтение9 мин
Количество просмотров3K

Привет! Меня зовут Мира и я работаю DQE (Data Quality Engineer) в крупной международной компании.

В этой статье я расскажу, как у нас получилось автоматизировать работу аналитиков DQ и разработать продукт, который генерирует тесты автоматически на любой source.

Всё началось с того, что в компании зародилась новая команда, целью которой было построить качественное хранилище данных. Хранилище, которому можно доверять «без угрызения совести». И, конечно же, без DQ здесь не обойтись. 

Читать далее

Что такое Data Driven подход

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров7.1K

В современном мире бизнес сталкивается с необходимостью постоянно принимать решения. От их качества зависит не только успех отдельных проектов, но и будущее всей компании.

В этой статье мы разберём основные подходы к принятию решений в бизнесе и узнаем, почему компании всё чаще строят свою работу на данных. А ещё расскажу о роли, без которой data-driven подход попросту невозможен – о роли дата-инженера.

Читать далее

Вклад авторов