Статьи / Профиль EZlogic / Хабр

Содержит в себе множество метрик и бенчмарков для оценки качества работы AI моделей, а также предоставляет инструменты для аналитики изменений качества работы в течение разных периодов времени.

В предыдущей статье мы уже частично осветили имеющиеся у DeepEval метрики (метрики для оценки RAG).

В этой статье постараемся объяснить, какой еще функционал предлагается DeepEval для работы с AI.

EZlogic 8 окт 2025 в 06:00

Тестирование качества работы RAG. Описание и сравнение метрик

Простой

17 мин

4.2K

Искусственный интеллект

Обзор

В современном мире часто встречаются задачи с большим объемом данных, выполнение которых либо невозможно, либо сложно или затратно по времени/ресурсам автоматизировать обычными функциями и методами.

Одним из способов решения для таких случаев является применение AI с использованием RAG.

В этой статье мы постарались привести метрики для оценки качества работы подобных решений.

EZlogic 11 авг 2025 в 05:00

Как мы искали лучшие AI-модели (Часть 3)

Простой

54 мин

7.5K

Искусственный интеллект

В предыдущих статьях мы описали начало нашего пути тестирования AI моделей на предмет определения лучших и описали основные метрики, с помощью которых можно проводить такой анализ.

В этом тексте приведен список найденных метрик для более детального и глубокого рассмотрения качества работы AI, а также результаты тестирования моделей по выбранным ранее метрикам.

Составляя этот материал, мы хотели поделиться своим опытом использования различных метрик для оценки ответов AI моделей. Для тех из них, которые мы не смогли полноценно использовать в ходе своих исследований, мы подготовили описание с практическими примерами.

EZlogic 30 июл 2025 в 05:30

Как мы искали лучшие AI-модели (Часть 2)

Простой

12 мин

Искусственный интеллект

В прошлой статье мы погрузились в оценку самых популярных AI продуктов.

По итогам ручного тестирования и попытки автоматизации по выбранным критериям был сделан вполне себе ожидаемый вывод о невозможности применения одних и тех же метрик к оценке задач разного рода.

Поэтому было принято решение ознакомиться с основными метриками для оценки качества ответов AI продуктов.

Такими метриками стали: Precision, Recall, Specificity и Confusion matrix, а также MAP и MRR.

Для чего такие метрики нужны?

EZlogic 23 июл 2025 в 13:15

Как мы искали лучшие AI-модели (часть 1)

Простой

17 мин

6.8K

Искусственный интеллект

Из песочницы

AI используется всё чаще. Кому‑то это упрощает ежедневную рутину, кому‑то заменяет психолога, кому‑то помогает приобретать новые знания. Есть и те, кто хочет существенно усовершенствовать процессы в уже работающем бизнесе или создает на основе AI свои продукты (наш вариант — последний).

В начале этого года нам понадобилось провести тестирование AI‑моделей на предмет имеющегося функционала и возможностей AI‑моделей для оценки перспективности использования в тех или иных продуктах.

Данная серия статей про результаты такого тестирования — от простого до самого продвинутого.

В рейтинге: Не участвует

Откуда: Уральск, Западно-Казахстанская обл., Казахстан

Дата рождения: 31 августа 1987

Зарегистрирован: 30 мая 2023

Активность: сегодня в 07:03

Инженер по ручному тестированию, Инженер по обеспечению качества

Младший

SQL

Linux

Ручное тестирование

HTTP

JSON

Postman

Функциональное тестирование

Тестирование API

Selenium

Python

Как мы искали лучшие способы классификации

Основные метрики DeepEval для тестирования AI. Возможности и способы применения

Тестирование качества работы RAG. Описание и сравнение метрик

Как мы искали лучшие AI-модели (Часть 3)

Как мы искали лучшие AI-модели (Часть 2)

Как мы искали лучшие AI-модели (часть 1)

Информация

Специализация