Обновить
3
0
Александр@EZlogic

Пользователь

Отправить сообщение

Как мы искали лучшие способы классификации

Уровень сложностиСредний
Время на прочтение26 мин
Охват и читатели4.6K

Всем привет!

В предыдущих статьях мы уже рассказывали о том, какими метриками можно пользоваться для оценки ответов AI-продуктов.

В большом количестве метрик для решения такой задачи предварительно надо оценить, к какой категории относится тот или иной ответ.

В этой статье мы преследовали две цели:

1. На примере показать, как применяются такие метрики и как с помощью них можно оценить качество работы модели.

2. Провести небольшое исследование по различным AI-продуктам с целью выявления наиболее оптимальных для решения задач классификации.

Читать далее

Основные метрики DeepEval для тестирования AI. Возможности и способы применения

Уровень сложностиПростой
Время на прочтение43 мин
Охват и читатели3.8K

DeepEval - фреймворк для оценки работы AI с открытым исходным кодом.

Содержит в себе множество метрик и бенчмарков для оценки качества работы AI моделей, а также предоставляет инструменты для аналитики изменений качества работы в течение разных периодов времени.

В предыдущей статье мы уже частично осветили имеющиеся у DeepEval метрики (метрики для оценки RAG).

В этой статье постараемся объяснить, какой еще функционал предлагается DeepEval для работы с AI.

Читать далее

Тестирование качества работы RAG. Описание и сравнение метрик

Уровень сложностиПростой
Время на прочтение17 мин
Охват и читатели3.9K

В современном мире часто встречаются задачи с большим объемом данных, выполнение которых либо невозможно, либо сложно или затратно по времени/ресурсам автоматизировать обычными функциями и методами.

Одним из способов решения для таких случаев является применение AI с использованием RAG.

В этой статье мы постарались привести метрики для оценки качества работы подобных решений.

Читать далее

Как мы искали лучшие AI-модели (Часть 3)

Уровень сложностиПростой
Время на прочтение54 мин
Охват и читатели5.7K

В предыдущих статьях мы описали начало нашего пути тестирования AI моделей на предмет определения лучших и описали основные метрики, с помощью которых можно проводить такой анализ.

В этом тексте приведен список найденных метрик для более детального и глубокого рассмотрения качества работы AI, а также результаты тестирования моделей по выбранным ранее метрикам.

Составляя этот материал, мы хотели поделиться своим опытом использования различных метрик для оценки ответов AI моделей. Для тех из них, которые мы не смогли полноценно использовать в ходе своих исследований, мы подготовили описание с практическими примерами.

Читать далее

Как мы искали лучшие AI-модели (Часть 2)

Уровень сложностиПростой
Время на прочтение12 мин
Охват и читатели6.2K

В прошлой статье мы погрузились в оценку самых популярных AI продуктов.

По итогам ручного тестирования и попытки автоматизации по выбранным критериям был сделан вполне себе ожидаемый вывод о невозможности применения одних и тех же метрик к оценке задач разного рода.

Поэтому было принято решение ознакомиться с основными метриками для оценки качества ответов AI продуктов.

Такими метриками стали: Precision, Recall, Specificity и Confusion matrix, а также MAP и MRR.

Для чего такие метрики нужны?

Читать далее

Как мы искали лучшие AI-модели (часть 1)

Уровень сложностиПростой
Время на прочтение17 мин
Охват и читатели2.5K

AI используется всё чаще. Кому‑то это упрощает ежедневную рутину, кому‑то заменяет психолога, кому‑то помогает приобретать новые знания. Есть и те, кто хочет существенно усовершенствовать процессы в уже работающем бизнесе или создает на основе AI свои продукты (наш вариант — последний).

В начале этого года нам понадобилось провести тестирование AI‑моделей на предмет имеющегося функционала и возможностей AI‑моделей для оценки перспективности использования в тех или иных продуктах.

Данная серия статей про результаты такого тестирования — от простого до самого продвинутого.

Читать далее

Информация

В рейтинге
Не участвует
Откуда
Уральск, Западно-Казахстанская обл., Казахстан
Дата рождения
Зарегистрирован
Активность

Специализация

Инженер по ручному тестированию, Инженер по обеспечению качества
Младший
SQL
Linux
Ручное тестирование
HTTP
JSON
Postman
Функциональное тестирование
Тестирование API
Selenium
Python