All streams
Search
Write a publication
Pull to refresh
3
0
Александр @EZlogic

User

Send message

Тестирование качества работы RAG. Описание и сравнение метрик

Level of difficultyEasy
Reading time17 min
Views365

В современном мире часто встречаются задачи с большим объемом данных, выполнение которых либо невозможно, либо сложно или затратно по времени/ресурсам автоматизировать обычными функциями и методами.

Одним из способов решения для таких случаев является применение AI с использованием RAG.

В этой статье мы постарались привести метрики для оценки качества работы подобных решений.

Читать далее

Как мы искали лучшие AI-модели (Часть 3)

Level of difficultyEasy
Reading time54 min
Views1K

В предыдущих статьях мы описали начало нашего пути тестирования AI моделей на предмет определения лучших и описали основные метрики, с помощью которых можно проводить такой анализ.

В этом тексте приведен список найденных метрик для более детального и глубокого рассмотрения качества работы AI, а также результаты тестирования моделей по выбранным ранее метрикам.

Составляя этот материал, мы хотели поделиться своим опытом использования различных метрик для оценки ответов AI моделей. Для тех из них, которые мы не смогли полноценно использовать в ходе своих исследований, мы подготовили описание с практическими примерами.

Читать далее

Как мы искали лучшие AI-модели (Часть 2)

Level of difficultyEasy
Reading time12 min
Views1.6K

В прошлой статье мы погрузились в оценку самых популярных AI продуктов.

По итогам ручного тестирования и попытки автоматизации по выбранным критериям был сделан вполне себе ожидаемый вывод о невозможности применения одних и тех же метрик к оценке задач разного рода.

Поэтому было принято решение ознакомиться с основными метриками для оценки качества ответов AI продуктов.

Такими метриками стали: Precision, Recall, Specificity и Confusion matrix, а также MAP и MRR.

Для чего такие метрики нужны?

Читать далее

Как мы искали лучшие AI-модели (часть 1)

Level of difficultyEasy
Reading time17 min
Views3.5K

AI используется всё чаще. Кому‑то это упрощает ежедневную рутину, кому‑то заменяет психолога, кому‑то помогает приобретать новые знания. Есть и те, кто хочет существенно усовершенствовать процессы в уже работающем бизнесе или создает на основе AI свои продукты (наш вариант — последний).

В начале этого года нам понадобилось провести тестирование AI‑моделей на предмет имеющегося функционала и возможностей AI‑моделей для оценки перспективности использования в тех или иных продуктах.

Данная серия статей про результаты такого тестирования — от простого до самого продвинутого.

Читать далее

Information

Rating
Does not participate
Location
Уральск, Западно-Казахстанская обл., Казахстан
Date of birth
Registered
Activity

Specialization

Manual Test Engineer, Quality Assurance Engineer
Junior
SQL
Linux
Manual testing
Http
JSON
Postman
Functional testing
API Testing
Selenium
Python