Как стать автором
Обновить
19
8
Гуреев Дмитрий @dvgureev

Gureev.PRO, Интенсивы по ИИ для бизнеса

Отправить сообщение

Большой тест 12 LLM моделей на арифметику (~100 тыс запросов)

Уровень сложностиСредний
Время на прочтение6 мин
Количество просмотров1.7K

Ловушка для бизнеса: почему LLM иногда 'угадывает' математику, а потом подводит? Часто вижу, как на моих ИИ-интенсивах пытаются автоматизировать нейросетями то, что легко делается без них – например, финансовый анализ из PDF. И поначалу LLM даже выдает верные цифры! Это создает опасную иллюзию, что им можно доверять расчеты.

Поэтому решил получить конкретные значения: когда именно LLM начинает ошибаться в элементарных операциях – сложении, вычитании, умножении?

Протестировал 12 моделей на числах разной длины. Результаты – внутри и почему калькулятор все еще ваш лучший друг, когда речь идет о числах больше 4 знаков.

Читать далее

«В чем сила?» — ищем ответ среди афоризмов. Сравнение 6 моделей для векторного поиска и так ли хорош OpenAi Large

Уровень сложностиПростой
Время на прочтение4 мин
Количество просмотров3.8K

Сравниваем между собой качество 6 различных токенайзеров, включая новейший OpenAi Large|Small и E5 от Microsoft на задаче векторного поиска:

Ищем ответ на вопрос: В чем сила? в сборнике афоризмов и цитат.

Рассматриваются модели

text-embedding-ada-002
text-embedding-3-large
text-embedding-3-small
intfloat/multilingual-e5-large
ai-forever/ruBert-large
ai-forever/sbert_large_mt_nlu_ru

P.S. Бонусом сравнение как влияет токенайзер на качество задачи по классификации текста (30 классов).

Читать далее

Большой тест GPT4, GPT3.5, YandexGPT, GigaChat, Saiga в RAG-задаче. Часть 2/2

Уровень сложностиСредний
Время на прочтение5 мин
Количество просмотров27K

В первой части статьи я рассказывал о создании цифрового юриста, способного отвечать на вопросы на основе 200-страничного регламента. Цель — работа такого юриста в закрытом контуре организации, без использования облачных технологий.

Особенностью эксперимента является в том, что оценку ответов делают обычные люди. Юристы.

Во второй части мы рассмотрим как и зачем делать локальные токензайзеры и попробуем запустить всё полностью на локальной машине с видеокартой 4090.

В конце будет приведена полная сравнительная таблица разных моделей и токензайзеров.

Читать далее

Большой тест GPT4, GPT3.5, YandexGPT, GigaChat, Saiga в RAG-задаче. Часть 1

Уровень сложностиСредний
Время на прочтение7 мин
Количество просмотров24K

Меня зовут Дмитрий Гуреев. Я занимаю должность CDTO в одной из медицинских компаний и параллельно веду работу по популяризации ИИ в среднем бизнесе. Генеративные модели привлекли мое внимание ещё в феврале 2022 года. Тогда я внедрил цифрового ассистента для полевых продавцов.

Летом 2022 года хороший знакомый из крупной компании предложил совместный эксперимент. Создать цифрового юриста, способного отвечать на вопросы первой линии, используя в качестве базы знаний 200-страничный регламент из более чем 1200 пунктов. Все это должно было функционировать в закрытом контуре. Без интернета.

Задача представлялась крайне интересной...

Вторая часть здесь.

Читать далее

Информация

В рейтинге
1 287-й
Откуда
Москва, Москва и Московская обл., Россия
Дата рождения
Зарегистрирован
Активность