Обновить
-2
0
Nick@ENick

Пользователь

Отправить сообщение

"Цель статьи заключалась в демонстрации минималистичного подхода к использованию моделей эмбеддинга, векторных хранилищ и LLM для обработки пользовательских запросов " - это называется RAG. Логичнее соответственно озаглавить представленную статью и теги начать с RAG

Раньше этот алгоритм назывался иначе: "Step by step"

Это типа LangChain ?

Если "Статья для программистов из других областей ", то ожидаемо сравнение с PyTorch

"Данное небольшое исследование наглядно иллюстрирует важность выбора и комбинирования различных методов для точного поиска и анализа данных ". Логичнее в названии статьи указать "Семантический поиск и альтернативные методы".

"Измеренная метрика intersection over union (IoU)..." Метрики нельзя измерять, их можно только рассчитывать. Почему привели расчетную формулу только для (IoU), а не для всех применяемых метрик? Все приведенные метрики одинаково азбучны, но это придирки по стилю.

Не азбучный вопрос: как рассчитали доверительные интервалы для метрик? Что являлось причиной разброса и смещения, как их считали?

Я заранее соглашусь с тем Кодексом, который подпишет Константин Вячеславович Воронцов.

Позвольте не согласиться. Позиция авторов определена цитатой К.В.Воронцова: "Генеративные модели текста – это не интеллект, а новый языковой интерфейс "

Развитие этого проекта может быть очень интересным и для взрослых

  1. В разделе по векторизации логично упомянуть embeddings.

  2. С инвойсами игры с токенизацией дали эффект?

Почему выбрали LLaMA 3.1 8b Instruct ? "Поддерживаемые языки: английский, немецкий, французский, итальянский, португальский, хинди, испанский и тайский". Хотя в примечании указывают:  "Llama 3.1 была обучена на более широком наборе языков, чем 8 поддерживаемых языков". Модели типа "deepvk/USER-bge-m3" достоверно хуже? Сам сравнить не могу: "Ваш запрос на доступ к этому репозиторию был отклонен авторами репозитория. "

Всё логично - у крупных компаний и проблемы масштабные

Спасибо, интересно!

На каком железе модели запускали? Какие временные затраты?

Кстати, сегодня получил сообщение от email.stability.ai:

  • Stable Diffusion 3.5 Medium (будет выпущен 29 октября) : с 2,5 миллиардами параметров, улучшенной архитектурой MMDiT-X и методами обучения эта модель предназначена для работы «из коробки» на потребительском оборудовании, обеспечивая баланс между качеством и простотой настройки. Она способна генерировать изображения с разрешением от 0,25 до 2 мегапикселей.

"превращает запросы и документы в математические модели, называемые векторами, или эмбеддингами ". Неправильное понимание как рассчитываются эмбеддинги

"Эти векторы размещаются в многомерном пространстве, что позволяет векторному поиску понимать смысл слов". Нет там понимания смысла, нам есть косинусное сходство или иные метрики.

Уважаемый автор, так нельзя, уважительнее надо относиться и к себе и к читателям

"Наконец, производительность оценки риска...", в статье рассматриваются значения метрик чувствительности и специфичности, причём здесь производительность. У авторов цитированной работы: "We believe that fusing these newly found risk factors and new risk score with image data will further boost the AI model performance for suspicious skin lesion detection" Слово "performance" в данном контексте переводится иначе.

Корректнее указывать авторов и год публикации работы при первом упоминании, а в конце текста приводить полную ссылку

"RAG (генерацию с дополненной выборкой)" , может быть не отходить от классики: RAG (Retrieval Augmented Generation)

Компания, которая специализируется в визуализации данных, приводит результаты тестирования ИИ в виде картинки отвратительного качества. Это прикол???

Информация

В рейтинге
4 889-й
Зарегистрирован
Активность

Специализация

Десктоп разработчик
Старший