"""у индустрии появляется ещё один инструмент контроля поведения моделей на уровне, глубже привычных фильтров """ - несколько лет этот инструмент работает и на Степике уже бесплатный курс по интерпретируемости выложен
"""Идея классная, как реализовать? Идейно довольно просто. """. Другие модели тестировали? А не проще взять Qwen3 Embedding, там всё сделано: """ Embedding Dimension: Up to 4096, supports user-defined output dimensions ranging from 32 to 4096""". А цель работы какая? Почему 1024 не подошёл? Чем 128 лучше 1024?
Интересно, за что Автору карму заминусили? Это одна из немногих работ, где представлены вполне корректные результаты численного эксперимента, интересные и полезные для практики.
По метрике Score для Qwen3-Embedding всё пределах погрешности (первый знак после десятичной точки). Это очень хорошо, что для Ваших данных нет большого семантического разброса и нормально срабатываем модель 0.6В. Для реализации академического интереса было бы любопытно расширить семантику и посмотреть, когда проявит себя модель 8В. Интересно, по времени большая разница для моделей 0.6В и 7В? На моих задачах не более пары секунд
"""text-embedding-3-large: 1 провальных вопросов Qwen3-Embedding-8B-Q4_K_M: 2 провальных вопросов Qwen3-Embedding-4B-Q4_K_M: 1 провальных вопросов.""" Очень интересно, это были разные вопросы?
День добрый! Ваш ответ не раскрывает смысл словосочетания "Понять данные", а является наглядной аналогией, объясняющей суть распознания образов (pattern recognition). Потрудитесь пожалуйста дать ответ в контексте заявленной Вами темы: "Как заставить модель учиться, если мы сами ничего не знаем", а то, не дай Бог, неподготовленный читатель воспримет вторую часть как личную позицию Уважаемого Автора
"А все‑таки — чему учить модель, если мы ничего не знаем? Ответ прост — мы можем научить модель не выдавать определенный результат при некоторых входных данных, а понимать данные. ". А вот это "а понимать данные" пожалуйста опишите максимально подробнее
Одни общие фразы и сомнительные заклинания. "Используйте RAG, чтобы подгружать DDL, схемы, модели DBT и выборки строк. ". Очень интересно, знает ли уважаемый Автор на каких данных какой тип RAG какую гарантирует точность? Аналогичные вопросы можно задать к любому предложению. А смысл???
Эта Ваша святая обязанность - предоставление достоверных данных. Мне Ваш уровень понятен и понятна степень доверия к Вашим данным, но если во время предзащиты Вам будут задавать вопросы, то ... Наблюдал такое не один раз
Если Вы не знакомы с Доверительными Интервалами, то Вы не имеете права оценивать (сравнивать, обсуждать тенденции, зависимости и т.д.) полученные результаты. Обычно - это тема первого занятия по лабораторным работам нормального ВУЗа. Работа даже не студенческая и даже не школьная. Без оценки доверительных интервалов все приведенные графики и цифры являются информационным шумом, а выводы - не обоснованными. Цель вычислений не цифры, а понимание. Вначале определяете закон распределения данных и потом считаете доверительные интервалы и потом делаете выводы.
Очень интересно как уважаемые Коллеги оценивают работы Anthropic по объяснимости результатов LLM, например при переводе с одного языка на другой или при написании стихов?
Спасибо Автору за интересную статью, на хабре таких статей очень мало. К вопросу об участии LLM в написании статей. Фразу """Короче говоря, всякий раз, когда вы видите в развертывании модель только для декодера, существует разумная вероятность того, что модель только для кодера также является частью системы. """ читал несколько раз и попросил Qwen перевести на русский, вот что получилось:
Иными словами, если в системе используется модель только для декодера, велика вероятность, что где-то в этой же системе применяется и модель только для кодера.
Или ещё проще:
Если вы видите модель только для декодера, скорее всего, модель только для кодера тоже участвует в системе — просто не так заметно.
Или нейтрально и ясно:
На практике, когда в системе используется декодерная модель, часто вместе с ней задействована и кодерная модель, даже если это не очевидно.
«сжать эмбеддинги одной размерности в меньшую» - какой в этом смысл? Уменьшение размеров базы данных, повышение скорости поиска или ещё чего?
"""у индустрии появляется ещё один инструмент контроля поведения моделей на уровне, глубже привычных фильтров """ - несколько лет этот инструмент работает и на Степике уже бесплатный курс по интерпретируемости выложен
"""Идея классная, как реализовать? Идейно довольно просто. """. Другие модели тестировали? А не проще взять Qwen3 Embedding, там всё сделано: """ Embedding Dimension: Up to 4096, supports user-defined output dimensions ranging from 32 to 4096""". А цель работы какая? Почему 1024 не подошёл? Чем 128 лучше 1024?
Интересно, за что Автору карму заминусили? Это одна из немногих работ, где представлены вполне корректные результаты численного эксперимента, интересные и полезные для практики.
По метрике
Score дляQwen3-Embeddingвсё пределах погрешности (первый знак после десятичной точки). Это очень хорошо, что для Ваших данных нет большого семантического разброса и нормально срабатываем модель 0.6В. Для реализации академического интереса было бы любопытно расширить семантику и посмотреть, когда проявит себя модель 8В. Интересно, по времени большая разница для моделей 0.6В и 7В? На моих задачах не более пары секундЭто хорошо. Значит надо ансамбль "городить"
"""text-embedding-3-large: 1 провальных вопросов Qwen3-Embedding-8B-Q4_K_M: 2 провальных вопросов Qwen3-Embedding-4B-Q4_K_M: 1 провальных вопросов.""" Очень интересно, это были разные вопросы?"Модели серии Qwen3-Embedding показали на удивление мало различия между собой".
Может тесты уточнить? "Qwen3 Embedding 8B занимает первое место в многоязычной таблице MTEB (по состоянию на 5 июня 2025 года, балл 70,58)". """Qwen3 Embedding""", GitHub - QwenLM/Qwen3-Embedding или """Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models""". https://qwenlm.github.io/blog/qwen3-embedding/. Высокие отзывы о серии Qwen3 Embedding: https://huggingface.co/datasets/John6666/forum3/blob/main/embedding_ec_search_1.md
День добрый! Ваш ответ не раскрывает смысл словосочетания "Понять данные", а является наглядной аналогией, объясняющей суть распознания образов (pattern recognition). Потрудитесь пожалуйста дать ответ в контексте заявленной Вами темы: "Как заставить модель учиться, если мы сами ничего не знаем", а то, не дай Бог, неподготовленный читатель воспримет вторую часть как личную позицию Уважаемого Автора
"А все‑таки — чему учить модель, если мы ничего не знаем? Ответ прост — мы можем научить модель не выдавать определенный результат при некоторых входных данных, а понимать данные. ". А вот это "а понимать данные" пожалуйста опишите максимально подробнее
Одни общие фразы и сомнительные заклинания. "Используйте RAG, чтобы подгружать DDL, схемы, модели DBT и выборки строк. ". Очень интересно, знает ли уважаемый Автор на каких данных какой тип RAG какую гарантирует точность? Аналогичные вопросы можно задать к любому предложению. А смысл???
Не цифрам и не к графикам, а к результатам. Для "некоторых данных" в пределах погрешности достоверного отличия нет
Эта Ваша святая обязанность - предоставление достоверных данных. Мне Ваш уровень понятен и понятна степень доверия к Вашим данным, но если во время предзащиты Вам будут задавать вопросы, то ... Наблюдал такое не один раз
Если Вы не знакомы с Доверительными Интервалами, то Вы не имеете права оценивать (сравнивать, обсуждать тенденции, зависимости и т.д.) полученные результаты. Обычно - это тема первого занятия по лабораторным работам нормального ВУЗа. Работа даже не студенческая и даже не школьная. Без оценки доверительных интервалов все приведенные графики и цифры являются информационным шумом, а выводы - не обоснованными. Цель вычислений не цифры, а понимание. Вначале определяете закон распределения данных и потом считаете доверительные интервалы и потом делаете выводы.
"спорт как-то влияет на количество сна " - судя по доверительным интервалам, приведенных на графике - это не достоверно.
"«нейро-профиля» конкретных судей на основе решений " - с огнём играете... Если развить этот алгоритм, много чего интересного можно будет узнать
Спасибо, интересна оценка точности
Очень интересно как уважаемые Коллеги оценивают работы Anthropic по объяснимости результатов LLM, например при переводе с одного языка на другой или при написании стихов?
Спасибо Автору за интересную статью, на хабре таких статей очень мало. К вопросу об участии LLM в написании статей. Фразу """Короче говоря, всякий раз, когда вы видите в развертывании модель только для декодера, существует разумная вероятность того, что модель только для кодера также является частью системы. """ читал несколько раз и попросил Qwen перевести на русский, вот что получилось:
Или ещё проще:
Или нейтрально и ясно:
Спасибо, попробую на даче. Это работает под Win10/11?