Да согласен с вами. В моей задаче разбирать синонимы было бы избыточным, основную проблему представляла неправильная трансформация изображений документов в текст. Для этой задачи я думаю расстояния через замены хорошо подходят, что и попытался подчеркнуть в этой статье.
1. Согласен с тем, что возможно следовало использовать буквосочетания. Наверное если подходить к вопросу таким образом, то определение порогового значения (есть искомая строка в тексте или нет) для косинусного сходства было бы проще. 2. Про кэш не подумал, спасибо за замечание. Вопрос стоит только в том, стоит ли игра свеч (использования кэша и эмбеддингов и пр., чтобы дойти до уровня работы rapidfuzz). 3. Тут каюсь, выбрал не самые говорящие имена.
Вы правильно говорите. Дело только в том, что вы описываете скорее строгий вариант TO BE, а я рассказываю про эвристический AS IS.
Можно сказать, что НБК не исключает присваивание обоих классов объекту (что, понимаю, контринтуитивно). Просто возвращает только один, самый вероятный класс.
Я считаю, у вас отличная идея для новой модификации НБК – в существующей версии такой «фичи» нет.
Спасибо за комментарий и простите за задержку с ответом!
Добрый день! Модель в любом случае выдаст список похожих изображений, но т.к. они были искусственно сгенерированы, то при дальнейшей проверке человеком реально похожих людей не найдётся - это верно.
Спасибо за вопрос и простите за задержку с ответом)
Здравствуйте! Это камень преткновения всех, кто решился познать секрет наивного байесовского классификатора.
Классов может быть сколько угодно – считайте, что они просто делят коллекцию документов на части. И в каждой такой части считается вероятность принадлежности, которая в сумме с вероятностью не-принадлежности действительно даёт 1.
Это мы с вами думаем, что статья либо, релевантна, либо нерелевантна. Но для НБК это всего лишь классы, которые никаким отношением друг с другом не связаны. И он не знает, сколько этих классов всего. Поэтому он и «наивный».
С другой стороны, в этом и удобство его использования: вы можете добавить статьи некоего третьего класса в выборку (например, «под сомнением»), не меняя самой логики работы НБК.
Спасибо за вопрос, действительно, отчасти это так. И НБ, и TF-IDF рассчитывают частоту употребления слов для оценки их значимости. Но НБ оценивает значимость слова с точки зрения каждого класса, а TF-IDF – в целом по коллекции документов. (+ НБ не рассчитывает компонент IDF).
Вы правы, действительно использую косинусное расстояние для определения семантического сходства между каждой парой эмбеддингов.
Однако сравнение алгоритмов это уже не задача о сходстве. Я получил значения эталонных оценок и значения базового и преобразованных семантических сходств.
Для сравнения мне интересна разница величин между значениями, а не их ориентация или направления векторов, поэтому и использую евклидово расстояние. Я нахожу расстояние каждой величины семантического сходства до величины эталонной оценки для каждой пары предложений.
Т.е. чем ближе вектор сходства к вектору эталонной оценке по евклидовому расстоянию, тем условно меньше суммарная разница между значениями эталонных оценок и значениями очередного семантического сходства.
Большое спасибо за интересные комментарии. В случае нашей задачи дополнительных исследований проводить не пришлось. Но они могут быть нужны для решения других задач, т.к. к каждой задаче необходимы свои подходы к решению.
Решение о схожести изображений, помимо значения расстояния, принималось на основе проверке ‘вручную’ 5 - 10 фотографий, которые модель вывела как похожие (в любом случае необходимо было проверить действительно ли они похожи на исходную).
Добрый день! В данных подходах используется метод ближайших соседей (Nearest Neighbors), сравнение изображений в виде векторов происходит путем вычисления перебором расстояний между всеми парами точек в наборе данных. Близость векторов основана на вычислении косинусного или евклидового расстояния. В рассмотренных подходах использовалось косинусное расстояние – вычисление косинуса угла между двумя векторами – если косинус большой, то значит вектора находятся далеко друг от друга и изображения не похожи, в другом случае, при близости векторов, изображения будут считаться похожими.
Если своими словами, то под многострочным режимом имеется в виду формулы (или формула), написанные в несколько строк, которые принадлежат одному блоку. Если есть одна длинная формула, которая размещается только на нескольких строках, то я использую этот режим. Или если есть несколько формул, связанные контекстом, мне нравится писать их в одном блоке.
Да, есть много окружений для этого режима, мне почему-то понравился align, наверное, потому что его было легче запомнить.
Добрый день!
Да согласен с вами. В моей задаче разбирать синонимы было бы избыточным, основную проблему представляла неправильная трансформация изображений документов в текст. Для этой задачи я думаю расстояния через замены хорошо подходят, что и попытался подчеркнуть в этой статье.
Добрый день!
Вернусь к вам с ответом позже.
Добрый день!
Смогу ответить на ваш комментарий позднее.
Спасибо за интерес к статье!
Добрый день!
1. Согласен с тем, что возможно следовало использовать буквосочетания. Наверное если подходить к вопросу таким образом, то определение порогового значения (есть искомая строка в тексте или нет) для косинусного сходства было бы проще.
2. Про кэш не подумал, спасибо за замечание. Вопрос стоит только в том, стоит ли игра свеч (использования кэша и эмбеддингов и пр., чтобы дойти до уровня работы rapidfuzz).
3. Тут каюсь, выбрал не самые говорящие имена.
Спасибо за ваш интерес к статье!
Спасибо!
Спасибо!
Обязательно протестирую предложенный метод.
Добрый день!
Спасибо за замечание, полезное, учту в последующей работе.
Спасибо за интерес к посту!
Добрый день!
Вы правильно говорите. Дело только в том, что вы описываете скорее строгий вариант TO BE, а я рассказываю про эвристический AS IS.
Можно сказать, что НБК не исключает присваивание обоих классов объекту (что, понимаю, контринтуитивно). Просто возвращает только один, самый вероятный класс.
Я считаю, у вас отличная идея для новой модификации НБК – в существующей версии такой «фичи» нет.
Спасибо за комментарий и простите за задержку с ответом!
Добрый день!
Модель в любом случае выдаст список похожих изображений, но т.к. они были искусственно сгенерированы, то при дальнейшей проверке человеком реально похожих людей не найдётся - это верно.
Спасибо за вопрос и простите за задержку с ответом)
Здравствуйте! Это камень преткновения всех, кто решился познать секрет наивного байесовского классификатора.
Классов может быть сколько угодно – считайте, что они просто делят коллекцию документов на части. И в каждой такой части считается вероятность принадлежности, которая в сумме с вероятностью не-принадлежности действительно даёт 1.
Это мы с вами думаем, что статья либо, релевантна, либо нерелевантна. Но для НБК это всего лишь классы, которые никаким отношением друг с другом не связаны. И он не знает, сколько этих классов всего. Поэтому он и «наивный».
С другой стороны, в этом и удобство его использования: вы можете добавить статьи некоего третьего класса в выборку (например, «под сомнением»), не меняя самой логики работы НБК.
Спасибо за комментарий)
Добрый день!
Спасибо за вопрос, действительно, отчасти это так. И НБ, и TF-IDF рассчитывают частоту употребления слов для оценки их значимости. Но НБ оценивает значимость слова с точки зрения каждого класса, а TF-IDF – в целом по коллекции документов. (+ НБ не рассчитывает компонент IDF).
Спасибо!
Добрый день!
Вы правы, действительно использую косинусное расстояние для определения семантического сходства между каждой парой эмбеддингов.
Однако сравнение алгоритмов это уже не задача о сходстве. Я получил значения эталонных оценок и значения базового и преобразованных семантических сходств.
Для сравнения мне интересна разница величин между значениями, а не их ориентация или направления векторов, поэтому и использую евклидово расстояние. Я нахожу расстояние каждой величины семантического сходства до величины эталонной оценки для каждой пары предложений.
Т.е. чем ближе вектор сходства к вектору эталонной оценке по евклидовому расстоянию, тем условно меньше суммарная разница между значениями эталонных оценок и значениями очередного семантического сходства.
Спасибо за замечания!
Добрый день!
Большое спасибо за интересные комментарии. В случае нашей задачи дополнительных исследований проводить не пришлось. Но они могут быть нужны для решения других задач, т.к. к каждой задаче необходимы свои подходы к решению.
Добрый день!
Решение о схожести изображений, помимо значения расстояния, принималось на основе проверке ‘вручную’ 5 - 10 фотографий, которые модель вывела как похожие (в любом случае необходимо было проверить действительно ли они похожи на исходную).
Спасибо за отклик.
Добрый день!
В данных подходах используется метод ближайших соседей (Nearest Neighbors), сравнение изображений в виде векторов происходит путем вычисления перебором расстояний между всеми парами точек в наборе данных. Близость векторов основана на вычислении косинусного или евклидового расстояния. В рассмотренных подходах использовалось косинусное расстояние – вычисление косинуса угла между двумя векторами – если косинус большой, то значит вектора находятся далеко друг от друга и изображения не похожи, в другом случае, при близости векторов, изображения будут считаться похожими.
Надеюсь ответил на Ваш вопрос.
Добрый день!
Если своими словами, то под многострочным режимом имеется в виду формулы (или формула), написанные в несколько строк, которые принадлежат одному блоку. Если есть одна длинная формула, которая размещается только на нескольких строках, то я использую этот режим. Или если есть несколько формул, связанные контекстом, мне нравится писать их в одном блоке.
Да, есть много окружений для этого режима, мне почему-то понравился align, наверное, потому что его было легче запомнить.
Спасибо, что делитесь своим опытом.
Добрый день!
Действительно. В Colab Notebook работает и с `$$` и без них, а вот в чистом LaTeX так работать не будет – нужно убрать $$.
Спасибо за ценное замечание.