All streams
Search
Write a publication
Pull to refresh
108
0

Профессиональное сообщество

Send message

Добрый день!

Да согласен с вами. В моей задаче разбирать синонимы было бы избыточным, основную проблему представляла неправильная трансформация изображений документов в текст. Для этой задачи я думаю расстояния через замены хорошо подходят, что и попытался подчеркнуть в этой статье.

Добрый день!

Вернусь к вам с ответом позже.

Добрый день!

Смогу ответить на ваш комментарий позднее.

Добрый день!

1. Согласен с тем, что возможно следовало использовать буквосочетания. Наверное если подходить к вопросу таким образом, то определение порогового значения (есть искомая строка в тексте или нет) для косинусного сходства было бы проще.
2. Про кэш не подумал, спасибо за замечание. Вопрос стоит только в том, стоит ли игра свеч (использования кэша и эмбеддингов и пр., чтобы дойти до уровня работы rapidfuzz).
3. Тут каюсь, выбрал не самые говорящие имена.


Спасибо за ваш интерес к статье!

Спасибо!

Обязательно протестирую предложенный метод.

Добрый день!

Спасибо за замечание, полезное, учту в последующей работе.

Спасибо за интерес к посту!

Добрый день!

Вы правильно говорите. Дело только в том, что вы описываете скорее строгий вариант TO BE, а я рассказываю про эвристический AS IS.

Можно сказать, что НБК не исключает присваивание обоих классов объекту (что, понимаю, контринтуитивно). Просто возвращает только один, самый вероятный класс.

Я считаю, у вас отличная идея для новой модификации НБК – в существующей версии такой «фичи» нет.

Спасибо за комментарий и простите за задержку с ответом!

Добрый день!
Модель в любом случае выдаст список похожих изображений, но т.к. они были искусственно сгенерированы, то при дальнейшей проверке человеком реально похожих людей не найдётся - это верно.

Спасибо за вопрос и простите за задержку с ответом)

Здравствуйте! Это камень преткновения всех, кто решился познать секрет наивного байесовского классификатора.

Классов может быть сколько угодно – считайте, что они просто делят коллекцию документов на части. И в каждой такой части считается вероятность принадлежности, которая в сумме с вероятностью не-принадлежности действительно даёт 1.

Это мы с вами думаем, что статья либо, релевантна, либо нерелевантна. Но для НБК это всего лишь классы, которые никаким отношением друг с другом не связаны. И он не знает, сколько этих классов всего. Поэтому он и «наивный».

С другой стороны, в этом и удобство его использования: вы можете добавить статьи некоего третьего класса в выборку (например, «под сомнением»), не меняя самой логики работы НБК.

Спасибо за комментарий)

Добрый день!

Спасибо за вопрос, действительно, отчасти это так. И НБ, и TF-IDF рассчитывают частоту употребления слов для оценки их значимости. Но НБ оценивает значимость слова с точки зрения каждого класса, а TF-IDF – в целом по коллекции документов. (+ НБ не рассчитывает компонент IDF).

Добрый день!

Вы правы, действительно использую косинусное расстояние для определения семантического сходства между каждой парой эмбеддингов.

Однако сравнение алгоритмов это уже не задача о сходстве. Я получил значения эталонных оценок и значения базового и преобразованных семантических сходств.

Для сравнения мне интересна разница величин между значениями, а не их ориентация или направления векторов, поэтому и использую евклидово расстояние. Я нахожу расстояние каждой величины семантического сходства до величины эталонной оценки для каждой пары предложений.

Т.е. чем ближе вектор сходства к вектору эталонной оценке по евклидовому расстоянию, тем условно меньше суммарная разница между значениями эталонных оценок и значениями очередного семантического сходства. 

Спасибо за замечания!

Добрый день!

Большое спасибо за интересные комментарии. В случае нашей задачи дополнительных исследований проводить не пришлось. Но они могут быть нужны для решения других задач, т.к. к каждой задаче необходимы свои подходы к решению.

Добрый день!

Решение о схожести изображений, помимо значения расстояния, принималось на основе проверке ‘вручную’ 5 - 10 фотографий, которые модель вывела как похожие (в любом случае необходимо было проверить действительно ли они похожи на исходную).

Спасибо за отклик.

Добрый день!
В данных подходах используется метод ближайших соседей (Nearest Neighbors), сравнение изображений в виде векторов происходит путем вычисления перебором расстояний между всеми парами точек в наборе данных. Близость векторов основана на вычислении косинусного или евклидового расстояния. В рассмотренных подходах использовалось косинусное расстояние – вычисление косинуса угла между двумя векторами – если косинус большой, то значит вектора находятся далеко друг от друга и изображения не похожи, в другом случае, при близости векторов, изображения будут считаться похожими.

Надеюсь ответил на Ваш вопрос.

Добрый день!

Если своими словами, то под многострочным режимом имеется в виду формулы (или формула), написанные в несколько строк, которые принадлежат одному блоку. Если есть одна длинная формула, которая размещается только на нескольких строках, то я использую этот режим. Или если есть несколько формул, связанные контекстом, мне нравится писать их в одном блоке.

Да, есть много окружений для этого режима, мне почему-то понравился align, наверное, потому что его было легче запомнить.

Спасибо, что делитесь своим опытом.

Добрый день!

Действительно. В Colab Notebook работает и с `$$` и без них, а вот в чистом LaTeX так работать не будет – нужно убрать $$.

Спасибо за ценное замечание.

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Works in
Registered
Activity