Comments / Profile of NewTechAudit / Habr

NTA @NewTechAudit

Профессиональное сообщество

ProfileArticles282PostsNewsComments307

Нечеткое сравнение строк с помощью rapidfuzz

NewTechAudit May 15 2023 at 05:35

Добрый день!

Да согласен с вами. В моей задаче разбирать синонимы было бы избыточным, основную проблему представляла неправильная трансформация изображений документов в текст. Для этой задачи я думаю расстояния через замены хорошо подходят, что и попытался подчеркнуть в этой статье.

0

Нечеткое сравнение строк с помощью rapidfuzz

NewTechAudit May 10 2023 at 03:49

Добрый день!

Вернусь к вам с ответом позже.

0

Нечеткое сравнение строк с помощью rapidfuzz

NewTechAudit May 10 2023 at 03:48

Добрый день!

Смогу ответить на ваш комментарий позднее.

0

Как улучшить точность ML-модели используя разведочный анализ

NewTechAudit May 10 2023 at 03:36

Спасибо за интерес к статье!

0

Нечеткое сравнение строк с помощью rapidfuzz

NewTechAudit May 5 2023 at 09:38

Добрый день!

1. Согласен с тем, что возможно следовало использовать буквосочетания. Наверное если подходить к вопросу таким образом, то определение порогового значения (есть искомая строка в тексте или нет) для косинусного сходства было бы проще.
2. Про кэш не подумал, спасибо за замечание. Вопрос стоит только в том, стоит ли игра свеч (использования кэша и эмбеддингов и пр., чтобы дойти до уровня работы rapidfuzz).
3. Тут каюсь, выбрал не самые говорящие имена.

Спасибо за ваш интерес к статье!

0

Нечеткое сравнение строк с помощью rapidfuzz

NewTechAudit May 5 2023 at 06:49

Спасибо!

0

Нечеткое сравнение строк с помощью rapidfuzz

NewTechAudit May 5 2023 at 06:48

Спасибо!

Обязательно протестирую предложенный метод.

0

Нечеткое сравнение строк с помощью rapidfuzz

NewTechAudit May 5 2023 at 06:47

Добрый день!

Спасибо за замечание, полезное, учту в последующей работе.

0

Нечеткое сравнение строк с помощью rapidfuzz

NewTechAudit May 5 2023 at 05:54

Спасибо за интерес к посту!

0

Как научить Наивного Байеса давать персональные рекомендации

NewTechAudit Apr 24 2023 at 11:21

Добрый день!

Вы правильно говорите. Дело только в том, что вы описываете скорее строгий вариант TO BE, а я рассказываю про эвристический AS IS.

Можно сказать, что НБК не исключает присваивание обоих классов объекту (что, понимаю, контринтуитивно). Просто возвращает только один, самый вероятный класс.

Я считаю, у вас отличная идея для новой модификации НБК – в существующей версии такой «фичи» нет.

Спасибо за комментарий и простите за задержку с ответом!

0

ML-подходы по поиску похожих изображений

NewTechAudit Apr 24 2023 at 08:19

Добрый день!
Модель в любом случае выдаст список похожих изображений, но т.к. они были искусственно сгенерированы, то при дальнейшей проверке человеком реально похожих людей не найдётся - это верно.

Спасибо за вопрос и простите за задержку с ответом)

0

Как научить Наивного Байеса давать персональные рекомендации

NewTechAudit Apr 17 2023 at 07:53

Здравствуйте! Это камень преткновения всех, кто решился познать секрет наивного байесовского классификатора.

Классов может быть сколько угодно – считайте, что они просто делят коллекцию документов на части. И в каждой такой части считается вероятность принадлежности, которая в сумме с вероятностью не-принадлежности действительно даёт 1.

Это мы с вами думаем, что статья либо, релевантна, либо нерелевантна. Но для НБК это всего лишь классы, которые никаким отношением друг с другом не связаны. И он не знает, сколько этих классов всего. Поэтому он и «наивный».

С другой стороны, в этом и удобство его использования: вы можете добавить статьи некоего третьего класса в выборку (например, «под сомнением»), не меняя самой логики работы НБК.

Спасибо за комментарий)

+1

Как научить Наивного Байеса давать персональные рекомендации

NewTechAudit Apr 17 2023 at 07:51

Добрый день!

Спасибо за вопрос, действительно, отчасти это так. И НБ, и TF-IDF рассчитывают частоту употребления слов для оценки их значимости. Но НБ оценивает значимость слова с точки зрения каждого класса, а TF-IDF – в целом по коллекции документов. (+ НБ не рассчитывает компонент IDF).

+1

Снижаем размерность эмбеддингов предложений для задачи определения семантического сходства

NewTechAudit Apr 6 2023 at 17:02

Спасибо!

0

Снижаем размерность эмбеддингов предложений для задачи определения семантического сходства

NewTechAudit Apr 6 2023 at 11:41

Добрый день!

Вы правы, действительно использую косинусное расстояние для определения семантического сходства между каждой парой эмбеддингов.

Однако сравнение алгоритмов это уже не задача о сходстве. Я получил значения эталонных оценок и значения базового и преобразованных семантических сходств.

Для сравнения мне интересна разница величин между значениями, а не их ориентация или направления векторов, поэтому и использую евклидово расстояние. Я нахожу расстояние каждой величины семантического сходства до величины эталонной оценки для каждой пары предложений.

Т.е. чем ближе вектор сходства к вектору эталонной оценке по евклидовому расстоянию, тем условно меньше суммарная разница между значениями эталонных оценок и значениями очередного семантического сходства.

Спасибо за замечания!

0

ML-подходы по поиску похожих изображений

NewTechAudit Apr 3 2023 at 10:35

Добрый день!

Большое спасибо за интересные комментарии. В случае нашей задачи дополнительных исследований проводить не пришлось. Но они могут быть нужны для решения других задач, т.к. к каждой задаче необходимы свои подходы к решению.

0

ML-подходы по поиску похожих изображений

NewTechAudit Apr 3 2023 at 08:28

Добрый день!

Решение о схожести изображений, помимо значения расстояния, принималось на основе проверке ‘вручную’ 5 - 10 фотографий, которые модель вывела как похожие (в любом случае необходимо было проверить действительно ли они похожи на исходную).

Спасибо за отклик.

0

ML-подходы по поиску похожих изображений

NewTechAudit Apr 3 2023 at 06:38

Добрый день!
В данных подходах используется метод ближайших соседей (Nearest Neighbors), сравнение изображений в виде векторов происходит путем вычисления перебором расстояний между всеми парами точек в наборе данных. Близость векторов основана на вычислении косинусного или евклидового расстояния. В рассмотренных подходах использовалось косинусное расстояние – вычисление косинуса угла между двумя векторами – если косинус большой, то значит вектора находятся далеко друг от друга и изображения не похожи, в другом случае, при близости векторов, изображения будут считаться похожими.

Надеюсь ответил на Ваш вопрос.

0

Как красиво писать формулы c LaTeX?

NewTechAudit Mar 30 2023 at 02:48

Добрый день!

Если своими словами, то под многострочным режимом имеется в виду формулы (или формула), написанные в несколько строк, которые принадлежат одному блоку. Если есть одна длинная формула, которая размещается только на нескольких строках, то я использую этот режим. Или если есть несколько формул, связанные контекстом, мне нравится писать их в одном блоке.

Да, есть много окружений для этого режима, мне почему-то понравился align, наверное, потому что его было легче запомнить.

Спасибо, что делитесь своим опытом.

0

Как красиво писать формулы c LaTeX?

NewTechAudit Mar 29 2023 at 03:29

Добрый день!

Действительно. В Colab Notebook работает и с `$$` и без них, а вот в чистом LaTeX так работать не будет – нужно убрать $$.

Спасибо за ценное замечание.

0

5

6 7 ...