Comments / Profile of Cheypnow / Habr

User

Я угадаю, что рабочий цеха хочет ввести, с трёх букв

Cheypnow Nov 23 2024 at 14:13

А что если вводить будут похожее по смыслу слово? Может есть смысл добавить словарь синонимов хотя бы для части терминов?

Пишем поиск семантически похожих текстов (или товаров) за полчаса на Go и Postgres (pgVector)

Cheypnow Apr 23 2024 at 13:54

Так как в посгресе лежат уже просто векторы определённой размерности, то, как мне кажется, никто не помешает в них добавить ещё пару измерений. Например, если мы ищем похожие товары в интернет-магазине, то, наверно, можно попробовать добавить в вектора такие числа как "длина", "ширина", "цвет", и т. д.

Просто добавить числа не получится, их тоже надо как-то кодировать. Например, нужно понимать должны ли мы учитывать близость чисел друг к другу. Когда мы говорим о длине или ширине, то логично считать 99 более близким и похожим на 100, чем число 1. Но если это будут, например, номера категорий товара, то близость их номеров скорее всего не будет говорить о схожести.

Ещё при добавлении других признаков надо не забывать приводить фичи к одной размерности. Если у одной фичи диапазон значений от -10000 до 10000, а у другой от 0 до 1, то первая будет сильнее влиять на рассчет расстояния, чем вторая.

Понятно, что зависимость от API чужого сервиса — это плохо, поэтому можно попробовать сделать свою систему для получения embeddings. Я нагуглил пару способов, как это сделать на языке Go, но глубоко в эту сторону не копал.

Как альтернатива, использовать word2vec. Вроде для Go тоже завезли https://pkg.go.dev/code.sajari.com/word2vec

Было бы интересно сравнить результаты pgvector с решениями вроде FAISS и Qdrant. Дают ли они какое-то преимущество или наоброт проигрывают постгре.

Hadoop мертв, да здравствует Hadoop! Или что новенького в Cloudera?

Cheypnow Feb 24 2021 at 09:35

"С декабря 2020 года для всех пользователей CDP стал доступен Spark 3.0, а добавление 3.1 запланировано на первую половину 2021."

Можно уточнить о какой конкретно версии идет речь? Релиз Spark 3.1.0 же отменили и вроде пока не ясно когда будет 3.1.1

Не судите чужой код строго

Cheypnow Oct 8 2019 at 08:26

По своему опыту могу сказать что, например, Intellij прекрасно справляется с пониманием того что где-то есть такая же логика, но с другим названием переменной