sshmakov Nov 10 2025 at 05:42

Разбираю свой фотоархив

Medium

7 min

10K

Python * Artificial IntelligenceDjango *

Case

+29

Comments 23

sevmax Nov 10 2025 at 05:58

Рассматривали ли вы готовые решения, например Immich?

sshmakov Nov 10 2025 at 06:53

Именно lmmich я не рассматривал. По февральской статье, его основная фишка - хранение фото и шаринг. Есть поиск по описанию и распознавание лиц. Но на английском.

Для хранения и шаринга у меня есть Nextcloud. А поиск на русском сделать, как оказалось, не сильно сложно.

И, конечно, не будем забывать про фатальный недостаток всех этих решений, Not Invented Here.

aik Nov 10 2025 at 09:42

К иммичу есть русскоязычные модели. Впрочем, описание они не генерят.

sshmakov Nov 10 2025 at 09:46

А как же они ищут фото по строке, если не по описаниям? Или описание к каждому фото надо самому создать?

aik Nov 10 2025 at 10:02

Фото индексируются. Но человекочитаемых описаний нет. И рассвет от заката не отличает.

saibaken Nov 10 2025 at 13:25

А какой-то человек отличит рассвет от заката, если у фото не указано время? 🤔

aik Nov 10 2025 at 13:50

Ну так время в exif'e есть, можно было бы туда и заглянуть.

А так обычно закат более красный, но это всё же не стопроцентный признак, просто один из.

RulenBagdasis Nov 10 2025 at 18:04

Если мох в кадре есть, можно попробовать )))

Litemanager_remoteadmin Nov 10 2025 at 06:27

Можно конечно и в ручную посидеть поразбирать фото 20к штук , шучу конечно, но думаю там полно повторов обычно делаешь несколько фото чтобы выбрать лучшую а потом просто жалко удалять , да думаю в таком случае AI должен помочь

sshmakov Nov 10 2025 at 06:56

Кстати, да, повторы и мало отличающиеся фото можно отследить по близости их векторов.

UFO landed and left these words here

sshmakov Nov 10 2025 at 19:39

И по дате. Но одной даты мало, нужно ещё сравнивать похожесть снимков.

yrub Nov 10 2025 at 20:31

и все равно вы какой-то велосипед сделали, давным давно есть clip от openai - давно есть консольная утилита rclip для поиска фото по тексту или картинке в качестве примера для поиска, работает это все очень быстро даже на cpu потому что модели не нужно напрягаться и выдавливать из себя текст, она сразу картинку превращает в вектор, и дает вам возможность текст превращать в вектор из такого же пространства. Это называется мультимодальность.

llava-v1.6-mistral-7b-hf

сколько лет этой модели? года 3 наверно. Зачем такое брать? clip правда еще старше, но она работает, она маленькая и она решает более простую задачу

С выбором векторной базы вопрос не стоял - разумеется, PostgreSQL с расширением pgvector. Не потому, что постгри весь такой крутой и сильный, а потому что дополнительных приключений на свой филей не хотелось. Раз финтех на нём работает, то и я как-нибудь разберусь.

разумеется? какой финтех на этом работает? я сам не ковырял это все, но по отзывам pgvector это решение чисто "на поиграть", под серьезные вещи ее никто не дизайнил. Может для ваших 20 тысяч фото пойдет, в rlicp вообще sqlite и тоже работает, но если для вашего приложения не нужен постгрес то тогда зачем?

Siberianice Nov 10 2025 at 23:52

Nvidia ChatRTX — там всё есть.

Samych Nov 11 2025 at 05:24

Отличная идея для слабовидящих. Голосовое описание фотографий даст подзабытым воспоминаниям вновь обрести образы в сознании.

imageman Nov 12 2025 at 21:45

-- кластеризация

-- переход от одной фотке к похожим (рядом с основной фоткой несколько миниатюрок похожих. возможно с ограничением на дату, что бы в один и тот же час не показывало).

Akuma Nov 15 2025 at 16:20

Честно сказать, я бы вообще не заморачивался с локальными моделями.

Какой-нибудь Google Flash выдаст отличное описание картинки сразу на русском (если это вообще надо) за 0.0000…$ - пусть даже 20к фоток, ну будет это стоить 10-20 баксов - ФИО с ним, проиндексировал и забыл.

aik Nov 17 2025 at 07:11

У меня, к примеру, 20к фоток только в телефоне. А в фотоархиве - около 300к.

Akuma Nov 17 2025 at 07:40

Если предположить, что уже есть нормальная видеокарта, то конечно дешевле будет использовать локальную модель.

Но вот у меня ее нет. Есть только макбук. Тут конечно тоже можно все это завести, но скорости, скорее всего, будут больше секунды на фото, а это 3 с лишним суток непрерывной работы. Тоже такое себе.

К тому же сколько бы я ни пробовал локальные модели, они либо откровенно тупые, либо жутко медленные и все равно не дотягивают до проприетарных.

Возможно это лишь мой опыт.

aik Nov 17 2025 at 07:46

А в чём проблемы трое суток дать компу пошуршать?
У меня иммич на проце дольше недели мой фотоархив обрабатывал. Но я не тороплюсь. Закачивать три терабайта в гугель - это тоже довольно долго на моём интернете. Ну и вообще, отдавать свои личные фото левому ИИ совсем не хочется.

kWatt Nov 17 2025 at 10:52

Подобный функционал можно и на StrAPI, останется только UI накидать на: JS/Java/etc.

isumix Nov 23 2025 at 19:00

Для меня было бы актуально распознавание лиц и категоризация по ним. Также создание облака тегов чтобы была стратовая страница с ними. Также поиск дубликатов фотографий, чтобы удалить лишнее.

sshmakov Nov 24 2025 at 11:23

Распознавание лиц и категоризацию, в том числе по лицам - об этом я уже думал. А вот про облако тэгов не было раньше мысли, спасибо.