lexx0606 Jun 1 at 07:16

Ищем похожие иероглифы при помощи искусственного интеллекта

Easy

19 min

4.3K

Python * Artificial IntelligenceLearning languages

From sandbox

+13

Comments 9

evs38 Jun 1 at 08:42

Как вообще можно было перепутать 悔 с 梅? :)

TrickyBestia Jun 1 at 22:14

Спасибо за статью.

Поделюсь своим опытом. Сейчас работаю над похожим проектом, в рамках которого нужно в базе найти изображение, наиболее похожее на заданное. Сначала пробовал использовать нейросеть (учил сам, показывая ей сдвинутые на несколько пикселей друг относительно друга фрагменты изображения), был достигнут неплохой результат.

Потом появилась идея минимизировать сумму модулей разностей пикселей изображений. Т.е. прогнать в цикле все изображения из базы и для них посчитать эту метрику. Работает быстрее нейросети и убирает необходимость тянуть pytorch за приложением. Было бы интересно применить этот алгоритм к вашей задаче. У меня размер картинок и их количество примерно такое же как в статье.

А так метод с предобученными сетями для image feature extraction интересный, но как будто бы для одноцветных изображений оверкилл. Можете подсказать сколько у вас модель весит?

lexx0606 Jun 2 at 14:35

Модель от timm (PyTorch Image Models) 304M параметров, resnet -- 23 M, обе fp32, так что первая получается ~1,22Gb, вторая ~94Mb. С одной стороны они обе оверкилл. Если подходить чисто теоретически, то учитывая, что в китайском выделяют максимум 214 ключей 256-мерного вектора должно быть вот прям с запасом чтоб очень хорошо и группировать и сепарировать все множество иероглифов. Но у timm размерность -- 1024, у resnet -- 2048. Все эти лишние измерения утяжеляют базу, замедляю работу алгоритма sqlite_vec. С другой стороны использование предобученных сетей избавило меня от такого количества работы, что я готов потерпеть лишние миллисекунды, пока ворочается неэффективная реализация :).

По поводу минимизации суммы модулей разности между пикселями изображения вот ничего особо не скажу. Я когда-то давно читал книжки про классическую обработку изображений (еще времен до нейросетей, с поисками границ объектов или размытием при помощи матриц, то что в библиотеке PIL сейчас и реализовано), но это не мой профиль. Обработка последовательностей (в том числе текстов), мне ближе.

contradictor Jun 2 at 11:50

Учусь говорить, а не писать и читать в duolingo полтора года для себя. Писать пиньином, если что. Читать - смартфоном.

lexx0606 Jun 2 at 14:44

Мои приоритеты в порядке убывания: читать, слушать, писать (в том числе от руки), говорить. В duolingo у меня был страйк в 893 дня. Но после окончания курса я продержался месяца два, потом гонять по кругу одни и те же предложения надоело. Сейчас работаю с книгами, их озвучкой и карточками. В anki у меня больше 4000 активных карточек уже крутиться. Поэтому и возникло желание начать быстро находить похожие иероглифы без надежды на свою не очень надежную память. Находить слова, включающие какой-то знак намного проще.

den0law Jun 2 at 11:51

Не учите иероглифы по отдельности.
Учите их в контексте с другими иероглифами: 悔 - 後悔 - сожалеть；梅 - 梅雨 - сезон "сливовых" дождей в Азии и так далее.
для почти всех слов есть свои контексты в предложениях и по одиночке их увидеть почти невозможно, так что постижение языка почти всегда длительная практика и письма, и чтения, и общения с живыми людьми, так что желаю вам терпения и удачи в этом непростом деле!

lexx0606 Jun 2 at 15:00

Спасибо. При изучении языка все средства хороши. И контекст часто выручает. Но вот когда встречаешь новый иероглиф, похожий на старый, мозг упорно хочет видеть уже известный знак. И надо новый знак заучивать и в составе слов, и как писать. А как его заучивать, если он все время из памяти хочет сбежать? Поэтому и пишешь привычное 报, а потом выбираешь из похожих, тот который пытался запомнить недавно и снова сбрасываешь прогресс изучения для него и слов с ним в карточках anki.

Notrado Jun 15 at 16:46

Спасибо большое за очень интересную задачу и проект!

Я попробовал на другом наборе глифов прогнать, на первый взгляд кажется, что resnet50 захватывает то, что хотелось бы видеть, но иногда timm выдаёт то, что не выдал resnet50.Предпочтения так и не смог сделать.

Заметил, что ссылки потерялись здесь (хотел посмотреть):

В процессе перебора я, к сожалению, журнала не вел (и очень зря, в следующий раз в подобной ситуации буду, из тех сетей, что сохранились в блокнотах: 1, 2, 3, 4 ).

lexx0606 Jun 16 at 16:17

ИМХО, timm как-будто общую композицию знака видит, а resnet50 больше привязывается к конкретным ключам. За ссылки прощу прощения, куда потерялись - непонятно. Продублирую тут полным текстом для надежности:

Все эти сети немного отличаются по механизму формирования эмбеддингов, поэтому в отдельных блокнотах и сохранились. В принципе на странице модели описано, как ее применять, но если будут вопросы -- пишите. Я эти блокноты причешу и добавлю в репозиторий на github.