Pull to refresh
9
Karma
0
Rating
Алексей Журавлев @AlekseyZhuravlev

Программист

  • Followers
  • Following 1

Много иероглифов – много нейросетей: как построить эффективную систему распознавания для большого числа классов?

Спасибо, рады стараться. Ваш вопрос не совсем понял. В нашем подходе по факту используются для обучения растровые данные (картинки) всех доступных изображений иероглифов. Или вы имеете ввиду данные, полученным синтетическим рендерингом из шрифтов?

Много иероглифов – много нейросетей: как построить эффективную систему распознавания для большого числа классов?

Капсульные сети в задачах распознавания пока не пробовали. В теории действительно может хорошо работать для иероглифов, но экспериментов пока не было, так что точно сказать не могу. Не думаю, что это тупик, но в научном сообществе применения CapsNets для End-to-End OCR нигде не видел.

Много иероглифов – много нейросетей: как построить эффективную систему распознавания для большого числа классов?

Там обычно предсказывают 3 числа, соответствующие углам поворота в пространстве (Yaw, pitch, roll) и обучают на это задачу регрессии. В символах тоже можно подумать в направлении регрессии и кодирования взаимного расположения элементов через неё, вполне возможно что заработает.

Много иероглифов – много нейросетей: как построить эффективную систему распознавания для большого числа классов?

Да, может заработать. Здесь главный вопрос в том, каким образом такую сложную информацию закодировать в выходах нейронной сети, чтобы она при этом хорошо обучилась.
Для корейского с факторизацией всё просто и интуитивно, т.к. составляющих элементов достаточно мало, и их позиции в символе строго фиксированы. В итоге можно просто сделать у сети 4 выхода небольшого размера, которые кодируют символ.
Для китайского уже становится сложнее, потому что составляющих элементов сильно больше, как и возможных комбинаций их взаимного расположения.
С европейскими языками, кстати, скорее всего будет проще, чем с китайским, тут вопрос эксперимента. Другой вопрос будет ли от этого какая-то практическая польза, ибо алфавит там уже небольшой и распознаётся хорошо и быстро одной простенькой нейросетью.

Много иероглифов – много нейросетей: как построить эффективную систему распознавания для большого числа классов?

Да, такой подход мы называем факторизацией, мы его тоже пробовали. Он очень хорошо работает для корейской письменности, там собственно он и используется. Для китайского качество пока получается ниже, чем у двухуровневой модели, но мы планируем продолжать исследования в этом направлении.

Information

Rating
Does not participate
Location
Москва, Москва и Московская обл., Россия
Works in
Date of birth
Registered
Activity