Pull to refresh
0
Content AI
Решения для интеллектуальной обработки информации

Студенческие лаборатории ABBYY

Reading time2 min
Views8.7K
Некоторое время назад мы говорили в нашем блоге о кафедре ABBYY на факультете Инноваций и высоких технологий МФТИ. Это, безусловно, одна из главных наших точек соприкосновения с подрастающим поколением IT-шников, но далеко не единственная. Еще об одном студенческом проекте мы хотим рассказать сегодня. Это проект под кодовым названием ABBYY Labs, первой площадкой для которого стал тоже физтех.

Идея студенческих лабораторий очень проста: мы собираем команду студентов, которые занимаются решением задач под руководством наших специалистов. В МФТИ это проходит в рамках годового курса «Инновационный практикум». Тема, над которой работают наши студенты, неоднократно поднималась в комментариях к постам о новых версиях FineReader. Тема «больная» для всех студентов, поэтому неудивительно, что этот проект стал таким популярным – среди самых разных предложений от компаний 20% ребят выбрали именно его. Итак, наша команда занимается разработкой модуля распознавания печатных формул!



В нашей лаборатории 9 студентов с разных факультетов, и для них теперь всё «по-взрослому». Проект разделился на два подпроекта – выделение областей, «похожих» на формулы, и непосредственно распознавание с экспортом в TeX. В каждом из них есть аналитик и разработчики – в анализе» их трое, а в «распознавании» – четверо, среди них есть ведущий разработчик. Роль менеджера проекта играет аспирант нашей кафедры – он не только руководит процессом, но и помогает ребятам понять особенности командной работы над сложными технологическими проектами. С организационными вопросами ему будет помогать HR-специалист. Отдельной роли тестировщиков не предусмотрено – тестированием будут заниматься сами разработчики. Они сами будут писать тесты для своих классов. Кроме того, продукт будут тестировать на пакете эталонно распознанных изображений. Пока он составлен только для задачи анализа, но в перспективе распознавание будут тестировать аналогичным образом.

С точки зрения решения задач все тоже серьезно. Несмотря на то, что в будущем продукте будет использоваться ряд уже готовых библиотек для работы с изображениями в различных форматах, для распознавания текста и для бинаризации изображений, ребятам потребуется:
  • создать систему признаков для генерации гипотез о присутствии формулы на изображении, а также систему комбинирования и фильтрации этих гипотез;
  • разработать понятийный аппарат для проверки формул (своеобразный «семантический словарь»);
  • ввести систему признаков и разработать эталоны для символов, не поддерживаемых используемым SDK (ведь формулы – это не только греческие и латинские буквы);
  • придумать алгоритм построения формулы по распознанным символам;
  • разработать экспорт в TeX.

О каких-то результатах работы молодой команды разработчиков пока говорить рано. Пока они только начали проходить через «живой» цикл разработки ПО. Мы желаем ребятам успешно пройти через все этапы от анализа задачи до «поставки» готового результата и не выбиваться из поставленных планов и сроков. Надеемся, что их опыт будет вдохновлять другие команды ABBYY Labs, которые появятся в будущем в различных вузах нашей страны.

Дмитрий Грицан
при поддержке HR-службы и мобильного департамента
Tags:
Hubs:
+23
Comments11

Articles

Information

Website
www.contentai.ru
Registered
Founded
Employees
101–200 employees
Location
Россия