Первоначально разработанная спецами из IBM, Архитектура управления неструктурированной информацией (
UIMA) сейчас обитается в
инкубаторе от Apache, являет собой образец открытого ПО и распространяется по апачевой лицензии.
Что это?
Это — программная инфраструктура, цель которой — анализ больших массивов информации и извлечение из этой информации
знаний. Тут мы осторожно остановимся, заглянем в пропасть семантического веба, на дне которой лежит искусственный интеллект, и сделаем осторожный шаг назад.
Apache UIMA хороша тем, что не таит в себе никакой мистики. Всё можно пощупать, поковырять, подпилить.
Она предлагает модульный подход к анализу текста. Например, последовательность анализа может быть такой:
- определяем язык текста;
- находим границы предложений;
- ищем именованные вхождения (имена, названия и т.д.).
Каждая операция выполняется определённым компонентом, связь между которыми обеспечивается фреймворком (доступны UIMA Java Framework и UIMA C++ Framework).