• Sun Tech Days 2009

      441.59 КБ
      Конференция закончилась. Хочется подвести какие-то итоги. Пожалуй, не буду размазывать, просто пробегусь по пунктам. Пять вещей, которые хотелось бы отметить.
      Читать дальше →
    • Машинная обработка естественных языков: Apache UIMA

        Первоначально разработанная спецами из IBM, Архитектура управления неструктурированной информацией (UIMA) сейчас обитается в инкубаторе от Apache, являет собой образец открытого ПО и распространяется по апачевой лицензии.

        Что это?


        Это — программная инфраструктура, цель которой — анализ больших массивов информации и извлечение из этой информации знаний. Тут мы осторожно остановимся, заглянем в пропасть семантического веба, на дне которой лежит искусственный интеллект, и сделаем осторожный шаг назад.

        Apache UIMA хороша тем, что не таит в себе никакой мистики. Всё можно пощупать, поковырять, подпилить.

        Она предлагает модульный подход к анализу текста. Например, последовательность анализа может быть такой:
        1. определяем язык текста;
        2. находим границы предложений;
        3. ищем именованные вхождения (имена, названия и т.д.).

        Каждая операция выполняется определённым компонентом, связь между которыми обеспечивается фреймворком (доступны UIMA Java Framework и UIMA C++ Framework).

        Читать дальше →
        • +12
        • 8,3k
        • 8