На сколько я понимаю, у вас задача классификации и распознавания текста. Такие функции «по направлению» есть во всех специализированных продуктах (Abby, Kofax, EMC Captiva). Это достигается не расширением языка регулярных выражений, а внутренними функциями программ, потому что там вариантов может быть море и все это гибко настраивается «много-ко-многим» в конфигураторах.
Объемные регулярные выражения