Регулярные выражения *

Формальный язык поиска

СтатьиПостыНовостиАвторыКомпании

vanomel 20 ноя 2018 в 12:44

Создание шаблона для Zabbix на примере DVR Trassir SDK

3 мин

17K

Регулярные выражения * Системное администрирование *

Туториал

Цель создания шаблона — автоматизация мониторинга серверов системы видеонаблюдения на основе регистраторов Trassir под управлением одноименного программного обеспечения на основе linux через web-сервер SDK.

Читать дальше →

mechatroner 12 ноя 2018 в 07:58

Плагин «Rainbow CSV» как альтернатива Excel

4 мин

22K

Регулярные выражения * Программирование * Визуализация данных *

Из песочницы

Привет, Хабр! Эта статья про плагин Rainbow CSV, который я написал для 5 текстовых редакторов:

VS Code, Vim, Sublime Text 3, Atom, Gedit

Думаю, что многие читатели этой статьи периодически сталкиваются с CSV (comma-separated), ТSV (tab-separated) и подобными файлами. Если попробовать открыть их в текстовом редакторе (а как иначе узнать что там внутри?), то откроется совершенно невзрачная картина как с левой стороны изображения. Глядя на это сложно сказать даже сколько колонок в таблице. С правой стороны картинки тот же файл с включенным RainbowCSV, читаемость значительно повысилась за счет синтаксической подсветки.

Читать дальше →

+65

pekunov 30 июн 2018 в 22:31

Регулярные выражения + логическое программирование. Что в результате?

4 мин

7.9K

Регулярные выражения * Программирование * Алгоритмы * Delphi *

Здравствуйте, уважаемые читатели.

Регулярные выражения — хорошо известная вещь, которая используется в разнообразных проектах, чаще всего, для не очень сложных случаев разбора структурированных текстов. Занимаясь, на первый взгляд, такой несколько иной задачей, как обратный синтез моделей программ (когда есть код программы, порожденный автоматически некоторой системой по некоторой блочной модели решаемой задачи, и необходимо по этому коду воссоздать исходную модель), а также синтезом моделей программ по текстовому описанию задачи, я столкнулся с проблемой анализа текстов, а точнее — идентификации фрагментов текста некоторым настраиваемым шаблонам. Хотелось получить достаточно простое и гибкое (настраиваемое) решение. Регулярные выражения, с ходу, такими не казались, поскольку даже в такой простой задаче, как проверка слова по словарю, требовала, к сожалению, тщательного перечисления всех вариантов в этом выражении. Да и дерево синтаксического разбора они не строили. Однако, их явно можно было улучшить. Об этом и пойдет речь.

Читать дальше →

rahna 7 июн 2018 в 07:21

Экспорт дерева тестов из JMeter в текст

4 мин

3.5K

Тестирование IT-систем * Регулярные выражения * Программирование * Java * Apache *

Из песочницы

Привет, Хабр!

Работаю на большом интеграционном проекте (IBM WAS, WebSphere MQ, Oracle) и оплетаю наш кровавый энтерпрайз паутиной функциональных тестов в JMeter, который крутится на тестовом стенде и пробуждается по зову Jenkins после деплоя нового билда. По мере увеличения количества тестов столкнулся с проблемой поддержания тестовой документации в актуальном виде.

Читать дальше →

evigore 11 мая 2018 в 08:42

Теория вычислений. Введение в конечные автоматы

5 мин

105K

Алгоритмы * Компиляторы * Математика * Программирование * Регулярные выражения *

Из песочницы

Спойлер

Cкажу cразу, что не буду объяснять слишком формально.

Конечные автоматы (finite-state machine)

Это до предела упрощенная модель компьютера имеющая конечное число состояний, которая жертвует всеми особенностями компьютеров такие как ОЗУ, постоянная память, устройства ввода-вывода и процессорными ядрами в обмен на простоту понимания, удобство рассуждения и легкость программной или аппаратной реализации.

С помощью КА можно реализовать такие вещи как, регулярные выражения, лексический анализатор, ИИ в играх и тд.

У конечных автоматов имеется таблица переходов, текущее состояние автомата, стартовое состояние и заключительное состояние.

Таблица переходов — В ней хранятся переходы для текущего состояния и входного символа. Простейшая реализация может быть как двумерный массив.

Пример 1

По горизонтали вверху находятся возможные входные символы.

По вертикали слева находятся текущие возможные состояния.

Здесь видно, что из состояния 0 в состояние 1 можно попасть только, если у нас будет входной символ 'a', из состояния 1 в состояние 2, если символ 'b'.

Текущее состояние — множество состояний в котором автомат может находиться в данный момент времени.

Стартовое состояние — состояние откуда КА начинает свою работу.

Заключительное состояние — множество состояний в которых автомат принимает определенную цепочку символов, в ином случае отвергает.

+16

Argon 22 мар 2018 в 07:09

Решение больших проблем небольшим семантическим анализатором

8 мин

2.5K

Программирование * Регулярные выражения * Семантические сети * Мессенджеры *

Сдача проекта в опытную эксплуатацию. Комиссия наблюдает, как система распознаёт информацию из сообщений, поступающих в в режиме реального времени. Приходит первое сообщение: “Тихо.”

Комиссия. Что значит “Тихо”? Они там в филиале пьяные что ли?
Система. "Тихо" = Сила ветра в пределах нормы.
Комиссия. Так это они о погоде. Система сдана в опытную эксплуатацию!

Все события в статье вымышлены. Любые совпадения с реальностью случайны.

Мне довелось работать на проекте, в котором с помощью семантического анализа удалось решить одну из главных проблем управления крупным бизнесом — получение своевременной и актуальной информации о состоянии дел в филиалах компании.

Читать дальше →

vmb 5 мар 2018 в 04:03

RegExp Unicode Property Escapes в JavaScript: штрихи к портрету

8 мин

3.3K

Регулярные выражения * БраузерыNode.JS * JavaScript * Google Chrome

RegExp Unicode Property Escapes перешли на 4-ю ступень и будут включены в ES2018.

В V8 они доступны без флага начиная с v6.4, поэтому готовы к использованию во всех текущих каналах Google Chrome от стабильного до Canary.

В Node.js они будут доступны без флага уже в v10 (выходит в апреле). В других версиях требуется флаг --harmony_regexp_property (Node.js v6–v9) или --harmony (Node.js v8–v9). Сейчас без флага их можно испробовать или в ночных сборках, или в ветке v8-canary.

При этом нужно иметь в виду, что сборки Node.js, скомпилированные без поддержки ICU, будут лишены возможности использовать этот класс регулярных выражений (подробнее см. Internationalization Support). Например, это касается популярной сборки под Android от сообщества Termux.

Подробнее о поддержке в других движках и средах см. в известной таблице (после перехода проскрольте чуть выше).

Я не буду повторять описания этой долгожданной возможности, лишь сошлюсь на несколько статей известных специалистов:

Читать дальше →

ShashkovS 26 фев 2018 в 06:23

Регулярные выражения в Python от простого к сложному. Подробности, примеры, картинки, упражнения

25 мин

1.9M

Python * Регулярные выражения * Качество кода * Спортивное программирование * Читальный зал

Регулярные выражения в Python от простого к сложному

Решил я давеча моим школьникам дать задачек на регулярные выражения для изучения. А к задачкам нужна какая-нибудь теория. И стал я искать хорошие тексты на русском. Пяток сносных нашёл, но всё не то. Что-то смято, что-то упущено. У этих текстов был не только фатальный недостаток. Мало картинок, мало примеров. И почти нет разумных задач. Ну неужели поиск IP-адреса — это самая частая задача для регулярных выражений? Вот и я думаю, что нет.
Про разницу (?:...) / (...) фиг найдёшь, а без этого знания в некоторых случаях можно только страдать.

Плюс в питоне есть немало регулярных плюшек. Например, re.split может добавлять тот кусок текста, по которому был разрез, в список частей. А в re.sub можно вместо шаблона для замены передать функцию. Это — реальные вещи, которые прямо очень нужны, но никто про это не пишет.
Так и родился этот достаточно многобуквенный материал с подробностями, тонкостями, картинками и задачами.

Надеюсь, вам удастся из него извлечь что-нибудь новое и полезное, даже если вы уже в ладах с регулярками.

Читать дальше →

+94

PatientZero 14 фев 2018 в 08:46

Регулярные выражения: никакой магии

13 мин

39K

Scala * Алгоритмы * Регулярные выражения *

Перевод

Код этого поста, как и сам пост, выложен на github.

До недавнего времени регулярные выражения казались мне какой-то магией. Я никак не мог понять, как можно определить, соответствует ли строка заданному регулярному выражению. А теперь я это понял! Ниже представлена реализация простого движка регулярных выражений менее чем в 200 строках кода.

Часть 1: Парсинг

Спецификация

Реализация регулярных выражений полностью — довольно сложная задача; хуже того, она мало чему вас научит. Реализуемой нами версии достаточно для того, чтобы изучить тему, не скатываясь в рутину. Наш язык регулярных выражений будет поддерживать следующее:

. — соответствие любому символу
| — соответствие abc или cde
+ — соответствие одному или более предыдущего паттерна
* — соответствие 0 или более предыдущего паттерна
( и ) — для группировки

Хотя набор опций невелик, с его помощью можно создать интересные regex-ы, например, m (t|n| ) | b позволяющий найти субтитры к Star Wars без субтитров к Star Trek, или (..)* для нахождения множества всех строк чётной длины.

План атаки

Мы будем анализировать регулярные выражения в три этапа:

Парсинг (синтаксический анализ) регулярного выражения в синтаксическое дерево
Преобразование синтаксического дерева в конечный автомат
Анализ конечного автомата для нашей строки

Для анализа регулярных выражений (подробнее об этом ниже) мы будем использовать конечный автомат под названием NFA. На высоком уровне NFA будет представлять наш regex. При получении входных данных мы будем перемещаться в NFA от состояния к состоянию. Если мы придём в точку, из которой невозможно совершить допустимого перехода, то регулярное выражение не соответствует строке.

Читать дальше →

+24

rznELVIS 4 дек 2017 в 20:42

Как я написал приложение, которое за 15 минут делало то же самое, что и регулярное выражение за 5 дней

6 мин

44K

Python * Алгоритмы * Высоконагруженные системы * Регулярные выражения *

Перевод

От переводчика

Не так давно столкнулся с проблемой поиска набора слов в большом тексте. Разумеется главной проблемой стала производительность. Поиск готовых решений порождал больше вопросов, чем давал ответов. Часто я натыкался на примеры использования каких-то сторонних коробок или онлайн-сервисов. А мне в первую очередь нужно было простое и легкое решение, которое в дальнейшем дало бы мысли для реализации собственной утилиты.

Несколько недель назад вышла замечательная англоязычная статься об open-source python-библиотеки FlashText. Эта библиотека предоставляла быстрое работающее решение задачи поиска и замены ключевых слов в тексте.

Т.к. на русском материалов подобной тематики не так много, то я решил перевести эту статью на русский. Под катом вас ждет описание проблемы, разбор принципа работы библиотеки а так же примеры тестов производительности.

Поехали

+39

nizkopal 27 ноя 2017 в 13:46

Регулярные выражения для самых маленьких

11 мин

241K

Блог компании BadooРегулярные выражения * Программирование * PHP * JavaScript *

Привет, Хабр.

Меня зовут Виталий Котов и я немного знаю о регулярных выражениях. Под катом я расскажу основы работы с ними. На эту тему написано много теоретических статей. В этой статье я решил сделать упор на количество примеров. Мне кажется, что это лучший способ показать возможности этого инструмента.

Некоторые из них для наглядности будут показаны на примере языков программирования PHP или JavaScript, но в целом они работают независимо от ЯП.

Из названия понятно, что статья ориентирована на самый начальный уровень — тех, кто еще ни разу не использовал регулярные выражения в своих программах или делал это без должного понимания.

В конце статьи я в двух словах расскажу, какие задачи нельзя решить регулярными выражениями и какие инструменты для этого стоит использовать.

Поехали!

Читать дальше →

+58

Ana2121 15 ноя 2017 в 08:25

Стажеры

8 мин

26K

Блог компании Перспективный мониторингИнформационная безопасность * Карьера в IT-индустрииРегулярные выражения * Управление персоналом *

В последнее время на Хабре наметился мощный тренд, начало которому дал пост «необразованная молодежь» — обсуждаем молодых специалистов, как с позиции работодателя, то есть бизнеса, так и с позиции самих спецов, вчерашних или настоящих студентов. Посмотреть можно здесь и здесь.

Мы бы хотели поделиться аналитикой по подбору персонала на стажерские позиции, проекты по разработке продуктов и сервисов ИБ. Мы постарались подойти к описанию процесса максимально безоценочно, не вдаваясь в сложные моральные дилеммы формата «отцы и дети». Все мы когда-то были стажерами, молодыми/неопытными и все рано или поздно сталкиваемся с тем, что как в балете говорят, «приходит опыт — уходит прыжок».

В начале сентября было открыто 2 вакансии: стажер-исследователь и стажер-разработчик.

Читать дальше →

ollazarev 22 сен 2017 в 09:57

ECMAScript 6. Регулярные выражения с поддержкой Unicode

5 мин

11K

Регулярные выражения * JavaScript * HTML *

Перевод

В ECMAScript 6 представлены два новых флага для регулярных выражений:

y включает режим «липкого» сопоставления.
u включает различные связанные с Unicode опции.

В данной статье объясняется влияние флага u. Эта статья будет Вам полезна, если Вы знакомы с Unicode-проблемами в Javascript.

Читать дальше →

+11

mrsuh 14 мая 2017 в 13:02

Классификация объявлений из соц. сетей. В поисках лучшего решения

5 мин

13K

Регулярные выражения * Открытые данные * Машинное обучение * VK API * Веб-разработка *

Расскажу, как классификация текста помогла мне в поиске квартиры, а также почему я отказался от регулярных выражений и нейронных сетей и стал использовать лексический анализатор.

Читать дальше →

+13

hack_developer 22 фев 2017 в 08:49

NSRegularExpression и NSDataDetector — Быстрый старт

6 мин

14K

Objective C * iOS * Регулярные выражения *

Из песочницы

Работа с регулярными выражениями в iOS 10

Всем привет! В этой статье мы разберем как работать с NSRegularExpression и NSDataDetector,
всех неравнодушных приглашают под кат.

Читать дальше →

m1rko 26 янв 2017 в 21:17

На 100% правильный способ проверки адресов электронной почты

5 мин

153K

Программирование * Регулярные выражения *

Перевод

Поздравляю. C сегодняшнего дня вы никогда не будете тратить время, подбирая самое оптимальное регулярное выражение для проверки адреса электронной почты. И вы никогда больше не отклоните адрес, который к вашему удивлению оказался действительным.

Хитрость в том, чтобы сразу определить значение слова «действительный».

Мы разработчики — технические ребята, так что наиболее логичным будет проверить на соответствие официальным критериям. Вот некоторые примеры валидных адресов email, которые соответствуют критериям.

^{en.wikipedia.org/wiki/Email_address#Valid_email_addresses}

Но я отправлю к чёрту логичный способ, так что...

+57

Firemoon 14 дек 2016 в 21:54

Превозмогая трудности: Gravity Defied на sed

5 мин

9.9K

Системное программирование * Регулярные выражения * Разработка игр * Ненормальное программирование * Занимательные задачки

Итак, эта статья посвящается тем, кто любит решать нестандартные задачи на не предназначенных для этого инструментах. Здесь я опишу основные проблемы, с которыми столкнулся во время создания аналога игры Gravity defied с использованием потокового текстового редактора (sed).

Далее предполагается, что читатель хотя бы немного знаком с синтаксисом sed'а и и написанием скриптов под bash.

Читать дальше →

+37

via-site 16 ноя 2016 в 15:21

Визуальный генератор регулярных выражений

6 мин

249K

Регулярные выражения * Веб-разработка * Программирование *

Из песочницы

Все разработчики рано или поздно сталкиваются с регулярными выражениями. Практически в 100% случаев нам совершенно не нравится их составлять, считая это побочной работой, не связанной с программированием.

Большинство из нас, впервые столкнувшись с данной проблемой, начинают забивать в поисковых системах что-то типа: «regexp online generator» и к своему великому сожалению осознают что ~~гугл сломался~~ все результаты в поиске являются сервисами для проверки корректности уже составленного регулярного выражения (или я плохо гуглил).

А как же составить это самое регулярное выражение?

До недавнего времени существовало 2 ответа на этот вопрос:

Изучить документацию по регулярным выражениям и составить регулярку самому
Попросить кого-то более опытного сделать это за вас

Теперь, после нескольких месяцев разработки, рад представить и 3-й ответ:

» Генератор регулярных выражений

История

Давным давно, в одном проекте пришел довольно интересный и сложный запрос от внутренних пользователей. Персоналу технической поддержки нужно было самим задавать правила валидации для определенных полей, разным пользователям. Правила должны были часто и очень оперативно изменяться.

Читать дальше →

+53

h0tkey 16 окт 2016 в 19:58

DSL для регулярных выражений на Kotlin

10 мин

8.8K

Kotlin * Программирование * Регулярные выражения *

Туториал

Всем привет!

Эта статья про реализацию одного конкретного DSL (domain specific language, предметно-ориентированный язык) для регулярных выражений средствами Kotlin, но при этом она вполне может дать общее представление, о том, как написать свой DSL на Kotlin и что обычно будет делать "под капотом" любой другой DSL, использующий те же возможности языка.

Многие уже используют Kotlin или хотя бы пробовали это делать, да и остальные вполне могли слышать о том, что Kotlin располагает к написанию изящных DSL, чему есть блестящие примеры — Anko и kotlinx.html.

Конечно же, для регулярных выражений подобное уже делали (и ещё: на Java, на Scala, на C# — реализаций много, похоже, это распространённое развлечение). Но если хочется попрактиковаться или попробовать DSL-ориентированные языковые возможности Kotlin, то добро пожаловать под кат.

Читать дальше →

+10

GlukKazan 13 сен 2016 в 08:21

Dagaz: В дебрях нотаций

14 мин

4.1K

Разработка игр * Регулярные выражения *

Плюнь тому в глаза, кто скажет, что можно обнять необъятное!
…
Усердие всё превозмогает!

Козьма Прутков "Мысли и афоризмы"

Люди постоянно что-то придумывают. После изобретения шахмат, было разработано ещё несколько тысяч похожих игр. Первоначально, по давней привычке, оставшейся ещё со времён сочинения античных мифов, создавались химеры, сочетавшие в себе качества двух и более шахматных фигур, но впоследствии фантазия авторов окрепла и стала выдавать более интересные варианты. Чтобы не запутаться во всём этом зоопарке, требовалась какая-то система, возможность классификации новых фигур. И она возникла. Собственно, я знаю их две. К сожалению, обе они не работают.

+12

1 2 3

5 6 7 8

Регулярные выражения *

Создание шаблона для Zabbix на примере DVR Trassir SDK

Плагин «Rainbow CSV» как альтернатива Excel

Регулярные выражения + логическое программирование. Что в результате?

Экспорт дерева тестов из JMeter в текст

Теория вычислений. Введение в конечные автоматы

Конечные автоматы (finite-state machine)

Решение больших проблем небольшим семантическим анализатором

RegExp Unicode Property Escapes в JavaScript: штрихи к портрету

Регулярные выражения в Python от простого к сложному. Подробности, примеры, картинки, упражнения

Регулярные выражения в Python от простого к сложному

Регулярные выражения: никакой магии

Часть 1: Парсинг

Спецификация

План атаки

Как я написал приложение, которое за 15 минут делало то же самое, что и регулярное выражение за 5 дней

От переводчика

Регулярные выражения для самых маленьких

Стажеры

ECMAScript 6. Регулярные выражения с поддержкой Unicode

Ближайшие события

Классификация объявлений из соц. сетей. В поисках лучшего решения

NSRegularExpression и NSDataDetector — Быстрый старт

На 100% правильный способ проверки адресов электронной почты

Превозмогая трудности: Gravity Defied на sed

Визуальный генератор регулярных выражений

А как же составить это самое регулярное выражение?

История

DSL для регулярных выражений на Kotlin

Dagaz: В дебрях нотаций

Вклад авторов