Такое ощущение, что многие сознательно обходят тему регулярных выражений. Всё что угодно, лишь бы их не использовать, может реально кто-то не слышал...

Скажем так: эта статья - компенсация за боль ручной вычистки )

tuxi Aug 31 2025 at 20:42

Такое ощущение, что многие сознательно обходят тему регулярных выражений. Всё что угодно, лишь бы их не использовать, может реально кто-то не слышал...

Надо смотреть язык, конкретные реализации и входные данные. Так то создать обьект RegExp и скомпилировать выражение может оказаться недешово по накладным расходам.

aamonster Aug 31 2025 at 20:48

Да, примерно всегда. Но вы гляньте реализацию по ссылке :-)

tuxi Aug 31 2025 at 21:02

Ход мыслей автора того решения мне понравился) креативный человек))

xSVPx Aug 31 2025 at 21:39

Слишком редко регулярные выражения приносят профит по производительности. Как следствие ими нечасто пользуются. Их логика не самая простая, и есть изрядно грабель.

Всё вместе приводит к тому, что если мы не ожидаем прям "много строк", яб написал явно "заменить все табуляции на пробелы", "заменить все переводы строки на пробелы" итд итп, а потом "заменить два пробела на один пока что-то меняется". Да - это, возможно будет медленнее, но если быстро не требуется - это не проблема.

И не потому, что я регэксп "не осилю", а потому, что у меня совершенно нет уверенности, что его быстро поймет и осилит тот, кто будет это после меня трогать когда-нибудь.

Тут как с рекурсией. Лучше поберечься. Если можно.

edyatl Aug 31 2025 at 22:49

На сколько понял речь идёт об обработке строки где-то до 1000 символов перед записью в бд. В таком случае Python и функция с регуляркой подходят больше всего.

А если данные нормализовать в Jupyter блокноте, то ваш способ будет понятней, чтобы отобразить логику каждого шага измения источника.

lfwsmrp Sep 6 2025 at 11:28

На сколько понял речь идёт об обработке строки где-то до 1000 символов перед записью в бд

Абсолютно верно

просто уточню (не принципиально) спущена сверху максимальная длина строки 255 символов

lfwsmrp Sep 6 2025 at 11:27

мммм, понимаю, что можем уйти в дискуссию, скажу мягко, что только частично согласен

яб написал явно "заменить все табуляции на пробелы", "заменить все переводы строки на пробелы"

К сожалению много пользователей было (> 100; < 1000) и к каждому лично не сходишь и не скажешь: "пожалуйста, не используйте: табы, разделители, прочее" - придётся целую лекцию читать каждому по пробелам и пробельным символам, и абсолютно точно большинство пропустит мимо ушей.

А учитывая источник данных (который может быть любым)

Пользователь может сам вручную заполнить текст и в процессе заполнения случайно вбить 2 лишних пробела;
Однако, не редко текст для заполнения с пробельными символами уже где-то написан (в Word-е, интернете и пр.) и его просто берут и копируют.

нужно был: короткое, мощное, покрывающее большинство случаев (надеюсь 99%) решение

И "да" регулярные выражения сложные, из-за чего однако я отважился их применить в самом что ни на есть минималистичном виде.

П.С. А вот с этим полностью соглашусь

И не потому, что я регэксп "не осилю", а потому, что у меня совершенно нет уверенности, что его быстро поймет и осилит тот, кто будет это после меня трогать когда-нибудь.

где-то статью читал с призываом не парсить html при помощи регулярных выражений, а использовать нормальные/адекватные библиотеки - вот в таком ключе 100% регулярки = антипаттерн

lfwsmrp Aug 31 2025 at 18:04

И по поводу функции .trim() - в Python это .strip() называется, но суть, не меняется удаляет начальные и конечные пробелы (и, "да", можно что-нибудь иное удалить но только на концах строки)

https://ru.wikipedia.org/wiki/Trim

sunnybear Aug 31 2025 at 20:45

s/^\s+|\s+$//g

aamonster Aug 31 2025 at 20:50

Да, действительно, плюс/звезду забыл.

alef13 Aug 31 2025 at 17:46

Ну и однострочник на баше, без привлечения внешних утилит:

while IFS= read -a LINE; do echo ${LINE[*]}; done < filename.txt

xotkot Aug 31 2025 at 20:44

а мне нравиться использовать его(bash) как клей для стандартных unix/linux утилит

... | tr -s '[:space:]' ' ' | sed -e 's/^ //' -e 's/ $//'

взгляд сразу цепляется за "блоки" и легко воспринимать

economist75 Sep 9 2025 at 10:50

На Python убрать все (любые) лишние пробельные символы ну очень просто:

' '.join(text.split())

' '.join('1\n\r\t2    3'.split())  # '1 2 3'