Регулярные выражения в LINUX

 

Регулярные выражения – это очень мощный инструмент для поиска текста по шаблону, обработки и изменения строк, который можно применять для решения множества задач. Вот основные из них:

  • Проверка ввода текста;
  • Поиск и замена текста в файле;
  • Пакетное переименование файлов;
  • Взаимодействие с сервисами, таким как Apache;
  • Проверка строки на соответствие шаблону.

Это далеко не полный список, регулярные выражения позволяют делать намного больше. Но для новых пользователей они могут показаться слишком сложными, поскольку для их формирования используется специальный язык. Но учитывая предоставляемые возможности, регулярные выражения Linux должен знать и уметь использовать каждый системный администратор.

В этой статье мы рассмотрим регулярные выражения bash для начинающих, чтобы вы смогли разобраться со всеми возможностями этого инструмента.

Регулярные выражения Linux

В регулярных выражениях могут использоваться два типа символов:

  • обычные буквы;
  • метасимволы.

Обычные символы – это буквы, цифры и знаки препинания, из которых состоят любые строки. Все тексты состоят из букв и вы можете использовать их в регулярных выражениях для поиска нужной позиции в тексте.

Метасимволы – это кое-что другое, именно они дают силу регулярным выражениям. С помощью метасимволов вы можете сделать намного больше чем поиск одного символа. Вы можете искать комбинации символов, использовать динамическое их количество и выбирать диапазоны. Все спецсимволы можно разделить на два типа, это символы замены, которые заменяют собой обычные символы, или операторы, которые указывают сколько раз может повторяться символ.

Синтаксис регулярного выражения будет выглядеть таким образом:

обычный_символ спецсимвол_оператор

спецсимвол_замены спецсимвол_оператор

Если оператор не указать, то будет считаться, что символ обязательно должен встретится в строке один раз. Таких конструкций может быть много. Вот основные метасимволы, которые используют регулярные выражения bash:

  • \ – с обратной косой черты начинаются буквенные спецсимволы, а также он используется если нужно использовать спецсимвол в виде какого-либо знака препинания;
  • ^ – указывает на начало строки;
  • $ – указывает на конец строки;
  • * – указывает, что предыдущий символ может повторяться 0 или больше раз;
  • + – указывает, что предыдущий символ должен повторится больше один или больше раз;
  • ? – предыдущий символ может встречаться ноль или один раз;
  • {n} – указывает сколько раз (n) нужно повторить предыдущий символ;
  • {N,n} – предыдущий символ может повторяться от N до n раз;
  • . – любой символ кроме перевода строки;
  • [az] – любой символ, указанный в скобках;
  • х|у – символ x или символ y;
  • [^az] – любой символ, кроме тех, что указаны в скобках;
  • [a-z] – любой символ из указанного диапазона;
  • [^a-z] – любой символ, которого нет в диапазоне;
  • \b – обозначает границу слова с пробелом;
  • \B – обозначает что символ должен быть внутри слова, например, ux совпадет с uxb или tuxedo, но не совпадет с Linux;
  • \d – означает, что символ – цифра;
  • \D – нецифровой символ;
  • \n – символ перевода строки;
  • \s – один из символов пробела, пробел, табуляция и так далее;
  • \S – любой символ кроме пробела;
  • \t – символ табуляции;
  • \v – символ вертикальной табуляции;
  • \w – любой буквенный символ, включая подчеркивание;
  • \W – любой буквенный символ, кроме подчеркивания;
  • \uXXX – символ Unicdoe.

Важно отметить, что перед буквенными спецсимволами нужно использовать косую черту, чтобы указать, что дальше идет спецсимвол. Правильно и обратное, если вы хотите использовать спецсимвол, который применяется без косой черты в качестве обычного символа, то вам придется добавить косую черту.

Например, вы хотите найти в тексте строку 1+ 2=3. Если вы используете эту строку в качестве регулярного выражения, то ничего не найдете, потому что система интерпретирует плюс как спецсимвол, который сообщает, что предыдущая единица должна повториться один или больше раз. Поэтому его нужно экранировать: 1 \+ 2 = 3. Без экранирования наше регулярное выражение соответствовало бы только строке 11=3 или 111=3 и так далее. Перед равно черту ставить не нужно, потому что это не спецсимвол.

Примеры использования регулярных выражений

Теперь, когда мы рассмотрели основы и вы знаете как все работает, осталось закрепить полученные знания про регулярные выражения linux grep на практике. Два очень полезные спецсимвола – это ^ и $, которые обозначают начало и конец строки. Например, мы хотим получить всех пользователей, зарегистрированных в нашей системе, имя которых начинается на s. Тогда можно применить регулярное выражение “^s”. Вы можете использовать команду egrep:

Если мы хотим отбирать строки по последнему символу в строке, что для этого можно использовать $. Например, выберем всех системных пользователей, без оболочки, записи о таких пользователях заканчиваются на false:

Чтобы вывести имена пользователей, которые начинаются на s или d используйте такое выражение:

Такой же результат можно получить, использовав символ “|”. Первый вариант более пригоден для диапазонов, а второй чаще применяется для обычных или/или:

Теперь давайте выберем всех пользователей, длина имени которых составляет не три символа. Имя пользователя завершается двоеточием. Мы можем сказать, что оно может содержать любой буквенный символ, который должен быть повторен три раза, перед двоеточием:

Выводы

В этой статье мы рассмотрели регулярные выражения Linux, но это были только самые основы. Если копнуть чуть глубже, вы найдете что с помощью этого инструмента можно делать намного больше интересных вещей. Время, потраченное на освоение регулярных выражений, однозначно будет стоить того.

На завершение лекция от Яндекса про регулярные выражения:

Рейтинг материала
[Голосов: 1 Рейтинг: 5]
24 марта 2017, 08:46

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *