grep и регулярные выражения в Linux

Команда grep используется для поиска текстовых шаблонов в файлах и потоках данных. Название расшифровывается как "global regular expression print", что отражает её основную задачу: находить строки, соответствующие заданному шаблону.

grep обрабатывает входные данные построчно и выводит только те строки, которые соответствуют условию поиска. Благодаря поддержке регулярных выражений он позволяет описывать сложные правила сопоставления и широко применяется в цепочках команд и обработке данных.

Базовое использование

В простейшем случае grep ищет точное совпадение строки:

grep "GNU" GPL-3

Команда выводит все строки файла, содержащие указанный текст. Такой поиск называется буквальным, поскольку совпадение происходит посимвольно.

Основные опции

По умолчанию поиск чувствителен к регистру. Для игнорирования регистра используется флаг -i:

grep -i "license" GPL-3

Вывод включает варианты LICENSE, License и license.

Другие часто используемые параметры:

-v - вывод строк, не содержащих шаблон
-n - вывод номеров строк

Регулярные выражения

Регулярное выражение это строка, описывающая шаблон поиска. Даже простой текст в grep уже является регулярным выражением.

Буквальные совпадения

Поиск строки:

grep "the" GPL-3

Здесь шаблон интерпретируется буквально.

Метасимволы

Регулярные выражения используют специальные символы:

. - любой символ
[] - любой символ из набора
^ - начало строки
$ - конец строки

Пример поиска строк, начинающихся с буквы d:

grep ^d file.txt

Поиск строк, заканчивающихся символом x:

grep x$ file.txt

Экранирование символов

Некоторые символы имеют специальное значение и требуют экранирования с помощью \.

Пример поиска строк, начинающихся с заглавной буквы и заканчивающихся точкой:

grep "^[A-Z].*\.$" GPL-3

Здесь \. означает буквальную точку, а не любой символ.

Расширенные регулярные выражения

Для использования расширенного синтаксиса применяется флаг -E:

grep -E "error|fail|warning" logfile.txt

Поддерживаются:

| - логическое или
() - группировка

Пример поиска символа * как текста:

grep -E "a\*" yourfile.txt

Поиск специальных случаев

Поиск пустых строк:

grep -E "^\s*$" yourfile.txt

Поиск табуляций и переводов строки:

grep -E "\t" yourfile.txt
grep -E "\r" yourfile.txt

PCRE и расширенные возможности

Флаг -P включает поддержку Perl-совместимых регулярных выражений, которые добавляют более сложные конструкции, включая ленивые квантификаторы и lookaround-выражения.

Работа с сжатыми файлами

Для поиска внутри .gz файлов используется zgrep:

zgrep "pattern" file.gz

Этот инструмент работает без предварительной распаковки.

grep в обработке данных

grep активно применяется при подготовке данных. Он позволяет быстро фильтровать большие объёмы текстовой информации и использоваться как часть конвейеров обработки.

Пример извлечения строк с нужным полем:

grep '"text":' dataset.json

Ограничения

grep работает построчно и не подходит для анализа многострочных шаблонов. В таких случаях используются другие инструменты, например awk или python/perl.

Работа с grep и регулярными выражениями в Linux