Регулярные выражения в php. PHP regexp: примеры регулярных выражений. Исключенные классы символов

PHP regexp — это мощный алгоритм сопоставления шаблонов, которое может быть выполнено в одном выражении. Регулярные выражения PHP используют арифметические операторы (такие как +, -, ^ ) для создания сложных выражений.

Для чего используются регулярные выражения:

Регулярные выражения упрощают идентификацию строковых данных путем вызова одной функции. Это экономит время при составлении кода;
При проверке введенных пользователем данных, таких как адрес электронной почты, домен сайта, номер телефона, IP-адрес ;
Выделение ключевых слов в результатах поиска;
Регулярные выражения могут использоваться для идентификации тегов и их замены.

Регулярные выражения в PHP

PHP содержит встроенные функции, которые позволяют работать с регулярными выражениями. Теперь рассмотрим часто используемые функции регулярных выражений PHP .

preg_match — используется для выполнения сопоставления с шаблоном строки. Она возвращает true , если совпадение найдено, и false , если совпадение не найдено;
preg_split — используется для разбивки строки по шаблону, результат возвращается в виде числового массива;
preg_replace – используется для поиска по шаблону и замены на указанную строку.

Ниже приведен синтаксис функций регулярных выражений, таких как preg_match , preg_split или PHP regexp replace :

«имя_функции» — это либо preg_match , либо preg_split , либо preg_replace .
«/…/» — косые черты обозначают начало и конец регулярного выражения.
«‘/шаблон/"» — шаблон, который нам нужно сопоставить.
«объект» — строка, с которой нужно сопоставлять шаблон.

Теперь рассмотрим практические примеры использования упомянутых выше функций.

Preg_match

В первом примере функция preg_match используется для выполнения простого сопоставления шаблоном для слова guru в заданном URL-адресе .

В приведенном ниже коде показан вариант реализации данного примера:

Рассмотрим ту часть кода, которая отвечает за вывод «preg_match (‘/ guru /’, $ my_url)» .

«preg_match(…)» — функция PHP match regexp .
«‘/Guru/"» — шаблон регулярного выражения.
«$My_url» — переменная, содержащая текст, с которым нужно сопоставить шаблон.

Preg_split

Рассмотрим другой пример, в котором используется функция preg_split .

Мы возьмем фразу и разобьем ее на массив; шаблон предназначен для поиска единичного пробела:

Preg_replace

Рассмотрим функцию preg_replace , которая выполняет сопоставление с шаблоном и заменяет найденный результат другой строкой.

Приведенный ниже код ищет в строке слово guru . Он заменяет его кодом css , который задает цвет фона:

Метасимволы

В приведенных выше примерах использовались простые шаблоны. Метасимволы позволяют выполнять более сложные сопоставления шаблонов PHP regexp , такие как проверка адреса электронной почты. Рассмотрим часто используемые метасимволы.

Метасимвол	Описание	Пример
.	Обозначает любой единичный символ, кроме символа новой строки.	/./ — все, что содержит один символ.
^	Обозначает начало строки, не включая символ /.	/^PH/ — любая строка, которая начинается с PH.
$	Обозначает шаблон в конце строки.	/com$/ — guru99.com,yahoo.com и т.д.
*	Обозначает любое количество символов, ноль или больше.	/com*/ — computer, communication и т.д.
+	Требуется вхождение перед метасимволом символа (ов) хотя бы один раз.	/yah+oo/ — yahoo.
	Символ экранирования.	/yahoo+.com/ — воспринимает точку, как дословное значение.
[…]	Класс символов.	// — abc.
a-z	Обозначает строчные буквы.	/a-z/ — cool, happy и т.д.
A-Z	Обозначает заглавные буквы.	/A-Z/ — WHAT, HOW, WHY и т.д.
0-9	Обозначает любые цифры от 0 до 9.	/0-4/ — 0,1,2,3,4.

Теперь рассмотрим сложный PHP regexp пример, в котором проверяется валидность адреса электронной почты:

Результат: адрес электронной почты [email protected] является валидным.

Пояснение шаблона «+@+.{2,5}$/] «

«‘/…/"» начинает и завершает регулярное выражение.
«^» соответствует любым буквам в нижнем или верхнем регистре, цифрам от 0 до 9 и точкам, подчеркиваниям или тире.
«+@» соответствует символу @ , за которым следуют буквы в нижнем или верхнем регистре, цифры от 0 до 9 или дефисы.
«+.{2,5}$/» указывает точку, используя обратную косую черту, затем должны следовать любые буквы в нижнем или верхнем регистре, количество символов в конце строки должно быть от 2 до 5.

При работе с текстами в любом современном языке программирования разработчики постоянно встречаются с задачами проверки введенных данных на соответствие нужному шаблону, поиска и замены тестовых фрагментов и прочими типовыми операциями по обработке символьной информации. Разработка собственных алгоритмов проверки приводит к потере времени, несовместимости программного кода и сложности в его развитии и модернизации.

Бурное развитие Интернета и языков WEB-разработки потребовало создания универсальных и компактных средств обработки текстовой информации при минимальном количестве требуемого для этого кода. Не является исключением и популярный среди начинающих и профессиональных разработчиков язык PHP. Регулярное выражение как язык текстовых шаблонов позволяет упростить задачи обработки текста и уменьшить программный код на десятки и сотни строк. Многие задачи вообще невозможно решить без него.

Регулярные выражения в PHP

Язык PHP содержит три механизма работы с регулярными выражениями - «ereg», «mb_ereg» и «preg». Наиболее распространенным является интерфейс «preg», функции которого обеспечивают доступ к библиотеке поддержки регулярных выражений PCRE, изначально разработанной для языка Perl, которая входит в комплект PHP. Preg-функции ищут в заданной текстовой строке совпадения, согласно определенному шаблону на языке регулярных выражений.

Основы синтаксиса

В рамках короткой статьи невозможно подробно описать весь синтаксис регулярных выражений, для этого существует специальная литература. Приведем только основные элементы для показа широких возможностей для разработчика и понимания примеров кода.

В формально определяется очень сложно, и поэтому упростим описание. Регулярное выражение представляет собой текстовую строку. Она состоит из выделенного разделителем шаблона и модификатора, указывающего на то, каким образом его обрабатывать. Возможно включение в шаблоны различных альтернатив и повторений.

Например, в выражении /\d{3}-\d{2}-\d{2}/m разделителем будет «/» , далее идет шаблон, а символ «m» будет модификатором.

Вся мощь регулярных выражений кодируется с помощью метасимволов. Основным метасимволом языка является обратный слэш - «\». Он меняет тип следующего за ним символа на противоположный (т. е. обычный символ превращается в метасимвол и наоборот). Другим важным метасимволом является прямая черта «|», задающая альтернативные варианты шаблона. Еще примеры метасимволов:

PHP, обрабатывая регулярные выражения, пробел рассматривает как отдельный значимый символ, поэтому выражения АБВГДЕ и АБВ ГДЕ являются разными.

Подшаблоны

В PHP регулярные подшаблоны выделяются круглыми скобками и иногда называются «подвыражениями». Выполняют следующие функции:

Выделение альтернатив . Например, шаблон жар(кое|птица|) совпадет со словами «жар», «жар-птица» и «жаркое» . А без скобок это будет только пустая строка, «птица» и «жаркое».

«Захватывающий» подшаблон. Это означает, что если в шаблоне совпала подстрока, то в качестве результата возвращаются все совпадения. Для наглядности приведем пример. Дано следующее регулярное выражение: победитель получает((золотую|позолоченный)(медаль|кубок)) - и строка для поиска совпадений: «победитель получает золотую медаль» . Кроме исходной фразы, в результате поиска будут выданы: «золотую медаль» , «медаль», «золотую» .

Операторы повторений (квадрификаторы)

При составлении регулярных выражений очень часто необходимо анализировать повторения чисел и символов. Это не является проблемой, если повторений не очень много. Но что делать, когда мы не знаем их точного числа? В таком случае необходимо использовать специальные метасимволы.

Для описания повторений применяются квадрификаторы - метасимволы для задания количества. Квадрификаторы бывают двух типов:

общие, заключенные в скобки;
сокращенные.

Общий квантификатор задет минимальное и максимальное количество разрешенных повторений элемента в виде двух чисел в фигурных скобках, например так: х{2,5}. Если максимальное количество повторений неизвестно, второй аргумент не указывается: х{2,}.

Сокращенные квантификаторы представляют собой символы для наиболее распространенных повторений во избежание лишней перегрузки синтаксиса. Обычно используются три сокращения:

1. * - ноль и больше повторений, что эквивалентно {0,}.

2. + - одно и более повторений, т. ,}.

3. ? - ноль или только одно повторение - {0,1}.

Примеры регулярных выражений

Для тех, кто изучает регулярные выражения, примеры - лучший учебник. Мы приведем несколько, которые показывают их широкие возможности при минимуме усилий. Все программные коды полностью совместимы с версиями PHP 4.x и выше. Для полного понимания синтаксиса и использования всех возможностей языка рекомендуем книгу Дж. Фридла «Регулярные выражения», где полностью рассматривается синтаксис и имеются примеры регулярных выражений не только на PHP, но и для языков Python, Perl, MySQL, Java, Ruby и C#.

Проверка корректности адреса E-mail

Задача. Существует Интернет-страница, на которой у посетителя запрашивается адрес email. Регулярное выражение должно проверять правильность полученного адреса перед отправкой сообщений. Проверка не дает гарантии, что указанный почтовый ящик реально существует и принимает письма. Но отсеять заведомо неправильные адреса она может.

Решение. Как и в любом языке программирования, на PHP регулярные выражения email-проверки адреса могут быть реализованы разными способами, и примеры в этой статье не являются окончательным и единственным вариантом. Поэтому в каждом случае мы будем приводить перечень требований, которые нужно учесть при программировании, а конкретная реализация полностью зависит от разработчика.

Итак, выражение, проверяющее правильность email, должно проверять следующие условия:

Наличие в исходной строке символа @ и отсутствие пробелов.

Доменная часть адреса, за символом @, содержит только допустимые символы для доменных имен. То же относится и к имени пользователя.

При проверке имени пользователя необходимо определить наличие специальных символов, таких как апостроф или Такие символы относятся к потенциально опасным и могут содержаться в таких видах нападений, как SQL-инъекции. Избегайте таких адресов.

Имена пользователя допускают наличие только одной точки, которая не может быть первым или последним символом в строке.

Доменное имя должно содержать не меньше двух и не более шести символов.

Пример, учитывающий все указанные условия, можно увидеть далее на рисунке.

Проверка правильности адресов URL

Задача. Проверить, является ли заданная текстовая строка допустимым Еще раз отметим, что регулярные выражения URL-проверки могут быть реализованы различными способами.

Решение. Наш итоговый вариант выглядит следующим образом:

/^(https?:\/\/)?([\da-z\.-]+)\.({2,6})([\/\w \.-]*)*\/?$/

Теперь разберем его составляющие более подробно, используя рисунок.

Проверяем номера кредитных карт

Задача. Необходимо реализовать проверку правильности введенного номера пластиковой карты наиболее распространенных платежных систем. Рассмотрен вариант только для карт

Решение. При создании выражения необходимо учитывать возможное наличие во введенном номере пробелов. Цифры номера на карте разделены на группы для упрощения чтения и диктовки. Поэтому вполне естественно, что человек может попытаться ввести номер таким образом (т. е. используя пробелы).

Написать универсальное выражение, учитывающее возможные пробелы и дефисы, сложнее, чем просто отбросить все символы, кроме цифр. Поэтому в выражении рекомендуется использовать метасимвол /D, который удаляет все символы, кроме цифр.

Теперь можно переходить непосредственно к проверке номера. Все компании, выпускающие кредитные карты, используют уникальный формат номера. В примере это используется, и клиенту нет необходимости вводить наименование компании - она определяется по номеру. Карты Visa всегда начинаются с 4 и имеют длину номера в 13 или 16 цифр. MasterCard начинается в диапазоне 51-55 с длиной номера 16. В итоге получаем такое выражение:

Перед обработкой заказа можно провести дополнительную проверку последней цифры номера, которая вычисляется по алгоритму Луна.

Проверка телефонных номеров

Задача. Проверка корректности введенного телефонного номера.

Решение. Количество цифр в стационарных и мобильных телефонных номерах значительно различается в зависимости от страны, поэтому универсально проверить, используя регулярные выражения, номер телефона на правильность невозможно. Но международные номера имеют строгий формат и отлично подходят для проверки по шаблону. Тем более что все больше национальных телефонных операторов стараются соответствовать единому стандарту. Структура номера следующая:

+CCC.NNNNNNNNNNxEEEE, где:

C - это код страны, состоящий из 1-3 цифр.

N - номер длиной до 14 цифры.

E - необязательное расширение.

Плюс является обязательным элементом, а знак х присутствует только при необходимости расширения.

В результате имеем следующее выражение:

^\+{1,3}\.{4,14}(?:x.+)?$

Числа в диапазоне

Задача. Необходимо обеспечить совпадение целого числа из определенного диапазона. Дополнительно необходимо, чтобы находили регулярные выражения только цифры из диапазона значений.

Решение. Приведем несколько выражений для нескольких наиболее распространенных случаев:

Поиск IP-адреса

Задача. Необходимо определить, является ли заданная строка допустимым IP-адресом в формате IPv4 в диапазоне от 000.000.000.000-255.255.255.255.

Решение. Как и в любой задаче на языке PHP, регулярное выражение имеет множество варинтов. Например, такое:

Онлайн-проверка выражений

Проверка регулярных выражений на правильность для начинающих программистов может быть затруднительной из-за сложности синтаксиса, отличающегося от «обычных» языков программирования. Для решения данной проблемы существует множество онлайн-тестеров выражений, позволяющих легко проверить правильность созданного шаблона на реальном тексте. Программист вводит выражение и данные для проверки и мгновенно видит результат обработки. Обычно здесь же присутствует справочный раздел, где подробно описываются регулярные выражения, примеры и отличия реализации для наиболее распостраненных языков программирования.

Но полностью доверять результатам онлайн-сервисов не рекомендуется всем разработчикам, пользующимся PHP. Регулярное выражение, написанное и проверенное лично, повышает квалификацию и гарантирует отсутствие ошибок.

Давайте начнем с того, что такое регулярное выражение. Вот ответьте мне на вопрос, есть ли в слове "test" буква "e"? "Есть!" скажете Вы. Тогда я задаю Вам второй вопрос, как вы нашли букву "e" в слове "test"? Ответ очевиден, берем первый символ, то есть "t" сравниваем его с тем что ищем, то есть с "e". Если они не равны, то берем второй символ, то есть "e", сравниваем его с тем что ищем, то есть "e". Вуаля! Найдено совпадение. Ответ: В слове "test" есть буква "e" .

А теперь ответьте мне на еще один вопрос, где в этом примере регулярное выражение? Надеюсь Вы догадались, что регулярным выражением тут является то, что мы ищем в слове "test". То есть буква "e" в данном примере и есть регулярное выражение.

Для чего используют регулярные выражения в php? В моей практике регулярные выражения использовались, например, для определение корректно ли составлен адрес электронной почты. Так же такие выражения используют для определения корректности имя пользователя и пароля. С помощью регулярных выражений можно найти в ссылке адрес и сохранить его. Много чего можно делать Проанализировав это можно выявить главную функцию регулярных выражений, и две побочных. Главная функция , это поиск совпадений в строке. Побочные же - это сохранения найденных совпадений, и замена.

Первое регулярное выражение

В теории мы понимаем как найти символ "e" в слове "test", как же это реализуется на практике? Для использования регулярных выражений в php обычно используют функции:

preg_match("регулярное выражение (шаблон)", "переменная в которое производится поиск", "Переменная в которое сохраняется результат поиска (не обязательный параметр)"); - Функция поиска соответствий
preg_replace("регулярное выражение (шаблон)", "На что заменить найденное совпадение", "переменная в которое производится замена"); - Функция замены

Начнем же использовать эти функции.. Вот пример поиска символа "e" в слове "test":

$a = "test";
if(preg_match("/e/",$a)) echo "найдено!!";

В коде описано условие, если в переменной $a найдено что-то по шаблону, то выдать сообщение "найдено!!" Как Вы могли заметить наш шаблон стоит между двумя "/". В данном случае символ "/" символизирует начало и конец нашего шаблона . Надеюсь это понятно.

Все это конечно интересно... но вот только наш шаблон, какой то уж очень простой, не находите? Ведь редко нам нужно найти какой то символ в переменной. В большинстве случаев нам необходимо найти много символов, при том еще и неизвестных. Как же быть? Давайте поставим себе задачку, и попробуем ее решить. Предположим у нас есть строка состоящее из цифр и одной неизвестной английской буквы

Как найти эту букву? Там может быть любая буква английского алфавита, как же ее определить? Вы сами ответили на свой вопрос, там любая буква, то есть она находится в диапазоне от a до z. В регулярных выражениях можно использовать диапазоны. Если мы не знаем какой символ ищем, но точно знаем что этот символ является буквой английского алфавита, то запись будет следующая:

$a = "123a321";
if(preg_match("//",$a)) echo "найдено!!";

Заметьте, что диапазон ставится в "[" "]" скобках. Все что заключено в такие скобки определяется как один символ, в данном случае символ варьируется в диапазоне от a до z. Если же нам понадобится найти не букву, а цифру, то запись будет такая:

$a = "abc1cba";
if(preg_match("//",$a)) echo "найдено!!";

Так же хочу заметить, что регулярные выражение чувствительны к регистру, поэтому символы "A" и "a" совершенно разные, для поиска тех и тех символов, пишут так:

$a = "123a321";
if(preg_match("//",$a)) echo "найдено!!";

Так же существует поиск русских букв, осуществляется так же как и с английскими:

$a = "123ы321";
if(preg_match("/[а-яА-Я]/",$a)) echo "найдено!!";

Метасимволы

Мы научились искать неизвестный символ в строке. Что же делать если нам необходимо найти несколько символов? На помощь приходят так называемые метасимволы... Предположим у нас есть строка с циферками, буковками, как ее описать в шаблоне? Можно так:

строка - 123а321
шаблон -

Хм... шаблон и вправду подходит к нашей строке, и при проверки на соответствие даст долгожданное true! Но какая то громоздкая запись, Вам не кажется?

Вот как ее можно сократить:

строка - 123а321
шаблон - *

Мне кажется так покороче Что же из себя представляет символ "*"? Это и есть тот самый метасимвол, он означает что описанный нами символ (а именно символ который может содержать цифры от 0 до 9 или буквы английского алфавита, от a до z) может повторяться до бесконечности раз, или же не одного раза. Да да! Этот метасимвол, найдет совпадение в пустой переменной, так как даже отсутствие описанного нами символа выдаст true! Запомните это

Какие еще бывают метасимволы?

Например метасимвол "+" Он почти что схож с метасимволом "*" за одним маленьким исключением. "*" выдаст true даже при отсутствия символа, а "+" проверит на наличие хотя бы одного символа. То есть если в строке необходимо наличие минимум одного символа то используйте "+" вместо "*"

Так же часто используют метасимвол "?" Он означает что в строке должно находится не более одного искомого символа. Давайте я приведу пару примеров для двух последних, описанных мной метасимволов.

Предположим нам необходимо проверить на корректность пароль пользователя. Давайте подумаем что должен содержать пароль пользователя? Ну во-первых он должен быть не меньше одного символа. Во-вторых он должен содержать только цифры и буквы английского алфавита, стало быть регулярное выражение будет выглядеть вот так:

$a = "qwerty12345";

Какие символы мы разрешили? Английские буквы любого регистра и цифры. Теперь попробуйте вместо пароля оставить пустую строчку.

$a = "";
if(preg_match("/+/",$a)) echo "Пароль верный";

Вам не высветится сообщение "Пароль верный". Почему? Потому что метасимвол "+" проверил строку на наличие хотя бы одного символа.

А теперь небольшой фокус, давайте взглянем на наше выражение, мы ведь не разрешали в нем, ну скажем пробел, ведь так? поставьте пробел в конце пароля и запустите

$a = "qwerty12345 ";
if(preg_match("/+/",$a)) echo "Пароль верный";

И почему мы видим наше сообщение о корректном пароле? Все довольно просто... Функция preg_match(); останавливает свою проверку при первом же совпадение. То есть символ "q" подходит под описанный нами шаблон, а все остальное для функции уже не важно Что же делать? Вот как это исправить:

$a = "qwerty12345 ";
if(preg_match("/^+$/",$a)) echo "Пароль верный";

Добавляя "^" в начале выражения и "$" в конце, мы говорим функции, что шаблону должна соответствовать вся строка. Если вы запустите этот код, то сообщения не увидите, так как в конце пароля стоит недопустимый символ - пробел

Теперь смените метасимвол "+" на метасимвол "?". Как Вы думаете что произойдет? Правильно сообщение о корректности пароля будет отсутствовать, так как в пароле более одного символа. Надеюсь я нормально объяснил работу, этих трех, часто используемых, метасимволов

Иногда "не" лучше

Мы как минимум научились проверять правильность пароля, и это хорошо! Давайте я Вам расскажу про еще одни способ поиска чего либо в строке. Вот скажем нам нужно проверить отсутствие в строке цифр. Как это сделать? Вот строка:

(Я специально ввел в нее эти "-_+()" символы что бы жизнь медом не казалась... ) Мы могли бы составить следующее выражение:

Но согласитесь, ведь мы не всегда знаем какие символы используются в строке, но нам точно известно, что цифр в ней быть не должно! Стало быть логичнее было бы просто написать шаблон, который пропускал бы строки в которых нет цифр, а не те, в которых присутствует "О боже мой сколько же не понятных символов!!!" . Вот пример правильно составленного выражения для таких задач:

$a = "a-_+()";
if(preg_match("/^[^0-9]+$/",$a)) echo "Цифр нет!";

Как же мы этого добились? Мы ввели символ , но! поставленная в начале крышка "^" ([^0-9]) говорит о том, что в строке этого символа быть не должно Надеюсь с этим разобрались

Ну что ж, давайте потихоньку закругляться... Я приведу два примера с объяснениями, в ходе которых мы научимся сохранять результат поиска в переменную, и научимся проверять на корректность почтовый адрес

Увидел, сохранил!

Мой блог

$a = "Мой блог";
preg_match("//", $a);

В нашем регулярном выражение мы описали все возможные символы которые могут входить в ссылку. Так же хочу обратить внимание на символы кавычки и "/" в нашем выражение.. Перед ними стоит обратный слеш, для чего он? Дело в том что "/" и кавычка сами по себе спецсимволы. И для того что бы шаблон их воспринял как обычные символы, нам необходимо их экранизировать. Экранизация проводится путем добавление перед спецсимволами обратный слеш. Надеюсь понятно

$a = "Мой блог";
preg_match("//", $a, $b);

Ну и соответственно необходимо дописать дополнительный параметр в виде переменной $b, в ней и будет храниться найденная ссылка. Так же необходимо знать, что результат поиска помещается в массив. Стало быть переменная $b - массив. Искомая нами информация находится под индексом 1. А это означает, что результат поиска в переменной $b. выведем результат на экран:

$a = "Мой блог";
preg_match("//", $a, $b);
echo $b;

Правильный адрес, залог успеха!

Ну и на по следок, ответ на вопрос, корректный ли e-mail? Для начала, необходимо узнать, какие символы разрешены в адресах? Насколько мне известно в разрешенные символы входят:

английские буквы, цифры, "_", "-" эмммм вроде все... Будем исходить их этого.
Дальше у нас идет "@"
После, английские буквы
Далее, точка
И опять английские буквы...

Стало быть регулярное выражение будет следующим:

$a = "[email protected]";
if(preg_match("/^+@+.+$/", $a)) echo "e-mail адрес составлен корректно!";
else echo "e-mail адрес составлен НЕ корректно!";

Ну что ж... Буду надеется, что такие записи теперь не пугают Вас, и Вы в них вполне можете разобраться.

На по следок хочу кое что сказать. Статья получилось громоздкой, и в то же время охватила лишь часть возможностей. Если вы читаете это предложение, то скорее всего прочли ее до конца, от чего большое Вам спасибо

Что касается цикла статей о разработке cms блога , первую часть цикла оглашаю закрытой! В скором будущем мы начнем реализовывать админ панель, так что не "переключайтесь" Если у Вас есть какие то вопросы, с удовольствием отвечу. Всего Вам самого наилучшего, у меня все!

Чаще всего регулярные выражения используются в Perl в операторах поиска и замены, таких как s// , m/ , операторах связки =~ или != и т.д. Как правило все эти операторы имеют схожие опции такие как:

Обычно все эти опции обозначают как "/x". Их можно использовать даже внутри шаблонов, используя новую конструкцию (?...)

Регулярные выражения или шаблоны (pattern) то же самое, что и regexp процедуры в Unix. Выражения и синтаксис заимствованы из свободно распространяемых процедур V8 Генри Спенсера (Henry Spencer), там же они подробно и описаны.

В шаблонах используются следующие метасимволы (символы обозначающие группы других символов) часто называемые egrep - стандартом:

Метасимволы имеют модификаторы (пишутся после метасимвола):

Во все других случаях фигурные скобки считаются обычными (регулярными) символами. Таким образом "*" эквивалентна {0,} , "+" - {1,} и "?" - {0,1}. n и m не могут быть больше 65536.

По умолчанию действие метасимволов "жадно" (greedy). Совпадение распространяется столько раз, сколько возможно, не учитывая результат действия следующих метасимволов. Если вы хотите "уменьшить их аппетит", то используйте символ "?". Это не изменяет значение метасимволов, просто уменьшает распространение. Таким образом:

Шаблоны работают так же, как и двойные кавычки, поэтому в них можно использовать `\` - символы (бэкслэш-символы):

\t	- символ табуляции
\n	- новая строка
\r	- перевод каретки
\а	- перевод формата
\v	- вертикальная табуляция
\a	- звонок
\e	- escape
\033	- восьмеричная запись символа
\x1A	- шестнадцатеричная
\c[	- control символ
\l	- нижний регистр следующего символа
\u	- верхний регистр -//-
\L	- все символы в нижнем регистре до \E
\U	- в верхнем -//-
\E	- ограничитель смены регистра
\Q	- отмена действия как метасимвола

Дополнительно в Perl добавлены следующие метасимволы:

Обратите внимание, что все это "один" символ. Для обозначения последовательности применяйте модификаторы. Так:

Кроме того существуют мнимые метасимволы. Обозначающие не существующие символы в месте смены значения. Такие как:

Граница слова (\b) - это мнимая точка между символами \w и \W. Внутри класса символов "\b" обозначает символ backspace (стирания). Метасимволы \A и \Z - аналогичны "^" и "$", но если начало строки "^" и конец строки "$" действуют для каждой строки в многострочной строке, то \A и \Z обозначают начало и конец всей многострочной строки.

Если внутри шаблона применяется группировка (круглые скобки), то номер подстроки группы обозначается как "\цифра". Заметьте, что за шаблоном в пределах выражения или блока эти группы обозначаются как "$цифра". Кроме этого существуют дополнительные переменные:

Пример:

$s = "Один 1 два 2 и три 3"; if ($s =~ /(\d+)\D+(\d+)/) { print "$1\n"; # Результат "1" print "$2\n"; # "2" print "$+\n"; # "2" print "$&\n"; # "1 два 2" print "$`\n"; # "Один " print "$"\n"; # " и три 3" }

Perl версии 5 содержит дополнительные конструкции шаблонов:

Пример:

$s = "1+2-3*4"; if ($s =~ /(\d)(?=-)/) # Найти цифру за которой стоит "-" { print "$1\n"; # Результат "2" } else { print "ошибка поиска\n"; }

(?!шаблон)- "заглядывание" вперед по отрицанию:

Пример:

$s = "1+2-3*4"; if ($s =~ /(\d)(?!\+)/) # Найти цифру за которой не стоит "+" { print "$1\n"; # Результат "2" } else { print "ошибка поиска\n"; }

(?ismx) - "внутренние" модификаторы. Удобно применять в шаблонах, где например нужно внутри шаблона указать модификатор.

Правила регулярного выражения. (regex)

Любой символ обозначает себя самого, если это не метасимвол. Если вам нужно отменить действие метасимвола, то поставьте перед ним "\".

Строка символов обозначает строку этих символов.

Множество возможных символов (класс) заключается в квадратные скобки "", это значит, что в данном месте может стоять один из указанных в скобках символов. Если первый символ в скобках это "^" - значит ни один из указанных символов не может стоять в данном месте выражения. Внутри класса можно употреблять символ "-", обозначающий диапазон символов. Например, a-z - один из малых букв латинского алфавита, 0-9 - цифра и т.д.

форум портала PHP . SU

В PHP существует несколько функций для работы с регулярными выражениями. Все они используют один и тот же парсер регулярных выражений для своей работы, но при этом преследуют различные цели. Ниже мы рассмотрим все эти функции. Я буду приводить описание синтаксиса каждой функции в том виде, в котором она описана в PHP Manual , чтобы вам легче было разобраться.

Функция preg_match()

Синтаксис:

Int preg_match (string pattern, string subject [, array matches])

Эта функция предназначена для проверки того, совпадает ли заданная строка (subject) с заданным регулярным выражением (pattern). В качестве результата функция возвращает 1 , если совпадения были найдены и 0 , если нет. Если при вызове функции был задан необязательный параметр matches , то после работы функции ему будет присвоен массив, содержащий результаты поиска по заданному регулярному выражению. Заметьте, что вне зависимости от того, сколько именно совпадений было найдено при поиске - вам будет возвращено только первое совпадение. Рассмотрим пример того, как это работает:

Matches: 1 Array ( => 123)

Если вы внимательно прочитали предыдущий выпуск и понимаете, как работают регулярные выражения, то вы должны заметить, что реально функция preg_match() обнаружила в заданной строке 5 совпадений с заданным выражением, но вернула только первое из них. Казалось бы, что в этом случае было бы логичнее возвращать результаты поиска в виде строки, а не в виде массива, но это не так. Вспомните, что регулярное выражение может содержать в себе внутренние регулярные выражения, которые также возращают результат. А для того, чтобы вернуть результаты поиска по всем регулярным выражениям нам как раз и требуется массив. Для того, чтобы проиллюстрировать сказанное выше давайте немного изменим регулярное выражение и посмотрим на результат:

Результат будет следующим:

Matches: 1 Array ( => 123 => 2)

Как видите - здесь присутствуют результаты поиска по всем имеющимся регулярным выражениям.

Функция preg_match_all()

Синтаксис:

Int preg_match_all (string pattern, string subject, array matches [, int order])

Эта функция очень похожа на предыдущую и предназначена для тех же самых целей. Единственное ее отличие от preg_match() состоит в том, что она осуществляет "глобальный" поиск в заданном тексте по заданному регулярному выражению и, соответственно, находит и возвращает все имеющиеся совпадения. Посмотрим, как отличается работа этой функции на том же самом примере:

Результат работы:

Matches: 5 Array ( => Array ( => 123 => 234 => 345 => 456 => 567))

Как видите - здесь мы получили все найденные совпадения и их количество в качестве результата.

Необходимо обратить ваше внимание на дополнительный параметр, появившийся в этой функции по сравнению с preg_match() : order . Значение этого параметра определяет структуру выходного массива с найденными совпадениями. Его значение может быть одним из перечисленных ниже:

PREG_PATTERN_ORDER - результаты поиска будут сгруппированы по номеру регулярного выражения, которое возвратило этот результат (это значение используется по умолчанию).
PREG_SET_ORDER - результаты поиска будут сгруппированы по месту их нахождения в тексте

Для того, чтобы лучше понять разницу между этими значениями, посмотрим на результат работы одного и того же скрипта при использовании каждого из них:

Сначала посмотрим на то, как выглядит результат при использовании PREG_PATTERN_ORDER:

Результат:

Array ( => Array ( => 123 => 234 => 345 => 456 => 567) => Array ( => 2 => 3 => 4 => 5 => 6))

Как видите - массив результатов содержит внешние индексы, соответствующие номерам регулярных выражений, от которых получен результат (индекс 0 имеет основное регулярное выражение). По этим индексам в массиве расположены массивы, содержащие непосредственно найденную информацию, причем индекс в этом внутреннем массиве соответствует "порядковому номеру" данного фрагмента в исходном тексте.

Теперь попробуем то же самое, но с PREG_SET_ORDER:

Результат:

Array ( => Array ( => 123 => 2) => Array ( => 234 => 3) => Array ( => 345 => 4) => Array ( => 456 => 5) => Array ( => 567 => 6))

Как видите - здесь основной массив содержит результаты поиска, сгруппированные по порядку их нахождения в тексте, причем каждый результат представляет собой массив с результатами поиска по этому найденному фрагменту для всех имеющихся регулярных выражений.

Функция preg_replace()

Синтаксис:

Mixed preg_replace (mixed pattern, mixed replacement, mixed subject [, int limit])

Эта функция позволит вам произвести замену текста по регулярному выражению. Как и в предыдущих функциях, здесь производится поиск по регулярному выражению pattern в тексте subject , и каждый найденный фрагмент текста заменяется на текст, заданный в replacement . Задание необязятельного параметра limit позволит ограничить количество заменяемых фрагментов в тексте.

Например, нам необходимо "сжать" текст, убрав из него все лишние пробелы и символы перевода строки:

Результатом работы данной программы будет следующий текст:

Перед заменой: there is some text just for test После замены: there is some text just for test

Как видите - всего одна строчка позволила нам решить достаточно нетривиальную в обычной практике задачу. Объяснять само регулярное выражение я не буду, если вы внимательно прочитали предыдущий выпуск - понять его вам будет несложно.

Однако основная прелесть этой функции, которая и придает ей всю ее мощь - это тот факт, что вы можете ссылаться на результаты поиска при генерации замещающего текста. В качесте примера покажу, как можно очень быстро и элегантно решить задачу, которая возникает достаточно часто - конвертация дат из одного формата в другой. Как вы знаете, на Западе обычно используется формат mm/dd/yyyy , тогда как у нас обычно - dd.mm.yyyy . Следующий пример осуществляет конвертацию дат между этими форматами в заданном тексте:

Результат работы этой программы:

Today is 16.11.2001

Обратите внимание на текст, используемый для замены. В нем использованы т.н. backreferences , т.е. ссылки на найденный ранее текст. Всего таких ссылок может быть не более 100 с номерами от 0 до 99 (соответственно в тексте они выглядят как \0 , \1 , \2 ... \99). Backreference с номером 0 будет заменена на весь найденный текст, \1 - на текст, найденный первым внутренним регулярным выражением, \2 - вторым и т.д. Номерв внутренним регулярным выражениям присваиваются по мере их находжения в тексте, т.е. слева-направо. В нашем случае \1 - это месяц, \2 - день, \3 - год.

Помимо стандартного синтаксиса регулярных выражений, в PHP , совместно с функцией preg_replace() используется еще один дополнительный модификатор - " e ". Его использование заставляет PHP рассматривать текст замены не как текст, а как PHP код, что дает возможность еще больше расширить сферу применения этой функции в вашем коде. Следующий пример демонстрирует использование этого модификатора - он производит замену всех целых десятичных чисел в тексте на их шестнадцатиричные эквиваленты:

Результатом работы этой программы будет:

0x7b 0xea 0x159 0x1c8 0x237

И еще одно. Функция preg_replace() также умеет работать с массивами регулярных выражений. Т.е. это позволит вам осуществить поиск и замену сразу по множеству условий! В качестве примера приведу фрагмент кода, описанный в PHP Manual и осуществляющий конвертацию HTML документа в текст при помощи всего лишь одного вызова preg_replace() !

// $document should contain an HTML document. // This will remove HTML tags, javascript sections // and white space. It will also convert some // common HTML entities to their text equivalent. $search = array (""]*?>.*?"si", // Strip out javascript """si", // Strip out html tags ""([\r\n])[\s]+"", // Strip out white space ""&(quot #34);"i", // Replace html entities ""&(amp #38);"i", ""&(lt #60);"i", ""&(gt #62);"i", ""&(nbsp #160);"i", ""&(iexcl #161);"i", ""&(cent #162);"i", ""&(pound #163);"i", ""&(copy #169);"i", ""(\d+);"e"); // evaluate as php $replace = array ("", "", "\\1", "\"", "&", "", " ", chr(161), chr(162), chr(163), chr(169), "chr(\\1)"); $text = preg_replace ($search, $replace, $document);

Сами по себе регулярные выражения очень просты, интересно лишь их совместное использование для решения общей задачи.

Функция preg_replace_callback()

Синтаксис:

Mixed preg_replace_callback (mixed pattern, mixed callback, mixed subject [, int limit])

Эта функция является расширенной версией функции preg_replace() (хотя, казалось бы, чего еще можно пожелать?). Единственным отличием ее от preg_replace() является то, что в качестве текста для замены в ней задается не сам текст, а имя функции, которая будет производить обработку найденного текста и возвращать замещающий текст. Т.е. с использованием этой функции мощь инструментария PHP по обработке текста становится поистине безграничной! В качестве примера хочу привести фрагмент кода, который выполняет работу, аналогичную той, что производится механизмом сессий в PHP : добавление дополнительного аргумента (идентификатора сессии) к каждой ссылке внутри HTML документа.

Пример может показаться немного громоздким, но это исключительно из-за обилия комментариев.

Функция preg_split()

Синтаксис:

Array preg_split (string pattern, string subject [, int limit [, int flags]])

Данная функция выполняет действие, аналогичное функциям split() и explode() - разбивает строку на части по какому-либо признаку и возвращает массив, содержащий части строки. Однако ее возможности по заданию правил разбиения больше, чем у этих функций, потому что в ее основе лежит механизм регулярных выражений, в мощи которого, я надеюсь, вы уже смогли убедиться. Если говорить более конкретно, то строка subject разбивается на части по разделителю, заданному регулярным выражением pattern . При этом количество фрагментов может быть ограничего необязятельным параметром limit . Кроме того эта функция поддерживает необязательный параметр flags , который позволяет в некоторой степени контролировать процесс разбиения строки.

Параметр flags может принимать следующие значения (или их комбинации с использованием знака " "):

PREG_SPLIT_NO_EMPTY - возвращать только непустые части строк, полученные в результате разбиения.
PREG_SPLIT_DELIM_CAPTURE - возвращать также результаты поиска по внутренним регулярным выражениям.

Рассмотрим пару примеров. Для начала - выражение, которое разбивает произвольный текст на отдельные слова:

Как видите - мы получаем содержимое файла " my_text.txt " в виде строки, разбиваем его на отдельные слова и выводим содержимое массива слов, чтобы убедиться, что все работает правильно.

Еще один пример производит разбиение заданного слова на буквы (он описан в PHP Manual):

Значение -1 для параметра limit означает отсутствие лимита.

Функция preg_quote()

Синтаксис:

String preg_quote (string str [, string delimiter])

Эта функция - единственная, не относящаяся непосредственно к механизму регулярных выражений. Ее назначение - "квотинг" символов, имеющих специальное значение в синтаксисе регулярных выражений. Обычно это символы:

. \ + * ? [ ^ ] $ () { } = ! < > :

Все эти символы, встречающиеся в строке будут "отквочены" путем добавления символа " \ " непосредственно перед каждым из них. Модифицированная таким образом строка будет возвращены в качестве результата.

Эта фцнкция также имеет необязательный параметр delimiter . Если этот параметр задан, то символ, переданный в качестве этого параметра тоже будет "отквочен" данной функцией.

Функция preg_grep()

Синтаксис:

Array preg_grep (string pattern, array input)

Действие этой функции похоже на действие команды grep в Unix. Она ищет текст по регулярному выражению pattern , в массиве input и возвращает новый массив, содержащий только элементы, в которых были найдены совпадения с заданным регулярным выражением. К примеру у нас есть файл, содержащий в каждой строке числовую и текстовую информацию. Нам необходимо получить из этого файла только строки, содержащие числа:

Есть еще вопросы или что-то непонятно - добро пожаловать на наш