Reguláris vagy szabályos kifejezések használata

Tartalom Reguláris vagy szabályos kifejezések használata 1. Bevezető...1 2. Bővített kifejezések (extended)...1 3. Alap szintű (basic) reguláris kifejezések...7 4. A grep és fontosabb kapcsolói...7 5. A Perl reguláris kifejezései...8 6. A PHP ereg függvénycsoportja (bővített POSIX kifejezések)...10 7. A PHP preg függvénycsoportja (Perl alapú kifejezések)...11 8. Bibliográfia...12 1. Bevezető A reguláris kifejezések leginkább szövegfeldolgozáshoz kötött feladatok kapcsán ismertek. Röviden: egy szövegmintákat leíró nyelvet jelentenek, segítségével rendkívül könnyen oldhatóak meg keresés, helyettesítés, általában szövegek feldolgozáshoz kötődő feladatok. Bár konkrétan, mindennapi gyakorlatként először a UNIX-on kezdték használni őket jelentőségük messze túlmutat a UNIX eszközein: ma már minden modern programnyelvbe beépítették őket nyelvi vagy könyvtárak szintjén. Ha valahol egy szoftverben szövegek feldolgozását is el kell végezni, akkor szinte egyértelműen ezeket használjuk. Így általánosan programfejlesztés közben, adatbányászatban, címkéket használó nyelvekkel való munkában (XML, HTML) vagy a genetikai adatok feldolgozásában nemcsak használatosak, hanem sokszor az első számú eszközt jelentik. A reguláris kifejezésekkel a UNIX parancsaiban - történelmi okok miatt - legalább három változatban találkozunk. 1. alapszintű (basic) 2. POSIX bővített (extended) 2. Perl kompatibilis - a Perl programozási nyelvben használatos kifejezések, mai változata a Perl 5- ös verziójában jelent meg. Az alapszintű kifejezéseket a régi programokkal való kompatibilitás miatt használjuk. Ezek az alábbi Linux/Unix alatt használatos parancsok: expr, grep alapmódban, sed alapmódban. A bővített kifejezéseket az alábbi esetben használjuk: egrep vagy grep -E kapcsolóval, sed -r kapcsolóval, awk, illetve a különböző programozási nyelvekből, ahol a függvények ilyen kifejezést használnak. A Reguláris kifejezések mesterfokon című, szerző: Jeffrey Friedl, könyvtárban is megtalálható könyv kimerítően tárgyalja a reguláris kifejezéseket, beleértve a különböző programozási nyelvekben (Perl, Java vagy.net-ben) használt variánsokat. A PHP függvényei közt két reguláris kifejezés függvénycsoportot találunk, a POSIX bővített és Perl típusú kifejezéseket alkalmazó függvényeket. 2. Bővített kifejezések (extended) Jelölések: a kifejezések jelölésénél, amennyiben előfordulnak, a alábbi karaktereket használjuk: 1

szóköz, tabulátor, a kifejezéseket a pdf illetve html dokumentumokban színesen is kiemelem, mint: ^abc[0-9]. A kifejezésre történő illesztést így emelem ki: abc7xyz. Meghatározás: a reguláris kifejezések egy olyan nyelvet jelentenek amellyel karakterláncokban megtalálható mintákat írunk le. A minták alatt az egymásutáni karakterek egy jellegzetes sorozatát értjük. Így mintáról beszélünk, ha azt mondjuk, hogy három egymás utáni kis a betű és utána egy kettes, de akkor is, ha általánosabban fogalmazunk, mint pl.: három egymás utáni kis betűt egy számjegy követ. A mintákat karaktersorozatokban fogjuk keresni, és első megközelítésben csak az angol nyelv karakterkészletével fogunk dolgozni (gépi nyelvekben lényegében ezek fordulnak elő). Később majd külön foglalkozunk a más nyelven írt szövegek kapcsán használt mintákkal. Ha a minta megtalálható egy szövegrészben, akkor azt mondjuk, hogy a minta illeszkedik a szövegre. Az illesztés (match) fogalmával tulajdonképpen egy keresés eredményére utalunk. Pl. a fent említett minták illeszkednek a aaa2xyxaaa2klm sorozatra. Ilyen kereséskor az első illesztésnek jelentősebb szerepe lehet: sokszor csak az a cél, hogy az elsőt megtaláljuk. Bár ezzel nem fogunk foglalkozni, jó tudni, hogy a keresés véges automatákat használó karakterlánc keresés algoritmusokkal történik. Ezeket egy olyan szoftver komponens hajtja végre a leírt minták alapján amelyet reguláris kifejezés motornak nevezünk. A reguláris kifejezésben karakterek és metakarakterek találhatóak: ezek közösen határozzák meg a keresett mintát. Metekaraktereknek nevezzük azokat a karaktereket amelyek egy reguláris kifejezésben más jelentéssel bírnak, mint a karakter valódi jelenése. Például a ^ karakter amennyiben egy kifejezésben használjuk arra utal, hogy a mintának azt a pontját ahol megjelenik csak a feldolgozott karakterlánc elejére lehet illeszteni. A minta illesztése egy karakterláncra úgy történik, hogy a motor balról jobbra végigjárja a karakterláncot, és megpróbálja illeszteni a mintát. Egy ilyen feldolgozott karakterláncban külön pozíciót jelentenek a karakterek, de mellettük a karakterek közti üres karakterek is. Így például a karakterlánc legelejét nem az első karakter határozza meg, hanem az első karakter előtti üres karakter, és azt is mondjuk ab karakterek között van egy üres karakter. A következőkben úgy tárgyaljuk a reguláris kifejezéseket, hogy a feldolgozott karakterláncról feltételezzük, hogy az egy szöveges állományból jön. Azt is feltételezzük, hogy feldolgozás egy sorra terjed ki. Így a karakterláncunk végét mindig az újsor karakter előtti üres karakter jelenti. Olyan feldolgozásokról, amelyeknél egyszerre több sorban keresünk (multiline keresés) majd később beszélünk. Ilyen feldolgozást találunk majd a PHP Perl alapú függvényeinél. Ezért egyelőre azt fogjuk mondani, hogy egy szövegsorban keresünk. Egyedi karakterekre való illesztések c c karakterre illeszkedik, ha c nem metakarakter \c c karakterre illeszkedik ha c metakarakter Így például abc olyan minta amely pontosan az abc sorozatra illeszthető, és a következő láncban ez 2

így néz ki: xyzabcxyzabc. Az a minta bármilyen láncra illeszkedik ha található benne egy a karakter. Ha a ^ egy metakarakter, akkor jelenlétét az a betű előtt ezzel a mintával fogjuk keresni: \â ami illeszthető az következő sor egy részsorozatára: abcâbc. A. metakarakter A pont bármely karakterre illeszkedik. A mintának az a karaktere ahol előfordul bármilyen karakterre illeszthető. A. illeszkedik akár az a, akár a b karakterekre. A.. minta az ab illetve xy - ra is illeszkedik, az a.c minta pedig azokra ahol az a és c között bármi más áll, mint abc, axc, a c. A karakter halmaz és a karakter osztály A karakter halmaz egy alternatív előfordulást feltételez: például ha a mintában arra szeretnénk utalni, hogy egy bizonyos helyen előfordulhat az a, b vagy c betű (bármelyik a három közül) akkor a karakterhalmazt jelölő metakaraktereket használjuk. Ez egy karakterlista, amely szögletes zárójelben van: [], például [abc]. Rövidíteni karaktersorozatot a - jellel lehet (amennyiben a - jel is a listában van első vagy utolsó karakternek kell tenni, a ] -t pedig elsőnek). [abc] az a vagy b vagy c karaktert jelenti [a-z] egy kisbetűt jelent [0-9] egy számjegyet jelent [-a] az a betűt és a kötőjelet jelenti, mert az itt első helyen áll Ha a lista ^ -el kezdődik, akkor a komplementer karakterhalmazt definiáljuk, [â-z] jelentése: nem kisbetű (ha a halmazban ^ is van, akkor azt bárhová lehet írni, kivéve az első pozíciót). A metakarakterek is saját magukat jelentik egy karakterhalmazban, nem kell \ jelölést használni. Így [a.] a valódi pont vagy az a karaktereket keresi. az ab[0-9][^xyz] minta jelentése: az ab karakterek után számjegy jön, utána pedig nem következik sem x, sem y, sem z. Példáula wab6czyz sorozat egy részére illeszkedik, de a wab6xzyz -ra nem. Karakterhalmazt megadhatunk [: :] közé zárt halmaznévvel, ezek a nevek a C nyelvből ismert karakterhalmazok vagy osztályok: alnum alfanumérikus karakter; digit számjegy; punct punktuációs karakter; alpha alphabetikus csak betűk; space szóköz; blank üres karakterek: szóköz, sorköz, tabulátor; lower kisbetűk; upper nagybetűk; cntrl kontrol karakterek; print nyomtathatóak. Tehát, pl.: [[:cntrl:]] egy kontrol karaktert jelent, [[:digit:]] egy számjegyet. A teljes lista az alábbi: [:alnum:] Alphanumeric characters. [:alpha:] Alphabetic characters. [:blank:] Space or tab characters. 3

[:cntrl:] Control characters. [:digit:] Numeric characters. [:lower:] Lower-case alphabetic characters. [:print:] Printable characters (characters that are not control characters.) Webtechnológia, W előadásvázlat, 2007/08-II. félév [:punct:] Punctuation characters (characters that are not letter, digits, control characters, or space characters). [:space:] Space characters (such as space, tab, and formfeed, to name a few). [:upper:] Upper-case alphabetic characters. [:xdigit:] Characters that are hexadecimal digits. Csoportosítás és alternálás: ( ) és A mintában a karakterek egymás után következnek, balról jobbra, az után következő karakter sorozatokat szekvenciának nevezzük. A szekvenciákon belüli al-sorozatokat csoportosítani lehet a ( ) metakarakterekkel. Ilyenkor a csoportosított rész egy összefüggő entitást fog jelenteni. Így a x(def)y minta továbbra is a látható x,d,e,f,y karakterek sorozatát jelenti, de a kiemelt (def) részre majd külön hivatkozhatunk. A zárójellel csoportosított kifejezést, akárcsak egy egyedi karaktert atomnak nevezzük. Amennyiben egy mintában alternatív szekvenciákat akarunk definiálni, tehát vagy az egyik vagy a másik illesztését várjuk, akkor a metakaraktert használjuk az alternatívák között. ab cd jelentése: vagy az ab sorozat, vagy a cd állhat azon a helyen, a motor először az ab -t, utána a cd -et próbálja illeszteni. Például ha egy dátumban az október hónap az October, Oct. vagy 10. szövegekkel szerepelhet, akkor abban a kifejezésben ami bármelyikre illeszkedhet ezt írom: October Oct\. 10\., természetesen a teljes dátumra illeszkedő kifejezésben ez majd csoportosítva szerepel: (October Okt\. 10\.). Ismétlés, intervallum Ismétlődő karaktereket (vagy atomokat) az alábbi metakarakterekkel határozhatunk meg: *, +,? amelyeket az ismétlődő karakter után írunk a kifejezésben. Jelentésük az alábbi: * az előtte álló karakter nulla vagy akárhányszor ismétlődhet + az előtte álló karakter legalább egyszer vagy akárhányszor jelenik meg? az előtte álló karakter opcionálisan, tehát egyszer sem vagy pontosan egyszer jelenik meg Ezeket a metakaraktereket kvantoroknak is nevezzük. Látható, hogy nem pontos számú ismétlődést, határoznak meg. A a* minta olyan karakterláncokra illeszkedik amelyekben "akárhányszor" fordul elő az a karakter: tehát nulla, egy, kettő stb. Így illeszkedik az a, aa, aaa, bac karakterláncokra, de a b, c, x karakterláncokra is, mert az a ezekben is "nullászor" megvan. 4

Ami fontos még a reguláris kifejezés motor működésével kapcsolatban: az a* minta az alábbi láncra így illeszkedik: xyzabbbabbbaxyzaxyz, tehát az illesztés nem a második a karakteren, hanem az elsőtől lehető legtávolabbi a karakteren áll le. Ezért a * kvantort mohó kvantornak nevezzük. A.* minta olyan láncot jelöl, amiben bármely karakter akárhányszor előfordulhat: tehát az üres láncra és a nagyon hosszú, bármit tartalmazóra is illeszkedik. A * mohósága miatt óvatosan kell használni: a.*a például az első a -tól a legmesszebb levőig illeszkedik. Egy idézőjelben levő szöveg kikeresése egy nagy szövegből jellemző példa arra, amikor a mohó kvantort az első lehetséges zárulás pontján le akarjuk állítani: a "abc def" "xyz ghi" szövegben csak akkor tudunk az első idézőjel párra és a benne levő szövegre illeszteni, ha az alábbi mintát használjuk: "[^"]*" : ez olyan karakterekre alkalmazza a * ismétlést amelyek "nem idézőjelek". A + metakarakter előtt álló karakternek legalább egyszer vagy akárhányszor kell előfordulni. Akárcsak a *, ez is mohó: a legtávolabbi lehetséges illesztést keresi. Az a+ minta illeszkedik az a, aa, aaa, aaaa karaktersorokra, de olyanokra amelyekben nem fordul elő az a nem. A? előtt álló karakter opcionálisan fordul elő: a mintának az a? helyén állhat vagy nem a karakter. Például ha az Anna nevet keressük reguláris kifejezéssel, és gyanítjuk, hogy románosan egy n-el is írhatták, akkor a Ann?a kifejezést próbáljuk illeszteni. Az ismétlődést jelölő metakarakterek () -el csoportosított szekvenciákra is alkalmazhatóak (azok is atomok). Így például a ([0-9][a-z])+ kifejezés jelentése: egy számjegy és utána egy kisbetű következik, és ez ismétlődhet egymás után: de a sorozatnak legalább egyszer ott kell lennie. Pontos ismétlődést (intervallumot) a { } metakarakterekkel határozzunk meg. Az alábbi módon használjuk: {n} {n,} az előtte álló karakter pontosan n-szer fordul elő (n egész szám) az előtte álló karakter legalább n-szer de akárhányszor előfordulhat {n,m} az előtte álló karakter legalább n-szer de maximum m-szer fordul elő Így a [0-9]{7} kifejezés pontosan 7 egymásutáni számjegyre illeszkedik, a [a-z]{2,3} pedig két vagy három egymásutáni kisbetűre. Horgonyok A horgonyok segítségével meghatározhatjuk, hogy a minta a szövegnek csak bizonyos helyére illeszkedjen. A ^ metakarakter a sor elejére utal, a $ pedig a sor végére. Pontosabban: ^ a sor elején, 5

$ a sor végén található üres karakterláncot jelentik. A ^abc minta olyan sorokra illeszkedik amelyeknek elején abc lánc áll, a \.$ azokra amelyeknek végén egy pont van. Az ^[a-z]{3}$ sorban pontosan 3 kisbetű van és semmi egyéb. A ^$ kifejezés az üres sort jelenti (a sor elején és végén levő üres karakterlánc egymás mellett van). A visszautalás Sokszor olyan mintákat keresünk, amelyeknél egy előforduló karakter szekvencia megismétlődik a keresett mintában még egyszer. Ilyenkor az első előfordulás helyét megjelöljük, erre a () -el való csoportosítást használjuk, és a \n (n egész szám, tehát \1, \2, stb.) jelöléssel utalunk rá vissza a kifejezésben. Az ([0-9])cd\1 jelentése: egy számjegy, utána cd majd ugyanaz a számjegy még egyszer. Vagy: "a sor végén két ugyanolyan kisbetű mint a sor elején levő kettő, köztük pedig akármi" mintát így írjuk le: ^([a-z]{2}).*\1$. A \1, \2, \3,... jelőlés a zárójelezett részek számára utal balról jobbra: a következő: ([a-z])([a-z])\2\1 minta ilyen láncokra illeszkedik: abbc, xyyx, cddc. A \ karakter további jelentései A reguláris kifejezések terminológiájában "szavakat alkotó" karakterek azok, amelyekből változónevek, azonosítók épülhetnek fel a C vagy más programozási nyelvekben. Ez pontosan az alábbi halmazt jelenti: [a-za-z0-9_] (betűk, számjegyek és a _ ). Ezeket fogjuk a továbbiakban word karaktereknek nevezni. Az alábbi metakarakter szekvenciák azt segítik elő, hogy azonosítókat, kulcsszavakat keressünk ki könnyen egy szövegből. Így a \ bizonyos esetekben, ha utána az alábbi karakterek vannak, az alábbi jelentéssel bír: \b szóhatár (boundary): egy word karakter és egy nem word karakter közti üres lánc \B nem szóhatár: két word karakter közti üres lánc \> üres karakterlánc a szóvégén \< üres karakterlánc a szó elején \w szó (word) alkotó karakter: ugyanaz mint: [a-za-z0-9_] \W nem szó alkotó karakter Az következő szövegben: Alkalmas alma hatalma a \Balma\B kifejezés az első alma-ra, \balma\b a másodikra, \Balma\b pedig a harmadikra illeszkedik. *** Összefoglalva a bővített (extended) reguláris kifejezés metakarakterei: 6

Megnevezés Metakarakter Jelentés Bármely karakter. bármilyen karakterre illeszkedik Kvantorok * az ismétlődés akárhányszor (lehet 0 is) Intervallum {n} pont n-szer? egyszer vagy egyszer sem fodul elő + legalább egyszer, de akárhányszor {n,} {n,m} legalább n-szer, de akárhányszor legalább n-szer, de legfennebb m-szer Horgony ^ a sor eleje előtt levő üres sztringre illeszkedik Csoportosító (...) csoportosítás Alternálás alternálás $ a sor végén levő üres sztringre illeszkedik Karakter osztály [ ] karakter osztály vagy halmaz kijelölő Visszautalás \n visszautal egy ()-lel csoportosított sorozatra: \1 az elsőre, \2 a másodikra, stb. Vissza tört sorozatok \b, \B stb. szavak közti határokat jelöl 3. Alap szintű (basic) reguláris kifejezések Néhány hagyományos program esetében használjuk őket: expr, grep, sed (a sed és grep esetében lehet bővítetteket is használni). Ezeknél a kifejezéseknél a?, +, {,, (, és ) helyett a fordított törtvonallal bevezetett változataikat kell használni tehát: \?, \+, \{, \, $, és $ -t írunk. Így pl:. a "legalább egy a betű" minta így fog kinézni: a\+, az "a vagy pontosan 3 b" pedig a\ b\{3\} ; az a minta amelyben megjelöljük visszautalás miatt a 3 egymás utáni kisbetűt pedig így: $[a-z]\{3\}$. Ezekben nem használhatóak a \ szóhatár szekvenciák. Alap szintű kifejezések modern nyelvekben, mint PHP,.NET, Java már nem használhatóak. 4. A grep és fontosabb kapcsolói A reguláris kifejezéseket legkönnyebben a UNIX grep nevű parancsával lehet gyakorolni, ezért röviden bemutatjuk ezt a parancsot. Meghívás: grep kapcsolók minta [ állomány... ] egrep kapcsolók minta [ állomány... ] 7

A grep kikeresi a bementi szöveges állományokból azokat a sorokat amelyekre a megadott minta illeszkedik, és kilistázza őket különböző opciókkal. Hasznossága miatt az egyik leggyakrabban használt program a UNIX rendszereken. egrep formában, vagy -E kapcsolóval használja a bővített reguláris kifejezéseket. A -P kapcsolóval Perl alapú kifejezéseket használ. A color=auto opcióval indítva a sorok listázásakor színessel írja ki az illesztés helyét, ha a terminál ezt támogatja. Ezt beállíthatjuk egy környezeti változóval is, ehhez írjuk az alábbi parancsot a.bashrc állományunk végére: export GREP_OPTIONS='--color=auto' Az egrep igaz értéket ad vissza a $? -be ha talált legalább egy illesztést, és hamisat ha nem talált: ez felhasználható if szerkezetekben, ha feltételként egy grep-et futtatunk. Fontosabb kapcsolók: -c megszámolja a találatok számát, ilyenkor nem írja ki a találatokat. -E bővített kifejezésekkel dolgozik -e minta a mintát így is meg lehet adni: feltétlenül így kell megadni, ha a minta jellel kezdődik -P Perl kifejezésekkel dolgozik -f file A mintát egy fájl egymás utáni soraiból veszi. Minden minta találatát keresi. -i kis és nagybetű közti különbség nem számít -L ha több állományban keres, kiírja azok neveit amelyben nincs meg a minta -l ha több állományban keres, kiírja azok neveit amelyben megvan a minta -m szám szám darab találat után leáll, szám egész szám -n a találat elé kiírja annak sorszámát -o csak az illesztést vagy illesztéseket írja ki, több illesztés esetén külön sorba -q nem ír ki semmit. A visszatérési érték jelzi csak, hogy talált vagy nem -r, -R rekurzívan végigjár minden könyvtárat a megadott könyvtár alatt -s nem ír ki hiba üzeneteket azokról az állományokról amelyeket nem tud elolvasni -v inverz kiírás: azokat a sorokat írja ki amelyekben nem volt illesztés -w csak azokat a karakterláncokat tekinti találatoknak amelyek teljes szót alkotnak (elválasztó van a két szélükön) -x csak azokat tekinti találatnak amelyek teljes sort alkotnak 5. A Perl reguláris kifejezései A Perl nyelv igen erősen támaszkodik a reguláris kifejezésekre, ezek nyelvi szinten épülnek a Perlbe(az illesztés és karaktersor csere az operátorok közt vannak). A nyelv 5-ös verziójában jelentek meg olyan metakarakterek, amelyek lényegesen lerövidíthetik a kifejezések írását, ugyanakkor 8

bonyolultabb keresést is megengednek. A Perl valamennyi előzőleg bemutatott, bővített kifejezést felépítő metakaraktert ismer. Ezen kívül még jó néhányat definiál. A Perl a reguláris kifejezéseket két határoló karakter közt adja meg. Ez alapértelmezésben a /, de bármi egyébre ki lehet cserélni. Gyakran használják erre a % jelet is. Egy Perl reguláris kifejezés tehát így néz ki: /a?b+/, ahol a két / jel határoló. De írhatjuk így is ha az célszerűbb: %a?b+%. A kifejezés után egy módosító karaktereket lehet írni, ezek jelentése: i kisbetű/nagybetű nem számít m multiline: több soron történő illesztés (ilyenkor a ^ és $ illeszkedik a belső \n -ekre is) s single line: egy sornak tekint akár több sort is:. illeszkedik a \n -re, ami a normál illesztésnél nem történik meg x a mintában levő whitespace karaktereket nem veszi figyelembe az illesztő motor tehát a: /a?b+/i illeszkedik a 'abb' -re és 'ABb' -re is. Ha pedig így adjuk meg: /a?b+/im akkor az illesztést multiline módban keresi. A Perl metakarakterei közül a legfontosabbak az alábbiak: Metakarakter Jelentése \d és \D A \d egy számjegyet jelent, ekvivalens a [0-9] kifejezéssel. A \D ennek komplementer kifejezése, jelentése: nem számjegy \s és \S A \s whitespace karaktert jelent, a \S nem whitespace karaktert \w és \W "word" karakterek, azaz [0-9a-zA-Z_], a \W a komplementer halmaz \b és \B szóhatár és nem szóhatár \A A szöveg legelején, függetlenül a multiline üzemmódtól \Z A szöveg legvégén, függetlenül a multiline üzemmódtól, illeszkedik akkor is ha utána még van a szöveg végén egy \n karakter \z A szöveg legvégén, semmilyen karakter nem lehet utána, \n sem A feltételes illesztések megoldására több metakarakter kombinációt használ a Perl, ezek közül megemlítjük: Metakarakter kombináció Előre tekintő metakarakter kombinációk: Jelentése (?=) Ellenőrzi, hogy az illesztés után egy másik reguláris kifejezés illeszkedjék a szövegre. Ez a második illesztés nem fog beletartozni az "illesztésbe", hanem csak vezérli annak helyét. A mohó kvantorok könnyen megállíthatóak ennek segítségével. Pl. /abc(?=de)/ 9

arra az abc -re illeszkedik amelyik után de jön Webtechnológia, előadásvázlat, 2007/08-II. félév (?!) Az előző ellentettje: ellenőrzi, hogy az illesztés után ne legyen jelen egy olyan karaktersor amelyre a második kifejezés illeszkedik: /abc(?!de)/ Arra az abc -re illeszkedik amelyik után nem jön de sorozat. Vissza tekintő metakarakter kombinációk: (?<=) Ellenőrzi az illesztés előtti karaktersort: annak illeszkednie kell a z'r=jelben megadott regul'ris kifejezésre: /(?<=de)abc/ olyan abc -re illeszkedik amelyik előtt ott van a de karaktersor. (?<!) Az előző feltétel negatív megfogalmazása: /(?<!de)abc/ olyan abc -re illeszkedik amelyik előtt nem illeszthető a de reguláris kifejezés. A fenti feltételes ellenőrzésből egyszerre több is használható a keresett sztring előtt és után. Használatát részletesen lásd itt. 6. A PHP ereg függvénycsoportja (bővített POSIX kifejezések) Ez a függvénycsoport a POSIX szabványnak megfelelő bővített reguláris kifejezéseket használ. Az alábbi függvények léteznek: ereg_replace helyettesítést végez az illesztés helyén ereg ellenőrzi, hogy van-e illesztés eregi_replace helyettesítést végez az illesztés helyén, kis/nagybetű nem számít eregi ellenőrzi, hogy van-e illesztés, kis/nagybetű nem számít split felvág egy sztringet tömb elemekre, úgy hogy a vágópontokat reguláris kifejezéssel keresi meg spliti ugyanaz a művelet, kis/nagybetű nem számít Két függvényt nézünk meg részletesen példaként. Az ereg teljes prototípusa: int ereg ( string $pattern, string $string [, array &$regs ] ) Az első paraméter a reguláris kifejezés, a második a sztring amelyre alkalmazzuk. Opcionálisan egy harmadik paraméterben visszatéríti az illesztés helyeit ha vannak (illesztett sztring részek egy tömbben, regs[0] a teljes illesztés, regs[1] az első zárójellel megjelölt illesztés, stb.). A visszatérített érték sikeres illesztés esetén az illesztett sztring hossza, sikertelen esetén logikai false. Pl. ha egy sztringben egy űrlapról telefonszámot írtak be, melynek alakja 0999-999-999 azt így tesztelhetjük : if ( isset ( $_POST['telefon']) ) { $telefon = trim ( $_POST['telefon'] ); //a trim levágja a szóközöket if ( ereg ( '^[0-9]{4}-[0-9]{3}-[0-9]{3}$', $telefon ) ) { //ellenőrzés sikeres, feldolgozás }else{ //hibás bevitel 10

} } Egy helyesen begépelt email címet így ellenőrizhetünk: if (!eregi ('^([a-z0-9_] \- \.)+@(([a-z0-9_] \-)+\.)+[a-z]{2,4}$', $email)) { die("hibás email cím!"); }else { //feldolgozás } Másik hasznos függvény a split, prototípusa: array split ( string $pattern, string $string [, int $limit ] ) A függvény a $pattern minta szerint felvágja a $sztringet, a darabokat egy tömbben adja vissza. A $limit paraméterrel meg lehet adni, hogy csak bizonyos számú sztringet adjon vissza. Pl. az alábbi hívás a több punktuációs karakter szerint vágja fel a sztringet: $s='a,b.c;d!e'; $a = split ('[.,;!]', $s); print_r ($a); a kiírt eredmény: Array ( [0] => a [1] => b [2] => c [3] => d [4] => e ) 7. A PHP preg függvénycsoportja (Perl alapú kifejezések) A Perl alapú függvények csoportja az alábbi: preg_grep visszaadja azokat a tömbelemeket, amelyek illeszkednek a mintára preg_match_all reguláris kifejezés teljeskörű illesztését végzi preg_match reguláris kifejezést illeszt a megadott szövegre preg_quote reguláris kifejezés metakaraktereit literálissá változtatja preg_replace_callback reguláris kifejezés alapján keres és a megadott függvényt meghívva végzi a cserét preg_replace reguláris kifejezés alapján keres és cserél preg_split sztringet darabol A Perl alapú függvények többet tudnak mint az egyszerű POSIX alapúak, ezért ezeket érdemes használni. Nézzük pl. a preg_match prototípusát; int preg_match ( string $pattern, string $subject [, array $matches [, int $flags ]] ) Két paramétere kötelező, ennek alapján teszteli, hogy van-e illesztés. Ha a $matches tömböt is megadjuk, akkor a kézikönyv szerint: "A $matches[0] tartalmazza azt a szövegrészt, ami a teljes 11

mintára illeszkedett, és a további elemek ($matches[1] és így tovább) azokat, amelyek a tömbindex szerinti "gyűjtő" részmintákra illeszkedtek". Ha a $flags paraméternek PREG_OFFSET_CAPTURE értéket adunk, akkor: "Minden egyezéshez az egyezés kezdőpozícióját is visszaadja az eredményben. Ez maga után vonja, hogy a visszaadott tömb minden eleme olyan tömb lesz, amelynek a 0. indexe az illeszkedő szöveget tartalmazza, míg az 1. indexen levő elem ennek a szövegen belüli kezdőpozícióját". A preg_replace függvény az illeszkedések helyét cseréli le egy adott sztringgel. A cserék száma megadható. A csere sztringben \1, \2,... visszautalások használhatóak az illesztett sztringre. Részletes leírását lásd a kézikönyvben itt. Az alábbi szkript például a HTML elemek kezdő és zárócímkéit szűri ki teljesen egy HTML szövegből: $s = <<< EOF <h1>cím</h1> <p>paragrafus</p> <div> <p>pargrafus2</p> </div> EOF; $s = preg_replace('/<\/?[^>]+>/','',$s,-1); //olyan sztringet helyettesít amelyik < -el kezdődik, utána opcionálisan egy /, utána "nem >" karakterek jönnek (legalább egy, de akárhány) és végül a záró > print $s; 8. Bibliográfia Könyv Reguláris kifejezések mesterfokon, szerző: Jeffrey Friedl, Kossuth-O'Reilly. Könyvtárban. Fejezetek a PHP kézikönyvben 1. POSIX alapú reguláris kifejezés függvények (angol) 2. Perl alapú reguláris kifejezés függvények (magyarra fordított) Gyakorolni Gyakorolni UNIX alatt a grep programmal, a tantárgy honlapján a http://www.ms.sapientia.ro/~lszabo/webtechnologia/peldak/ oldalon Reguláris kifejezések cím alatt levő szkriptekkel lehet. 12

Néhány egyszerű bevezető feladat gyakorláshoz itt http://www.ms.sapientia.ro/~lszabo/oprendszer1/feladatok/8_labor.xhtml található. 13