Partager l'article ! Etape 6 : Filtrage du contexte avec EGREP: Le script suivant consiste à créer plusieurs tableaux de liens avec 4 colonnes ...
Le script suivant consiste à créer plusieurs tableaux de liens avec 4 colonnes (URL, fichier aspiré, dump, contextes) notamment à l’aide de la commande Egrep
Cet commande permet de rechercher dans des fichiers des lignes contenant un motif donné. Son utilisation implique une maîtrise des expressions régulières.
Nous pouvons le considérer ainsi comme un outil d’extraction d’information.
La commande Unix egrep permet de chercherle mot moteur dans notre corpus. Chaque ligne tapée est
- soit recopiée par egrep, si le motif s’y trouve,
- soit ignorée. (principe des automates-Grammaires formelles)
Syntaxe :
egrep <motif> <fichier>
Quelques exemples de paramètres :
-i : indique à grep de traiter indéféremment les majuscules et les minuscules
-w : indique à grep que l’expression doit correspondre à des mots entiers
-x : indique à grep que l’expression doit correspondre à des lignes entières
Quelques tutoriels :
http://www.fil.univ-lille1.fr/~caronc/AEL/tpgrep.pdf
http://www.univorleans.fr/lifo/membres/Yannick.Parmentier/perl/cours1.pdf
http://mauny.net/data/courses/unix/cours4.pdf
| Mai 2012 | ||||||||||
| L | M | M | J | V | S | D | ||||
| 1 | 2 | 3 | 4 | 5 | 6 | |||||
| 7 | 8 | 9 | 10 | 11 | 12 | 13 | ||||
| 14 | 15 | 16 | 17 | 18 | 19 | 20 | ||||
| 21 | 22 | 23 | 24 | 25 | 26 | 27 | ||||
| 28 | 29 | 30 | 31 | |||||||
|
||||||||||