Etape 6 : Filtrage du contexte avec EGREP

Le  script suivant  consiste  à créer plusieurs tableaux de liens avec 4 colonnes (URL, fichier aspiré, dump, contextes) notamment à l’aide de la commande Egrep

Cet commande permet de rechercher dans des fichiers des lignes contenant un motif donné. Son utilisation implique une maîtrise des expressions régulières.

Nous pouvons le considérer ainsi comme un outil d’extraction d’information.

La commande Unix egrep permet de chercherle mot moteur dans notre corpus. Chaque ligne tapée est

- soit recopiée par egrep, si le motif s’y trouve,

- soit ignorée. (principe des automates-Grammaires formelles)

 

Syntaxe :

egrep <motif> <fichier>

 

Quelques exemples de paramètres :

 

-i : indique à grep de traiter indéféremment les majuscules et les minuscules

 

-w : indique à grep que l’expression doit correspondre à des mots entiers

 

-x : indique à grep que l’expression doit correspondre à des lignes entières

 

Quelques tutoriels :

 

http://www.fil.univ-lille1.fr/~caronc/AEL/tpgrep.pdf

http://www.univorleans.fr/lifo/membres/Yannick.Parmentier/perl/cours1.pdf

http://mauny.net/data/courses/unix/cours4.pdf

 

Créer un blog gratuit sur over-blog.com - Contact - C.G.U. - Rémunération en droits d'auteur - Signaler un abus