Etape 5 : Récupération de textes brut avec Lynx-Dump

Le  troisième script  consiste à créer un tableau de liens avec 3 colonnes (URL, fichier aspiré, dump)

L'opération consiste à extraire le texte brut des pages aspirées et à le stocker dans un répertoire "DUMP".

Ce troisième script introduit la commande UNIX appelée LYNX. Celle-ci permet de filtrer (« dumper ») le texte des pages aspirées.

La commande lynx avec l'option -dump convertit les pages Web en pages texte.

Quelques  exemples de paramètres de LYNX :

 

-accept_all_cookies

Recevoir les cookies sans interrompre le traîtement.

 

Celui qui nous intéresse particulièrement pour le projet  :

-dump

Sortie formatée avec liste numérotée des liens

 

Aussi, LYNX une alternative à la page d'ouverture par défaut : une URL peut être directement appelé par Lynx depuis un écran console ("fenêtre DOS") ou un programme, avec de nombreux paramètres qui outrepassent éventuellement ce qui est défini par défaut ou dans le fichier de configuration.

 

Créer un blog gratuit sur over-blog.com - Contact - C.G.U. - Rémunération en droits d'auteur - Signaler un abus