Partager l'article ! Etape 5 : Récupération de textes brut avec Lynx-Dump: Le troisième script consiste à créer un tableau de liens avec 3 colonn ...
Le troisième script consiste à créer un tableau de liens avec 3 colonnes (URL, fichier aspiré, dump)
L'opération consiste à extraire le texte brut des pages aspirées et à le stocker dans un répertoire "DUMP".
Ce troisième script introduit la commande UNIX appelée LYNX. Celle-ci permet de filtrer (« dumper ») le texte des pages aspirées.
La commande lynx avec l'option -dump convertit les pages Web en pages texte.
-accept_all_cookies
Recevoir les cookies sans interrompre le traîtement.
Celui qui nous intéresse particulièrement pour le projet :
-dump
Sortie formatée avec liste numérotée des liens
Aussi, LYNX une alternative à la page d'ouverture par défaut : une URL peut être directement appelé par Lynx depuis un écran console ("fenêtre DOS") ou un programme, avec de nombreux paramètres qui outrepassent éventuellement ce qui est défini par défaut ou dans le fichier de configuration.
| Mai 2012 | ||||||||||
| L | M | M | J | V | S | D | ||||
| 1 | 2 | 3 | 4 | 5 | 6 | |||||
| 7 | 8 | 9 | 10 | 11 | 12 | 13 | ||||
| 14 | 15 | 16 | 17 | 18 | 19 | 20 | ||||
| 21 | 22 | 23 | 24 | 25 | 26 | 27 | ||||
| 28 | 29 | 30 | 31 | |||||||
|
||||||||||