Etape 4 : aspiration des pages avec WGET

Le second script consiste à créer  un tableau de liens avec des liens externes vers les pages visées et des liens internes vers les pages correspondantes aspirées.

Le principe des pages aspirées est de télécharger des pages Internet afin de pouvoir les consulter hors connexion.

 

Dans le script, nous rajoutons :

Activation des liens :
<a href=\"$nom\" target=\"_blank\">$nom</a>

 

Quelques explications sur WGET :

 

WGET est une commande UNIX.

Wget est un programme en ligne de commande non interactif de téléchargement de fichiers depuis le Web. Il supporte les protocoles HTTP, HTTPS et FTP ainsi que le téléchargement au travers des proxies HTTP.

Wget peut travailler en arrière-plan et ainsi vous permettre de lancer un téléchargement et de vous déconnecter du système  Cette commande est utile car il ne requiert d'action de l'utilisateur et permet d'effectuer ses tâches en arrière plan, ce qui peut être très utile pour les téléchargements de données nombreuses et lourdes.

 

La commande « wget -O ../PAGES-ASPIREES/FR/$i.html $nom » permet de sauvegarder la page aspirée des URLS dans le dossier PAGES-ASPIREES.

Syntaxe :

wget [option]... [URL]...

Exemples d'utilisation :

Aspirer un site entier (Téléchargement récursif)
wget -r http://www.site.com/

 

Télécharger un fichier
wget http://www.site.com/fichier.html

 

Télécharger uniquement les fichiers d'une extension (ici, .jpg)
wget -A.jpg http://www.site.com/

Pour être informé des derniers articles, inscrivez vous :