Nous poursuivons notre projet avec l’intégration d’une nouvelle colonne dans tableau : la colonne « pages aspirées ». En effet, nous souhaitons stocker localement nos urls pour pouvoir les utiliser hors connexion. Pour cela nous avons vu en cours deux commandes :
Wget : le programme aspire une page et la sauvegarde sous « index.html ». Si on relance le programme, le premier fichier n’est pas écrasé. Nouvelle sauvegarde en index.html.1
Par défaut, le fichier est sauvegardé dans le répertoire courant.
Option de wget :
- -O : on peut spécifier le chemin dans lequel le fichier sera sauvegardé
Exemple : wget –O ../PAGES-ASPIREES/ « mettre ici le nom qu’on veut attribuer à la page aspirée »
Curl : permet de transférer une URL. Ce qu’elle renvoie c’est le contenu de la page. Il faut donc faire une redirection de flux dans un fichier.
Option de curl :
- -o : permet de spécifier le nom du fichier de sortie
- -L : permet de suivre les liens liés à la page
- -e : permet de mettre le fichier aspiré au format html en rajoutant .html à la fin du lien
Attention : la sortie ne doit pas écraser les sorties précédentes ! Il existe par exemple une url1 en français et une url1 en anglais ! La solution est de créer des sous dossiers dans le répertoire PAGES-ASPIREES.
Pour notifier une erreur d’aspiration nous avons utilisé cette ligne de commande:
retourcurl=$?
Si le retourcurl donne 0, la page a été bien aspirée, sinon l’aspiration a échoué.
Pour chaque page aspirée dans notre tableau, nous avons associé son « retourcurl » en le spécifiant de cette façon : page aspirée numéro X (erreur : réponse du retourcurl)
Voici notre script :
Nous avons eu quelques erreurs d’aspiration : erreur = 52 et erreur = 6
Avec cette présentation du résultat du retourcurl dans le tableau, nous avons identifié rapidement les urls posant problèmes pour essayer d’en trouver d’autres à leur place.
Exemple de problème avec curl :
OK
les pbs rencontrés au moment de l’aspiration ne peuvent-ils pas être « corrigés » (au lieu de changer d’URL) ?