Tableau troisième version

26 11 2012

Nous poursuivons notre projet avec l’intégration d’une nouvelle colonne dans tableau : la colonne « pages aspirées ». En effet, nous souhaitons stocker localement nos urls pour pouvoir les utiliser hors connexion. Pour cela nous avons vu en cours deux commandes :

Wget : le programme aspire une page et la sauvegarde sous « index.html ». Si on relance le programme, le premier fichier n’est pas écrasé. Nouvelle sauvegarde en index.html.1

Par défaut, le fichier est sauvegardé dans le répertoire courant.

Option de wget :

  • -O : on peut spécifier le chemin dans lequel le fichier sera sauvegardé

Exemple : wget –O ../PAGES-ASPIREES/ « mettre ici le nom qu’on veut attribuer à la page aspirée »

Curl : permet de transférer une URL. Ce qu’elle renvoie c’est le contenu de la page. Il faut donc faire une redirection de flux dans un fichier.

Option de curl :

  •  -o : permet de spécifier le nom du fichier de sortie
  •  -L : permet de suivre les liens liés à la page
  •  -e : permet de mettre le fichier aspiré au format html en rajoutant .html à la fin du lien

Attention : la sortie ne doit pas écraser les sorties précédentes ! Il existe par exemple une url1 en français et une url1 en anglais ! La solution est de créer des sous dossiers dans le répertoire PAGES-ASPIREES.

Pour notifier une erreur d’aspiration nous avons utilisé cette ligne de commande:
retourcurl=$?

Si le retourcurl donne 0, la page a été bien aspirée, sinon l’aspiration a échoué.

Pour chaque page aspirée dans notre tableau, nous avons associé son « retourcurl » en le spécifiant de cette façon : page aspirée numéro X (erreur : réponse du retourcurl)
Voici notre script :


Voici notre tableau :

Nous avons eu quelques erreurs d’aspiration : erreur = 52 et erreur = 6

Avec cette présentation du résultat du retourcurl dans le tableau, nous avons identifié rapidement les urls posant problèmes pour essayer d’en trouver d’autres à leur place.

Exemple de problème avec curl :


Actions

Information

Une réponse

26 11 2012
Serge Fleury (@Serge__Fleury)

OK
les pbs rencontrés au moment de l’aspiration ne peuvent-ils pas être « corrigés » (au lieu de changer d’URL) ?

Laisser un commentaire