Pour extraire les contenus textuels de nos pages web, nous avons utilisé un navigateur en ligne de commande : Lynx
La commande suivante permet par exemple de récupérer le contenu textuel de notre blog dans un fichier texte :
lynx -dump -nolist http://les-manchots3.blogspot.fr > blog.txt
(L'option -dump sauvegarde le texte de la page visualisée dans le terminal et l'option -nolist permet de ne pas prendre en compte les références de liens)
Seulement, pour pouvoir utiliser cette superbe commande, il faut que Lynx soit installer sur votre ordinateur. Voici une manière de faire si vous travailler sur Mac. On a cherché pas mal de temps avant d'y arriver avec Mac Os 10.8 alors on espère que cette méthode pourra aider d'autres personnes...
Il faut d'abord télécharger et installer une version de Xcode qui soit compatible avec votre ordinateur. C'est gratuit sur Apple Store, si vous avez un compte. Ensuite, vous installerez Commande Line Tools for Xcode puis vous n'oublierez pas de signer la licence de Xcode en tapant dans votre terminal :
xcodebuild -license
(une fois que vous avez fait tout défiler, il faut taper 'agree' et valider)
Vous pouvez ensuite télécharger et installer la version de Macports dont vous avez besoin (pour Moutain Lion, Lion ou Leopard).
Une fois que vous avez fait tout ça, vous pouvez ouvrir votre terminal et taper cette commande pour installer Lynx :
sudo port install lynx
Normalment, si tout a bien fonctionné, vous devriez pouvoir accéder à notre blog depuis votre terminal avec la commande suivante :
lynx http://les-manchots3.blogspot.fr
Et voici ce que ça donne :
Magnifique n'est-ce pas ? Enfin, j'espère que vous préfèrez quand-même la mise en page de notre blog via votre navigateur !!!

Aucun commentaire:
Enregistrer un commentaire