mardi 3 décembre 2013

Tableaux des pages aspirées

Voilà le deuxième tableau avec les pages aspirées, suivi du script que nous avons vu pendant le cours. Nous avons donc créé notre script qui nous permet de ranger les urls dans le tableau. Cette étape est assez simple et permet d’ajouter juste une deuxième colonne au tableau précédent. Pour compter les urls nous avons donné une variable comme « j=1 ». Pour cela, la chose la plus difficile était de faire marcher la commande -wget. En fait, pour écrire un script on pouvait utiliser soit la commande –curl, soit la commande –wget (quand Svetlana a installé Cygwin sur son ordinateur elle n’avait pas choisi tous les éléments nécessaires du coup il a fallu réinstaller Cygwin en installant –wget cette fois-ci).

Il y a des éléments nouveaux dans le script qui permettent de bien le faire tourner :

  • la déclaration de l’encodage de la page html en UTF-8 ; 
  • une variable « j » pour compter les pages aspirées ; 
  • une deuxième boucle ‘for’ pour la récupération des pages internet.



S. & A.

mardi 5 novembre 2013

Script pour créer des tableaux des URLS

Ce billet est consacré à la création du tableau HTML à deux colonnes, une colonne inclut les URLs trouvées et l’autre contient le numéro de l'URL lue. Pour compter les URLS nous avons utilisé une variable numligne=1 et, pour la lecture du fichier d’URL, une boucle WHILE.




Nous avons exécuté le script dans cygwin (pour chaque langue). Il y avait une erreur du type: 'ambiguous redirect' dans le Cygwin mais puis elle a disparu mystérieusement :-/


Et en voici le résultat :



S.

mardi 29 octobre 2013

Arborescence de travail

Afin de pouvoir nous repérer facilement dans les dossiers et fichiers, nous devons tous créer la même arborescence de travail, nous utiliserons pour cela quelques commandes vues précédemment. D'abord se positionner dans le répertoire dans lequel nous souhaitons créer notre arborescence avec la commande cd puis pwd pour vérifier que nous sommes bien au bon endroit. Utiliser ensuite la commande mkdir pour créer chaque dossier.


Enfin, la commande ls nous permet de vérifier que tous les dossiers dont nous avons besoin sont bien là.


A.

samedi 26 octobre 2013

Commandes bash

Durant les deux premières séances nous nous sommes familiarisés avec quelques commandes de bash (Bourne again shell) qui est un interpréteur de commandes (shell) pour linux. Voici les principales commandes vues regroupées ici selon leur usage.

Pour se repérer et se déplacer

cd (choose directory) pour se déplacer dans le répertoire indiqué
cd . pour désigner directement le répertoire courant
cd ~ pour accéder directement au répertoire utilisateur
cd .. pour se déplacer dans le répertoire parent du répertoire courant
cd / pour se placer dans la racine de l'arborescence
pwd (print working directory) pour afficher le nom du répertoire courant

Pour explorer le contenu des dossiers et fichiers

ls (list) pour afficher le contenu du répertoire indiqué sinon, par défaut, le contenu du répertoire courant
ls -l pour affiche les détails du contenu du répertoire comme la date de création d'un fichier
ls -a pour affichier également les fichiers cachés
ls -lrt pour effectuer un tri inverse sur la dernière date de modification des fichiers
ls ../.. pour afficher le contenu de la racine
file pour donner le type du fichier indiqué

Pour manipuler des dossiers et des fichiers

mkdir (make directory) + nom de dossier
pour créer un répertoire
touch + nom de fichier
pour créer un fichier vide
cp (copy) + /nom du répertoire source/nom du fichier copié/nom du répertoire de destination
pour copier un ou plusieurs fichiers
mv (move) + ancien_nom.txt nouveau_nom.txt
+ /home/nom_de_dossier/ancien_n.txt /home/nom_de_dossier/répertoire/nouveau_n.txt
pour renommer un fichier ou le déplacer
grep pour rechercher une chaîne de caractères dans un fichier
-v pour afficher les lignes ne contenant pas la chaîne
-c pour compter le nombre de lignes contenant la chaîne
-n pour numéroter chaque ligne contenant la chaîne
-x pour trouver la ligne correspondant exactement à la chaîne
-l pour afficher le nom des fichiers qui contiennent la chaîne
cat pour afficher le contenu d’un fichier dans le terminal
cut pour afficher des zones spécifiques d'un fichier
read pour lire les informations sur l'entrée standard et affecter les valeurs saisies dans la ou les variables passées en argument.
echo pour afficher une chaîne de caractères entrée par l'utilisateur
+ "chaîne de caractères" >> nom_de_fichier pour écrire à la fin d'un fichier sans en écraser le contenu
+ "chaîne de caractères" > nom_de_fichier pour écrire dans un fichier en en écrasant le contenu
Ce ne sont là que quelques exemples des commandes les plus basiques et quelques unes de leurs options. Pour accéder à la liste complète des commandes Unix ainsi que leur description et leurs options, il existe la commande bien pratique, man (pour manuel des commandes Unix)
A.

jeudi 24 octobre 2013

Etapes du travail

Il y a deux étapes préparatoires que nous devons effectuer afin de réussir notre projet. 

Tout d'abord, nous récupérons des URLS pour la thématique choisie - cela nous permettra de faire l'analyse linguistique selon le corpus donné (et la recherche des URLs est un travail fastidieux même si ça semblait assez facile au premier abord). Finalement, nous avons environ 150 URLs (RU, FR, AR), sauvegardées en format .txt.



Ensuite nous organisons l’environnement de travail en utilisant l‘interface en ligne de commande sous Unix. Nous créons le dossier pour transmettre les différents fichiers afin d'automatiser notre travail.



Stay tuned,

S.

mardi 22 octobre 2013

Premières difficultés : la recherche de liens

Première difficulté, c’est de trouver une grande diversité de sources en arabe pour le discours politique tunisien et aussi une grande quantité de liens. Peut-être est-ce un problème au niveau du référencement ? Mais pour des requêtes telles que «الهوية الوطنية تونس» ou «هوية عربية إسلامية تونس», (et autres combinaisons), il y a à chaque fois entre une dizaine et une trentaine de pages de résultats Google. Beaucoup de liens sont évidemment inutilisables car ils ne correspondent au contenu recherché (expression utilisée dans les commentaires des articles, sur des pages facebook, etc.). La difficulté vient aussi du fait que la politique tunisienne se raconte et se commente autant en arabe qu’en français. Les liens en français sont peut-être même mieux référencés que ceux en arabe ? Quoi qu’il en soit, la stratégie adoptée pour réunir un grand nombre de liens en arabe c’est de spécifier pour chacune de ces requêtes le nom d’un parti politique tunisien ou d’un(e) politique ainsi que de faire des recherches directement sur des sites spécifiques (sites d’information, radio, etc. et sites de partis politiques).

Deuxième difficulté, pour les liens en français cette fois, de nombreux discours politiques sont accessibles en PDF. Or pour ce projet nous devons choisir des liens en html. La solution que nous proposons est de convertir les PDF en html grâce à l'un des nombreux outils disponibles en ligne (pdf.investintech.com).

A.

samedi 19 octobre 2013

Page HTML : quelques améliorations

Quelques petites modifications apportées au code HTML de Svetlana. Je sauvegarde dans un fichier au format .html et je l'ouvre dans un navigateur.


Voici le résultat :

A.