vendredi 20 décembre 2013

Extraction de contextes


Dernière étape pour la création du tableau : la huitième colonne qui sert pour voir  les nombres de cooccurrences des mots. Pour réaliser cet étape il a fallu enrichir notre script avec quelques commandes nouvelles. 
Nous avons déjà vu la commande -egrep qui permet trouver une chaîne de caractères. Et maintenant nous allons le traiter pour rechercher un motif des textes en général (un ou plusieurs mots dont nous intéressent--nous écrivons une phrase particulière dans le fichier).

 Pour faire marche -egrep nous avons du télécharger utiliser un outil de Perl. A l'aide de ce langage et sa 'bibliothèque' riche nous pouvons extraire les motifs souhaités dans notre corpus. Nous enrichons notre script avec la ligne de perl (pour l'info: j'ai utilise la version de Perl5.16.3) et nous faisons une concaténation de fichiers (les lignes de code doivent être ajoutées à chaque phase de la reconnaissance de l’encodage).

Apres l'enrichissement de notre script et téléchargement les outils manqués j’étais sur que tout allait bien et que script allait marcher tout de suite. Mais Cygwin m'a dit le contraire. :-/ Selon lui Unicode n’était pas reconnu et il ne pouvait pas continuer le traitement des liens. Oh là c’était vraiment bizarre, parce que il n'y avait pas aucun message d'explication et j'avais Unicode installé sur mon PC... Mais heureusement après quelques consultations, j'ai appris que c’était un problème au niveau de 'l’absence d’un module Unicode de Perl.

J'ai lancé le script encore une fois et ça a marché! :) Le comptage de cooccurrences ont été effectuées (j'ai rencontré quelques soucis avec le comptage à cause de la connexion internet--mais tout était réglé). Voilà les resultats(le nombre des occurrences du motif affiché. Pour chaque fichier d’URL, le résultat de l’extraction se retrouve dans un seul fichier HTML):

français

arabe



russe

les motifs trouvés (russe)