mardi 22 octobre 2013

Premières difficultés : la recherche de liens

Première difficulté, c’est de trouver une grande diversité de sources en arabe pour le discours politique tunisien et aussi une grande quantité de liens. Peut-être est-ce un problème au niveau du référencement ? Mais pour des requêtes telles que «الهوية الوطنية تونس» ou «هوية عربية إسلامية تونس», (et autres combinaisons), il y a à chaque fois entre une dizaine et une trentaine de pages de résultats Google. Beaucoup de liens sont évidemment inutilisables car ils ne correspondent au contenu recherché (expression utilisée dans les commentaires des articles, sur des pages facebook, etc.). La difficulté vient aussi du fait que la politique tunisienne se raconte et se commente autant en arabe qu’en français. Les liens en français sont peut-être même mieux référencés que ceux en arabe ? Quoi qu’il en soit, la stratégie adoptée pour réunir un grand nombre de liens en arabe c’est de spécifier pour chacune de ces requêtes le nom d’un parti politique tunisien ou d’un(e) politique ainsi que de faire des recherches directement sur des sites spécifiques (sites d’information, radio, etc. et sites de partis politiques).

Deuxième difficulté, pour les liens en français cette fois, de nombreux discours politiques sont accessibles en PDF. Or pour ce projet nous devons choisir des liens en html. La solution que nous proposons est de convertir les PDF en html grâce à l'un des nombreux outils disponibles en ligne (pdf.investintech.com).

A.

Aucun commentaire:

Enregistrer un commentaire