PLAN
Equipe : Imen N'HARI-Laurie ACENSIO-Mohand Arezki SADOUNE
Objectif: création d'un corpus mutlilingue autour d'un mot unique polysémique
Réalisation : Mise en oeuvre d'une chaîne de traitement textuel semi-automatique depuis la récupération des données jusqu'à leur présentation
Choix des langues : Français-Anglais-Arabe
Projet en 7 étapes :
(Les détails de chaque étape peuvent être visualisés sur les pages en haut à droite)
ETAPES
1. Recherche du mot et traduction
2. Recherche d'une cinquantaire d'URL
3. Premier tableau en html
4. Aspiration de pages avec WGET
5. Récupération de textes brut avec LYNX-DUMP
6. Filtrage du contexte avec EGREP
7. Présentation du rapport final