Mardi 20 octobre 2009
2
20
/10
/Oct
/2009
11:12
INGENIERIE LINGUISTIQUE ET TRAITEMENT AUTOMATIQUE DES LANGUES
SORBONNE
PLAN
Equipe : Imen N'HARI-Laurie ACENSIO-Mohand Arezki SADOUNE
Objectif: création d'un corpus mutlilingue autour d'un mot unique polysémique
Réalisation : Mise en oeuvre d'une chaîne de traitement textuel semi-automatique depuis la récupération des données jusqu'à leur présentation
Choix des langues : Français-Anglais-Arabe
Projet en 7 étapes :
(Les détails de chaque étape peuvent être visualisés sur les pages en haut à droite)
ETAPES
1. Recherche du mot et traduction (Terminé le 16.10)
2. Recherche d'une cinquantaire d'URL (En cours de finalisation)
3. Premier tableau en html4. Aspiration de pages avec WGET
5. Récupération de textes brut avec LYNX-DUMP
6. Filtrage du contexte avec EGREP
7. Présentation du rapport final