Mardi 20 octobre 2009 2 20 /10 /Oct /2009 11:12

INGENIERIE LINGUISTIQUE ET TRAITEMENT AUTOMATIQUE DES LANGUES

SORBONNE


PLAN 


Equipe : Imen N'HARI-Laurie ACENSIO-Mohand Arezki SADOUNE

Objectif: création d'un corpus mutlilingue autour  d'un mot unique polysémique

Réalisation : Mise en oeuvre d'une chaîne de traitement textuel semi-automatique depuis la récupération des données jusqu'à leur présentation

Choix des langues : Français-Anglais-Arabe

Projet en 7 étapes :
(Les détails de chaque étape peuvent être visualisés sur les pages en haut à droite)

ETAPES

1. Recherche du mot et traduction (Terminé le 16.10)
2. Recherche d'une cinquantaire d'URL (En cours de finalisation)
3. Premier tableau en html
4. Aspiration de pages avec WGET
5. Récupération de textes brut avec LYNX-DUMP 
6. Filtrage du contexte avec EGREP 
7. Présentation du rapport final



Par Iman Nhari
Ecrire un commentaire - Voir les 0 commentaires
Créer un blog gratuit sur over-blog.com - Contact - C.G.U. - Rémunération en droits d'auteur - Signaler un abus