Marmota : MAchine learning pRobabilistic MOdels Tree lAnguages
Le sujet de ce projet se situe à l'intersection de trois domaines de recherche : les langages formels d'arbres, l'apprentissage automatique, les modèles probabilistes. Les applications principales de ces recherches sont liées aux technologies Xml, notamment: l'intégration de données du Web depuis des sources hétérogènes et distribuées, l'annotation et la transformation de données Xml, la classification et la segmentation de documents Xml. Cependant, les avancées attendues auront un impact important dans les domaines où les notions de structure arborescente et de probabilités ont une grande importance. C'est le cas en bioinformatique et en indexation musicale, où la représentation arborescente des données est très pertinente. Nos études se focaliseront aussi sur ces deux domaines à travers des collaborations en cours et prévues des membres du projet. Les recherches concerneront plus spécifiquement :
- les modèles génératifs pour les données arborescentes : grammaires probabilistes pour Xml, algorithmes d'analyse syntaxique et induction de telles grammaires ;
- les modèles non génératifs pour les données arborescentes : champs aléatoires conditionnels pour les arbres, algorithmes d'annotation, modèles discriminatifs et noyaux d'arbres, algorithmes de classification ;
- les transformations probabilistes d'arbres et l'alignement probabiliste de motifs d'arbres probabilistes, l'apprentissage automatique de tels motifs et transformations.
