Logo GALATEAS
Facebook Google Plus Twitter Email

GALATEAS

Le Projet Européen
GALATEAS (Generalized Analysis of Logs for Automatic Translation and Episodic Analysis of Searches) est un projet de recherche collaboratif européen cofinancé par la commission européenne (CIP-ICT-PSP.2009.5.1).

Le but de GALATEAS est d’offrir aux fournisseurs de contenus numériques une approche innovante leur permettant de mieux comprendre le comportement de leurs utilisateurs à travers l’analyse des informations textuelles contenues dans les journaux de transactions.  Cette information permet aux utilisateurs de GALATEAS d’améliorer aussi bien la navigation à travers leur site web que la recherche multilingue de leurs contenus.

 

Les objectifs de GALATEAS 

Analyse des journaux de requêtes : analyser les logs contenant les requêtes des moteurs de recherche d’un fournisseur de contenu afin de produire des rapports sur mesure sur les utilisateurs ayant accès à cette agrégation particulière. L’analyse est basée sur des données aussi bien linguistiques que statistiques.

Traduction de requêtes : traduire des requêtes provenant d’un moteur de recherche externe en plusieurs langues cibles. Ce moteur externe utilise ces traductions pour retourner des résultats dans des langues autres que celle de la requête initiale. Les langues choisies pour GALATEAS sont : l’italien, le français, l’anglais, l’allemand, le néerlandais, l’arabe moderne et le polonais.

 

L’Innovation dans GALATEAS

L’objectif majeur fixé par GALATEAS est d’assembler des technologies innovantes de façon à implanter une solution simple et peu coûteuse face aux défis levés par l’analyse multilingue logs et par la traduction des requêtes.

 

Pour y parvenir, GALATEAS propose de développer un système basé sur trois blocs de base 

Le sous-système d’analyse de log : incarné par le service LangLog qui fournit une analyse linguistique des logs.

Le sous-système d’entraînement du Système de Traduction Automatique Statistique (STAS) : effectue un entraînement du STAS sur la base des logs de requêtes.

Le sous-système de traduction des requêtes : incarné par le service QueryTrans qui traduit les requêtes en plusieurs langues en utilisant le STAS approprié.

 

Innovation dans l’analyse des journaux de requête

Les services fournis par GALATEAS prennent en compte les informations contenues dans les requêtes d’un point de vue interprétation linguistique,  et non pas, comme c’est le cas  des offres actuelles,  l’information structurée des journaux de transaction du web (c.à.d. fréquence des clics, pages visitées, chemins de l’utilisateur dans l’arbre de documents).

Comprendre les requêtes courtes et les traduire en unités conceptuelles permettra aux administrateurs et aux managers de répondre à des questions telles que: «  Quels sont les sujets les plus souvent recherchés dans ma collection, pour une langue donnée ? « ; « Comment ces sujets sont-ils reliés dans mon catalogue ? »; « Quelles sont les entités nommées (lieux, personnes) les plus populaires parmi mes utilisateurs ? ».

 

Innovation dans la traduction des requêtes

Du point de vue de la traduction automatique, GALATEAS va examiner les technologies de traduction statistique afin de produire des résultats significatifs pour des textes courts, décontextualisés et n’ayant que peu de structure syntaxique,  comme c’est le plus souvent le cas dans le cadre des moteurs de recherche.

L’étroite intégration entre l’infrastructure de GALATEAS et les systèmes de contenus numériques s’ effectue en combinant des techniques de traitement automatique des langues aussi bien symboliques que statistiques avec des systèmes d’extraction d’information fournis sous la forme de services web.

 

Les Utilisateurs de GALATEAS

En quête d’informations, les utilisateurs indirects des services de GALATEAS bénéficieront d’un service de recherche multilingue amélioré. Cependant, les services de GALATEAS ne sont pas proposés directement aux utilisateurs finaux mais aux administrateurs et aux managers des contenus numériques fédérés et des moteurs de recherche. Ainsi, la cible de GALATEAS est le marché supérieur du B2B, où les clients sont principalement représentés par des organisations gérant des fédérations de contenu de moyenne ou de grande taille.

 

Le projet vise à satisfaire les besoins suivants

  • Besoin exprimé par les managers de comprendre ce que les utilisateurs recherchent, indépendamment des contenus auxquels ils accèdent réellement
  • Besoin pour les fournisseurs de contenu de comprendre comment leurs collections doivent être élargies.
  • Besoin pour les administrateurs de bibliothèque de comprendre les catégories dans le catalogue qui correspondent plus ou moins aux desiderata des utilisateurs finaux.
  • Besoin pour les administrateurs de bibliothèque de comprendre le comportement des utilisateurs.
  • Besoin pour tous d’obtenir des outils d’extraction multilingues croisés de façon aussi transparente que possible, sans rien changer à la façon dont les documents sont indexés et gérés.

 

Le rôle de VISEO dans GALATEAS

Au sein de GALATEAS, VISEO est principalement impliqué dans l’analyse des journaux transactionnels, la fouille de données ainsi que des activités d’intégration. VISEO appartient  au groupe VISEO, un acteur fortement impliqué dans la Business Intelligence, les activités commerciales et l’exploitation d’outils produits.

 

Les partenaires de GALATEAS

Les huit partenaires du projet GALATEAS proviennent de cinq pays  : la France, l’Allemagne, les Pays-Bas, l’Italie et le Royaume-Uni.

 

Pour plus d’informations rendez-vous sur le site du projet : http://www.galateas.eu/fra/index-fr.html 

Porteur de l’Offre

Titulaire d'un doctorat en mathématiques appliquées de l'Ecole des Hautes Etudes en Sciences Sociales Frédérique SEGOND rejoint VISEO en 2011 en tant que Responsable Recherche et Développement.

Frédérique a travaillé pendant 18 ans au Centre européen de recherche de Xerox à Grenoble, France. En 2003, elle est Principal Scientist & Area Manager du groupe de recherche Parsing & Semantics spécialisé dans l’analyse de documents textuels.

Tout au long de sa carrière de chercheuse elle a défini, travaillé et dirigé une vingtaine de projets de recherche collaboratifs tels qu’ALADIN, Europeanna, Galateas et CACAO. Elle a également travaillé au centre scientifique d’IBM France et au centre de recherche d’IBM Watson à Yorktown où elle a étudié les liens entre syntaxe et sémantique.

Frédérique est co-auteur de six ouvrages, de plus de 50 articles scientifiques et de 5 brevets. Elle fait partie du comité de pilotage CONTINT à l'Agence Nationale pour la Recherche (ANR), présidente de l'Association pour le Traitement Automatique des Langues (ATALA), membre du Conseil d’administration d’ELRA (European Language Resources Association), membre du conseil d'administration de l'Université Stendhal, et fournit également son expertise scientifique à la Commission européenne. 

Publications et Brevets

Curriculum Vitae