Esta es la página web del proyecto GENIUS: Generación y EvaluacióN Inteligente de textos en contextos mUltimodales y ConversacionaleS (APOYO-JOVENES-21-TAXTYC-32-K61X37). Este proyecto es financiado gracias a la segunda convocatoria de ayudas para la realización de Proyectos de I+D para jóvenes investigadores de la Universidad Politécnica de Madrid 2022, dentro del programa de apoyo y estímulo de la Comunidad de Madrid a jóvenes investigadores en el marco del Convenio Plurianual entre la Comunidad de Madrid y la Universidad Politécnica de Madrid.

El proyecto inició el 1 de julio de 2022 y terminará el 30 de junio de 2024. En esta página se describen los objetivos, plan de trabajo, investigadores participantes, resultados científicos e impacto esperado.

Objetivos

  1. Investigar mecanismos de integración de conocimiento multimodal a los chatbots que reduzca los problemas de alucinación y mejoren la calidad y controlabilidad de los textos generados.
  2. Desarrollar nuevas metodologías de evaluación de agentes conversacionales mediante métricas objetivas automáticas, basadas en trabajos previos del IP del proyecto, que permitan cubrir nuevos aspectos tales como personalidad, conocimiento y emociones.
  3. Desarrollar diversos recursos textuales y modelos específicos para el castellano que permitan consolidar el liderazgo del IP y su grupo en el área de los agentes conversacionales en España y Latinoamérica.
  4. Consolidar y ampliar las redes de colaboración establecidas por el grupo y el IP en esta área, a la vez que mejorar la transferencia tecnológica del grupo de investigación.

Plan de trabajo

El proyecto consta de los siguientes 5 paquetes de trabajo:

  1. WP1 (M1-M12): Recolección y pre-procesado de bases de datos de diálogo en Castellano.
  2. WP2 (M4-M12): Integración de información visual a un sistema de generación automática de noticias del tiempo.
  3. WP3 (M4-M18): Incorporación de información de conocimiento, emociones y personalidad a un agente conversacional mediante DNNs autorecursivas.
  4. WP4 (M10-M21): Ampliación del algoritmo de evaluación automática mediante grafos neuronales para modelar personalidad, sentimiento, y conocimiento externo.
  5. WP5 (M1-M24): Difusión, coordinación de actividades, y transferibilidad de los resultados.

Investigadores y grupos

El investigador principal del proyecto es el Dr. Luis Fernando D’Haro Enríquez quien pertenece al Grupo de Tecnología del Habla y Aprendizaje Automático (THAU), el cuál es un grupo de investigación consolidado adscrito a la ETSI de Telecomunicación (UPM). El Grupo se creó en 1978 con el objetivo de avanzar el estado del arte en las tecnologías del habla incluyendo el reconocimiento y síntesis de voz, reconocimiento de idioma y locutor, sistemas de diálogo y aprendizaje automático. El grupo cuenta actualmente con 7 profesores (2 CU, 3 TU, 1 CD, 1 AY) y 4 doctorandos. Los miembros del grupo colaborarán en la discusión de resultados y evaluaciones humanas.

Participa así mismo, D. Marcos Estecha Garitagoitia, estudiante de segundo año doctorado quien trabaja en las tareas de pre-procesamiento de los textos recolectados y existentes en el grupo (WP1), evaluación de los modelos desarrollados (WP4), y en el desarrollo de técnicas basadas en grafos para la incorporación de conocimiento, emoción y personalidad (WP3).
También participa el Dr. Ricardo de Córdoba Herralde (TU) quien ayuda en las tareas de evaluación de los sistemas y de los recursos desarrollados (WP1-WP4), así como colaboración en procesos de transferencia tecnológica a empresas (WP5). Además, de realizar labores de supervisión de alumnos de grado y máster (TFTs).

Como colaboradores externos, contamos con el profesor Dr. Haizhou Li (TU) de la Chinese University of Hong Kong (top 3 en universidades asiáticas) con quien realizamos colaboraciones en la evaluación de sistemas de diálogo, junto con D. Chen Zhang, estudiante de doctorado de 4º año en la Universidad Nacional de Singapur, quien colabora en las tareas de integración de conocimiento para la evaluación automática (WP4).

Resultados Científicos-Técnicos Esperados

  1. Publicaciones científicas:
    • Se espera publicar 2 artículos en revistas altamente relevantes tales como Computer Speech and Language, Speech Communication, IEEE-ACM Transactions on Acoustics, Speech, and Language, etc.
    • Además de 2 artículos en congresos internacionales con revisión por pares: e.g., Interspeech, EMNLP, ACL, NeurIPS, y 2 artículos nacionales/regionales con revisión de pares: SEPLN, IberSpeech.
  2. Bases de datos y recursos:
    • Twitter: Se espera poder crear una base de datos de interacciones en Twitter cubriendo diferentes tópicos con el fin de ser usados en aplicaciones de diálogo. Se agregarán metadatos automáticos a partir de modelos pre-entrenados, e.g: polaridad, subjetividad/objetividad, toxicidad, misoginia.
    • Diálogos humano-humano traducidos: Se trabajará en la traducción automática de varias bases datos de diálogos en inglés ampliamente usadas por la comunidad científica tales como Cornell Dialog Corpus, ConvAI2, TopicalChat, y en la evaluación de la calidad de la traducción mediante técnicas automáticas.
    • Modelo de generación de noticias basado en información multimodal: Se recogerán datos meteorológicos usando el OpenData de la AEMET, con el fin de entrenar un modelo de generación de texto controlable.
  3. Demostradores:
    • Implementación de un sistema generativo de noticias meteorológicas
    • Un chatbot de conversación libre controlable y con emociones.

Previsión de Impacto Científico-Técnica Estructura Investigadora Actual

El proyecto planteado tiene como objetivo expandir las capacidades actuales del grupo (tecnologías del habla) en un área altamente complementaria como es el procesamiento de lenguaje natural (NLP), además de sumarse a trabajos actuales en procesamiento multimodal de vídeo, imagen, voz y sensores inerciales.
Se espera además que el proyecto contribuya al proyecto europeo ASTOUND concretamente en la evaluación de agentes conversacionales. Además este proyecto permitirá que nuevos estudiantes de grado o máster puedan conocer las tecnologías de procesamiento de lenguaje y de tecnologías del habla necesarias para participar en competiciones internacionales como Alexa Prize o DSTC, así como ampliar nuestras capacidades de transferencia a empresas.