Journal articles
- Mingote, Victoria; Miguel, Antonio; Ortega, Alfonso; Lleida, Eduardo. Class token and knowledge distillation for multi-head self-attention speaker verification systems. DIGITAL SIGNAL PROCESSING. 2023. DOI: 10.1016/j.dsp.2022.103859
- Barrio, Roberto; Lozano, Álvaro; Mayora-Cebollero, Ana; Mayora-Cebollero, Carmen; Miguel, Antonio; Ortega, Alfonso; Serrano, Sergio; Vigara, Rubén. Deep learning for chaos detection. CHAOS. 2023. DOI: 10.1063/5.0143876
- Lleida, Eduardo; Rodriguez-Fuentes, Luis Javier; Tejedor, Javier; Ortega, Alfonso; Miguel, Antonio; Bazán, Virginia; Pérez, Carmen; de Prada, Alberto; Penagarikano, Mikel; Varona, Amparo; Bordel, Germán; Torre-Toledano, Doroteo; Álvarez, Aitor; Arzelus, Haritz. An overview of the IberspeechRTVE 2022 challenges on speech technologies. APPLIED SCIENCES (SWITZERLAND). 2023. DOI: 10.3390/app13158577
- Pastor, Miguel A.; Ribas, Dayana; Ortega, Alfonso; Miguel, Antonio; Lleida, Eduardo. Cross-corpus training strategy for speech emotion recognition using self-supervised representations. APPLIED SCIENCES (SWITZERLAND). 2023. DOI: 10.3390/app13169062
- Ramírez, Julia; Miguel, Antonio; Van Duijvenboden, Stefan; Orini, Michele; Young, William J.; Tinker, Andrew; Lambiase, Pier D.; Munroe, Patricia B.; Martínez, Juan Pablo A Multi-layer CNN Using the ECG, Age and Sex Predicts Ventricular Arrhythmias in the General Population. COMPUTING IN CARDIOLOGY. 2023. DOI: 10.22489/CinC.2023.342
- Ribas, Dayana; Pastor, Miguel A.; Miguel, Antonio; Martinez, David; Ortega, Alfonso; Lleida, Eduardo. Automatic voice disorder detection using self-supervised representations. IEEE ACCESS. 2023. DOI: 10.1109/ACCESS.2023.3243986
- Diaz-Guerra, David; Miguel, Antonio; Beltran, Jose R. Direction of arrival estimation of sound sources using icosahedral CNNs. IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING. 2023. DOI: 10.1109/TASLP.2022.3224282
- Ribas, Dayana; Miguel, Antonio; Ortega, Alfonso; Lleida, Eduardo. Wiener Filter and Deep Neural Networks: A Well-Balanced Pair for Speech Enhancement. APPLIED SCIENCES (SWITZERLAND). 2022. DOI: 10.3390/app12189000
- Mingote, Victoria; Viñals, Ignacio; Gimeno, Pablo; Miguel, Antonio; Ortega, Alfonso; Lleida, Eduardo. Multimodal Diarization Systems by Training Enrollment Models as Identity Representations. APPLIED SCIENCES (SWITZERLAND). 2022. DOI: 10.3390/app12031141
- Gimeno, P.; Ribas, D.; Ortega, A.; Miguel, A.; Lleida, E. Unsupervised adaptation of deep speech activity detection models to unseen domains. APPLIED SCIENCES (SWITZERLAND). 2022. DOI: 10.3390/app12041832
- Mingote, V.; Miguel, A.; Ribas, D.; Ortega, A.; Lleida, E. aDCF loss function for deep metric learning in end-to-end text-dependent speaker verification systems. IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING. 2022. DOI: 10.1109/TASLP.2022.3145307
- Mingote, Victoria; Miguel, Antonio; Ortega, Alfonso; Lleida, Eduardo. Memory Layers with Multi-Head Attention Mechanisms for Text-Dependent Speaker Verification. PROCEEDINGS - ICASSP, IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING. 2021. DOI: 10.1109/ICASSP39728.2021.9414859
- Gimeno, P; Mingote, V; Ortega, A; Miguel, A; Lleida, E. Generalizing AUC Optimization to Multiclass Classification for Audio Segmentation With Limited Training Data. IEEE SIGNAL PROCESSING LETTERS. 2021. DOI: 10.1109/LSP.2021.3084501
- Diaz-Guerra, D.; Miguel, A.; Beltran, J.R. gpuRIR: A python library for room impulse response simulation with GPU acceleration. MULTIMEDIA TOOLS AND APPLICATIONS. 2021. DOI: 10.1007/s11042-020-09905-3
- Llombart, J.; Ribas, D.; Miguel, A.; Vicente, L.; Ortega, A.; Lleida, E. Progressive loss functions for speech enhancement with deep neural networks. EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING. 2021. DOI: 10.1186/s13636-020-00191-3
- Viñals, Ignacio; Ortega, Alfonso; Miguel, Antonio; Lleida, Eduardo. The Domain Mismatch Problem in the Broadcast Speaker Attribution Task. APPLIED SCIENCES (SWITZERLAND). 2021. DOI: 10.3390/app11188521
- Diaz-Guerra, D.; Miguel, A.; Beltran, J.R. Robust Sound Source Tracking Using SRP-PHAT and 3D Convolutional Neural Networks. IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING. 2021. DOI: 10.1109/TASLP.2020.3040031
- Mingote, Victoria; Viñals, Ignacio; Gimeno, Pablo; Miguel, Antonio; Ortega, Alfonso; Lleida, Eduardo. ViVoLAB Multimodal Diarization System for RTVE 2020 Challenge. IBERSPEECH 2021. 2021. DOI: 10.21437/IberSPEECH.2021-16
- Mingote, Victoria; Miguel, Antonio; Ortega, Alfonso; Lleida, Eduardo. Log-Likelihood-Ratio Cost Function as Objective Loss for Speaker Verification Systems. INTERSPEECH (USB). 2021. DOI: 10.21437/Interspeech.2021-1085
- Mingote, Victoria; Miguel, Antonio; Ribas, Dayana; Ortega, Alfonso; Lleida, Eduardo. Knowledge Distillation and Random Erasing Data Augmentation for Text-Dependent Speaker Verification. PROCEEDINGS - ICASSP, IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH AND SIGNAL PROCESSING. 2020. DOI: 10.1109/ICASSP40776.2020.9053153
- Mingote, V.; Miguel, A.; Ortega, A.; Lleida, E. Training speaker enrollment models by network optimization. INTERSPEECH (USB). 2020. DOI: 10.21437/Interspeech.2020-2325
- Gimeno, Pablo; Viñals, Ignacio; Ortega, Alfonso; Miguel, Antonio; Lleida, Eduardo. Multiclass audio segmentation based on recurrent neural networks for broadcast domain data. EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING. 2020. DOI: 10.1186/s13636-020-00172-6
- Mingote, V.; Miguel, A.; Ortega, A.; Lleida, E. Optimization of the area under the ROC curve using neural network supervectors for text-dependent speaker verification. COMPUTER SPEECH AND LANGUAGE. 2020. DOI: 10.1016/j.csl.2020.101078
- Gimeno, P.; Mingote, V.; Ortega, A.; Miguel, A.; Lleida, E. Partial AUC optimisation using recurrent neural networks for music detection with limited training data. INTERSPEECH (USB). 2020. DOI: 10.21437/Interspeech.2020-1108
- Viñals, Ignacio; Ortega, Alfonso; Villalba, Jesús; Miguel, Antonio; Lleida, Eduardo. Unsupervised adaptation of PLDA models for broadcast diarization. EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING. 2019. DOI: 10.1186/s13636-019-0167-7
- Mingote, V.; Castan, D.; Mclaren, M.; Nandwana, M.K.; Ortega, A.; Lleida, E.; Miguel, A. Language recognition using triplet neural networks. INTERSPEECH (USB). 2019. DOI: 10.21437/Interspeech.2019-2437
- Viñals, I.; Ribas, D.; Mingote, V.; Llombart, J.; Gimeno, P.; Miguel, A.; Ortega, A.; Lleida, E. Phonetically-aware embeddings, wide residual networks with time-delay neural networks and self attention models for the 2018 NIST speaker recognition evaluation. INTERSPEECH (USB). 2019. DOI: 10.21437/Interspeech.2019-2417
- Mingote, V.; Miguel, A.; Ribas, D.; Ortega, A.; Lleida, E. Optimization of false acceptance/rejection rates and decision threshold for end-to-end text-dependent speaker verification systems. INTERSPEECH (USB). 2019. DOI: 10.21437/Interspeech.2019-2550
- Viñals, I.; Gimeno, P.; Ortega, A.; Miguel, A.; Lleida, E. Vivolab speaker diarization system for the Dihard 2019 challenge. INTERSPEECH (USB). 2019. DOI: 10.21437/Interspeech.2019-2462
- Llombart, J.; Ribas, D.; Miguel, A.; Vicente, L.; Ortega, A.; Lleida, E. Progressive speech enhancement with residual connections. INTERSPEECH (USB). 2019. DOI: 10.21437/Interspeech.2019-1748
- Llombart, J.; Ribas, D.; Miguel, A.; Vicente, L.; Ortega, A.; Lleida, E. Speech enhancement with wide residual networks in reverberant environments. INTERSPEECH (USB). 2019. DOI: 10.21437/Interspeech.2019-1745
- Lleida, Eduardo; Ortega, Alfonso; Miguel, Antonio; Bazán-Gil, Virginia; Perez, Carmen; Gómez, Manuel; de Prada, Alberto. Albayzin 2018 Evaluation: The IberSpeech-RTVE Challenge on Speech Technologies for Spanish Broadcast Media. APPLIED SCIENCES (SWITZERLAND). 2019. DOI: 10.3390/app9245412
- Mingote, Victoria; Miguel, Antonio; Ortega, Alfonso; Lleida, Eduardo. Supervector extraction for encoding speaker and phrase information with neural networks for text-dependent speaker verification. APPLIED SCIENCES (SWITZERLAND). 2019. DOI: 10.3390/app9163295
- Viñals, Ignacio; Ortega, Alfonso; Miguel, Antonio; Lleida, Eduardo. An analysis of the short utterance problem for speaker characterization. APPLIED SCIENCES (SWITZERLAND). 2019. DOI: 10.3390/app9183697
- Viñals, I.; Gimeno, P.; Ortega, A.; Miguel, A.; Lleida, E. Estimation of the number of speakers with variational Bayesian PLDA in the dihard diarization challenge. INTERSPEECH (USB). 2018. DOI: 10.21437/Interspeech.2018-1841
- Cabello, L.; Lleida, E.; Simon, J.; Miguel, A.; Ortega, A. Text-to-Pictogram Summarization for Augmentative and Alternative Communication. PROCESAMIENTO DEL LENGUAJE NATURAL. 2018. DOI: 10.26342/2018-61-1
- Viñals, I.; Ortega, A.; Villalba, J.; Miguel, A.; Lleida, E. Domain Adaptation of PLDA models in Broadcast Diarization by means of Unsupervised Speaker Clustering. INTERSPEECH (USB). 2017. DOI: 10.21437/Interspeech.2017-84
- Miguel, A.; Llombart, J.; Ortega, A.; Lleida, E. Tied hidden factors in neural networks for end-To-end speaker recognition. INTERSPEECH (USB). 2017. DOI: 10.21437/Interspeech.2017-1314
- Villalba, J.; Ortega, A.; Miguel, A.; Lleida, E. Analysis of speech quality measures for the task of estimating the reliability of speaker verification decisions. SPEECH COMMUNICATION. 2016. DOI: 10.1016/j.specom.2016.01.005
- Viñals, I.; Villalba, J.; Ortega, A.; Miguel, A.; Lleida, E. Bottleneck Based Front-End for Diarization Systems. LECTURE NOTES IN COMPUTER SCIENCE. 2016. DOI: 10.1007/978-3-319-49169-1_27
- Villalba López, Jesús; Ortega Giménez, Alfonso; Miguel Artiaga, Antonio; Lleida Solano, Eduardo. Bayesian Networks to Model the Variability of Speaker Veri¿cation Scores in Adverse Environments. IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING. 2016. DOI: 10.1109/TASLP.2016.2607343
- Tejedor, J.; Toledano, D.T.; Lopez-Otero, P.; Docio-Fernandez, L.; Garcia-Mateo, C.; Cardenal, A.; Echeverry-Correa, J.; Coucheiro-Limeres, A.; Olcoz, J.; Miguel, A. Spoken term detection ALBAYZIN 2014 evaluation: overview, systems, results, and discussion. EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING. 2015. DOI: 10.1186/s13636-015-0063-8
- Martínez, D.;Lleida, E.;Green, P.;Christensen, H.;Ortega, A.;Miguel, A. Intelligibility assessment and speech recognizer word accuracy rate prediction for dysarthric speakers in a factor analysis subspace. ACM TRANSACTIONS ON ACCESSIBLE COMPUTING. 2015. DOI: 10.1145/2746405
- Olcoz, Julia; Ortega, Alfonso; Miguel, Antonio; Lleida, Eduardo. Confidence Measures in Automatic Speech Recognition Systems for Error Detection in Restricted Domains. LECTURE NOTES IN COMPUTER SCIENCE. 2014. DOI: 10.1007/978-3-319-13623-3_18
- Llombart Gil, Jorge; Miguel Artiaga, Antonio; Lleida Solano, Eduardo. Articulatory Feature Extraction from Voice and Their Impact on Hybrid Acoustic Models. LECTURE NOTES IN COMPUTER SCIENCE. 2014. DOI: 10.1007/978-3-319-13623-3_15
- Castan, Diego; Ortega Giménez, Alfonso; Miguel Artiaga, Antonio; Lleidasolano, Eduardo. A Preliminary Study of Acoustic Events Classification with Factor Analysis in Meeting Rooms. LECTURE NOTES IN COMPUTER SCIENCE. 2014. DOI: 10.1007/978-3-319-13623-3_22
- Garcia, José Enrique; Ortega Giménez, Alfonso; Miguel Artiaga, Antonio; Lleida Solano, Eduardo. Low bit rate compression methods of feature vectors for distributed speech recognition. SPEECH COMMUNICATION. 2014. DOI: 10.1016/j.specom.2013.11.007
- Castán, D.; Ortega, A.; Miguel, A.; Lleida, E. Audio segmentation-by-classification approach based on factor analysis in broadcast news domain. EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING. 2014. DOI: 10.1186/s13636-014-0034-5
- Castan, D.; Ortega, A.; Villalba, J.; Miguel, A.; Lleida, E. Segmentation-by-classification system based on factor analysis. PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. 2013. DOI: 10.1109/ICASSP.2013.6637755
- Martínez González, David; Ribas, Dayana; Lleida, Eduardo; Ortega, Alfonso; Miguel, Antonio Suprasegmental information modelling for autism disorder spectrum and specific language impairment classification. PROCEEDINGS OF THE ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION, INTERSPEECH. 2013
- Tejedor, J.; Toledano, D.T.; Anguera, X.; Varona, A.; Hurtado, L.F.; Miguel, A.; Colás,J. Query-by-example spoken term detection ALBAYZIN 2012 evaluation: Overview, systems, results, and discussion. EURASIP JOURNAL ON AUDIO SPEECH AND MUSIC PROCESSING. 2013. DOI: 10.1186/1687-4722-2013-23
- Vaquero,C.;Ortega,A.;Miguel,A.;Lleida,E. Quality assessment for speaker diarization and its application in speaker characterization. IEEE TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING. 2013. DOI: 10.1109/TASL.2012.2236317
- Justo, R.;Saz, O.;Miguel, A.;Torres, M. I.;Lleida, E. Improving language models in speech-based human-machine interaction. INTERNATIONAL JOURNAL OF ADVANCED ROBOTIC SYSTEMS. 2013. DOI: 10.5772/55407
- Martinez, D.; Lleida, E.; Ortega, A.; Miguel, A. Prosodic features and formant modeling for an ivector-based language recognition system. PROCEEDINGS OF THE IEEE INTERNATIONAL CONFERENCE ON ACOUSTICS, SPEECH, AND SIGNAL PROCESSING. 2013. DOI: 10.1109/ICASSP.2013.6638988
- Laínez, J. E. G.;González, D. R.;Artiaga, A. M.;Solano, E. L.;de Lara, J. R. C. Beam-search formant tracking algorithm based on trajectory functions for continuous speech. LECTURE NOTES IN COMPUTER SCIENCE. 2012. DOI: 10.1007/978-3-642-33275-3_92
- Villalba,J.;Lleida,E.;Ortega,A.;Miguel,A. Reliability estimation of the speaker verification decisions using Bayesian networks to combine information from multiple speech quality measures. COMMUNICATIONS IN COMPUTER AND INFORMATION SCIENCE. 2012. DOI: 10.1007/978-3-642-35292-8_1
- Ribas González,D.;García Laínez,J. E.;Miguel,A.;Ortega Gimenez,A.;Lleida,E.;Lara,Calvo de. Evaluation of a new beam-search formant tracking algorithm in noisy environments. COMMUNICATIONS IN COMPUTER AND INFORMATION SCIENCE. 2012. DOI: 10.1007/978-3-642-35292-8_5
- Martínez,D.;Villalba,J.;Miguel,A.;Ortega,A.;Lleida,E. I3A Language Recognition system for Albayzin 2010 LRE. PROCEEDINGS OF THE ANNUAL CONFERENCE OF THE INTERNATIONAL SPEECH COMMUNICATION ASSOCIATION, INTERSPEECH. 2011
- Miguel, A.;Ortega, A.;Buera, L. ;Lleida, E. Bayesian networks for discrete observation distributions in speech recognition. IEEE TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING. 2011
- Buera, Luis;Miguel, Antonio;Saz, Oscar;Ortega, Alfonso ;Lleida, Eduardo. Unsupervised Data-Driven Feature Vector Normalization With Acoustic Model Adaptation for Robust Speech Recognition. IEEE TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING. 2010. DOI: 10.1109/TASL.2009.2026441
- Rose, R. C.;Miguel,A.;Keyvani,A. Improving Robustness in Frequency Warping-Based Speaker Normalization. IEEE SIGNAL PROCESSING LETTERS. 2008
- Miguel, A.;Lleida,E.;Rose,R.;Buera,L.;Saz,O.;Ortega,A. Capturing Local Variability for Speaker Normalization in Speech Recognition. IEEE TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING. 2008
- Buera, L.;Lleida,E.;Miguel,A.;Ortega,A.;Saz,O. Cepstral Vector Normalization Based on Stereo Data for Robust Speech Recognition. IEEE TRANSACTIONS ON AUDIO SPEECH AND LANGUAGE PROCESSING. 2007
Scientific chapters
- Acoustic Room Impulse Response Simulation with GPUs. Díaz-Guerra Aparicio, David. ADVANCES IN SIGNAL PROCESSING AND ARTIFICIAL INTELLIGENCE, PROCEEDINGS OF THE 2ND ASPAI' 2020 CONFERENCE. 2020
- Bottleneck Based Front-End for Diarization Systems. Viñals Bailo, Ignacio; Villalba Lopez, Jesús; Ortega Giménez, Alfonso; Miguel Artiaga, Antonio; Lleida Solano, Eduardo. ADVANCES IN SPEECH AND LANGUAGE TECHNOLOGIES FOR IBERIAN LANGUAGES: IBERSPEECH 2016. 2016
- A preliminary study of Acoustic Events Classification with Factor Analysis in Meeting Rooms. Ortega Giménez, Alfonso; Castán, Diego; Miguel, Antonio; Lleida, Eduardo. ADVANCES IN SPEECH AND LANGUAGE TECHNOLOGIES FOR IBERIAN LANGUAGES. 2014
- Confidence Measures in Automatic Speech Recognition for Error Detection in Restricted Domains. Ortega Giménez, Alfonso; Olcoz, Julia; Miguel, Antonio; Lleida, Eduardo. ADVANCES IN SPEECH AND LANGUAGE TECHNOLOGIES FOR IBERIAN LANGUAGES. IBERSPEECH 2014. 2014
- Evaluation of a New Beam-Search Formant Tracking Algorithm in Noisy Environments. Ribas Gonzalez, Dayana; García Laínez, Enrique; Ortega Giménez, Alfonso; Miguel Artiaga, Antonio; Lleida Solano, Eduardo; Calvo de Lara, José Ramón. ADVANCES IN SPEECH AND LANGUAGE TECHNOLOGIES FOR IBERIAN LANGUAGES. 2012
- Reliability Estimation of the Speaker Verification Decisions Using Bayesian Networks to Combine Information from Multiple Speech Quality Measures. Villalba Lopez, Jesús; Lleida Solano, Eduardo; Ortega Giménez, Alfonso; Miguel Artiaga, Antonio. ADVANCES IN SPEECH AND LANGUAGE TECHNOLOGIES FOR IBERIAN LANGUAGES. 2012
- Score Level versus Audio Level Fusion for Voice Pathology Detection on the Saarbrücken Voice Database. Martínez González, David; Lleida, Eduardo; Ortega, Alfonso; Miguel, Antonio. ADVANCES IN SPEECH AND LANGUAGE TECHNOLOGIES FOR IBERIAN LANGUAGES. 2012
- Voice Pathology Detection on the Saarbrücken Voice Database with Calibration and Fusion of Scores Using MultiFocal Toolkit. Martínez González, David; Lleida, Eduardo; Ortega, Alfonso; Miguel, Antonio; Villalba, Jesús. ADVANCES IN SPEECH AND LANGUAGE TECHNOLOGIES FOR IBERIAN LANGUAGES. 2012
- ViVoLab UZ Language Recognition System for Albayzin 2010 LRE. Martínez González, David; Villalba, Jesús; Miguel, Antonio; Ortega, Alfonso; Lleida, Eduardo. PROCEEDINGS OF VI JORNADAS DE TECNOLOGÍA DEL HABLA AND II IBERIAN SLTECH WORKSHOP. 2010
- Alfonso Ortega ... [et al.]. Acoustic Echo Reduction in a Two-Channel Speech Reinforcement System for Vehicles. ADVANCES FOR IN-VEHICLE AND MOBILE SYSTEMS: CHALLENGES FOR INTERNATIONAL STANDARDS. 2007
- Cross-Probability Model Based on Gmm for Feature Vector Normalization. Buera Rodriguez, Luis; Miguel Artiaga, Antonio; Saz Torralba, Oscar; Lleida Solano, Eduardo; Ortega Giménez, Alfonso. IN-VEHICLE CORPUS AND SIGNAL PROCESSING FOR DRIVER BEHAVIOR.
Projects
- T36_23R: VIVOLAB. 01/01/23 - 31/12/25
- TED2021-131174B-I00: Herramientas digitales participativas para el apoyo a cibercomunidades patrimoniales. 01/12/22 - 30/11/24
- PID2021-126061OB-C44: Descubriendo el significado y la intención más allá de la palabra hablada: Hacia un entorno inteligente para abordar los documentos multimedia - UZ. 01/09/22 - 31/08/25
- DESARROLLO DE UN PROTOTIPO PRECOMPETITIVO PARA EL ANALISIS AFECTIVO DE INFORMACION MULTIMEDIA - UZ. PDC2021-120846-C41. 01/12/21 - 31/05/24
- DIH-World open call - Innovation Action project co-funded by the Horizon 2020 Framework Programme of the European Union. 29/09/21 - 15/04/22
- ESPERANTO / Exchanges for SPEech ReseArch aNd TechnOlogies (G.A. No. 101007666). 01/01/21 - 31/12/25
- T36_20R: Vivolab. 01/01/20 - 31/12/22
- Tecnologías del habla para el indexado y búsqueda de contenido audiovisual (ETQ VIDEO INSIGHT). 01/05/18 - 31/12/19
- GRUPO DE REFERENCIA ViVoLaB. 01/01/17 - 31/12/19
- GRUPO CONSOLIDADO T99 VIVOLAB. 01/01/16 - 31/12/16
- GRUPO CONSOLIDADO T99 VIVOLAB. 01/01/15 - 31/12/15
- TIN2014-54288-C4-2-R: PROCESADO DE AUDIO, HABLA Y LENGUAJE PARA ANÁLISIS DE INFORMACIÓN MULTIMEDIA-UZ. 01/01/15 - 30/09/18
- GRUPO EMERGENTE T99 ViVoLab. 01/01/14 - 31/12/14
- IRIS / Towards Natural Interaction and Communication (G.A.no. 610986). 01/01/14 - 31/12/17
- GRUPO CONSOLIDADO T30 GRUPO DE TECNOLOGÍAS DE LAS COMUNICACIONES (GTC). 01/01/13 - 31/12/13
- TIN2011-28169-C05-02.TECNOLOGIA PARA LA INTERACCION CONVERSACIONAL COMPLEJA PERSONA-MAQUINA CON APRENDIZAJE DINAMICO-UZ. 01/01/12 - 30/06/15
- GRUPO CONSOLIDADO T30 GRUPO DE TECNOLOGIAS DE LAS COMUNICACIONES. 01/01/11 - 31/12/12
- TIN2008-06856-C05-04/TIN. PERSONALIZACIÓN Y ADAPTACIÓN AUTÓNOMA A LOS CONDICIONANTES DEL CONTEXTO EN LOS SISTEMAS DE DIÁLOGO HABLADO MULTIDOMINIO. 01/01/09 - 31/12/11
- GRUPO CONSOLIDADO T30 GRUPO DE TECNOLOGÍAS DE LAS COMUNICACIONES. 01/01/08 - 31/12/10
- NUEVAS TÉCNICAS Y TECNOLOGÍAS PARA EL PROCESADO Y LA TRANSMISIÓN DE INFORMACIÓN (WALQA). 01/01/08 - 31/12/10
- PLATAFORMA PARA EL ANÁLISIS SEMANTICO Y MEDICIÓN DEL IMPACTO DE CONTENIDOS Y CLIMA SOCIAL EN UN ENTORNO MULTICANAL (INTERNET, RADIO, TDT Y MOVILIDAD). 01/01/08 - 31/12/09
- UZ2007-HUM-01. ESTUDIO EMPÍRICO Y FONOLÓGICO DE LA PROSODIA DEL ESPAÑOL HABLADO EN ARAGÓN. 01/01/08 - 31/12/08
- PETRI PET20050833 ORAL INTERFACE FOR DOMOTIC CONTROL. 19/12/06 - 18/12/08
- INTEGRACIÓN DE SISTEMAS AVANZADOS DE CAPTURA DE DATOS EN SISTEMAS DE GESTIÓN DE TRANSPORTE Y LOGÍSTICA. 01/07/06 - 31/12/07
- EDIFICIO SEGURO: ESTUDIO DE VIABILIDAD. 01/01/06 - 31/12/06
- TIN2005-08660-C04-01. TECNOLOGIAS DE ADAPTACION AL CONTEXTO ACUSTICO EN SISTEMAS DE DIALOGO MULTIDOMINIO. 31/12/05 - 30/12/08
- GRUPO CONSOLIDADO T30 TECNOLOGIAS DE LAS COMUNICACIONES GTC. 01/01/05 - 31/12/07
- PROFIT CIT-370100-2005-4 SISTEMA INTEGRAL DE COMUNICACIONES PARA VEHICULOS. 01/01/05 - 31/12/05
- BIOSECURE. 01/06/04 - 30/09/07
- TIC2002-04103-C03-01.SISTEMA DE DIALOGO PARA EL ACCESO A LA INFORMACION MEDIANTE HABLA ESPONTANEA EN DIFERENTES ENTORNOS. 01/12/02 - 30/11/05
Contracts
- UNIDIGITAL. INTELIGENCIA ARTIFICIAL Y SISTEMAS AUTÓNOMOS COGNITIVOS. 28/07/23 - 31/08/23
- SEGMENTACIÓN, COMPRENSIÓN Y RESUMEN DE CONTENIDOS AUDIOVISUALES MEDIANTE TECNOLOGÍAS DE INTELIGENCIA ARTIFICIAL. 01/01/23 - 31/12/24
- SEGMENTACIÓN Y RECONOCIMIENTO DE HABLANTES PARA LA TRANSCRIPCIÓN E INDEXACIÓN DE VÍDEO. 01/03/22 - 30/06/22
- SOPORTE DEL SISTEMA DE SUBTITULADO DE NOTICIARIOS. EXPEDIENTE (S-06128-2021). 25/01/22 - 24/01/24
- UNIDIGITAL. INTELIGENCIA ARTIFICIAL Y SISTEMAS AUTÓNOMOS COGNITIVOS. CONOCER 5. 01/01/22 - 30/11/22
- SPEECH ANALYTICS EN CENTROS DE LLAMADAS Y MEJORA DE UN SISTEMA DE REALCE PARA EL TRÁFICO INTERNACIONAL DE VOZ. 11/06/21 - 10/06/22
- CONTRATO DE DESARROLLO DE MODELOS DEEP SEQUENCE AND SELF ATTENTION FOR TEXT-DEPENDENT SPEAKER VERIFICATION AND TEXT TOPIC IDENTIFICATION. 18/07/20 - 30/04/21
- DESARROLLO DE UN SISTEMA DE REALCE PARA EL TRÁFICO INTERNACIONAL DE VOZ. FASE II. 09/07/20 - 08/01/21
- INTELIGENCIA ARTIFICIAL Y APRENDIZAJE AUTOMÁTICO EN DATOS HETEROGÉNEOS. 01/07/20 - 31/12/22
- MODELADO Y DETECCION DE ANOMALIAS EN TRAFICO INTERNACIONAL DE VOZ Y TECNOLOGIA PARA LA CARACTERIZACION DE HABLANTES EN CENTROS DE LLAMADAS. 17/04/20 - 16/04/21
- ANÁLISIS Y ADAPTACIÓN DE TÉCNICAS DE PROCESADO DIGITAL DE SEÑAL PARA SISTEMAS DE SENSADO ACÚSTICO DISTRIBUIDO DAS Y HDAS. 01/03/20 - 01/09/20
- CONTRATO DE LICENCIA DEL DERECHO DE USO DE PROGRAMA INFORMÁTICO. 01/01/20 - 31/12/21
- SOPORTE DEL SISTEMA DE SUBTITULADO DE NOTICIARIOS. 01/01/20 - 31/12/20
- ESTUDIO SOBRE EL USO DE TÉCNICAS DE REALCE Y DETECCIÓN DE FRAUDE EN EL TRÁFICO INTERNACIONAL DE VOZ. 08/02/19 - 07/02/20
- SOPORTE DEL SISTEMA DE SUBTITULADO DE NOTICIARIOS. 01/01/19 - 31/12/19
- MÓDULO EJECUTABLE PARA LA INTEGRACIÓN DE SISTEMAS DE RECONOCIMIENTO DE VOZ COMERCIALES EN LOS PRODUCTOS DE ETIQMEDIA SOLUCIONES AUDIOVISUALES, SL. 01/03/18 - 31/05/18
- ESTUDIO DE TÉCNICAS DE PROCESADO DE SEÑAL PARA LA DETECCIÓN DE EVENTOS EN DISTINTOS ENTORNOS EN SISTEMAS DE MONITORIZACIÓN BASADOS EN FIBRA ÓPTICA COMO SENSOR. 26/02/18 - 26/06/19
- ESTUDIO DE TÉCNICAS DE PROCESADO DE SEÑAL PARA LA DETECCIÓN Y LOCALIZACIÓN DE INTRUSOS EN SISTEMAS BASADOS EN FIBRA ÓPTICA COMO SENSOR. 19/05/17 - 18/09/17
- AVANCES EN EL MODELADO DE SECUENCIAS MEDIANTE REDES NEURONALES PROFUNDAS Y MODELOS ESTADÍSTICOS GENERATIVOS. 05/05/17 - 30/09/19
- DESARROLLO DE UN MÓDULO EJECUTABLE PARA LA INTEGRACIÓN DE SISTEMAS DE RECONOCIMIENTO DE VOZ COMERCIALES EN LOS PRODUCTOS DE ETIQMEDIA SOLUCIONES AUDIOVISUALES. 14/05/16 - 13/05/17
- I3A TECNOLOGÍAS DE LA INFORMACIÓN Y LA COMUNICACIÓN. 01/11/15 - 19/11/28
- LABORATORIO DE TECNOLOGÍAS DEL HABLA. 01/11/15 - 31/10/25
- ADAPTACIÓN DEL SINCRONIZADOR DE AUDIO- TEXTO. 10/05/15 - 30/06/15
- SISTEMA DE RECONOCIMIENTO DE VOZ DE LOS SUBTÍTULOS EMITIDOS EN LOS PROGRAMAS DEL TIEMPO PARA LA UNIDAD DE TELETEXTO DE LA CORPORACIÓN RTVE EN TORRESPAÑA, MADRID. 27/02/13 - 29/04/14
- CONTRATO DE LICENCIA DEL DERECHO DE USO DE PROGRAMA INFORMÁTICO. 01/01/13 - 31/12/19
- SISTEMA DE ENFATIZACIÓN DE SEÑAL DE VOZ Y REDUCCIÓN DE RUIDO PARA BUCLES DE INDUCCIÓN MAGNÉTICA PARA ACCESIBILIDAD PERSONAS CON DISCAPACIDAD AUDITIVA. 01/04/12 - 15/06/12
- MANTENIMIENTO Y ACTUALIZACIÓN DEL SISTEMA DE SUBTITULADO AUTOMÁTICO DE NOTICIARIOS. 09/03/12 - 08/03/13
- SISTEMA DE SUBTITULACIÓN EN DIRECTO EN LAS LENGUAS OFICIALES DE ESPAÑA. 01/03/12 - 31/08/12
- SISTEMA DE SUBTITULADO AUTOMÁTICO DEL CANAL 24H POR RECONOCIMIENTO DE VOZ PARA LA UNIDAD DE TELETEXTO DE LA SME TVE EN TORRESPAÑA. 28/08/10 - 27/11/10
- DESARROLLO DE UNA TECNOLOGÍA DE SEGMENTACIÓN Y AGRUPACIÓN DE LOCUTORES PRESENTES EN UNA CONVERSACIÓN MULTI-LOCUTOR. 15/02/10 - 31/12/10
- REALIZACIÓN DE UN SOFTWARE DE RECONOCIMIENTO DE VOZ Y CONVERSOR DE VOZ-TEXTO PARA USAR EN UN ENTRONO WEB Y ASOCIADO A UNA RADIO WEB. 01/10/08 - 31/12/09
- ORAL INTERFACE FOR DOMOTIC CONTROL (OIDO). 01/02/06 - 31/07/06
PhD supervision
- Progressive Speech Enhancement with Deep Neural Networks. Universidad de Zaragoza. Sobresaliente. 17/09/24
- A Geometric Deep Learning Approach to Sound Source Localization and Tracking. Universidad de Zaragoza. Sobresaliente cum laude. 23/03/23
- Representation and Metric Learning Advances for Deep Neural Network Face and Speaker Biometric Systems. Universidad de Zaragoza. Sobresaliente cum laude. 13/05/22
- Subspace Gaussian Mixture Models for Language Identification and Dysarthric Speech Intelligibility Assessment. Universidad de Zaragoza. Sobresaliente cum laude. 22/09/15
Supervision of final year projects
- Reconocimiento de secuencias gestuales adquiridas con kinect utilizando HMMS. Universidad de Zaragoza. Notable. 10/03/17
- Desarrollo de un sistema de seguimiento de pitch y detección de caras en secuencias de vídeo de bajo coste computacional para su aplicación en herramientas de asistencia a la logopedia. Universidad de Zaragoza. Sobresaliente. 06/10/14
- Paralelización del algoritmo de búsqueda de un reconocedor automático de voz. Universidad de Zaragoza. Sobresaliente. 27/03/14
- Diseño de herramientas de asistencia a la logopedia en una plataforma distribuida. Universidad de Zaragoza. Sobresaliente. 16/07/12
- Estudio de la eficiencia en la evaluación de verosimilitud para sistemas de reconocimiento de habla de amplio vocabulario. Universidad de Zaragoza. Sobresaliente. 13/07/12
- Estudio de integración de clasificaciones de rasgos fonéticos para la mejora de sistemas de reconocimiento de gran vocabulario. Universidad de Zaragoza. Sobresaliente. 07/11/11
- Técnicas de adaptación a locutor no supervisadas en reconocimiento automático del habla. Universidad de Zaragoza. Sobresaliente. 26/09/11
- DISEÑO E IMPLEMENTACION DE UN GESTOR DE DIALOGO MULTI-OBJETIVO CONFIGURABLE MEDIANTE INTERFAZ GRAFICA. Universidad de Zaragoza. Sobresaliente. 03/03/10
- SISTEMA DE RECONOCIMIENTO DE VOZ PARA EL AUTOMÓVIL Y ESTUDIO DE MÉTODOS PARA EL CONTROL DE ACTIVACIÓN-DESACTIVACIÓN DEL SISTEMA MEDIANTE.. Universidad de Zaragoza. Notable. 30/09/09
- SEARCHING ONLINE AUDIO COURSE LECTURES USING AUTOMATIC SPEECH RECOGNITION TECHNOLOGY. Universidad de Zaragoza. Notable. 19/12/07
- MODELOS ESTOCÁSTICOS PARA LA DETECCIÓN DE CARA Y LABIOS APLICADOS AL RECONOCIMIENTO DE VOZ POR LA IMAGEN. Universidad de Zaragoza. Sobresaliente. 20/12/06
- ARQUITECTURA DISTRIBUIDA Y GESTIÓN DE COMUNICACIONES INALÁMBRICAS PARA UN SISTEMA DE NAVEGACIÓN PORTÁTIL CON INTERFAZ MULTIMODAL PARA(...). Universidad de Zaragoza. Sobresaliente. 16/09/04
Supervision of undergraduate dissertations
- Segmentacion multimodal de eventos en partidos de futbol mediante un sistema semisupervisado de redes neuronales. Universidad de Zaragoza. Matrícula de honor. 16/12/24
- Diseño, optimización y validación de un delineador de electrocardiogramas basado en redes neuronales profundas U-NET. Universidad de Zaragoza. Matrícula de honor. 21/09/24
- Exploración de fenotipos morfológicos de ECG en individuos con CAD mediante aprendizaje profundo no supervisado. Universidad de Zaragoza. Sobresaliente. 20/09/24
- Análisis del desajuste en las representaciones latentes multimodales con redes neuronales profundas. Universidad de Zaragoza. Matrícula de honor. 10/07/24
- Estudio de la capacidad de los sistemas transformers en problemas de diferente complejidad algorítmica y modelado del lenguaje humano. Universidad de Zaragoza. Notable. 21/06/24
- Preentrenamiento no supervisado de redes neuronales a partir de señales ECG de grandes bases de datos. Universidad de Zaragoza. Matrícula de honor. 14/09/23
- Estudio de arquitectura de detección de idioma a corto plazo con redes reuronales. Universidad de Zaragoza. Sobresaliente. 13/02/23
- Traductor automático de las lenguas españolas basado en transformers. Universidad de Zaragoza. Sobresaliente. 05/07/22
- Implementación y evaluación de un sistema de diagnóstico de patologías cardíacas basado en redes neuronales a partir de señales electrocardiográficas. Universidad de Zaragoza. Sobresaliente. 07/10/21
- Digitalización y validación de secuencias manuscritas mediante redes neuronales con aplicación a las actas en ajedrez. Universidad de Zaragoza. Sobresaliente. 12/12/19
- Pedestrian trajectory prediction through machine learning techniques. Universidad de Zaragoza. Notable. 18/10/19
- Visual explanation for weakly supervised object detection. Universidad de Zaragoza. Matrícula de honor. 25/07/19
- Análisis e implementación de una arquitectura loT controladoras de soldadura. Universidad de Zaragoza. Notable. 11/07/19
- Diseño de algoritmos de clusterización para la regularización de redes neuronales y aprendizaje de características relevantes. Universidad de Zaragoza. Matrícula de honor. 13/07/18
- Sistema de detección de emociones a partir de secuencias de audio, vídeo y mapa de profundidad. Universidad de Zaragoza. Notable. 09/10/15
Supervision of master's theses
- Desarrollo de una red neuronal profunda multiescala para la cancelación de ruido en el ECG utilizando grandes bases de datos sintéticas y reales. Universidad de Zaragoza. Sobresaliente. 12/07/24
- Asistente inteligente para el sector agrario: Acceso al conocimiento mediante large language models (LLM) e inteligencia artificial (IA) generativa. Universidad de Zaragoza. Sobresaliente. 09/07/24
- Aplicación de redes neuronales profundas en la generación automática de piezas periodísticas y la recuperación de documentos multimedia. Universidad de Zaragoza. Notable. 09/07/24
- Contribuciones de aprendizaje profundo para la solución eficiente de las ecuaciones de Navier-Stokes: Aplicación al análisis de flujo en arterias con ateroesclerosis. Universidad de Zaragoza. Sobresaliente. 16/09/23
- Estudio implementación de algoritmos de compresión sin pérdidas para señales de audio utilizando técnicas de deep learning. Universidad de Zaragoza. Notable. 15/12/22
- Búsqueda semántica mediante lenguaje natural en un corpus de noticias utilizando
métodos de Deep learning. Universidad de Zaragoza. Sobresaliente. 08/07/22
- Estudio y desarrollo de técnicas no supervisadas para la extracción automática de características en datos multimedia. Universidad de Zaragoza. Matrícula de honor. 06/10/21
- Estudio de técnicas de extracción automática de características de señales de voz mediante aprendizaje no supervisado. Universidad de Zaragoza. Sobresaliente. 06/10/20
- Estudio y mejora de sistemas de verificación de locutores bajo condiciones de voz afónica. Universidad de Zaragoza. Sobresaliente. 08/07/20
- Autoregressive model based on a deep convolutional neural network for audio generation. Universidad de Zaragoza. Aprobado. 26/05/17
- Estudio de técnicas de aprendizaje automático basado en redes neuronales para reconocimiento biométrico de personas. Universidad de Zaragoza. Matrícula de honor. 16/09/16
- Extracción de características articulatorias de la voz y su impacto en modelos acústicos híbridos. Universidad de Zaragoza. Sobresaliente. 12/12/13
- Estudio neurocomputacional de la risa aplicado al diagnóstico psiquiátrico: detección automática de risa. Universidad de Zaragoza. Notable. 27/09/13
Patents
- EP2713367B1. Speaker Recognition. Buera, Luis; Vaquero, Carlos; García, Marta; Miguel, Antonio. 2014
Software protection
- Sistema de detección de menciones en emisiones de radio y televisión. ORTEGA GIMÉNEZ, ALFONSO - LLEIDA SOLANO, EDUARDO - MIGUEL ARTIAGA, ANTONIO
- SUBTITULADO AUTOMÁTICO DE CONTENIDOS AUDIOVISUALES. LLEIDA SOLANO, EDUARDO - MIGUEL ARTIAGA, ANTONIO - ORTEGA GIMÉNEZ, ALFONSO
Participation in conferences
- Interspeech 2024. Participativo - Ponencia oral (comunicación oral). Predefined Prototypes for Intra-Class Separation and Disentanglement. Kos. 04/09/24
- 10th Convention of the European Acoustics Association (Forum Acusticum 2023). Participativo - Ponencia oral (comunicación oral). Permutation Invariant Recurrent Neural Networks for Sound Source Tracking Applications. Turín. 11/09/23
- 24th Annual Conference of the International Speech Communication Association, INTERSPEECH 2023. Participativo - Póster. Variational Classifier for Unsupervised Anomalous Sound Detection under Domain Generalization. Dublín. 22/08/23
- Iberspeech 2022. Participativo - Ponencia oral (comunicación oral). Cross-Corpus Speech Emotion Recognition with HuBERT Self-Supervised Representation. Granada. 13/11/22
- 16th International Conference Zaragoza-Pau on Mathematics and its Applications. Participativo - Ponencia oral (comunicación oral). Deep Learning for Chaos Detection. Jaca (Huesca). 07/09/22
- XXVII CEDYA/XVII Congreso de Matemática Aplicada. Participativo - Póster. Chaos Detection: from Lyapunov Exponents to Deep Learning. Zaragoza. 18/07/22
- Iberspeech 2020. Participativo - Ponencia oral (comunicación oral). Diarization and Identity Attribution Compatibility in the Albayzin 2020 Challenge. Valladolid. 24/03/21
- Iberspeech 2020. Participativo - Ponencia oral (comunicación oral). ViVoLAB Multimodal Diarization System for RTVE 2020 Challenge. Valladolid. 24/03/21
- 2nd International Conference on Signal Processing and Artificial Intelligence (ASPAI' 2020). Participativo - Ponencia oral (comunicación oral). Acoustic Room Impulse Response Simulation with GPUs. Berlín. 18/11/20
- 20th Annual Conference of the International Speech Communication Association, INTERSPEECH 2019. Participativo - Póster. Phonetically-aware embeddings, Wide Residual Networks with Time-Delay Neural Networks and Self Attention models for the 2018 NIST Speaker Recognition Evaluation. Graz. 16/09/19
- 20th Annual Conference of the International Speech Communication Association, INTERSPEECH 2019. Participativo - Ponencia oral (comunicación oral). ViVoLAB Speaker Diarization System for the DIHARD 2019 Challenge. Graz. 16/09/19
- Interspeech 2019. Participativo - Póster. Speech Enhancement with Wide Residual Networks in Reverberant Environments. Graz. 15/09/19
- Interspeech 2019. Participativo - Póster. Progressive Speech Enhancement with Residual Connections. Graz. 15/09/19
- Iberspeech 2018. Participativo - Ponencia oral (comunicación oral). Phonetic Variability Influence on Short Utterances in Speaker Verification. Barcelona. 21/11/18
- Iberspeech 2018. Participativo - Póster. In-domain Adaptation Solutions for the RTVE 2018 Diarization Challenge. Barcelona. 21/11/18
- Iberspeech 2018. Participativo - Ponencia oral (comunicación oral). A Recurrent Neural Network Approach to Audio Segmentation for Broadcast Domain Data. Barcelona. 21/11/18
- 19th Annual Conference of the International Speech Communication Association, INTERSPEECH 2018. Participativo - Ponencia oral (comunicación oral). Estimation of the Number of Speakers with Variational Bayesian PLDA in the DIHARD Diarization Challenge. Hyderabad. 05/09/18
- 18th Annual Conference of the International Speech Communication Association, INTERSPEECH 2017. Participativo - Ponencia oral (comunicación oral). Domain Adaptation of PLDA models in Broadcast Diarization by means of Unsupervised Speaker Clustering. Estocolmo. 29/08/17
- 18th Annual Conference of the International Speech Communication Association, INTERSPEECH 2017. Participativo - Ponencia oral (comunicación oral). Tied Hidden Factors in Neural Networks for End-to-End Speaker Recognition. Estocolmo. 29/08/17
- Iberspeech 2016. Participativo - Ponencia oral (comunicación oral). Character Sequence to Sequence Applications: Subtitle Segmentation and Part-of-Speech Tagging. Lisboa. 20/11/16
- Iberspeech 2016. Participativo - Ponencia oral (comunicación oral). Bottleneck Based Front-End for Diarization Systems. Lisboa. 20/11/16
- Iberspeech 2016. Participativo - Ponencia oral (comunicación oral). Automatic Text-to-Audio Alignment of Multimedia Broadcast Content. Lisboa. 20/11/16
- Iberspeech 2016. Participativo - Póster. The ViVoLab-I3A-UZ System for Albayzin 2016 Search-on-Speech Evaluation. Lisboa. 20/11/16
- IEEE Automatic Speech Recognition and Understanding (ASRU 2015). Participativo - Ponencia oral (comunicación oral). Variational Bayesian PLDA for Speaker Diarization in the MGB Challenge. Arizona. 12/12/15
- 16th Annual Conference of the International Speech Communication Association, INTERSPEECH 2015. Participativo - Ponencia oral (comunicación oral). Spoofing Detection with DNN and One-class SVM for the ASVspoof 2015 Challenge. Dresden. 09/09/15
- IberSPEECH 2014. Participativo - Ponencia oral (comunicación oral). Confidence Measures in Automatic Speech Recognition for Error Detection in Restricted Domains. Las Palmas. 12/11/14
- IberSPEECH 2014. Participativo - Ponencia oral (comunicación oral). Subtitling Tools Based On Automatic Speech Recognition. Las Palmas. 12/11/14
- IberSPEECH 2014. Participativo - Ponencia oral (comunicación oral). Albayzin 2014 Search on Speech @ ViVolab UZ. Las Palmas. 12/11/14
- IberSPEECH 2014. Participativo - Ponencia oral (comunicación oral). A preliminary study of Acoustic Events Classification with Factor Analysis in Meeting Rooms. Las Palmas. 12/11/14
- 15th Annual Conference of the International Speech Communication Association, INTERSPEECH 2014. Participativo - Ponencia oral (comunicación oral). Factor Analysis with Sampling Methods for Text Dependent Speaker Recognition. Singapur. 02/09/14
- 14th Annual Conference of the International Speech Communication Association, INTERSPEECH 2013. Participativo - Ponencia oral (comunicación oral). Suprasegmental Information Modelling for Autism Disorder Spectrum and Specific Language Impairment Classification. Lyon. 28/08/13
- 14th Annual Conference of the International Speech Communication Association, INTERSPEECH 2013. Participativo - Ponencia oral (comunicación oral). A New Bayesian Network to Assess the Reliability of Speaker Verification Decisions. Lyon. 28/08/13
- SLAM 2013 Speech, Language and Audio in Multimedia. Participativo - Ponencia oral (comunicación oral). Broadcast News Segmentation with Factor Analysis System. Marsella. 25/08/13
- IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2013). Participativo - Ponencia oral (comunicación oral). Prosodic features and formant modeling for an ivector-based language recognition system. Vancouver. 12/05/13
- IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2013). Participativo - Póster. Segmentation-by-classification system based on factor analysis. Vancouver. 12/05/13
- IberSPEECH 2012 Participativo - Ponencia oral (comunicación oral). Evaluation of a New Beam-Search Formant Tracking Algorithm in Noisy Environments. Madrid. 21/11/12
- IberSPEECH 2012 Participativo - Ponencia oral (comunicación oral). Score Level versus Audio Level Fusion for Voice Pathology Detection on the Saarbrücken Voice Database. Madrid. 21/11/12
- IberSPEECH 2012 Participativo - Ponencia oral (comunicación oral). Reliability Estimation of the Speaker Verification Decisions Using Bayesian Networks to Combine Information from Multiple Speech Quality Measures. Madrid. 21/11/12
- IberSPEECH 2012 Participativo - Ponencia oral (comunicación oral). Voice Pathology Detection on the Saarbrücken Voice Database with Calibration and Fusion of Scores Using Mul-tiFocal Toolkit Madrid. 21/11/12
- VI Jornadas de Reconocimiento Biométrico de Personas JRBP 2012. Participativo - Ponencia oral (comunicación oral). Diarization for Speaker Characterization. Las Palmas de Gran Canaria. 08/02/12
- 12th Annual Conference of the International Speech Communication Association. INTERSPEECH 2011. Participativo - Ponencia oral (comunicación oral). I3A Language Recognition System for Albayzin 2010 LRE. Florencia. 28/08/11
- FALA 2010 "VI Jornadas en Tecnología del Habla" and II Iberian SLTech Workshop. Participativo - Ponencia oral (comunicación oral). Predictive vector quantization using the M-algorithm for distributed speech recognition. Vigo. 12/11/10
- FALA 2010 "VI Jornadas en Tecnología del Habla" and II Iberian SLTech Workshop. Participativo - Ponencia oral (comunicación oral). Speaker Tree Generation for Model Selection in Automatic Speech Recognition. Vigo. 12/11/10
- V jornadas de reconocimiento biométrico de personas JRBP 2010. Participativo - Ponencia oral (comunicación oral). I3A NIST SRE2010 System Description. Huesca. 11/09/10
- V jornadas de reconocimiento biométrico de personas JRBP 2010. Participativo - Ponencia oral (comunicación oral). Confidence Measures and Hypothesis Selection Strategies for Speaker Segmentation. Huesca. 11/09/10
- 11th Annual Conference of the International Speech Communication Association. INTERSPEECH 2010. Participativo - Ponencia oral (comunicación oral). Non-Linear Predictive Vector Quantization of Feature Vectors for Distributed Speech Recognition. Makuhari. 11/09/10
- 11th Annual Conference of the International Speech Communication Association. INTERSPEECH 2010. Participativo - Ponencia oral (comunicación oral). Confidence Measures for Speaker Segmentation and their Relation to Speaker Verification. Makuhari. 11/09/10
- 10th Annual Conference of the International Speech Communication Association. INTERSPEECH 2009. Participativo - Póster. Graphical Models for Discrete Hidden Markov Models in Speech Recognition. Brighton. 02/09/09
- 10th Annual Conference of the International Speech Communication Association. INTERSPEECH 2009. Participativo - Póster. Local Projections and Support Vector Based Feature Selection in Speech Recognition. Brighton. 02/09/09
- 10th Annual Conference of the International Speech Communication Association. INTERSPEECH 2009. Participativo - Póster. Real-Time Live Broadcast News Subtitling System for Spanish. Brighton. 02/09/09
- 0th Annual Conference of the International Speech Communication Association. INTERSPEECH 2009. Participativo - Ponencia oral (comunicación oral). Differential Vector Quantization of Feature Vectors for Distributed Speech Recognition. Brighton. 02/09/09
- 10th Annual Conference of the International Speech Communication Association. INTERSPEECH 2009. Participativo - Ponencia oral (comunicación oral). Unsupervised Training Scheme with Non-Stereo Data for Empirical Feature Vector Compensation. Brighton. 02/09/09
- V Jornadas en Tecnologías del Habla. Participativo - Ponencia oral (comunicación oral). Arquitectura Distribuida para el Desarrollo de Sistemas de Diálogo Hablado, EDECAN. Bilbao. 12/11/08
- V Jornadas en Tecnologías del Habla. Participativo - Ponencia oral (comunicación oral). SISTEMA DE RECONOCIMIENTO AUTOMÁTICO DEL HABLA DISTRIBUIDO APLICADO A ENTORNOS LOGÍSTICOS. Bilbao. 12/11/08
- V Jornadas en Tecnologías del Habla. Participativo - Ponencia oral (comunicación oral). Generalized Gausssians for Continuous Observation Distributions in Speech Recognition. Bilbao. 12/11/08
- V Jornadas en Tecnologías del Habla. Participativo - Ponencia oral (comunicación oral). Graphical Models for Discrete Observation Distributions in Speech Recognition. Bilbao. 12/11/08
- V Jornadas en Tecnologías del Habla. Participativo - Ponencia oral (comunicación oral). CUANTIFICACIÓN VECTORIAL DIFERENCIAL PARA LA TRANSMISIÓN EFICIENTE DE PARÁMETROS ACÚSTICOS EN SISTEMAS DE RECONOCIMIENTO AUTOMÁTICO DEL HABLA DISTRIBUIDO. Bilbao. 12/11/08
- Jornadas de Reconocimiento Biométrico de Personas. Participativo - Ponencia oral (comunicación oral). Experiencia del I3A en la Evaluación de Reconocimiento de Locutor NIST 2008. Valladolid. 09/09/08
- International Conference on Spoken Language Processing (ICSLP- Interspeech). Participativo - Ponencia oral (comunicación oral). Feature Vector Normalization with Combined Standard and Throat Microphones for Robust ASR. Brisbane. 03/09/08
- IEEE Automatic Speech Recognition and Understanding Workshop, ASRU 2007. Participativo - Ponencia oral (comunicación oral). Robust Speech Recognition with on-line Unsupervised Acoustic Feature. Kyoto. 10/12/07
- Interspeech 2007. Participativo - Ponencia oral (comunicación oral). Evaluation of the Combined Use of MEMLIN and MLLR on the Non-native Adaptation Task of Hiwire Project Database. Amberes. 29/08/07
- Interspeech 2007. Participativo - Ponencia oral (comunicación oral). On the Jointly Unsupervised Feature Vector Normalization and Acoustic Model Compensation for Robust Speech Recognition. Amberes. 29/08/07
- IEEE Intelligent Vehicles Symposium. Participativo - Ponencia oral (comunicación oral). On-Line Feature and Acoustic Model Space Compensation for Robust Speech Recognition in Car Environment. Estambul. 01/06/07
- Biennial on DSP for in-Vehicle and Mobile Systems 2007. Participativo - Ponencia oral (comunicación oral). Robust Speech Recognition with on-line Unsupervised Acoustic Feature. Estambul. 01/06/07
- III Jornadas de Reconocimiento Biométrico de Personas. Participativo - Ponencia oral (comunicación oral). Verificación e Identificación de Locutor con Normalización de Vectores de Características en Entornos Acústicos Adversos. Sevilla. 20/11/06
- IV Jornadas en Tecnología del Habla. Participativo - Ponencia oral (comunicación oral). A virtual butler controlled by speech. Zaragoza. 08/11/06
- IV Jornadas en Tecnología del Habla. Participativo - Ponencia oral (comunicación oral). Time-dependent Cross-Probability Model for Feature Vector Normalization. Zaragoza. 08/11/06
- International Conference on Spoken Language Processing, (ICSLP 2006). Participativo - Ponencia oral (comunicación oral). Local Transformation Models for Speech Recognition. Pittsburgh. 07/09/06
- International Conference on Spoken Language Processing, (ICSLP 2006). Participativo - Póster. Study of Time and Frequency Variability in Pathological Speech and Error Reduction Methods for Automatic Speech Recognition. Pittsburgh. 07/09/06
- International Conference on Spoken Language Processing, (ICSLP 2006). Participativo - Ponencia oral (comunicación oral). Time-dependent cross-probability model for Multi-Environment Model based LInear Normalization. Pittsburgh. 07/09/06
- IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2006). Participativo - Póster. Stability Control in a Two-Channel Speech Reinforcement System for Vehicles. Toulouse. 10/05/06
- IEEE Automatic Speech Recognition and Understanding Workshop, ASRU 2005. Participativo - Ponencia oral (comunicación oral). Recent Advances in PD-MEMLIN for Speech Recognition in Car Conditions. Cancún. 25/11/05
- Interspeech 2005 – Eurospeech- 9th European Conference on Speech Communication and Technology. Participativo - Ponencia oral (comunicación oral). Robust Speech Recognition in Cars Using Phoneme Dependent Multi-Environment Linear Normalization. Lisboa. 09/09/05
- Interspeech 2005 – Eurospeech- 9th European Conference on Speech Communication and Technology. Participativo - Póster. Acoustic Feedback Cancellation in Speech Reinforcement System for Vehicles. Lisboa. 09/09/05
- Interspeech 2005 – Eurospeech- 9th European Conference on Speech Communication and Technology. Participativo - Póster. Augmented State Space Acoustic Decoding for Modeling Local Variability in Speech. Lisboa. 09/09/05
- Biennial on DSP for in-Vehicle and Mobile Systems. Participativo - Ponencia oral (comunicación oral). Multi-Environment Linear Normalization for Robust Speech Analysis in Cars. Sesimbra. 02/09/05
- Summer School for Advanced Studies on Biometrics for Secure Authentication: Miltimodality and System Integration. Participativo - Ponencia oral (comunicación oral). Speaker Verification and Identification using Phoneme Dependent Multi-Environment based Linear Normalization in Adverse and Dynamic Acoustic Environments. Algherio. 06/06/05
- III Jornadas en Tecnología del Habla. Participativo - Ponencia oral (comunicación oral). Base de Datos Audiovisual y Multicanal en Castellano para Reconocimiento Automático del Habla Multimodal en el Automóvil. Valencia. 12/11/04
- III Jornadas en Tecnología del Habla. Participativo - Ponencia oral (comunicación oral). Avances en la Normalización Cepstral con Señal Estéreo para el Reconocimiento Robusto de Voz en el Entorno del Vehículo. Valencia. 12/11/04
- III Jornadas en Tecnología del Habla. Participativo - Ponencia oral (comunicación oral). Decodificación Eficiente para Normalización del Tracto Vocal en Reconocimiento Automático del Habla en Tiempo Real. Valencia. 12/11/04
- III Jornadas en Tecnología del Habla. Participativo - Ponencia oral (comunicación oral). Algoritmos de Compensación de Características Cepstrales para Reconocimiento Automático del Habla Robusto. Valencia. 12/11/04
- International Conference “Speech and Computer” SPECOM-2004. Participativo - Ponencia oral (comunicación oral). Multi-Environments Models Based Linear Normalization for Robust Speech Recognition. San Petersburgo. 07/09/04
- International Conference on Acoustics, Speech and Signal Processing (ICASSP 2004). Participativo - Ponencia oral (comunicación oral). Multi-Environments Models Based Linear Normalization for Speech Recognition in Car Conditions. Montreal. 05/05/04
- 4th International Conference on Language Resources and Evaluation (LREC 2004). Participativo - Ponencia oral (comunicación oral). AV@CAR: A Spanish Multichannel Multimodal Corpus for In-Vehicle Automatic Audio-Visual Speech Recognition. Lisboa. 04/05/04
- 5ª Semana Geomática. Participativo - Ponencia oral (comunicación oral). Interface oral para el acceso a sistemas de información en vehículos. Barcelona. 08/02/03
- II Jornadas en Tecnologías del Habla. Participativo - Ponencia oral (comunicación oral). Reconocimiento Automático del Habla en vehículos, resultados con SpeechDat-Car. Granada. 04/12/02
Research stays
- Face in Motion. Oporto. Portugal. 01/08/15 - 31/08/15
- Face in Motion. Oporto. Portugal. 01/08/14 - 31/08/14
- Universidad Politécnica de Valencia. Valencia. España. 02/05/05 - 29/07/05
- GET-ENST. Paris. Francia. 01/01/05 - 31/01/05
- McGill University. Montreal. Canadá. 15/07/04 - 15/10/04
Organization of R&D activities
- Odyssey 2016. 22/06/16 - 24/06/16
- V Jornadas de Reconocimiento Biométrico de Personas. 09/09/10 - 10/09/10
- IV Jornadas en Tecnologías del Habla. 08/11/06 - 10/11/06
UNIZAR teaching of the last six courses
|