Gianpaolo Coro, Franco Cutugno e Alessandro Vietti presentano l’iniziativa Phoné, mirata a raccogliere materiale parlato (annotato e non) di alta qualità per l’addestramento e la valutazione dei moderni sistemi di riconoscimento e sintesi per l’italiano, e coinvolgere chiunque della comunità scientifica voglia contribuire all’impresa secondo le proprie possibilità.
Nell’ambito del PNRR FAIR, il consorzio Phoné (formato dall’Università di Napoli Federico II, dal CNR-ISTI di Pisa, e dalla Libera Università di Bolzano) partecipa al Progetto Trasversale su “Visione, Linguaggio e Sfide Multimodali” (TP2) senza avere accesso a nessuna forma di finanziamento pubblico e si pone l’obiettivo di raccogliere dati di parlato destinati al pubblico utilizzo da parte di chiunque voglia addestrare (sia in fine-tuning che ex-novo), testare o estendere l’utilizzo dei Large Acoustic Models.
Si intende produrre un sistema di riconoscimento automatico (ASR) addestrato from scratch sull’italiano, per il quale si stima la necessità di almeno 1000 ore di parlato non trascritto e 250 ore di parlato trascritto. Oltre all’enorme quantità di dati, la raccolta di registrazioni già esistenti implica una ulteriore fase di controllo della qualità del segnale e della presenza di elementi di disturbo quali le sovrapposizioni fra parlanti, rumori e musica di sottofondo. In una seconda fase del progetto sarà proposta anche una architettura per la sintesi vocale sempre basata su architetture neurali.
Considerata la scarsità di risorse che muove la nostra impresa, si richiede il coinvolgimento della comunità scientifica per ottenere la massima collaborazione per il raggiungimento del target, attraverso:
- la condivisione di registrazioni di parlato di buona qualità (possibilmente monologico) trascritto e non trascritto;
- un contributo all’attività di controllo dei dati (ad esempio promuovendo attività di tirocinio mirate).
Tutti i prodotti della ricerca di Phoné (dati, software e metodi) saranno via via resi disponibili in maniera aperta a tutta la comunità scientifica e applicabili in vari modi alla ricerca linguistica.
Gli interessati possono contattare phone.fair.tp2@gmail.com e visitare il sito di Phoné, che nei prossimi giorni si arricchirà di contenuti e informazioni.