EL CATALÀ, A PUNT D’ATRAPAR L’ANGLÈS EN EL PROJECTE MUNDIAL DE FER PARLAR MÀQUINES

( CLARA BARDAJÍ )
Amb més de 3.000 hores de talls de veu gravades al repositori digital de Common Voice, el català està a punt de superar l’anglès com la llengua amb més hores enregistrades. Queden només 200 hores perquè el català substitueixi l’anglès en la primera posició. De fet, el català ja era la segona llengua amb més hores gravades en aquest projecte, impulsat per Mozilla Foundation, i aquest mes també ha superat el ruandès com a segona llengua amb més hores validades. Ara, la Plataforma per la Llengua ha confirmat que engegarà una campanya per poder augmentar la recollida de veus en català.
Common Voice és una iniciativa digital per recollir dades de veu que estan a disposició de tothom i que és possible gràcies a les veus de col·laboradors voluntaris de tot el món o les validacions dels enregistraments ja fets. L’objectiu és crear un repositori de talls de veu de totes les llengües del planeta i és un conjunt de dades que, tots aquells que vulguin desenvolupar i millorar programaris de reconeixement de parla, com per exemples robots domèstics o assistents de veu; poden descarregar-se gratuïtament i en llicència CC0.
Mozilla Foundation va crear Common Voice el 2017 i, actualment, ja compta amb 136 llengües. Softcatalà s’ha encarregat d’impulsar-lo als territoris de parla catalana i, el 2020, va passar a formar part del projecte Aina una iniciativa de la Generalitat de Catalunya i el Barcelona Supercomputing Center, amb la col·laboració del Govern de les Illes Balears, que el va fer créixer de manera significativa.
Una campanya per aconseguir més donacions
La Plataforma per la Llengua s’ha proposat que el català assoleixi la primera posició en la llista de llengües amb més hores gravades i, per això, impulsarà una campanya per aconseguir més donacions de veu. La iniciativa incorporarà una forta activitat digital amb actes presencials de recollida de veu per poder enregistrar talls a aquelles persones que no tenen el món digital a l’abast. A més, això permetrà incorporar dialectes, gèneres i edats que, de moment, estan poc representats a la base de dades com, per exemple, la gent gran.
Tot i que no s’han anunciat més detalls de la campanya, sí que han confirmat que engegarà el pròxim 14 d’abril al Palau Blaugrana, mentre tingui lloc el partit de l’Eurolliga de bàsquet Barça-València, pel qual la Plataforma disposarà d’algunes entrades amb descompte per als seus socis. El segon gran acte serà durant el partit de lliga entre el Barça i el Reial Madrid.
Informa:ELMON.CAT (30-III-2023)