ARRENCA UNA CAMPANYA PER GENERAR EL PRIMER “DICCIONARI” DE VEU DEL CATALÀ

El Departament de la Vicepresidència i de Polítiques Digitals i Territori, en col·laboració amb el Barcelona Supercomputing Center-Centro Nacional de Supercomputación (BSC-CNS), posarà en marxa aquest dijous una campanya de captació de veu per generar el primer “diccionari” oral del català, Aina. Aquest eina ha de poder assegurar la presència del català en el món digital. La campanya l’ha presentat aquest dimarts a la premsa el vicepresident i conseller de Polítiques Digitals i Territori, Jordi Puigneró. La iniciativa es presentarà en societat en un acte públic dimecres al Palau de la Música Catalana.

“L’objectiu és que molta gent ho conegui, que vulgui ser parella lingüística d’AINA perquè l’eina aprengui el català i l’ajudi en aquesta tasca que hem de fer entre tots”, ha dit el vicepresident. Puigneró ha subratllat que “si no cuidem el nosaltres ningú més ho farà”. L’eina que s’ha creat ja coneix l’estructura de la llengua i la nova fase de la campanya està orientada a fer que conegui les paraules, el seu significat i el vessant oral, ha explicat Puigneró. “Ja tenim l’esquelet d’Aina, ara el que hem de construir és la seva musculatura”, ha afirmat Puigneró. Es busca recollir la diversitat de la llengua catalana, de les diferents parles i accents.

La recollida de veus es fa a partir de demà mateix a través d’una pàgina web i el Govern hi destinarà tres milions d’euros. L’usuari es podrà dedicar temps a llegir frases proposades o a validar altres enregistraments. Les dades de veu s’afegiran a un corpus textual del català que ja existeix. Les persones que hi participin podran deixar les seves veus sense registrar-se, però es recomana fer-ho per poder tenir informació sobre l’edat, el gènere i la distribució geogràfica. La cap de la unitat de Text Mining del BSC-CNS, Marta Villegas, ha explicat que AINA ha de permetre que el català sigui inclòs a Siri o Alexa, per exemple. Es busca que la inclusió del català a les aplicacions “sigui rendible i atractiva per a empreses del sector, pensem també en les Pimes i les grans empreses i les grans tecnològiques”. L’objectiu final, ha afegit Villegas, és “aconseguir que els ciutadans puguem participar en normalitat en el món digital com ho faria un parlant d’una llengua global”.

AINA és un projecte d’infraestructura que no servirà per fer aplicacions finals, això quedarà reservat a la iniciativa de la indústria. Tot i així, Puigneró no ha descartat que la Generalitat desenvolupi alguna aplicació de serveis pròpia basant-se en AINA. “La tecnologia necessita big data i és del que volem proveir, únicament des de la iniciativa pública el català pot garantir la quantitat suficient de dades”. El corpus més gran és el de l’anglès,que consta de 825 gigabytes de dades, i el castellà, amb 570 gigabytes. El català de moment té 10 gigabytes de dades perquè inclou només text. Hi ha 1.000 hores gravades de so i es vol doblar el nombre aquest any. “Disposar de dades de qualitat és un actiu de futur, ens garanteix l’actualització de la tecnologia”, ha dit Villegas.

Puigneró ha remarcat que el projecte d’AINA “ve a garantir drets” i ha defensat que els catalans “tenim el dret de poder-nos relacionar en catala amb les màquines”. L’instrument “ens ha de permetre que el que fem habitualment —de canviar de llengua quan algú té una altra llengua— no passi també amb les llengües de les màquines”, ha precisat el vicepresident. Un altre objectiu és “generar ecosistema en l’àmbit de la intel·ligència artificial i fer d’aquest país un país digital”. Puigneró ha dit que el Govern aposta per “projectes de recerca i innovació que tenen una derivada de serveis a la ciutadana i les empreses”.
Informa:WLMON.CAT (15-2-2022)

64 Lectures | ‣ |
Que tothom ho sàpiga: