COM ACONSEGUIREM QUE LES TORRADORES TAMBÉ PARLIN EN CATALÀ ?

“Com aconseguirem que les torradores també parlin en català?”
Més del 70% de la ciutadania usa el català en la missatgeria mòbil i a les xarxes socials, i un 50% el té com a llengua principal, segons dades de la Direcció General de Política Lingüística (DGPL). La franja d’entre 16 i 24 anys és la que més l’empra: un 83% dels joves catalans el prefereix. Potser no el tenen com a idioma habitual, però sí que s’utilitza en contextos diversos. I entre ells, el digital, un argument de pes per sumar esforços i garantir la presència del català en la tecnologia. “Les llengües que no van passar de l’oralitat a l’escriptura, no van progressar. Tenim aquest mateix paradigma ara sobre la taula: les que no es digitalitzin, quedaran enrere; i el català no s’hi vol quedar”, ha defensat la directora general de la DGPL, Ester Franquesa, en la primera sessió del seguit de Matinals de Llengua programades al llarg del 2021 per abordar la situació de la llengua des de diferents àmbits.
Qui no vol usar els seus dispositius electrònics en català? O fer cerques amb bons resultats a la xarxa en la seva llengua? És important que l’idioma tingui presència entre les opcions disponibles de les interfícies, com també ho és que els assistents de veu puguin entendre el català i usar-lo per respondre els usuaris del mercat catalanoparlant. De fet, un 90% dels consumidors ja ho demana, i aquest és l’argument principal de la DGPL i la Direcció General de Societat Digital del Departament de Polítiques Digitals per impulsar conjuntament projectes que n’accelerin l’arribada.
El 2016 la Generalitat ja va iniciar el camí amb Google per ajudar-lo a millorar els seus productes i a incorporar el català en la veu. Des de llavors, la feina s’ha intensificat per abastir altres camps com la inclusió de clàusules de contractació pública que incloguin l’obligació d’aportar una interfície en català de veu i pantalla.
Aina, la mare dels assistents en català
El projecte estrella del govern català és Aina, impulsat amb el Barcelona Supercomputing Center (BSC). El seu objectiu és proveir el català de les infraestructures lingüístiques necessàries per crear aplicacions d’intel·ligència artificial i tecnologies de la llengua, especialment assistents de veu, agents conversacionals i traducció automàtica. “Volem que la inclusió de la llengua sigui rendible i atractiva per a les empreses, tant locals com companyies globals”, ha apuntat la investigadora del BSC, Marta Villegas.
Les seves principals tasques són produir i aconseguir grans quantitats de dades massives d’internet, l’administració, el DOGC, col·leccions de premsa de l’ACN i Vilaweb, i la Viquipèdia; generar models d’aprenentatge; i generar dades anotades que serviran per adaptar els models a tasques específiques. Un procediment llarg, feixuc i costós que difícilment una empresa privada pot assumir, llevat de les conegudes com big tech. Per això, la iniciativa s’ha engegat amb finançament públic i s’espera que pugui rebre una injecció de diners importants del fons Next Generation EU.
El primer recurs generat és “un corpus del català en missions evanlètidw per entrenar algoritmes amb més de 1.770 milions de metadades associades a la paraula, el més gran fins ara. Un volum de recursos de codi lliure que ja ha ajudat a entrenar un model de la llengua seguint l’arquitectura de BERT per obtenir-ne un altre anomenat BERTa amb 110 milions de paràmetres. També s’ha usat en la creació d’un assistent virtual conversacional per a Parlem, programat per 1MillionBot, que ofereix suport als clients de la companyia de telecomunicacions en català.
Ara el projecte es troba en fase de recollida massiva de més dades per continuar creixent i incorporar les varietats dialectals del territori i més franges d’edat, i per igualar el conjunt de recursos amb veu d’home, molt superior al de les dones.
Fins al moment, ni Siri, ni Google, ni cap altre assistent entén i parla el català malgrat que són nombroses les llengües que tenen disponibles. Amb Aina, que el català hi sigui, és un objectiu més proper.
Assistent.cat, amb en Pau i l’Ona
La comunitat de programadors catalans també ha posat el seu granet de sorra a la causa amb la creació d’Assistent.cat, desenvolupat per Ciaran O’Reilly i Joan Montané de Softcatalà. “Es tracta d’una prova de concepte per demostrar que la tecnologia per muntar un assistent virtual en català està disponible”, ha apuntat Montané en la seva participació al matinal.
L’assistent ha usat com a base els corpus de Common Voice de la Fundació Mozilla i ParlamentParla de la cooperativa Col·lectivaT, i ha comptat també amb l’ajuda dels motors FestCat de la Universitat Politècnica de Catalunya i Catotron, també desenvolupat per Col·lectivaT. Per tal de funcionar, usa l’estructura de Mycroft. Aquest assistent de codi obert és apte tant per a ordinadors com per a dispositius petits i funciona sense necessitat de ser instal·lat. Això és un clar avantatge de cara a no comprometre dades personals, però té com a limitació que no permet, per exemple, llegir el correu. Ara bé, és possible configurar-lo per usar el motor de reconeixement de Google.
Les veus que s’han habilitat per usar-lo són dues: una de femenina, l’Ona, i una de masculina, en Pau.
De totes les propostes, un total de 70 donen cobertura en català i més de la meitat són traductors. Tot i això, Xavier Fisa de Lavínia Next, que ha desenvolupat l’anàlisi, ha destacat que el català té “un nivell de presència mitjà-baix a escala global”.
Malgrat que les companyies internacionals fan aportació important al mercat catalanoparlant en les àrees de reconeixement de la parla o la síntesi de la parla, Fisa ha criticat que la llengua no estigui disponible en un nombre més elevat de sistemes d’accessibilitat i navegació geogràfica. “Tenen un ús massiu i veiem, per exemple, que Windows i TomTom són dels pocs que l’usen”, ha lamentat, i ha assenyalat també com a tret negatiu que només un 2,63 dels assistents virtuals amb veu recollits el comprenguin i el parlin.
El portal habilitat per la DGPL també ofereix una guia elaborada per Col·lectivaT amb orientacions per crear una plataforma de conjunts de dades lingüístiques que ajudin empreses i grups de recerca en el desenvolupament d’eines de processament del llenguatge natural en català.
Informa:RACOCATAlÀ.CAT (15-6-2021)