De la Norma a l¡¯Aina
La Generalitat crea un corpus digital en catal¨¤ per facilitar l¡¯¨²s de la llengua amb les noves tecnologies


Fa gaireb¨¦ 40 anys que la Norma va portar la normalitzaci¨® ling¨¹¨ªstica a la societat catalana quan el catal¨¤ estava en des¨²s despr¨¦s d¡¯anys de prohibici¨® per la dictadura franquista. Ara, l¡¯amena?a per a la llengua ¨¦s m¨¦s global i el catal¨¤ pot acabar extingit del m¨®n digital si no s¡¯actua, segons ha alertat el conseller de Pol¨ªtiques Digitals, Jordi Puigner¨®, en la presentaci¨® del projecte Aina, fent refer¨¨ncia a un estudi que inclou el catal¨¤ entre la vintena d¡¯idiomes europeus que corren el risc de desapar¨¨ixer del m¨®n digital. Per aix¨°, la nova eina de normalitzaci¨®, Aina, ¨¦s un corpus digital que la Generalitat est¨¤ compilant per facilitar la incorporaci¨® del catal¨¤ en la creaci¨® de qualsevol programa o aplicaci¨® digital.
El projecte Aina, que s¡¯ha de finan?ar amb 13,5 milions d¡¯euros de fons europeus, generar¨¤ els recursos digitals i ling¨¹¨ªstics necessaris per facilitar el desenvolupament d¡¯assistents de veu, traductors autom¨¤tics o agents conversacionals en catal¨¤. ?s una iniciativa del Departament de Pol¨ªtiques Digitals amb el Barcelona Supercomputing Center - Centre Nacional de Supercomputaci¨® (BSC). L¡¯objectiu ¨¦s que els ciutadans puguin escollir el catal¨¤ al m¨®n digital al mateix nivell que els parlants d¡¯un idioma global com l¡¯angl¨¨s o el castell¨¤. De moment, la compilaci¨® de dades ha comen?at amb una aportaci¨® de 250.000 euros del Departament.
Per comen?ar aquesta feina, s¡¯ha creat un corpus digital del catal¨¤, que entrenar¨¤ els algoritmes d¡¯intel¡¤lig¨¨ncia artificial. Es tracta del corpus m¨¦s gran creat fins ara, amb 1.770 milions de metadades associades a paraules, reunides en 95 milions de frases. Aquest corpus s¡¯ha obtingut descarregant textos de diferents fonts digitals (p¨¤gines web, arxius, etc), netejant-los i esborrant les duplicitats. El proper pas ser¨¤ generar els models de llengua, models de parla i models per a la traducci¨® utilitzant xarxes neuronals multicapa.
Per obtenir aquest arxiu de dades, la Generalitat ha prove?t tota la informaci¨® de les seves p¨¤gines web i del DOGC, cosa que ha suposat el 33% de tots els continguts descarregats, i han estat necess¨¤ries 2.000 hores de processadors del superordinador MareNostrum per revisar les dades obtingudes, desduplicar-les i eliminar tot all¨° que no fossin pr¨°piament oracions del catal¨¤. A m¨¦s, s¡¯han utilitzats dades de l¡¯Ag¨¨ncia Catalana de Not¨ªcies (ACN) o de la Corporaci¨® Catalana de Mitjans Audiovisuals (CCMA).
De moment es treballa amb el catal¨¤ est¨¤ndard, per¨° s¡¯ha avan?at que es crearan nous corpus per incorporar les diferents variants dialectals del catal¨¤, diferents registres ling¨¹¨ªstics (col¡¤loquial, literari, administratiu, etc.) i arxius de veu i imatge. Amb tota aquesta informaci¨®, el seg¨¹ent pas ser¨¤ entrenar xarxes neuronals multicapa perqu¨¨ aprenguin el catal¨¤ i generin models de la llengua, models de la parla i models per a la traducci¨®. Aquests models s¨®n molt costosos de fer perqu¨¨ necessiten gran capacitat de c¨¤lcul (el que s¡¯est¨¤ construint a partir del primer corpus textual far¨¤ servir 9.000 hores de GPU), i seran les bases sobre les quals es podran desenvolupar aplicacions basades en intel¡¤lig¨¨ncia artificial (IA), com assistents de veu, predictors i correctors ling¨¹¨ªstics, bots de conversa, aplicacions de resum autom¨¤tic, cerques intel¡¤ligents, aplicacions per a l¡¯an¨¤lisi de sentiments o motors de traducci¨® i subtitulaci¨® autom¨¤tica, entre d¡¯altres. Tots els models que crear¨¤ el BSC estaran a disposici¨® de totes aquelles empreses o entitats que les vulguin fer servir, ja que es publicaran en obert i amb llic¨¨ncies permissives.
El catal¨¤, en risc en el m¨®n digital
La pres¨¨ncia del catal¨¤ en el m¨®n digital no est¨¤ assegurada ara mateix, segons Puigner¨®, que ha explicat que aquest ¨¦s ¡°el projecte del Govern per garantir que el catal¨¤ sigui una llengua competitiva en el m¨®n digital i assegurar-ne la superviv¨¨ncia¡±. El projecte ha de permetre que la llengua faci un salt qualitatiu i quantitatiu en l¡¯ecosistema digital, ja que la interacci¨® entre les persones i la tecnologia ha entrat en una nova fase en qu¨¨ cada vegada es fa menys a trav¨¦s de dispositius com el teclat, el ratol¨ª o les pantalles t¨¤ctils, per donar pas a una nova forma d¡¯interacci¨® a trav¨¦s de la veu i la parla.
Un estudi realitzat l¡¯any 2011 per la xarxa europea d¡¯excel¡¤l¨¨ncia META-NET, fet per m¨¦s de 200 experts en Tecnologies del Llenguatge, adverteix que m¨¦s de 20 lleng¨¹es europees, entre elles el catal¨¤, s¡¯enfronten a l¡¯extinci¨® digital si no reben m¨¦s suport tecnol¨°gic en quatre ¨¤rees: la traducci¨® autom¨¤tica, la interacci¨® amb la veu, l¡¯an¨¤lisi textual i la disponibilitat de recursos ling¨¹¨ªstics.
Un homenatge a Aina Moll
No ¨¦s cap casualitat el nom d¡¯Aina, sin¨® que ¨¦s un homenatge a la fil¨°loga menorquina Aina Moll, figura central de la promoci¨® i la normalitzaci¨® del catal¨¤ i primera directora general de Pol¨ªtica Ling¨¹¨ªstica de la Generalitat de Catalunya del 1980 al 1988. Va ser l¡¯art¨ªfex del llan?ament, el 1982, de la primera campanya institucional de sensibilitzaci¨® sobre l¡¯¨²s de la llengua "El catal¨¤, cosa de tots", que es va popularitzar amb el personatge de la Norma, dibuixada per Llu¨ªs Juste de Nin. Un any despr¨¦s d¡¯aquella campanya es va aprovar la primera llei de normalitzaci¨® ling¨¹¨ªstica. A m¨¦s, Aina cont¨¦ una refer¨¨ncia a la tecnologia (AI: intel¡¤lig¨¨ncia artificial) que far¨¤ possible la seva normalitzaci¨® en l¡¯¨¤mbit digital.
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
?Tienes una suscripci¨®n de empresa? Accede aqu¨ª para contratar m¨¢s cuentas.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.
Sobre la firma
