_
_
_
_

Las matem¨¢ticas que producen y detectan las ¡®fake news¡¯

Los modelos de generaci¨®n autom¨¢tica de texto emplean t¨¦cnicas de big data para extraer los patrones m¨¢s t¨ªpicos del lenguaje natural y obtener (o identificar) resultados de apariencia humana

Teclado con una carpeta de noticias falsas.
Teclado con una carpeta de noticias falsas.dimarik (Getty Images/iStockphoto)

Hace unos meses, la plataforma Avaaz hac¨ªa p¨²blico un informe que alertaba de la presencia masiva de noticias falsas (fake news) sin detectar en redes sociales, en relaci¨®n con la covid. Estos contenidos, con la ayuda de los medios que los viralizan, est¨¢n provocando otra pandemia, que la OMS ha denominado ¡°infodemia¡±, capaz de provocar todo tipo de malentendidos y enga?os con respecto al virus. Adem¨¢s, parte de estas noticias, pese a su apariencia humana, son creadas de forma masiva mediante modelos matem¨¢ticos de generaci¨®n de texto basados en redes neuronales artificiales. Sin embargo, las mismas ideas y modelos matem¨¢ticos tambi¨¦n pueden emplearse en sentido contrario, y son clave en proyectos de detecci¨®n de contenido falso.

El problema de la generaci¨®n autom¨¢tica de texto ¨Ces decir, conseguir que los ordenadores hablen o escriban de forma coherente en lenguajes naturales, como el ingl¨¦s o el castellano¨C est¨¢ ligado a los or¨ªgenes de la historia de la Inform¨¢tica, pues permite que la m¨¢quina y el usuario humano se comuniquen f¨¢cilmente. Los primeros sistemas ¨Ccomo el chatbot ELIZA (creado en 1964) que emulaba a una psic¨®loga, o el software Racter (1984), que produjo una de las primeras novelas escritas (casi) sin intervenci¨®n humana¨C generaban las frases aplicando un conjunto de reglas, denominadas gram¨¢ticas formales.

Los resultados, pese a los notables avances en este campo durante d¨¦cadas, eran poco convincentes. Para alcanzarlos, hizo falta un cambio de paradigma del procesamiento del lenguaje natural, que vino con el cambio de siglo y el tratamiento de datos masivos. Ahora, estos nuevos modelos, en vez de requerir reglas gramaticales introducidas manualmente, procesan ingentes cantidades de textos con t¨¦cnicas de big data para aprender por s¨ª mismos los patrones ling¨¹¨ªsticos. As¨ª, las m¨¢quinas, aunque no entiendan el lenguaje, son capaces de repetir los patrones m¨¢s t¨ªpicos que aparecen en los lenguajes naturales.

Seg¨²n la llamada hip¨®tesis distribucional, popularizada por el ling¨¹ista John Rubert Firth en los a?os 50 del siglo pasado, el significado de una palabra viene dado por las otras palabras que la suelen acompa?ar (sus vecinas)

Para ello, estos sistemas parten de la llamada hip¨®tesis distribucional, popularizada por el ling¨¹ista John Rubert Firth en los a?os 50 del siglo pasado, seg¨²n la cual el significado de una palabra viene dado por las otras palabras que la suelen acompa?ar (sus vecinas). Imaginemos que, por ejemplo, queremos que una m¨¢quina extraiga el significado de la palabra ¡°perro¡±, estudiando la presencia en internet de tres frases: ¡°los perros tienen hocico¡±; ¡°los perros ladran¡± y ¡°los perros cosen bufandas¡±. Para ello, podr¨ªa considerar todo el texto disponible de Internet (en castellano) y ver cu¨¢les de estas frases aparecen con m¨¢s frecuencia. Seguramente, las dos primeras frases son mucho m¨¢s comunes que la tercera, es decir, la palabra ¡°perro¡± suele acompa?arse de ¡°hocico¡± y ¡°ladran¡±, y no de ¡°cosen¡± por lo que, aplicando la hip¨®tesis distribucional, un perro ser¨¢ ¡°algo¡± que tiene hocico y ladra, pero que no cose.

De esta forma funcionan los modelos de lenguaje (LM), y as¨ª van aprendiendo los significados de palabras, que no son m¨¢s que patrones frecuentes de todo el texto natural considerado por la m¨¢quina. Los LM son los componentes b¨¢sicos de los sistemas actuales de generaci¨®n de texto, que generan frases prediciendo la siguiente palabra, dada una serie de palabras anteriores, empleando ideas de probabilidad y estad¨ªstica. En el ejemplo anterior, el modelo pronosticar¨¢ que despu¨¦s de ¡°el perro¡±, la probabilidad de que aparezca la palabra ¡°ladra¡±, es mayor de que aparezca la palabra ¡°cose¡±.

Matem¨¢ticamente, estos sistemas representan cada palabra como un vector, el llamado word embedding, de unas 300 dimensiones. El sistema m¨¢s utilizado para hacerlo es el llamado word2vec. En este espacio geom¨¦trico, las palabras similares est¨¢n cerca (as¨ª, ¡°perro¡± estar¨ªa m¨¢s cerca de ¡°ladrar¡± que de ¡°coser¡±) y adem¨¢s se pueden realizar operaciones entre ellas, o generar otras nuevas. Uno de los modelos m¨¢s potentes hasta la fecha son los llamados GPT-2 y su sucesor GPT-3, de la compa?¨ªa OpenAI, que generan textos de sorprendente calidad. Tanto que en 2019 tuvieron que retirar su sistema de generaci¨®n de fake news por miedo a un mal uso. Pese a esta precauci¨®n, hoy en d¨ªa el uso de modelos de este tipo para generaci¨®n de texto es generalizado y no es sencillo de detectar. Proponemos a los lectores que traten de adivinar, de entre estas rese?as de productos musicales, cu¨¢les son leg¨ªtimas y han sido generadas por un modelo similar al de OpenAI. Una pista: la mitad son un tipo, y la mitad de otro.

Nuevos modelos como GLTR tratan de identificar incluso los textos autom¨¢ticos m¨¢s sofisticados. Emplean herramientas matem¨¢ticas que categorizan las palabras mediante colores seg¨²n lo probables que sean

Frente a ello, nuevos modelos como GLTR tratan de identificar incluso los textos autom¨¢ticos m¨¢s sofisticados. Emplean herramientas matem¨¢ticas parecidas a las anteriores, que categorizan las palabras mediante colores seg¨²n lo probables que sean: en verde (si est¨¢n dentro de las 10 m¨¢s veros¨ªmiles en ese contexto, para ese modelo), en amarillo (top 100), en rojo (top 1000) y el resto en morado. Para evaluar si un texto es falso, el modelo cuenta el n¨²mero de palabras en cada color: si el n¨²mero de palabras en verde es muy alto, es muy probable que el texto haya sido generado por una m¨¢quina, por el contrario, si en su mayor¨ªa son palabras menos probables de color rojo, amarillo o morado, es posible que haya sido redactado por un humano.

Seg¨²n resultados recientes, el ¨¦xito de esta herramienta es considerable: sin ella, los evaluadores discriminan noticias generadas por humanos de las de m¨¢quinas con un 54.2% de acierto; con ellas la tasa sube al 72.3%. Sin embargo, seguramente cuando se publique este art¨ªculo estos datos ya habr¨¢n cambiado: en el contexto de la infodemia, vivimos una carrera acelerada de armamento para dise?ar, por un lado, los mejores modelos generativos de texto y, por el otro, los correspondientes detectores.

Victor Gallego y Alberto Redondo son investigadores predoctorales en el ICMAT. ?gata Tim¨®n G Longoria es responsable de comunicaci¨®n y divulgaci¨®n del ICMAT

Caf¨¦ y Teoremas es una secci¨®n dedicada a las matem¨¢ticas y al entorno en el que se crean, coordinado por el Instituto de Ciencias Matem¨¢ticas (ICMAT), en la que los investigadores y miembros del centro describen los ¨²ltimos avances de esta disciplina, comparten puntos de encuentro entre las matem¨¢ticas y otras expresiones sociales y culturales y recuerdan a quienes marcaron su desarrollo y supieron transformar caf¨¦ en teoremas. El nombre evoca la definici¨®n del matem¨¢tico h¨²ngaro Alfred R¨¦nyi: ¡°Un matem¨¢tico es una m¨¢quina que transforma caf¨¦ en teoremas¡±.

Edici¨®n y coordinaci¨®n: ?gata A. Tim¨®n Garc¨ªa-Longoria (ICMAT)

Puedes seguir a MATERIA en Facebook, Twitter, Instagram o suscribirte aqu¨ª a nuestra newsletter

Tu suscripci¨®n se est¨¢ usando en otro dispositivo

?Quieres a?adir otro usuario a tu suscripci¨®n?

Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.

?Por qu¨¦ est¨¢s viendo esto?

Flecha

Tu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.

Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.

En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.

Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.

M¨¢s informaci¨®n

Archivado En

Recomendaciones EL PA?S
Recomendaciones EL PA?S
Recomendaciones EL PA?S
_
_
seductrice.net
universo-virtual.com
buytrendz.net
thisforall.net
benchpressgains.com
qthzb.com
mindhunter9.com
dwjqp1.com
secure-signup.net
ahaayy.com
tressesindia.com
puresybian.com
krpano-chs.com
cre8workshop.com
hdkino.org
peixun021.com
qz786.com
utahperformingartscenter.org
worldqrmconference.com
shangyuwh.com
eejssdfsdfdfjsd.com
playminecraftfreeonline.com
trekvietnamtour.com
your-business-articles.com
essaywritingservice10.com
hindusamaaj.com
joggingvideo.com
wandercoups.com
wormblaster.net
tongchengchuyange0004.com
internetknowing.com
breachurch.com
peachesnginburlesque.com
dataarchitectoo.com
clientfunnelformula.com
30pps.com
cherylroll.com
ks2252.com
prowp.net
webmanicura.com
sofietsshotel.com
facetorch.com
nylawyerreview.com
apapromotions.com
shareparelli.com
goeaglepointe.com
thegreenmanpubphuket.com
karotorossian.com
publicsensor.com
taiwandefence.com
epcsur.com
southstills.com
tvtv98.com
thewellington-hotel.com
bccaipiao.com
colectoresindustrialesgs.com
shenanddcg.com
capriartfilmfestival.com
replicabreitlingsale.com
thaiamarinnewtoncorner.com
gkmcww.com
mbnkbj.com
andrewbrennandesign.com
cod54.com
luobinzhang.com
faithfirst.net
zjyc28.com
tongchengjinyeyouyue0004.com
nhuan6.com
kftz5k.com
oldgardensflowers.com
lightupthefloor.com
bahamamamas-stjohns.com
ly2818.com
905onthebay.com
fonemenu.com
notanothermovie.com
ukrainehighclassescort.com
meincmagazine.com
av-5858.com
yallerdawg.com
donkeythemovie.com
corporatehospitalitygroup.com
boboyy88.com
miteinander-lernen.com
dannayconsulting.com
officialtomsshoesoutletstore.com
forsale-amoxil-amoxicillin.net
generictadalafil-canada.net
guitarlessonseastlondon.com
lesliesrestaurants.com
mattyno9.com
nri-homeloans.com
rtgvisas-qatar.com
salbutamolventolinonline.net
sportsinjuries.info
wedsna.com
rgkntk.com
bkkmarketplace.com
zxqcwx.com
breakupprogram.com
boxcardc.com
unblockyoutubeindonesia.com
fabulousbookmark.com
beat-the.com
guatemala-sailfishing-vacations-charters.com
magie-marketing.com
kingstonliteracy.com
guitaraffinity.com
eurelookinggoodapparel.com
howtolosecheekfat.net
marioncma.org
oliviadavismusic.com
shantelcampbellrealestate.com
shopleborn13.com
topindiafree.com
v-visitors.net
djjky.com
053hh.com
originbluei.com
baucishotel.com
33kkn.com
intrinsiqresearch.com
mariaescort-kiev.com
mymaguk.com
sponsored4u.com
crimsonclass.com
bataillenavale.com
searchtile.com
ze-stribrnych-struh.com
zenithalhype.com
modalpkv.com
bouisset-lafforgue.com
useupload.com
37r.net
autoankauf-muenster.com
bantinbongda.net
bilgius.com
brabustermagazine.com
indigrow.org
miicrosofts.net
mysmiletravel.com
selinasims.com
spellcubesapp.com
usa-faction.com
hypoallergenicdogsnames.com
dailyupdatez.com
foodphotographyreviews.com
cricutcom-setup.com
chprowebdesign.com
katyrealty-kanepa.com
tasramar.com
bilgipinari.org
four-am.com
indiarepublicday.com
inquick-enbooks.com
iracmpi.com
kakaschoenen.com
lsm99flash.com
nana1255.com
ngen-niagara.com
technwzs.com
virtualonlinecasino1345.com
wallpapertop.net
casino-natali.com
iprofit-internet.com
denochemexicana.com
eventhalfkg.com
medcon-taiwan.com
life-himawari.com
myriamshomes.com
nightmarevue.com
healthandfitnesslives.com
androidnews-jp.com
allstarsru.com
bestofthebuckeyestate.com
bestofthefirststate.com
bestwireless7.com
britsmile.com
declarationintermittent.com
findhereall.com
jingyou888.com
lsm99deal.com
lsm99galaxy.com
moozatech.com
nuagh.com
patliyo.com
philomenamagikz.net
rckouba.net
saturnunipessoallda.com
tallahasseefrolics.com
thematurehardcore.net
totalenvironment-inthatquietearth.com
velislavakaymakanova.com
vermontenergetic.com
kakakpintar.com
begorgeouslady.com
1800birks4u.com
2wheelstogo.com
6strip4you.com
bigdata-world.net
emailandco.net
gacapal.com
jharpost.com
krishnaastro.com
lsm99credit.com
mascalzonicampani.com
sitemapxml.org
thecityslums.net
topagh.com
flairnetwebdesign.com
rajasthancarservices.com
bangkaeair.com
beneventocoupon.com
noternet.org
oqtive.com
smilebrightrx.com
decollage-etiquette.com
1millionbestdownloads.com
7658.info
bidbass.com
devlopworldtech.com
digitalmarketingrajkot.com
fluginfo.net
naqlafshk.com
passion-decouverte.com
playsirius.com
spacceleratorintl.com
stikyballs.com
top10way.com
yokidsyogurt.com
zszyhl.com
16firthcrescent.com
abogadolaboralistamd.com
apk2wap.com
aromacremeria.com
banparacard.com
bosmanraws.com
businessproviderblog.com
caltonosa.com
calvaryrevivalchurch.org
chastenedsoulwithabrokenheart.com
cheminotsgardcevennes.com
cooksspot.com
cqxzpt.com
deesywig.com
deltacartoonmaps.com
despixelsetdeshommes.com
duocoracaobrasileiro.com
fareshopbd.com
goodpainspills.com
hemendekor.com
kobisitecdn.com
makaigoods.com
mgs1454.com
piccadillyresidences.com
radiolaondafresca.com
rubendorf.com
searchengineimprov.com
sellmyhrvahome.com
shugahouseessentials.com
sonihullquad.com
subtractkilos.com
valeriekelmansky.com
vipasdigitalmarketing.com
voolivrerj.com
zeelonggroup.com
1015southrockhill.com
10x10b.com
111-online-casinos.com
191cb.com
3665arpentunitd.com
aitesonics.com
bag-shokunin.com
brightotech.com
communication-digitale-services.com
covoakland.org
dariaprimapack.com
freefortniteaccountss.com
gatebizglobal.com
global1entertainmentnews.com
greatytene.com
hiroshiwakita.com
iktodaypk.com
jahatsakong.com
meadowbrookgolfgroup.com
newsbharati.net
platinumstudiosdesign.com
slotxogamesplay.com
strikestaruk.com
trucosdefortnite.com
ufabetrune.com
weddedtowhitmore.com
12940brycecanyonunitb.com
1311dietrichoaks.com
2monarchtraceunit303.com
601legendhill.com
850elaine.com
adieusolasomade.com
andora-ke.com
bestslotxogames.com
cannagomcallen.com
endlesslyhot.com
iestpjva.com
ouqprint.com
pwmaplefest.com
qtylmr.com
rb88betting.com
buscadogues.com
1007macfm.com
born-wild.com
growthinvests.com
promocode-casino.com
proyectogalgoargentina.com
wbthompson-art.com
whitemountainwheels.com
7thavehvl.com
developmethis.com
funkydogbowties.com
travelodgegrandjunction.com
gao-town.com
globalmarketsuite.com
blogshippo.com
hdbka.com
proboards67.com
outletonline-michaelkors.com
kalkis-research.com
thuthuatit.net
buckcash.com
hollistercanada.com
docterror.com
asadart.com
vmayke.org
erwincomputers.com
dirimart.org
okkii.com
loteriasdecehegin.com
mountanalog.com
healingtaobritain.com
ttxmonitor.com
nwordpress.com
11bolabonanza.com