Por qu¨¦ muchos datos empiezan por 1
La ley de Benford se?ala que, en gran variedad de contextos, aproximadamente un tercio de los datos num¨¦ricos tienen por primera cifra el 1
De los 179 municipios de la Comunidad de Madrid, m¨¢s o menos un tercio (54, exactamente) tienen la propiedad de que su n¨²mero de habitantes empieza por 1. Este es un ejemplo de la llamada ley de Benford, que se?ala que, en muchos conjuntos de datos num¨¦ricos de la vida real, alrededor del 30% de los datos tienen un 1 como primera cifra.
La ley se remonta a 1880, cuando el astr¨®nomo estadounidense Simon Newcomb se dio cuenta de un fen¨®meno curioso al manipular un libro de tablas de logaritmos: las primeras p¨¢ginas, es decir, aquellas que correspond¨ªan a n¨²meros cuya primera cifra es 1, estaban mucho m¨¢s desgastadas que las dem¨¢s. La observaci¨®n de Newcomb cay¨® relativamente en el olvido hasta que Frank Benford, un ingeniero y f¨ªsico estadounidense, la redescubri¨® en 1938, prob¨¢ndola en 20 conjuntos de datos de origen variopinto, como el n¨²mero de habitantes de 3259 municipios de Estados Unidos, la masa molecular de 1800 sustancias o los n¨²meros que aparec¨ªan en 308 fasc¨ªculos de Reader¡¯s Digest. Entonces, la ¡°ley del primer d¨ªgito¡± de Newcomb pas¨® a ser conocida como la ¡°ley de Benford¡±.
Sin embargo, no todos los conjuntos de datos siguen la ley de Benford. Por ejemplo, los n¨²meros de calzado claramente no la cumplen, ni tampoco se aplica a datos que proceden de procesos asociados al azar, como los n¨²meros premiados en la Loter¨ªa de Navidad. As¨ª que no te preocupes si el d¨¦cimo que compraste no empieza por 1: la probabilidad de que salga tu n¨²mero sigue siendo ¨ªnfima, pero independiente de la primera cifra.
Aunque no nos facilite ganar la loter¨ªa, la ley de Benford aparece en contextos muy diversos: n¨²meros de calle, precios de acciones, longitud de los r¨ªos, superficies de pa¨ªses, etc. Pens¨¢ndolo un poco, es f¨¢cil darse cuenta de que esos datos tienden a empezar con m¨¢s frecuencia por uno: por ejemplo, al considerar los n¨²meros de portal de todas las calles de Espa?a, much¨ªsimas calles son ¡°peque?as¡± ¨Ctienen entre 10 y 20 n¨²meros¨C, y es relativamente raro que una calle ¡°larga¡± ¨C de m¨¢s de 100 n¨²meros¨C tenga m¨¢s de 200 n¨²meros.
La ley de Benford aparece en contextos muy diversos: n¨²meros de calle, precios de acciones, longitud de los r¨ªos, superficies de pa¨ªses...
Como regla general, se cumple la ley de Benford con datos que representan magnitudes sin l¨ªmites prefijados (longitudes, poblaciones, etc.); adem¨¢s, la aproximaci¨®n a la ley es mayor cuanto m¨¢s sean los ¨®rdenes de magnitud que cubran los datos. En este sentido, la ley de Benford es pariente de la distribuci¨®n normal, o campana de Gauss, que aparece de manera natural en todo tipo de fen¨®menos estad¨ªsticos.
De forma precisa, la ley de Benford se formula en t¨¦rminos de logaritmos (en base 10): decimos que un conjunto de n¨²meros satisface la ley de Benford si la probabilidad de que un miembro del conjunto empiece por la cifra c es logaritmo de (c+1) ¨C logaritmo de c. El logaritmo de un n¨²mero positivo N ¨Cque denotamos log (N)¨C es el exponente al que hay que elevar 10 para que el resultado sea N. As¨ª, el logaritmo de 1000 es 3 (10^3= 1000), el de 10 es 1 (10^1= 10) y el de 1 es 0 (10^0= 1). Cada n¨²mero real positivo tiene un logaritmo, que es a menudo un n¨²mero irracional, por ejemplo, log(2) = 0,3011...
Adem¨¢s, los logaritmos tienen la importante propiedad de que ¡°transforman los productos en sumas¡±: log(a*b) = log(a) + log(b). Por tanto, si multiplicamos un n¨²mero por una potencia de 10, la parte decimal de su logaritmo no cambia. Por ejemplo: log(2,37) = 0,3747¡ y log(237) = log(100*2,37) = log(100) + log(2,37) = 2 + 0,3747... As¨ª, todos los n¨²meros de la forma log(2,37*10^n), para todo entero n, tienen como parte decimal log(2,37).
Adicionalmente, como la funci¨®n logaritmo es creciente ¨Ces decir, si un n¨²mero es menor que otro, el logaritmo del primero es menor que el del segundo¨C, entonces podemos asegurar que un n¨²mero empieza por la cifra c exactamente cuando la parte decimal de su logaritmo est¨¢ entre log(c) y log(c+1). Por tanto, la probabilidad de que un n¨²mero empiece por c es la misma que la de que la parte decimal de su logaritmo est¨¦ entre log(c) y log(c+1), es decir, que est¨¦ en el intervalo (log(c), log(c+1)), cuya longitud es log(c+1) - log(c).
As¨ª que, en un conjunto que cumpla la ley de Benford, la probabilidad de que un elemento empiece por 1 es log(2) ¨C log(1) = 0,3011... De la misma manera,la probabilidad de un n¨²mero que empiece por 8 es muy peque?a, en concreto log(9) - log(8) = 0,0511... Es decir, el 30% de los n¨²meros empezar¨¢n por 1, pero solo un 5% empezar¨¢n por 8.
Aparte de ser un fen¨®meno curioso y muy com¨²n, la ley de Benford tiene tambi¨¦n aplicaciones a la vida real. Por ejemplo, si sabemos que las toneladas de CO2 expulsadas a la atm¨®sfera por las empresas de Espa?a se ajustan a la ley de Benford, y que el 15% de los datos de emisiones proporcionados por la empresa Toxic&Co empiezan por 8, entonces tendr¨ªamos razones para sospechar que esta empresa est¨¢ proporcionando datos falsos. Por supuesto, no ser¨ªa una prueba definitiva, pero s¨ª una indicaci¨®n de que merece la pena investigar el caso.
Javier Aramayona es cient¨ªfico titular del Consejo Superior de Investigaciones Cient¨ªficas en el Instituto de Ciencias Matem¨¢ticas (ICMAT)
?gata A. Tim¨®n G. Longoria es responsable de Comunicaci¨®n y Divulgaci¨®n del ICMAT
Caf¨¦ y Teoremas es una secci¨®n dedicada a las matem¨¢ticas y al entorno en el que se crean, coordinado por el Instituto de Ciencias Matem¨¢ticas (ICMAT), en la que los investigadores y miembros del centro describen los ¨²ltimos avances de esta disciplina, comparten puntos de encuentro entre las matem¨¢ticas y otras expresiones sociales y culturales y recuerdan a quienes marcaron su desarrollo y supieron transformar caf¨¦ en teoremas. El nombre evoca la definici¨®n del matem¨¢tico h¨²ngaro Alfred R¨¦nyi: ¡°Un matem¨¢tico es una m¨¢quina que transforma caf¨¦ en teoremas¡±.
Edici¨®n y coordinaci¨®n: ?gata A. Tim¨®n Garc¨ªa-Longoria (ICMAT)
Puedes seguir a MATERIA en Facebook, Twitter, Instagram o suscribirte aqu¨ª a nuestra newsletter