?Qu¨¦ hay en un fichero MP3?
Para explicar su contenido hay que mencionar a un buen n¨²mero de personajes y de descubrimientos, porque la tecnolog¨ªa se apoya casi siempre en m¨¢s de una invenci¨®n
Todos hemos descargado alguna vez ficheros de m¨²sica en formato MP3 y los hemos pasado a nuestro reproductor o tel¨¦fono m¨®vil, o los hemos escuchado en streaming desde una p¨¢gina web. Pero, ?sabemos realmente qu¨¦ contiene uno de estos ficheros?
Para explicarlo con claridad, debemos mencionar a un buen n¨²mero de personajes y de descubrimientos, porque la tecnolog¨ªa se apoya casi siempre en m¨¢s de una invenci¨®n. El primero de ellos es el matem¨¢tico franc¨¦s Jean-Baptiste Joseph Fourier (1768-1830), quien demostr¨® que toda funci¨®n peri¨®dica se puede expresar como la suma de funciones sinusoidales de diferentes frecuencias y amplitudes, tal como se muestra en la figura. La aproximaci¨®n es exacta si se dispone de infinitas frecuencias, aunque en las aplicaciones pr¨¢cticas nos contentamos con un n¨²mero finito de ellas. La transformada de Fourier, llamada as¨ª en su honor, es una transformaci¨®n matem¨¢tica que convierte una funci¨®n peri¨®dica en otra funci¨®n en el dominio de las frecuencias, que expresa para cada frecuencia la proporci¨®n con la que la sinusoidal correspondiente contribuye a la funci¨®n original.
Para poder almacenar una se?al de audio en un ordenador hay que convertirla previamente en n¨²meros. Esto se hace mediante un muestreo: se toman las amplitudes de la se?al a intervalos temporales regularmente espaciados y los voltajes resultantes se convierten a n¨²meros en base dos
Los sonidos se pueden representar como funciones continuas en el dominio del tiempo. Un micr¨®fono transforma el sonido en una se?al el¨¦ctrica que var¨ªa en el tiempo (ver figura), llamada se?al de audio. Para poder almacenar una se?al de audio en un ordenador hay que convertirla previamente en n¨²meros. Esto se hace mediante un muestreo: se toman las amplitudes de la se?al a intervalos temporales regularmente espaciados y los voltajes resultantes se convierten a n¨²meros en base dos. Cada muestra se almacena en 16 bits, lo que da una precisi¨®n desde cero a algo m¨¢s de 65.000 para expresar cada voltaje.
Las frecuencias que el o¨ªdo humano puede percibir var¨ªan en un rango de 20 a 20.000 hercios (un hercio es una vibraci¨®n por segundo). Para no perder las frecuencias altas, el muestreo ha de hacerse a una frecuencia como m¨ªnimo el doble de la m¨¢s alta que queramos registrar. Por ejemplo, un grabador/reproductor de CDs utiliza normalmente 44,1 KHz (kilohercios). Un sencillo c¨¢lculo nos dice que un solo segundo de m¨²sica est¨¦reo genera 44.100 muestras, por dos canales, por 16 bits, dando un total de 1,4 megabits por segundo. O bien, un minuto de m¨²sica ocupa 10,6 megabytes en un CD, y una hora, m¨¢s de 600 megabytes. Estos vol¨²menes son demasiado ¡°pesados¡± para transmitirlos por la red. El ¨¦xito del formato MP3 se debe a que es capaz de dividir por 11 el volumen ocupado por las se?ales de sonido, sin perder apenas calidad al reproducirlas por un altavoz.
El siguiente invento es el algoritmo inform¨¢tico llamado transformada r¨¢pida de Fourier, o FFT en sus siglas en Ingl¨¦s, debido a los matem¨¢ticos norteamericanos James Cooley y John Tukey en 1965. Es la versi¨®n discreta y eficiente de la transformada de Fourier: dado un conjunto de n muestras de amplitud de una se?al, nos da las muestras de sus n frecuencias m¨¢s representativas. La transformaci¨®n es reversible: dadas las frecuencias, se pueden recuperar las muestras iniciales sin perder precisi¨®n. Para generar un fichero MP3 a partir de una se?al de audio muestreada por ejemplo a 44,1 KHz, primero se convierte la se?al al dominio de las frecuencias mediante la FFT.
La siguiente aportaci¨®n es debida a la tesis doctoral del ingeniero y matem¨¢tico alem¨¢n Karlheinz Brandenburg en 1989, que propuso un modelo de la percepci¨®n auditiva humana que permit¨ªa prescindir de muchas frecuencias debido a que eran enmascaradas por otras cercanas, dependiendo de sus vol¨²menes respectivos. Su trabajo fue la base del formato MP3 propuesto por el grupo MPEG (Moving Picture Experts Group) de la organizaci¨®n internacional de estandarizaci¨®n ISO en 1993. Tras la conversi¨®n de la se?al de audio al dominio de las frecuencias, se seleccionan un n¨²mero peque?o de ellas (menos de 600) para ser almacenadas en el fichero, sin perder calidad apreciable por ello. Adem¨¢s, se hace de un modo adaptado a la forma de la se?al: en los tramos en que la se?al es m¨¢s simple, se almacena menos informaci¨®n y en los tramos m¨¢s complejos (por ejemplo durante los sonidos de percusi¨®n), se almacena m¨¢s. Esta selecci¨®n es responsable de una parte de la compresi¨®n del fichero. Otra parte de la compresi¨®n tiene que ver con reducir el n¨²mero de bits de las muestras cuando son de una amplitud parecida. En ese caso, se almacena una base com¨²n para un conjunto de muestras y luego las diferencias se codifican en unos pocos bits (usualmente 4). Esta fase se denomina cuantizaci¨®n. Otro ¡°truco¡± consiste en almacenar los dos canales est¨¦reo de una forma un tanto compleja, pero que da lugar a menos informaci¨®n. Si L es la se?al izquierda y R la derecha, se almacena un canal con L+R (es decir, las muestras de L sumadas punto a punto con las de R) y otro con L-R (se restan las muestras de R a las de L). Dado que los dos canales llevan mucha informaci¨®n parecida, el canal L-R tiene muy poca informaci¨®n de frecuencias y se puede comprimir mucho m¨¢s que el L+R.
El ¨²ltimo truco se debe al algoritmo del estudiante del MIT (Massachusetts Institute of Technology) David Huffman en 1952. Es sabido que los caracteres de un texto se almacenan en el ordenador como uno o varios octetos, dependiendo de la codificaci¨®n empleada. Supongamos a los efectos que cada uno emplea exactamente dos octetos, es decir, 16 bits. Sin embargo, en un texto se repiten m¨¢s unos caracteres que otros. Por ejemplo, en espa?ol una E aparece muchas m¨¢s veces que una X. Si en lugar de emplear una codificaci¨®n fija de dos octetos, se asignan unos pocos bits a los caracteres m¨¢s frecuentes y m¨¢s bits a los menos frecuentes, se puede reducir el n¨²mero total de bits y por tanto la longitud del fichero de texto. Huffman ide¨® un algoritmo para hacerlo de forma ¨®ptima supuestas conocidas las frecuencias exactas de los caracteres, lo cual siempre puede lograrse mediante un recorrido inicial del fichero. Cuanta m¨¢s diferencia haya entre las frecuencias, m¨¢s se comprimir¨¢ el fichero. Es frecuente que esta compresi¨®n divida la longitud total por dos o por tres. Adem¨¢s, no se pierde informaci¨®n, porque la transformaci¨®n es reversible de forma exacta. Pues bien, el ¨²ltimo paso de la compresi¨®n MP3 es aplicar el algoritmo de Huffman a las muestras de frecuencias obtenidas tras los pasos anteriores.
Un fichero MP3 se lee t¨ªpicamente a una velocidad de 128 kilobits por segundo (es decir, contiene 1/11 de la informaci¨®n original muestreada a 1,4 megabits/seg), y durante la lectura se lleva a cabo su descodificaci¨®n, la cual, por este orden, realiza los siguientes pasos: a) deshacer la codificaci¨®n de Huffman; b) deshacer la cuantizaci¨®n para obtener muestras de 16 bits; c) rescatar los canales L y R a partir de las se?ales L+R y L-R; y d) realizar la transformada inversa de la FFT y recuperar las muestras temporales de amplitud. Estas son finalmente enviadas a la tarjeta de sonido del ordenador, que reconstruye la se?al continua de audio y la env¨ªa al altavoz.
Ahora, cuando pulsemos el bot¨®n de nuestro reproductor MP3 ya sabremos todo lo que sucede tras las bambalinas. Una vez m¨¢s, debemos inclinarnos ante los ingenieros y matem¨¢ticos que nos han precedido, porque no podr¨ªamos progresar sin los descubrimientos que hicieron otras personas antes que nosotros. Como ya afirmaba Isaac Newton en su ¨¦poca, realmente caminamos a hombros de gigantes.
Ricardo Pe?a Mar¨ª. Catedr¨¢tico de la Universidad Complutense de Madrid del ¨¢rea de Lenguajes y Sistemas Inform¨¢ticos
Cr¨®nicas del Intangible es un espacio de divulgaci¨®n sobre las ciencias de la computaci¨®n, coordinado por la sociedad acad¨¦mica SISTEDES (Sociedad de Ingenier¨ªa de Software y de Tecnolog¨ªas de Desarrollo de Software). El intangible es la parte no material de los sistemas inform¨¢ticos (es decir, el software), y aqu¨ª se relatan su historia y su devenir. Los autores son profesores de las universidades espa?olas, coordinados por Ricardo Pe?a Mar¨ª (catedr¨¢tico de la Universidad Complutense de Madrid) y Macario Polo Usaola (profesor titular de la Universidad de Castilla-La Mancha).
Tu suscripci¨®n se est¨¢ usando en otro dispositivo
?Quieres a?adir otro usuario a tu suscripci¨®n?
Si contin¨²as leyendo en este dispositivo, no se podr¨¢ leer en el otro.
FlechaTu suscripci¨®n se est¨¢ usando en otro dispositivo y solo puedes acceder a EL PA?S desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripci¨®n a la modalidad Premium, as¨ª podr¨¢s a?adir otro usuario. Cada uno acceder¨¢ con su propia cuenta de email, lo que os permitir¨¢ personalizar vuestra experiencia en EL PA?S.
En el caso de no saber qui¨¦n est¨¢ usando tu cuenta, te recomendamos cambiar tu contrase?a aqu¨ª.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrar¨¢ en tu dispositivo y en el de la otra persona que est¨¢ usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aqu¨ª los t¨¦rminos y condiciones de la suscripci¨®n digital.