Mitos de Audio y DAW wars (En español)

#1 por vidalsh el 10/09/2010
Mitos de Audio y DAW wars (secuenciadores)

Tres cosas que usted necesita saber acerca de la calidad de audio:

1) Una investigación ha demostrado que la distribución de música a 16 Bit @ 44.1 kHz (el estándar de un CD) es indistinguible de la de 24 bits 192 kHz, esto se llevo a cabo con una muestra que fue escuchada por más de 550 personas. En otras palabras, más bits y mayores rangos de bits no van a mejorar la calidad de sus pistas.

2) Hay muchas trampas que pueden confundir a los músicos jóvenes (o principiantes) al comparar el audio de dos DAW´s, asegúrese de conocerlos bien y saber lo que son. (Lo explicaremos mas adelante)

3) El mundo está lleno de publicidad / marketing, tratando de convencernos en que las especificaciones del equipo pueden sustituir el talento y el trabajo duro. Nada más lejos de la realidad! La interpretación es siempre más importante que las condiciones técnicas. La interpretación y desempeño depende del dominio técnico que se tenga de los instrumentos y conocimientos musicales, (voces, orquestación, arreglos) y las decisiones que se tomen al momento de la mezcla. Todo esto se encuentra bajo su propio control y tiene poco que ver con el software DAW que utiliza o los plugins que usted tenga para trabajar.

Calidad del sonido, "La pregunta eterna"

Basta con pasar un tiempo en cualquier foro dedicado a producción musical y software de audio digital (DAW) para encontrar temas de usuarios que realizan afirmaciones sin fundamento sobre la calidad de audio de diversos (DAW). Los “protagonistas” dirán que un determinado DAW es clara y audiblemente superior a otro. Con franqueza, eso es una tontería.

Cualquier DAW que utiliza 32 bits de procesamiento interno de punto flotante será capaz de procesar audio con una calidad en la que los errores residuales serán muy por debajo de los límites de la percepción auditiva humana.

A esto lo llamamos "transparencia". Es decir, la capacidad de pasar Audio a través del programa sin ningún tipo de modificación. Hoy en día, desde una perspectiva de la “transparencia”, todos DAWs son creados iguales y son capaces de jugar o procesar audio sin algún efecto audible causado por el "motor de audio.

Entonces, todas estas percepciones acerca de las diferencias en la calidad de entre uno y otro DAW provienen particularmente de "famosos" productores e ingenieros de grabación que enlazan las virtudes de la calidad del audio de un DAW o formato de audio en 24 bits @ 96 kHz? Sin duda, estos chicos saben de lo que hablan. La respuesta es un poco más compleja:

En primer lugar, los ingenieros de grabación y gente famosa casi nunca evalúan las diferencias entre DAWs o formatos de audio de alta calidad bajo condiciones controladas. Eso resulta en que el número de comparaciones estadísticamente significativas bajo condiciones de sonido aislado, en ambientes de audio controlado sean contadas..

Lo que suele ocurrir es que las empresas envían sus productos de manera gratuita a todas las personas famosas en la industria que puedan encontrar. Este grupo selecto de personas es el que aparece en la propaganda al comercializar los productos. Ahora no nos malinterpreten, estas personas famosas realmente nos hacen creer que el producto es fantástico, pero es una impresión subjetiva y difícilmente califica como prueba de que el producto es mejor que otros en el mercado o incluso con respecto a lo que había antes.

Una segunda razón es que se muestran allí muchas configuraciones y opciones que mejoran el audio en vivo y la grabación. Es muy probable que cualquier DAW “fuera de la caja” logre exactamente el mismo sonido. La siguiente lista le ayudará a entender lo que son estos ajustes y opciones, para darle una perspectiva más amplia en lo que realmente puede hacer la diferencia y esperamos que pueda ayudarle a protegerse contra la máquina del marketing:

Live Mixer interpolation / Interpolación de la mezcladora interna

Esto aplica a los canales de sampler cuando se transponen los samples de su nota de raíz. Los instrumentos plugin pueden tener sus propios ajustes de interpolación (en vivo vs rendered) Cuando las tasas de sampleo >"sample-rates" son convertidas como cuando se aplica pitch shift a un sample el secuenciador (DAW) puede necesitar datos del sample entre los puntos existentes. La interpolación es hacer una predicción adecuada de la cual el nivel debería de ser para reducir un problema conocido como "errores de cuantizacion" y su resultante que es el "aliasing" y ruido de cuantizacion.

Rendered audio settings / Ajustes de audio

Incluyen WAV Bit-depth setting, MP3/OGG Bit-rate setting e interpolación del sampler. El formato WAV Bit-depth (16, 24 ó 32) no tendrá mucho impacto en el sonido, sin embargo, los formatos “comprimidos” (mp3 & ogg) definitivamente añadirán un poco de “distorsión” en el sonido cuando se utilicen rangos menores a los 190 kbps. En realidad estos formatos son para la distribución de la música, su sonido puede ser espectacularmente bueno a niveles de 240 kbps Bit o más. La interpolación del Sampler es la misma característica que se discute en la sección de la mezcla, pero aquí se aplica a los archivos "rendereados/grabados".Si escucha diferencias entre el sonido en vivo y el rendereado, entonces asegúrese de que la configuración de la grabación y la de la interpolación en vivo coincidan.

Decisiones en la mezcla - (Levels and Mixing). Aquí es donde la magia sucede. Si puede mezclar bien, su música probablemente sonara grandiosa sin importar las especificaciones del DAW. Mezclar es un oficio que lleva años aprender, justo como cualquier instrumento musical. Así que si sus mezclas suenan mal comparadas con aquellas comerciales hay un 99.99% de probabilidades de que esa sea la razón del porque. EL DAW no causa los errores, sino usted. También tenga en consideración que no se necesita ninguna otra herramienta sofisticada para mezclar, salvo un bonito EQ Paramétrico un buen Compresor/Limitador y las funciones básicas de Mezclador. Todos esos plugins de "masterización" son herramientas útiles que pueden ahorrar tiempo, pero no sustituyen la experiencia y el flujo de trabajo metódico. Si quiere tener cierta idea de como el sonido por si mismo puede influenciarle emocionalmente, cargue el Vst "Harmless" en un proyecto nuevo ó predeterminado y comience a crear algo a través de las PRE configuraciones (presets). Algunos suenan delgados y simples, otros van a hacer volar su imaginacion. Todo se trata de los sonidos mezclados junto con su desempeño, no se trata de las especificaciones técnicas del DAW. Ahora imagine cuan difícil es separar el desempeño de los aspectos técnicos del DAW cuando se refiere a tu reacción emocional en una plataforma. Con demasiada frecuencia, una gran mezcla, un buen desempeño o la programación de "patches" se confunde con el diseño de un producto o sus especificaciones.

Volumen / Loudness

En una comparación de sonido, más nivel de volumen siempre es "mejor" que menos. Cuanto más nivel de volumen tenga uno de los dos audios por idénticos que sean el de más nivel parecerá tener más cuerpo y más claridad en las frecuencias altas. Esto viene de la forma en que nuestros oídos trabajan, no tiene nada que ver con el audio.

Usted necesita ser muy cuidadoso en esto, pequeñas diferencias en el nivel de volumen pueden no ser evidentes para usted como "más fuertes", sino como "más claridad" en el sonido, tal como se explica anteriormente.

Por regla general, 1 dB es aproximadamente la mas pequeña diferencia de nivel que los escuchas pueden detectar en una mezcla (~ 0,5 dB escuchada en un ambiente de laboratorio), Así que si usted esta comparando sonidos deben tener una precisiones de 1dB. Aparte de las decisiones básicas en la mezcla hay una serie de razones por las cuales el sonido rendereado/grabado desde cierto DAW puede tener un nivel de volumen más bajo ó más fuerte (según la configuración) en comparación con el mismo audio grabado desde otro DAW.

Los Plugins trabajan diferente / Plugins behaving differently

Algunos plugins simplemente suenan mal o hacen ruidos extraños cuando se usa con la configuración incorrecta. Esto confunde a muchas personas cuando graban el mismo sintetizador desde dos DAWs diferentes y comparan las formas de onda con un microscopio. Los sintetizadores por lo general tienen alguna asignación al azar y / o de funcionamiento libre en los osciladores (es decir, la fase de la onda va a cambiar en función al momento de iniciar la nota), el punto es que la mayoría de los sintetizadores no producen la misma forma de onda dos veces. Asegúrese de desactivar cualquier configuración de aleatorización y de enviar las mismas notas con el mismo rango de "velocitys" en cada una junto con las mismas configuraciones en su modulación. Una mejor estrategia aquí es utilizar un archivo WAV como fuente de prueba, de esa forma el sonido será idéntico antes de ser exportardo con cada uno de los DAW.

El Marketing lo ha influenciado

Así es. El audio digital es sólo una serie de números. Las computadoras se suman a los números de una forma bien entendida y predecible, si no fuera así, tendríamos satélites "lloviendo" del cielo sobre nosotros constantemente. Lo que queremos decir es que son matemáticas puras (sumar, restar y dividir) no hay magia en esto, no hay secreto alguno que un desarrollador de Daw sepa que otro no.

El Dithering y la interpolación se entienden bien y hay un montón de opciones en la mayoría de los DAWs para tener el control sobre ellos. Pero entienda, que los proveedores de consumidores y profesionales en equipos de audio están fuertemente interesados en convencerle de lo que necesita para actualizarse a lo mas reciente y novedoso en equipo ó formato, así es como ganan dinero, venta de equipamiento basado en las especificaciones. La calidad del sonido dejó de diferenciar significativamente a los DAWs una vez que fue posible la resolución de 32 bits de procesamiento flotante interno.

El efecto de un marketing (Lifetime) ha sido muy poderoso, consideremos tres aspectos asociados al Bit-depth y rango de muestreo (sample rate): DAW bit depht - cualquiera que haya usado una calculadora sabrá que cuando realiza operaciones matemáticas se tienen muchos decimales por lo que se obtienen errores de redondeo (rounding errors) y estos errores se acumulan en los decimales menos importantes o significativos. Lo mismo ocurre al procesar audio digital, si tiene números de 16-bits representando la información, estos errores pueden colarse en el espectro de audio, especialmente en pasajes musicales muy suaves o tranquilos. Un formato (32-bit floating point) permite que operaciones matemáticas sean realizadas sobre el audio sin que los (rounding errors) sean audibles. Antes de que pregunte, no, 64 bits no es subjetivamente mejor. Sí, hay algunas circunstancias excepcionales que pueden ser elaboradas para crear diferencias audibles en un formato a 32 bits flotantes de punto, lo mismo puede decirse de el formato a 64 bits float, pero estos casos no pueden considerarse como un factor determinante en la percepción de "calidad".

Electrónica

El mejor circuito electrónico de análogo a digital que actualmente es posible implementar en la venta de comercio profesional de equipo de audio es equivalente como mucho a 20 Bit. Un rango dinámico o 120 dB. Si, todas las grabaciones de 24 bit son en realidad de entre 18 y 20 bits en el mundo real de la precisión, una vez que han sido destrozados/procesados por los mejores convertidores en la temperatura ambiente de la electrónica, usted puede comprar. Lo que esto significa es que incluso un archivo de 24 bits sobrepasa la capacidad de nuestros productos electrónicos para reproducirlo, el ruido inherente a las resistencias y condensadores electrónicos de resoluciones restantes. Las frecuencias de muestreo (Sample rates), por el contrario puede ir casi tan alto como usted quiera, pero como hemos visto en el estudio anterior, más de 44.1 kHz es una pérdida.
Es hora de dejar de preocuparse por las especificaciones técnicas de aplicaciones musicales como motor de la "calidad" y concentrarse en las cosas en esta lista que importan más, como la mezcla y el rendimiento.

El eslabón más débil

La audición humana. Seguramente archivos de 24 bits 196 kHz wav suenan superior a los de de 16 bits 44.1 kHz wav utilizada en los CDs? Prepárese, usted podría entrar en shock! El estudio más grande y mejor realizado hasta la fecha (ver el video de referencia más abajo) muestra que no hay ninguna diferencia audible entre la "alta gama - high-end" de los formatos de audio a 24 bit @ 192 kHz y 16 bits 44.1 kHz (estándar de un CD). Un artículo fácil de leer habla sobre esta investigación, se puede leer en el siguiente enlace; The Emperor's New Sampling Rate

Lo que encontraron

En una muestra con mas de 554 oyentes que incluyó a profesionales, jóvenes oyentes y población general (apreciando audio de alta frecuencia), los que identificaron correctamente el audio de mayor calidad fueron 276 personas = 49.8%. El mismo número se obtendría si arrojara una moneda por 554 veces e hiciera esta misma labor con monos sin entrenamiento. En resumen, 16 bits de sonido 41.1 kHz se puede distinguir de ~ 24 Bit @ 192 kHz. Sí, 32 bit float es importante para el procesamiento de audio en un DAW, pero una vez que llega el momento de convertir ese audio en un formato útil para la distribución y el consumo humano, simplemente no puede mejorar de manera significativa en el estándar de CD.


Usted ha influido en si mismo

Usted simplemente no puede hacer una comparación objetiva del audio de dos fuentes, A y B, si conoce la fuente que esté escuchando en cada momento. No puede olvidar que psicólogos perceptivos realizaron esto hace más de 100 años y desarrollaron muchos métodos útiles para trabajar a su alrededor. En particular, el experimento de "escuchar a ciegas" con un indicador de respuesta objetiva. Pídale a un amigo que reproduzca las dos fuentes en orden al aleatorio por pares. Su tarea es simplemente identificar a la fuente A y B, nada más y nada menos. Si usted puede distinguir la fuente A vs B, después de 8 veces o más en un orden aleatorio de 10 pares, entonces puede que sea capaz de distinguir alguna diferencia. Si no, es probable que usted este adivinando. Esta es probablemente una de las pruebas más esclarecedoras cualquier ingeniero de audio-puede hacer, usted aprenderá mucho sobre la percepción y la capacidad para oír cosas de esta manera. Invariablemente es mucho menos sensible que lo que pensamos. Como el sentido de infalibilidad que tenemos en nuestra propia percepción es tan fuerte, tenemos un ejercicio para usted:

Un experimento

Grabe los mismos ~ 5 segundos de un proyecto en un archivo mp3 a 320 kbps y otro en formato de 16 bits 44,1 kHz WAV (CD), luego haga 30 comparaciones a ciegas entre A y B. Esto significa que no van a saber si su ayudante le está reproduciendo el wav o mp3. También deben evitar el contacto visual con ellos y no recibir ninguna información sobre lo que están haciendo hasta que el experimento se complete. El ayudante debe escribir una lista de las 30 comparaciones asignadas en orden aleatorio al reproducirle las muestras (wav vs mp3 o mp3 vs wav) ellos deberán asegurarse de que usted escuche 15 mp3 vs wav y 15 wav vs mp3, 30 reproducciones en total en una secuencia mezclada. No es necesario hacerlas todas a la vez, si necesita un descanso hágalo, pero no consulte a su ayudante sobre lo que esta haciendo. Su tarea es simplemente para identificar el archivo wav (que suene mejor). Para poder convencer a un científico en que usted puede distinguir las muestras, es necesario identificar el archivo del wav al menos 20 veces de cada 30.

Ejemplo del Teorema de los infinitos monos

Los “monos sin entrenamiento” en el experimento de los 24 bits 96 kHz identificaron el archivo en wav correctamente en un total de 15 oportunidades al azar. Seguramente, como el mp3 es inferior al formato de CD, usted puede lograr 20 identificaciones correctas o por lo menos logro acertar más veces que el mono sin entrenamiento?

La tarjeta de sonido o Windows mixer y Windows Media Player

Asegúrese de no tener EAX (Environmental audio extensions) es decir; compresores o configuraciones en la EQ de la tarjeta de sonido o en la configuración de Windows. Profundice en ello, a veces están bien escondidas en las opciones "avanzadas" o en algunas pestañas.

En algún momento a finales de 1990 nos trasladamos más allá del punto en que las mejoras tecnológicas de "fidelidad" dejaron de hacer cualquier diferencia significativa a la calidad acústica de la música que producimos. Además, con las guerras de sonoridad de los años 2000 y la adopción generalizada del formato ligero mp3 como un estándar de distribución de música, está claro que la calidad del audio ha ido hacia atrás por un tiempo, pero la gente sigue disfrutando de su música. En conclusión, los dejamos con unas palabras del fotógrafo Vernon Trent;

"Los aficionados se preocupan por el equipo, los profesionales se preocupan por el dinero, los maestros se preocupan por la luz. Yo solamente tomo fotografías"

Referencias

Meyer, E. Brad and David R. Moran. Audibilidad de un CD-Standard A/D/A Loop insertado en una reproducción de audio en alta resolución, Revista de la Audio Engineering Society, Septiembre. 2007, pp. 775-779.

Mitos Audio Workshop, Sociedad de Ingeniería de Audio 2009 / Audio Myths Workshop, Audio Engineering Society 2009

Finalmente, si usted tiene un rato libre, aquí hay un video que bien vale la pena ver, Ethan y presentadores cubren muchos de los temas mencionados anteriormente, incluyendo los efectos placebo en el audio, volumen vs calidad "estafa", equipo, dithering, tarjetas de sonido caras vs baratas y mucho más...



Usted puede aprender más sobre AES en el website: Audio Engineering Society (AES)

Articulo escrito por - IMAGE LINE Team.
Subir
#2 por Pickup el 10/09/2010
Ciertamente con el procesamiento de imágenes sucede lo mismo, tan solo se manejan números (bits). Pero aunque un monitor de imagen solo es capaz de representar 8-bit por canal (RGB) y el ojo humano no sabría distinguir más allá de 256 valores de gris distintos, en el mundo del procesamiento de imagen calcular los datos a la mayor profundidad de bits posible es vital, porque algunos algoritmos y transformaciones complejas no arrojarán buenos resultados a menos de 32-bits enteros (o lo que es lo mismo, 4.294.976.296 valores distintos) ya que necesitan representar un rango dinámico muy elevado y los errores que se producen por redondeo generarán artefactos.

Con el sonido pasa lo mismo, el oído no es capaz de distinguir más allá de una profundidad dada de bits, pero quizás ahora o en el futuro existan transformaciones que requieran más allá de 32-bit en punto flotante, no para representar el espectro audible, si no para calcular internamente dichos algoritmos.

Salu2,
Subir
#3 por vidalsh el 10/09/2010
si, pero los algoritmos correctos ya estan hechos...algunos son correctos, no todos...

y si luego quieres usar tropecientos mil bites cuando la cosa avance, el algoritmo principal le va a dar igual, esta ya hecho de antemano por mucho que avance la cosa sera un simple algoritmo...

si total, el oido humano no va a poder diferenciarlo, al igual que lo que tu planteas del ojo humano...

lo que me lleva a pensar si el ser humano se esta haciendo tan "vago" como para despreciar dos sentidos, como la vista y el oido, simplemente porque ya no le son necesarios para la supervivencia...

no nos estaremos atrofiando?

esta si que es jodia jejeje?
Subir
#4 por Pickup el 11/09/2010
Imagina un algoritmo que trabaja de forma iterativa mezclando la señal original con la procesada en intensidades preestablecidas, pero manejando valores dentro del rango real normalizado, donde el cero es la frecuencia más baja del espectro audible y el uno la más elevada. Todos los valores intermedios en el espectro son representados pues con decimales.

Vamos a suponer que este algoritmo ha de dividir entre un valor constante a cada iteración un conjunto de datos donde existen un número indefinido de valores máximos dentro del espectro audible. El resultado a menudo arrojará un resultado con decimales. Como no es posible representar valores intermedios entre números enteros se producirán errores de redondeo. O lo que es lo mismo: pérdida de información. Si a esto sumamos que la transformación es iterativa, pues un algoritmo puede llegar tener problemas trabajando a una profundidad de bits concreta.

Sin embargo si se realiza el mismo cálculo a una profundidad de bits mayor, resulta que los errores por redondeo serán mucho más despreciables, incluso con un número muy elevado de iteraciones.

Por lo tanto no hay que confundir la profundidad de bits requerida para representar el espectro audible en la que 16-bit pueden ser suficientes, a la cantidad de bits que necesita trabajar un algoritmo concreto para que éste sea efectivo.

Ciertamente desconozco el funcionamiento de los algoritmos que se utilizan para procesar el sonido... Pero de lo que sí estoy seguro es que en ambos casos (imagen y sonido) se manejan igualmente números.

Salu2,
Subir
#5 por luismars el 11/09/2010
Lo de grabar a 24 bits 96 o 192kHz, más que por la calidad de audio original, se hace por la suma de errores en las altas frecuencias a la hora de mezclar y por que la relación señal-ruido es mejor.

Todo puede sonar muy bien y muy bonito si no se sabe exactamente con que se compara.
Subir
Respuesta rápida

Regístrate o para poder postear en este hilo