Ecuaciones para localización de sonido multicanal.
Asumir N como el numero de monitores que serán arreglados en círculos alrededor del oyente.
El ángulo Ø como el ángulo azimutal, que comienza en Ø i.
Por ultimo una amplitud proporcional al ángulo A i (i = 1,2,3,....,N).
La dirección de Ø i esta dada por 2 ecuaciones.
1). Si la cabeza es inamovible.
(2a) sin Ø i = 1/ka tan -1 [Σ ( A i sin (ka sin Ø i) / Σ A i cos(ka sin Ø i)
2). Si la cabeza rota en el plano horizontal.
(2b) tan-1 = 1/ka tan -1 [Σ ( A i sin (ka sin Ø i) / Σ A i cos(ka sin Ø i) x
[Σ A2 i + Σ A iA jcos (ka(sin Ø i – sin Ø j / Σ A2 i cos Ø i + Σ A iA jcos (ka(sin Ø i – sin Ø j)cos Ø i)
Donde k = 2Π f / c, f será frecuencia y c = 343 m/s, velocidad del sonido, a = 0.085 m es el radio de la cabeza.
Ø i dependerá de la frecuencia. A muy baja frecuencia ka << 1 ecuaciones 2ª y 2b se simplifican y quedan en esta proporción:
(3ª) sin Ø i = Σ A i sin Ø i / Σ A i
(3b) tan Ø i = Σ A i sin Ø i / Σ A i cos Ø i
Y así, en las 2 ecuaciones Ø i queda independiente de la frecuencia.
El dejar fuera las ecuaciones (2ª) y (3b) están basadas en inteaural diferencia de fase en presión.
Pero, las ecuaciones (2b) y (3b) están basadas en el cambio interaural diferencia de fase en presión que es causado por la rotación de la cabeza y también corresponde con la velocidad de propagación del medio.
Si los resultados de las ecuaciones (2a) y (2b) tienen buenos resultados, entonces ambas presiones y velocidades en las 2 orejas, en un sistema multicanal de reproducción, será idéntica de todas las fuentes. De esta manera el oyente percibirá una distinta y definida reproducción de sonido imagen.
Ahora, si los resultados son diferentes entre las ecuaciones (2a) y (2b), la presión y la velocidad no podrán calzar. Siempre el humano ha respondido a presiones y no a velocidades, Ec. (2a) o Ec. (3a) debería ser usada para calcular Ø i cuantitativamente.
Sin embargo, porque sin -1 Ø i es multievaluado función, y definitivamente los valores de sin Ø i corresponden a los dos ángulos azimutales de la dirección frontal y trasera.
Este dúo, frontal y trasero, da simetría con la cabeza con una frecuencia baja, de esta manera que las ondas de sonidos vienen desde adelante y atrás siendo un resultado idéntico en interaural diferencia de fase.
Antes que las ecuaciones Ec. (2a) y (3a) no fueran sustituidas no se tiene la suficiente información para calcular Ø i completamente.
En la forma de solucionar este problema Ec. (2b) o (3b) puede ayudar a estimar cuantitativamente en algún cuadrante elegido de Ø i siendo localizado de acuerdo con tan Ø i > 0 o < 0.
Es un hecho que la cabeza tiene un grado de ambigüedad para poder resolver en imagen frontal y trasera, sobre todo en baja frecuencia, que es cuando los efectos de ubicación se pierden.
Con esto es obvio que la diferencia entre los resultados de las ecuaciones (2ª) y (2b) dan una imagen de sonido inestable con una ligera rotación de la cabeza causando un largo cambio en Ø i.
En el seguimiento de las Ec. (2a) y (2b) o Ec. (3a) y (3b) serán utilizados para analizar la imagen y dirección del sonido surround 5.1. porque hay simetría izquierda – derecha solo en la área de dirección 0º ≤ Ø ≤ 180º en consideración.
Características y anomalías de la señal mezclada.
El popular método de señal mezclada con el sistema 5.1 multicanal tiene problemas en la mezcla.
La señal tiene que alimentar a un simple monitor que recrea el sonido en alguna especifica dirección o la señal alimenta un par de monitores que ajustado por la amplitud del radio recrea una imagen de sonido en una dirección entre los dos monitores.
Por este fenómeno es que se producen algunas anomalías en el sistema.
Imagen de sonido en dirección del área frontal. (0º ≤ Ø ≤ 30º)
Hay dos maneras de recrear la imagen de sonido en la dirección del área frontal.
1 es por la manera que L – R que usen la típica forma de estereofonía. El resultado ya lo conocemos, así que no lo voy a nombrar acá.
La otra forma es usando L – C mezclando la señal de la siguiente forma:
L = a 1 E 0, C = b 1 E 0, R = LS = RS = 0 (formula 4a).
L2 + C2 = E2 0 (a2 1 + b2 1) = constante (4b).
Donde E 0 es una constante.
Ecuación (4b) representa la necesidad de una igualdad total de energía.
Sustituyendo Ec. (4a) dentro de (3a) y (3b), la imagen direccional en frecuencias bajas es:
sin Ø 1 = ½ (L / L + C) = ½ (d 1 / 1 + d 1) (5a)
tan Ø 1 = (L / ((√3L) + 2C) = d 1 / ((√3 d 1) + 2) (5b)
donde d 1 = L/C = a 1/ b 1 es la amplitud del radio entre las señales de los canales C y L.
Desde estas 2 ecuaciones, si d 1 > 0 (las señales de L y C están en fase), entonces sin Ø 1 > 0 y tan Ø 1 > 0.
Así Ø 1 es localizado dentro del área 0º < Ø 1 < 90º.
Así se puede ver que tanto la cabeza este inamovible rote, tal como d 1 varia, Ø 1 cambia desde 0º a 30º continuamente.
Cuando d 1 → 0 (L → 0), Ø 1 → 0º, y cuando d 1 → ∞ (C → 0), Ø 1 → 30º.
Y también se puede ver que la diferencia entre los resultados de las Ec. (5a) y (5b) es leve, de esta manera, la imagen en el área frontal será estable.
Una ventaja de usar este par de mezclas para recrear la imagen frontal es que hay una alta separación entre los canales.
Antes de allanar el punto de escucha se puede percibir lo estable que es la imagen frontal, imagen que no será movido hacia un monitor cercano debido a la precedencia del efecto.
Por esto es vital el sonido con imagen.
Imagen de sonido en las direcciones laterales. (30º < Ø 1 < 110º)
Para un par de mezclas, la señal es:
L = a2 E0, LS = b2 E0, C = R = RS = 0 (6a)
L2+ LS2= Eº0(aº2 + bº2) = constante. (6b) con º = al cuadrado.
De las Ecs. (3) y (6a) la imagen direccional en bajas frecuencia es:
sin Ø 1 = (0.500 + 0.940d2) / (1 + d2) (7a)
tan Ø1 = (0.500 + 0.940d2) / (0.866 – 0.342 d2) (7b)
donde d2 = LS / L = b2 / a2 es la amplitud del radio entre las señales de los canales LS y L.
Desde esas 2 ecuaciones,
cuando 0 ≤ d 2 < 2.532 o (- ∞ dB ≤ 20 log d2 < 8.1dB), entonces
sin Ø1 > 0 y tan Ø1 > 0.
De esta manera Ø1 es localizado en el área 0º < Ø1< 90º.
Cuando d2 < 2.532 < + ∞ o (8.1 dB < 20 log d2 < + ∞ dB), entonces sin Ø1 > 0 y tan Ø1 < 0. de esta manera Ø1 es localizado en el área
90º < Ø1 < 180º.
La línea continua y puntuada de la figura (que ojala salga) muestra el resultado de las ecuaciones (7a) y (7b) respectivamente.
Si se puede ver que si la cabeza rota, d2 varia desde 0 a + ∞, Ø1 cambia de 30º a 110º continuamente.
Como sea, si la cabeza es inamovible, d2 varia desde 0 a 2.532, Ø1 cambia desde 30º a 54.6º; mientras si d2 varia desde 2.523 a + ∞, Ø1 cambia desde 125.4º a 110º. Esto es anómalo.
Si se puede ver también, dentro del área 54.6º < Ø < 110, la diferencia entre los resultados de la Ec. (7a) y (7b) es considerable, así que la imagen lateral es vaga y inestable.
Especialmente si la cabeza es inamovible es imposible recrear una imagen estable dentro del área 54.6º < Ø < 110º; acá se produce un hoyo.
En otras palabras para usar una mixtura de mezclas, las imágenes laterales del sistema 5.1 son muy pobres.
Es un hecho que los sistemas cuadra fónicos desarrollados en los '70 tienen un similar problema.
Por consiguiente desde el punto psicoacustico, usar las mixturas de mezclas para recrear las imágenes laterales es un error.
Análisis Sonido 3D.
1. Introducción.
La síntesis del audio 3D es ampliamente utilizada en sonido en video juegos como en la música en algunos de los casos.
Ya se ha dicho que el audio 3D funciona con la codificación HRTF que simula procesos acústicos que ocurren naturalmente en un espacio determinado el cual va a producir una interacción entre la atmósfera recreada por el video juego y nuestros oídos.
Este fenómeno es el resultado de reverberaciones y reflexiones con todas las variaciones que pueden llegar a tener.
Muchas formas se han recreado para reproducir el sonido 3D, una de ellas es por medio de fonos, los cuales han sido descartados de este análisis ya que la cercanía de los monitores no permiten sentir con real dimensión los espacios tratados de recrear con los algoritmos 3D, ya que sentiremos un sonido muy cerca, que gana en posicionamiento pero pierde en realismo creando una imagen de sonido en nuestra cabeza y no en un espacio en el cual uno se encuentre dentro.
2. Sonido, reflexiones y Reverberaciones.
Las tecnologías para representar sonido virtual son ocupadas para recrear un espacio ficticio en una sala de entretención.
Ejemplo, el poder simular que el jugador esta dentro de una cueva y sentir el espacio de ella a través del sonido.
La tecnología 3D es solo ocupar un sistema estereo L y R y con los algoritmos recrear dos monitores mas virtuales.
2.1 Recreación Virtual.
La función llamada Funciones de Transferencias Asociadas a Relacionar la cabeza (HRTF) es la encargada de relacionar el sonido originado de la fuente y poder localizarlo en un punto determinado.
El sistema de HRTF tiene que comprender tres elementos fundamentales:
· Función de transferencia al oído izquierdo.
· Función de transferencia al oído derecho.
· Inter-aural tiempo de delay.
Estos tres puntos considerados en las tres dimensiones entre el espacio y el oyente.
2.2 Simulación de reverberaciones y reflexiones.
Sabemos que las reflexiones y las reverberaciones tienen gran influencia en la percepción de las propiedades del sonido y que el radio del sonido directo al radio del sonido reverberante es una poderosa herramienta para saber a que distancia se encuentra una fuente ubicada en algún punto del espacio.
La magnitud de la sala y sus posibles reflexiones son calculadas en base a una hipotética sala a la cual dados estos resultados se le asocia el fenómeno de reverberación.
Cuando esto sucede, recién ahí es cuando se comienza a percibir una imagen virtual de la sala creada por el sonido 3D.
2.3 Imagen virtual de la sala.
Las propiedades de la reverberación de la sala son medidas por métodos de algoritmos 3D ya explicados.
La sala se va armando con los elementos encontrados en el esquema 2 y se van creando los puntos de cada fuente que va a comenzar a interactuar con el medio.
Se miden las diferencias entre el sonido directo y el sonido indirecto, distancias cabeza – monitores con funciones de tiempo.
Con esto, se construye el virtual 3D, que se va ir modificando junto con la situación en la que se encuentre el jugador.
Por ejemplo; si una sala tiene un tiempo de reverberación de 4 segundos, entonces el numero de muestras será dado por 44.1KHz x 4, o sea, 176,400 muestras, que van ha ser emitidos por los dos monitores en distintos tiempos para ir creando la sensación de reverberación.
La tecnología HTRF va ocupando unos filtros para recrear este numero de muestras, en nuestro ejemplo ocupa (2 x 25) filtros para recrear la reverberación, donde 2 x son los monitores L y R, y 25 son la cantidad de filtros, (ecualizadores) que serán ocupados para este efecto.
El computador tendrá un esfuerzo para reproducir este efecto de 3.528 veces mas, que reproducir un sonido normal, esto no es muy practico ocupando solo tecnología DSP.
Este ejemplo es un método llamado, modelo de impulsos, ya que esta cantidad de muestras la va reproduciendo una tras otra.
No es un reproductor flexible, ya que será el escenario donde se encuentre el jugador el que determinara que reflexiones y reverberaciones serán usadas.
Ejemplo; si el jugador se encuentra en una etapa de una gran fabrica, esta etapa tendrá presets de ecualizaciones fijas, que se modificaran según donde se encuentre, por si entra a un baño, pero no en su totalidad solo afectara una parte de ellos no logrando realismo en algunas escenas
3. Rastreo acústico de la onda.
El método de rastreo acústico de la onda ha sido ocupado desde hace mucho tiempo por los ingenieros acústicos para ver el comportamiento de una sala.
Esta técnica es conocida también como trazo de rayos, y lo que busca esta técnica es saber de que forma la onda va ser reflectada y cual va ser su ángulo de incidencia.
Este método se aplica a la onda que es emitida desde la fuente de la sala y aplicar los limites de reflexión que posee la atmósfera donde se desarrolla el video juego.
El esquema 4 representa la forma básica de cómo se trabaja con los rayos y sus proyecciones. (espero que salga)
El oyente se sitúa en el centro, esto es por conveniencia, y lo que se ve es la proyección que daría la fuente derecha, a una distancia r del oyente con un ángulo de azimut q.
La sala tiene un ancho W y una altura l.
El sonido viaja de forma directa desde la fuente al oyente, se produce una fuente virtual fuera del marco, dada por una suma de vectores:
a + b. La reflexión es extrapolada atrás desde el oyente a mas allá de la muralla por la distancia marcada por a. esa posición es denominada como fuente virtual.
Esto es porque es solo una reflexión de primer orden que es la que da la sensación de otra fuente.
Para poder calcular el ángulo azimut que dará la fuente virtual esta dado por la siguiente formula:
q = tan-1 {(w – r senq) / r cos q} Ec.1
y la magnitud, V, es una fracción del sonido directo, esto quiere decir, que la formula para calcular mas fuentes esta dada por:
V = ( r / Ö{(w – r senq)2 + (r cos q2) –1})2 Ec.2
V entonces, son fuentes virtuales que se pueden ubicar a través del espacio. Esta tecnología logra según los fabricantes un sorprendente surround logrado con dos monitores y solo trabajando con la psico-acústica, reflexiones y reverberaciones.
4. Salas virtuales.
El aproximar el modelo y la simulación de la sala acústica se da por prestado que se puede ver que la suma de tiempo, tomada desde las reflexiones que llegan al oyente esta dada por la relación (a + b – r).
Procesador 3D:
En la entrada (input), la señal pasa a través del primer procesador de delay (a + b – r) que corresponde a la suma de sonido directo menos la primera reflexión, para después pasar por un atenuador P que corresponde a la reducción de señal de la reflexión de primer orden causado por el largo de la sala y la posible absorción que esta puede tener.
Esta señal alimenta el nodo de salida (output) y representa en particular la primera reflexión.
También alimenta otro procesador de delay W que corresponde al ancho de la sala y un atenuador Q que corresponde a la señal que se retro alimenta para generar las reflexiones de 2do, 3er,.., n orden.
Acá, la línea de delay corresponde a cuanto tiempo toma a la onda de sonido atravesar el tamaño de la sala y tener alimentación (feedback) que va incorporar atenuación, eso si, por la distancia recorrida va ser afectada la señal por mas reflexiones y su relativa absorción.
Porque 3D es mejor que 5.1, según fabricantes.
Realidad:
Los métodos convencionales que reproducen reflexiones y reverberaciones de forma externa (a través de mas monitores y sin los algoritmos) como el clásico 5.1, dan una imagen fallida por ser un modelo muy simplista.
La relación análoga entre el modelo de imagen y la línea de delay que dan las reverberaciones deben ser dirigidas desde el mundo irreal (mundo video juegos) a nuestro ambiente.
En la realidad, aunque las salas de juegos, son por lo general, "cajas de zapatos" o son las mismas piezas de los jugadores, son lugares que siempre van a fallar en la difusión acústica.
Esto destruye la verdadera imagen que debería exponer un juego 3D.
Espero que les guste y que les sirva para algo!
Jose Luis Fernandez, Ing. en Sonido.
¿No lo tendrias en PDF o algún formato más comodo de leer? :rolleyes:
si, es un analisis que he hecho para mi tesis, lo tengo en word!