Profundidade de bit de áudioEm áudio digital usando modulação codificada de pulsos (PCM - Pulse Code Modulation), profundidade de bit é o número de bits de informação em cada amostra, que corresponde diretamente à resolução delas. Exemplos de profundidade de bit incluem CDs, que usam 16 bits por amostra, DVD de áudio e Bluray, que podem suportar até 24 bits por amostra. A profundidade de bit afeta principalmente o nível de ruído de erros da quantização mais a proporção sinal-ruído (signal-to-noise ratio) e além do alcance dinâmico. Entretanto, técnicas como dithering, modelamento de ruído e sobreamostragem (oversampling) suavizam estes efeitos sem mudar a profundidade de bit. Ela também afeta o bit rate e o tamanho do arquivo de áudio. Para um sinal modulado por código de pulsos (PCM), a profundidade de bit é a única referência significativa. Formatos não-PCM, como os comprimidos com perdas de dados, não têm profundidade de bit associada. Por exemplo, no formato MP3, a quantização é feita usando o domínio da frequência representando o sinal, não com base no domínio do tempo com profundidade de bits relevantes às amostras. Representação bináriaUm sinal PCM é uma sequência de amostras de áudio digital contendo os dados de informação necessários para a reconstrução do sinal analógico original. Cada amostra representa a amplitude do sinal em um ponto específico no tempo, e elas são uniformemente espaçadas nele. A amplitude é a única informação explícita armazenada na amostra, que é normalmente armazenada tanto em números inteiros ou em números com vírgula flutuante, codificada como um número binário com um número fixo de dígitos: a profundidade de bit ou resolução da amostra, que também se refere como tamanho de palavra (word length) ou word size. A resolução indica o número de valores inteiros que podem representar o alcance (possibilidades) de valores analógicos. A resolução dos inteiros binários aumenta exponencialmente enquanto o tamanho de palavra aumenta. Adicionando um bit se dobra a resolução, adicionando dois, quadruplica, e assim em diante. O número de valores possíveis que podem ser representados por um inteiro, pode ser calculado usando 2n, onde n é a profundidade de bit. Enfim, um sistema de 16 bits tem uma resolução de 65.536 (216) valores possíveis [1]. Dados de áudio PCM são normalmente armazenados como números com sinal no formato complemento para dois. Muitos formatos de arquivos de áudio e estações de trabalho de áudio digital (DAW) suportam formatos PCM com amostras representadas por números com vírgula flutuante [2][3][4][5]. Ambos os formatos WAV e o AIFF suportam representações em números com vírgula flutuante [6][7]. Diferentemente de números inteiros, um número com vírgula flutuante é composto de campos separados que matematicamente se relacionam para formar um número racional. O padrão mais comum é o IEEE 754 que é composto de três campos: um bit de sinal que representa se o número é positivo ou negativo, um expoente e um significando que é multiplicado pelo expoente. O significando é representado como uma fração binária de números com vírgula flutuante de base de dois pelo IEEE [8]. QuantizaçãoA profundidade de bit limita a relação sinal-ruído do sinal reconstruído a um nível máximo determinado pelo erro de quantização. A profundidade de bit não tem nenhum impacto na resposta em frequência, a qual é restringida pela amostragem de sinal. O erro de quantização introduzido durante a conversão analógico-digital (A/D) é chamado de ruído de quantização. Não é possível uma representação perfeita de um sinal analógico para digital, pois entre zero e o valor máximo possível, um sinal analógico passa por todos os valores intermediários possíveis (que são infinitos), enquanto o sinal digital só pode assumir um número pré-determinado (finito) de valores[9]. O ruído de quantização é um erro de arredondamento entre o valor da voltagem de entrada analógico para o conversor e o valor digitalizado de saída. O ruído é não-linear e é dependente do sinal de entrada. Em um conversor analógico-digital ideal, onde o erro de quantização é uniformemente distribuído entre do último bit significante (Least Significant Bit - LSB) e onde o sinal tem uma distribuição uniforme cobrindo todos os níveis de quantização, a relação sinal / ruído de quantização pode ser calculada usando: Onde Q é o número de bits da quantização e o resultado é medido em decibéis (dB) [10]. Portanto, áudio digital de 16 bits encontrado em CDs tem uma relação máxima de sinal-ruído de 96 dB e sistemas profissionais de áudio digital de 24 bits, chegam até 144 dB. Assim em 2011, a tecnologia digital de conversão de áudio é limitada em um sinal-ruído de cerca de 123 dB [11][12][13] (efetivamente 21 bits) por causa das limitações no design de circuitos integrados. [nota 1] Ainda, isso aproxima a correspondência com a performance da audição humana [14][15]. Múltiplos conversores podem ser usados para cobrir diferentes alcances do mesmo sinal, sendo combinados juntos para gravar um amplo alcance dinâmico a longo prazo, enquanto ainda são limitados pelo alcance dinâmico de um único conversor no curto prazo, que é chamado "alcance dinâmico estendido" [16][17].
Vírgula flutuanteA resolução das amostras com vírgula flutuante é menos direta que amostras com inteiros, porque valores racionais não são espaçados igualmente. Em representações com vírgula flutuante, o espaço entre dois valores adjacentes é em proporção ao valor. Isso aumenta significativamente a relação Sinal-Ruído em comparação com um sistema de inteiros porque a precisão de um sinal de alto nível irá ser o mesmo assim como a precisão de um sinal idêntico em um nível mais baixo. A troca entre vírgula flutuante e inteiros é que o espaço entre valores racionais grandes é maior que o espaço entre inteiros grandes de uma mesma profundidade de bit. Arredondando uma vírgula flutuante grande resulta em um erro muito maior que arredondar uma vírgula flutuante pequena onde arredondar um número inteiro irá sempre resultar no mesmo nível de erro. Em outras palavras, inteiros têm arredondamento que é uniforme, sempre arredondando o último bit significante para 0 ou 1, e vírgula flutuante tem uma relação Sinal-Ruído que é uniforme, o nível de ruído da quantização é sempre uma certa proporção do nível de sinal[18]. Um ruído de fundo de vírgula flutuante irá aumentar na medida que o sinal aumenta e diminui assim que ele diminui, resultando em variação audível se a profundidade de bit é baixa o suficiente [19]. Processamento de áudioA maioria das operações de processamento em áudio digital envolvem requantização de amostras e portanto introduz erro de arredondamento adicional análogo ao erro de quantização original introduzido durante a conversão analógico-digital. Para evitar erros de arredondamento maiores que o erro implícito durante a conversão A/D, cálculos durante o processamento devem ser feitos com precisão maior que nas amostras de entrada [20]. Operações de processamento digital de sinais podem ser feitas em tanto com precisão de vírgula fixa ou vírgula flutuante. Em ambos os casos, a precisão de cada operação é determinada pela precisão das operações do hardware usado para realizar cada etapa do processamento e não da resolução dos dados de entrada. Por exemplo, em processadores x86, operações com vírgula flutuante são feitas com precisão simples ou precisão dupla e operações com vírgula fixa de resolução de 16, 32 ou 64 bit. Consequentemente, todos os processos feitos em hardware baseado da Intel irão ser feitos com estas limitações independente do formato fornecido. Processadores digitais de sinal com vírgula fixa frequentemente suportam tamanho de palavra específica em função de suportar resolução de sinal específica. Por exemplo, o chip Motorola 56000 usa multiplicadores 24 bits e acumuladores 56 bits para realizar operações de multiplicação acumulativas em duas amostras de 24 bits sem transbordar ou truncar [21]. DitherO ruído introduzido pelo erro de quantização, incluindo erros de arredondamento e perda de precisão introduzida durante o processamento do áudio, pode ser disfarçado adicionando uma pequena quantidade de ruído randômico, chamado "dither" [nota 2], para o sinal antes de ser quantizado. O Dithering adiciona este ruído randômico ao sinal para ser quantizado, que mascara os erros de quantização não-linear no final do processo, gerando muita pouca distorção, com um custo de se ter um ruído de fundo a mais, como um chiado muito sutil. Muitos masterizadores, antes de finalizar algum áudio para uma profundidade de bit mais baixa que a de trabalho (para adaptar ao formato que a mídia final suporta), adicionam algum tipo de ruído randômico que pode ser o ruído branco randômico, o ruído RPDF ou TPDF, que são ruídos com distribuição de probabilidade específica. O Dither recomendado para áudio digital de 16 bit medido utilizando o padrão ITU-R 468, é de cerca de 66 dB abaixo do nível de alinhamento (que é normalmente 0 dBv), ou 84 dB abaixo na escala total digital,[nota 3] a qual é comparável com microfones e ruído de fundo, uma pequena consequência em áudio 16 bit. Áudio digital em 24 bit não requer dithering, assim como o nível de ruído de um conversor digital é sempre mais alto do que o nível necessário de qualquer dither que pode ser aplicado. Áudio nesta quantidade de bits teoricamente pode codificar 144 dB de alcance dinâmico, mas baseado nos datasheets de fabricantes nenhum conversor A/D existente pode providenciar mais que ~125 dB [22]. Dither também pode ser usado para aumentar o alcance dinâmico efetivo. O alcance dinâmico percebido de áudio 16 bit pode ser de 120 dB ou mais com dither modulado, levando vantagem da resposta de frequência da audição humana [23][24]. Alcance dinâmico e headroomAlcance dinâmico é a diferença entre o sinal mais alto e o mais baixo que um sistema pode gravar ou reproduzir. Sem dither, o alcance dinâmico correlata com ruído de fundo da quantização. Por exemplo, a resolução de 16 bits com inteiros permite um alcance dinâmico de 96 dB. Sem a aplicação apropriada do dither, sistemas digitais podem reproduzir sinais com níveis mais baixos do que sua resolução normalmente poderia permitir, estendendo o alcance dinâmico efetivo além do limite imposto pela resolução [25]. O uso de técnicas como sobreamostragem (oversampling) e modelamento de ruído podem estender o alcance dinâmico do áudio amostrado movimentando o erro de quantização para fora da banda de frequência de interesse. Se o nível máximo do sinal é mais baixo do que o permitido pela profundidade de bit, a gravação tem headroom. Usando profundidade de bit maior durante a gravação de estúdio pode fazer o headroom livre enquanto mantém o mesmo alcance dinâmico. Isso reduz o risco de clipping sem aumentar os erros de quantização em baixos volumes. SobreamostragemSobreamostragem é um método alternativo para aumentar o alcance dinâmico de áudio PCM sem mudar o número de bits por amostra [26]. Na sobreamostragem, as amostras de áudio são duplicadas ou mais para a taxa de amostragem desejada. Porque erros de quantização são assumidos para serem uniformemente distribuídos com frequência, muitos dos erros da quantização são deslocados para frequências ultrassônicas e podem ser removidas pelo conversor D/A durante a reprodução de mídia. Para um aumento equivalente a n bits adicionais de resolução, um sinal deve ser sobreamostrado por Por exemplo, um conversor D/A de 14 bits pode produzir áudio de 16 bits a 48 kHz se operado com sobreamostragem de 16×, ou 768 kHz. PCM sobreamostrado, entretanto, troca menos bits por amostra para mais amostras em função de obter a mesma resolução. O alcance dinâmico também pode ser melhorado com sobreamostragem de reconstrução de sinal, sem sobreamostragem na origem. Considere sobreamostragem 16× de reconstrução: Cada amostra de reconstrução pode ser única em que para cada um dos pontos originais na amostra, 16 novos são inseridos, todos tendo sido calculados por um filtro de reconstrução digital. O mecanismo de aumentar efetivamente a profundidade de bit foi previamente discutido, que é, ruído de quantização não diminui, mas o espectro do ruído se espalha 16× da largura de banda do áudio. Nota histórica: O padrão dos CDs foi desenvolvido pela colaboração entre a Sony e a Philips. O primeiro aparelho da Sony tinha um conversor D/A de 16 bits; e o primeiro da Philips tinha dois conversores D/A de 14 bits. Isso causou confusão no mercado e em meios profissionais. Anos depois, um dos jornais de engenharia comercial erroneamente fez uma nota histórica do conversor D/A de 14 bits no dispositivo da Philips que permitia 84 dB SNR, o escritor ou tinha desconhecimento das especificações do aparelho que indicava 4× de sobreamostragem ou desconhecimento da implicação. Isso foi corretamente notado que a Philips não tinha originalmente fornecido conversores D/A de 16 bits na época, mas o escritor não tinha conhecimento do poder do processamento digital de sinal para aumentar a SNR para 90 dB [27]. AplicaçõesProfundidade de bit é uma propriedade fundamental de implementações de áudio digital. Dependendo dos requerimentos da aplicação e capacidade do equipamento, diferentes profundidades de bit são usadas para diferentes usos.
Bit rate e tamanho de arquivoProfundidade de bit afeta o bit rate e o tamanho de arquivo. Bits são a unidade básica de dados usada em computação e comunicação digital. Bit rate refere-se à quantidade de dados, especificamente bits transmitidos ou recebidos por segundo. Em MP3 e outros formatos com compressão, bit rate descreve a quantidade de dados usados para codificar um sinal de áudio digital. Normalmente medido em kb/s [42] Ver também
Notas
Referências
|