Melhor das Aulas_Todas

Marcelo B Santiago

0 followers

00:00-48:31

Nothing to say, yet

Voice Overspeechclickingnarrationmonologuemale speech

AI Mastering

Transcription

Sampling is the process of discretizing time, while quantization is the process of discretizing amplitude. Quantization is the result of sampling, where a continuous analog signal is converted into discrete digital values. Digitalization is the conversion of analog information into binary values. The number of bits used for quantization determines the resolution of the digital signal. Cameras and printers use pixels to represent images, and the resolution is determined by the number of pixels. The RGB color model is based on the additive combination of red, green, and blue. The CMY color model is based on the subtractive combination of cyan, magenta, and yellow. The human eye is more sensitive to luminance (brightness) than to chrominance (color). The YCbCr color model is commonly used for representing colors in digital images and videos. Luminance requires more bits for encoding compared to chrominance. The human eye is less sensitive to blue compared to other primary colors. In pract Textos que são chave, vamos iniciar aqui, amostragem tem a ver com tempo discreto e quantização tem a ver com amplitude discreta. A quantização é a correspondência de uma quantidade analógica consequência de bits e a quantização ocorre a partir da amostragem, ou seja, em intervalos de tempos iguais eu tenho a minha amostragem, que vai levar a quantização. Novamente outras frases chave, analógica tem a ver com intensidade, número real. Valores binários são dígitos, números inteiros. O processo de digitalização é um processo de conversão da informação analógica para valor binário, ou seja, analógico que é intensidade, número real, eu passo para valores binários, dígitos e números inteiros. A amostragem é um tempo discreto e quantização é uma amplitude discreta. Signos da digitalização, armazenamento, preservação da informação, fiel e idêntica, manipulação, programas, extensa gama de aplicações. Sinal real analógico é representado por um sinal senoidal, ele é perfeito, uma perfeita senoide e um sinal amostrado e quantizado, ele é aquela senoide como se fossem umas escadinhas, é o senoide de escadas, que é o sinal amostrado e quantizado. Câmeras digitais, nós estamos falando em megapixels, impressoras e scanners, estamos falando em DPI, que é Dots Per Inch, quando se fala em resolução, se fala em número de pixels por unidade de espaço ou área, importante agora, um bit, ele representa a imagem preto e branco, puros, tipo fax, ok, aqui a gente está falando em codificação de cores para pixel, então um bit é uma imagem preto e branco, puro, tipo fax, ok, um byte seria 256 tons de cinza, que é 2 elevado a oitava, é tipo uma TV preto e branco, dois bytes já são 64 mil cores, que é 2 elevado a 16, selecionadas de uma paleta, três bytes, é um byte para cada cor, são 16,7 milhões de cores, ok, pixel é uma amostra da imagem original, um pixel é o menor elemento de informação em uma imagem, quanto mais pixels se usa para representar uma imagem capturada por algum dispositivo mais próximos ela se assemelha à imagem original, quando se fala em resolução espacial, se fala em número de pixels em uma imagem, quando se fala em número de elementos de sensor de imagem, se fala em neologismo sem seu, quando se fala em número de elementos de imagem em exibição digital, a gente está falando então em artes, relógios, indicadores de temperatura e etc, qual a diferença entre pixel e sensor? Nas câmeras temos algo semelhante aos pixels, mas são diferentes, pois os pixels de imagem saem da imagem e vêm aos seus olhos, agora quando se fala em sensor, se fala em sensores, como se fossem pixels e eles recebem a luz, e a luz ali é um processo de transdução que recebe luminosidade para a corrente elétrica, isso acontece nas máquinas fotográficas e para diferenciar isso se usa a palavra sensor, a diferença entre pixel e sensor é que o primeiro você está olhando e no segundo é a máquina que está olhando, para se calcular um valor em megapixel é simples, você multiplica a largura em pixels vezes a altura em pixels e divide por um milhão, essa é a forma de você representar então a conversão de pixels para megapixels, por exemplo, se você tiver uma resolução de 1280 por 1024 pixels, basta que você multiplique 1280 por 1024 que vai dar um milhão trezentos e dez setecentos e vinte e divide por um milhão que vai dar um vírgula trinta e um megapixels. Quanto representa o campo de visão humano? O campo de visão humano corresponde aproximadamente a uma matriz de três mil por três mil pixels, isso é importante, o número de pixels nos revela apenas a resolução espacial, mas não a gradação de intensidade, cor ou luminosidade, como as cores podem ser representadas? Qualquer cor pode ser obtida com uma mistura, combinação linear de apenas três cores básicas, isso é importante, o que é o modelo de representação de cores RGB? O modelo ou sistema de representação de cores mais utilizado e baseado na combinação linear das cores básicas, vermelho, verde e azul, essas são as cores primárias aditivas usadas no sistema RGB, Red, Green and Blue, também conhecido como sistema aditivo de cores, o sistema RGB é representado por um cubo com uma cor em cada vértice. Como se dá o esquema de cores no RGB? No cubo RGB o preto é representado pela origem e as cores primárias vermelho, verde e azul são representadas pelos vértices adjacentes à origem, o branco é representado pelo vértice oposto, a origem diagonal e as cores secundárias são o ciano turquesa, a magenta que é o roxo e o amarelo, são representadas pelas demais vértices, medidas importantes, preto e azul, 0 0 0, ele não tem nenhuma das representações RGB, ele está em um dos vértices, o azul é 0 0 1 é outro vértice, o vermelho é 1 0 0 é outro vértice e o verde é 0 1 0, agora aqui no outro sistema, a gente tem que o preto é o início lá, é a origem das coordenadas, é 0 0 0, o azul é 0 0 1, o vermelho é 1 0 0 e o verde é 0 1 0, agora o magenta é 1 0 1, esse é o magenta, o ciano é 0 1 1 e com isso nós temos essas para ser decorado, de novo, preto é 0 0 0, o vermelho é 1 0 0, o azul é 0 0 1, o ciano é 0 1 1, o verde é 0 1 0, o amarelo é 1 1 0 e o magenta é 1 0 1. Funciona o sistema de cores CNY, o CNY é sigla para Cyan, Magenta e Yellow, ou seja, o azulzinho claro, o magenta e o amarelo, ok? Então, eles são cores primárias subtrativas, nós estamos falando sobre o aditivo que é o RGB e agora nós estamos falando do aditivo, sim, o subtrativo que é o CNY, então as cores primárias no subtrativo é o Cyan, Magenta e Yellow, agora as cores primárias no aditivo é o Red, Green e Blue, então há uma diferença aí. Uma outra representação de números para as três dimensões de cores é o branco, o branco é 1 1 1, enquanto preto é 0 0 0, enquanto o azul é 0 0 1, enquanto o vermelho é 1 0 0, enquanto o verde é 0 1 0. Importante, as cores secundárias do sistema aditivo são as cores primárias do sistema subtrativo, ou seja, quem são as cores primárias do sistema aditivo? É o Red, Green e Blue, que é o RGB. E quem são as cores primárias do sistema subtrativo? O subtrativo é o Cyan, Magenta e Yellow, ok, o amarelo, então elas são as cores primárias do sistema subtrativo. Agora, se a gente falar as cores secundárias do subtrativo, são as primárias do aditivo, que é o RGB. E se a gente falar nas cores secundárias do sistema aditivo, a gente vai falar no Cyan, Magenta e Amarelo. Importante, os pigmentos reais são contaminados pelo branco, na prática não é possível obter a cor preta, combinando apenas o Cyan, Magenta e Yellow, por isso que adiciona-se tinta preta, o Black, de forma que forma o sistema CMYK, onde K é de Black. Super importante, RGB, eles adicionam luz, por isso que eles são aditivos. O CMY, que é o Cyan, Magenta e Yellow, eles absorvem luz, ou seja, absorção de luz que subtraem, subtrativos, ok? E outra coisa bem importante também, o que é Matiz? Matiz, o comprimento de onda luminosa predominante em uma imagem, exemplo, mais vermelho que azul, essa é a Matiz. A luminância, o quanto uma imagem está clara ou escura, é o que dá aquela questão da sombra, presença de sombras, luminância. Saturação, a proporção da quantidade de cor em relação à cor cinza média, saturação é cor cinza média, que possui saturação zero, ok? Então, guarde isso, o Matiz tem a ver com onda de luminosidade predominante em uma imagem, mais vermelho do que azul. Luminância, aqui a imagem está clara ou escura, lembra de luz, luminância, clara ou escura, e a saturação é a questão do cinza, com relação à cor cinza, que possui saturação zero, o zero na cor cinza é saturação zero. Lembrando que Nuance e Matiz é a mesma coisa, ok? A luminância é o brilho, a saturação tem a ver com a predominância do comprimento de onda, predominante na imagem, e a Matiz é aquilo que dá um ambiente calmo, tranquilo, porque você varia entre o vermelho e o azul. É bem importante agora, no sistema YCbCr, nós então temos a seguinte situação, ok? O Y, ele é um componente de iluminação, luminância, o Cb é um componente de diferença de croma, ele é azul, e o Cr é o componente de diferença de croma vermelho, ok? Croma é a abreviatura de crominância, conjunto de informações de cor, ok? O YCb e o Y'CbCr é uma família de espaços de cores, usados como parte do processo de representação de cores, de uma imagem, de um vídeo ou de sistemas de fotografia digital, ok? Agora é bem importante isso que eu vou falar, você vê que o Y, ele é o componente de iluminação, é a luminância, agora o Y' , o Y com apóstrofe, ele é o luma, viu a diferença? O Y normal, luminância, Y com apóstrofe é o luma, ok? Quando eu ponho isso somente em luminância, eu tenho só o Y, quando eu penso em luma, aí eu já tenho o removo da luminância, cromitância, que eu quero, tenho só a luma, tá? A luma é o brilho da parte acromática da imagem. Portante, os seres humanos, eles são muito mais sensíveis à luminância do que à crominância, conforme pode-se observar no próximo slide aqui, mas enfim, fica com isso na cabeça, os seres humanos são muito mais sensíveis à luminância, luminância está a ver com luminosidade, lembra? Do que à crominância, lembrando novamente que a luminância tem a ver com a imagem está clara ou escura, ok? A luminância é o brilho da imagem, quando está claro ou escuro e presença de sombras, então novamente, quando a gente fala aqui do ser humano, os seres humanos são muito mais sensíveis à luminância, ao brilho, né? Do que à crominância. Sobre a luminância, bem importante, a luminância ela requer mais bits para a codificação, pois sempre é um processo de prever, sempre é preciso prever a transformação de uma imagem colorida em preto e branco, tons de cinza, então aí você usa aquele 8 bits lá, mas isso é informação importante, a luminância ela requer mais bits para a sua codificação. Informação importante, o olho humano é menos sensível ao azul em relação às outras cores primárias, muito importante. Muitos sistemas práticos não suportam true color, nesse caso se usa o conceito de paleta, o valor do pixel não é enviado ao monitor, mas serve de índice para uma tabela de cores ou paleta, tá? Então a paleta fixa é o número total de cores, é limitado ao tamanho da paleta, normalmente igual a 256. Importante aqui pessoal, imagens não são realistas, mas pode-se trocar resolução espacial por resolução de cores usando dithering, lembra do dithering? Alternando cores em pixels próximos, criando a ilusão de uma gradação real, o olho enxerga como uma mistura de cores, ok? Importante você ver o dithering. Definição importante, as ondas são produzidas pela vibração, eu estou falando de ondas sonoras, ok? As ondas são produzidas pela vibração de um corpo sonoro, que se espalham através do ar, trazendo para o tímpano um estímulo que a mente interpreta como som, ok? Isso aqui é uma definição de Galileu. Novamente, as ondas são produzidas pela vibração de um corpo sonoro, que se espalham através do ar, trazendo para o tímpano um estímulo que a mente interpreta como som, ok? Altura e intensidade do som. Altura, ela classifica os sons em graves ou agudos. Quanto maior a frequência, mais agudo. Quanto menor a frequência, mais grave. E a intensidade, som forte ou som fraco, é a taxa de energia por unidade, unidade diária, inclui a pressão exercida por ondas propagando-se. Quais são as etapas do processo de digitalização? Um, amostragem. Dois, quantização. Três, codificação. São três etapas. O que é amostragem? É um processo de captura instantânea de um sinal analógico em intervalos regulares, lembrem-se, é o mundo real em intervalos regulares, e o intervalo regular fixo entre as amostras é determinada por pulsos de sincronismo. A frequência desses pulsos de sincronismo é chamada de taxa de amostragem, e seu inverso da taxa de amostragem é 1 sobre FA, é o próprio intervalo fixo entre as amostras, também conhecido como período de amostragem. A conversão de um sinal analógico em sequência de amostras uniformemente espaçadas, ela gera um sinal discreto, trata-se de uma discretização do tempo. Isso é muito importante, né? Então vamos lá. Questão prática importante referente à amostragem de sinais. Qual a taxa de amostragem mínima que devo utilizar assim de não perder nenhuma informação relevante presente no sinal analógico? Eu preciso de um critério, de um parâmetro ou de uma fórmula, ok? A perda de alguma informação do seu som causará uma distorção, fazendo com que seu som seja diferente. Importante, Joseph Fourier, em 1807, ele revolucionou a matemática e a física, quando ele demonstrou matematicamente que qualquer função periódica, ela é composta por uma série infinita de senos e cossenos. Fourier também mostrou que todas as funções matemáticas, leia-se todos os sinais analógicos, podem ser aproximados por meio de séries trigonométricas finitas. Leia-se de compostos em vários sinais senoidais de frequência, frequências crescentes. Vamos falar rapidamente aqui das definições, tá? A amostragem, um sinal do som, voz, por exemplo, é amostrada em intervalos regulares. Em outras palavras, são tiradas medidas de amplitude do sinal a intervalos de tempos específicos, ok? Que é a quantização. Cada amostra obtida durante o processo de amostragem, ela é atribuída a um valor digital correspondente. Um valor é quantizado para um determinado número de bits, o que determina a precisão da representação digital. Codificação. Os valores quantizados são então codificados em formato binário, geralmente usando representação de complemento de dois. E o armazenamento ou transmissão, né? Os dados digitais resultantes podem ser armazenados em dispositivos de armazenamento digital, como os discos rígidos ou transmitidos por meio de canais digitais como redes de computadores. Muito importante agora, hein? Henry Niquist, em 1928, né? Henry Niquist, dos laboratórios Bell, nos Estados Unidos, estabeleceu que a representação discreta, que seria a discretização no tempo, de um sinal analógico, seria funcionalmente idêntica à forma de onda original, se a taxa de amostragem fosse, pelo menos, pelo menos, duas vezes superior à máxima frequência presente na forma de onda analógica. Ou seja, FA, que é a taxa de amostragem, ele tem que ser maior do que duas vezes a frequência máxima. Bem importante então. Depois do teorema de Niquist, a voz humana, a qualidade de telefone, com uma frequência máxima de 4.000 Hz, ela requer, no mínimo, 8.000 amostras por segundo, enquanto que um áudio qualidade de CD, com frequência máxima de 20.000 Hz, requer, no mínimo, 40.000 amostras por segundo. Olha só, gente, é muita amostra mesmo. Vamos lá, gente. Caso o teorema de Niquist não seja obedecido, isto é, se a amostragem for feita com uma taxa de amostragem menor que duas vezes a frequência máxima, ocorrerá um fenômeno ou um efeito conhecido como aliasing, sem tradução exata, que pode ser entendido como o embaralhamento das frequências replicadas com as frequências do sinal original. Então, o aliasing, ele torna impossível a reversão do processo de amostragem, sem que ocorra uma distorção claramente audível no caso do som. Importantíssimo, o que é esse negócio da quantização? Vamos tentar falar de forma prática. Ele é um processo de transformar a amplitude real de uma amostra do sinal em uma amplitude discreta, tomada de um conjunto finito de possíveis amplitudes. Então, assim, como o processo de amostragem é uma discretização do sinal no tempo, a quantização é uma discretização do sinal em amplitude. Importante isso, tá? O processo de amostragem é uma discretização do sinal no tempo e a quantização é uma discretização do sinal em amplitude. Essa parte é bem importante, tá? Como vimos, a amostragem pode ser um processo sem perdas. Há amostragem, porém a quantização é sempre com perdas. Por quê? Porque ela tira amostras, né? Então, os quantizadores podem ser classificados em uniformes e não uniformes, dependendo da forma de espaçamento de seus níveis. Níveis igualmente espaçados, quantização uniforme ou linear, ou caso contrário, temos a quantização não linear. E isso, inclusive, é curioso, porque tem um exercício que o professor fez com relação a essa questão da gente ter aquele, aquela, quando você faz um gráfico e você representa, vamos dizer assim, uma... Então, é uma exponencial. Então, quando a gente fala nessa exponencial, que ela é invertida, as duas pontas dessa exponencial, ela toca o eixo x no seu valor máximo e o eixo y no seu valor máximo. Então, esse daí é um sinal que ele é uniforme. E aí, o que acontece? Com os vários valores que tem de intensidade, você tem maior probabilidade de erro. Então, para resolver essa questão que sempre acontece, né, na uniformidade, você vai utilizar o método não uniforme. E o método não uniforme, ele aplica intensidades menores, valores menores para intensidades menores e valores maiores para intensidades maiores. Então, esse é um ponto bem importante também. Codificação, que é um dos processos, a terceira etapa do processo de digitalização. De forma mais ampla, a codificação significa a modificação das características de um sinal para torná-lo apropriado para uma aplicação específica. Como, por exemplo, transmissão ou armazenamento de dados, né? E aqui, gente, só para exemplificar essa questão da codificação, que do professor aqui está um pouco mais complicado, né? O chat GPT já... Codificação. Os valores quantizados são, então, codificados em formato binário, geralmente usando representação de complemento de dois. Então, isso que quer dizer a codificação. Vamos falar que o professor não colocou semelhante ao chat GPT, ele colocou aqui, sim. Tem um slide que significa o seguinte. Codificação de áudio. O sinal digital de áudio, resultante deste processo completo de amostragem, quantização e codificação é uma sequência de bits conhecida como PCN. PCN, que é o Pulse Code Modulation. E os arquivos de som, nos formatos AF e WAV ou AU, usam a codificação PCN. As faixas de um CD de áudio contém sinais digitais amostrados a uma taxa de 44,1 kHz, com 16 bits por amostra. Pessoal, bem importante essa parte também que é a reconstrução do sinal analógico. Para reconstruir a forma de onda analógica a partir de um sinal digitalizado, basta reverter o processo realizando os seguintes passos. Primeiro, você usa um tipo de circuito integrado chamado conversor digital analógico, é o coder. Os bits são reconvertidos para a representação de amostras quantizadas. Então, você usa lá um filtro do tipo passa baixos, que são completamente eliminadas as frequências replicadas, isto é, todas as frequências maiores que a frequência máxima, fazendo a forma de onda retornar ao formato analógico original, que é aquela senoide perfeita, contendo apenas um erro de quantização, que será tanto menor quanto maior for o número de bits utilizado. Então, isso daí é a forma de reconstrução do sinal analógico. Tante também, tá? É impossível comprimir o som usando métodos totalmente sem perdas, lossless compression. Mas, para alguns casos especiais, você pode conseguir uma compressão com perda quase nula. Temos três casos a seguir. Primeiro, você pode ser obtido através de alguma compressão de trechos de áudio, usando a codificação RLE, que é o One Length Encoding, para amostras com amplitude abaixo de um linear, que pode ser considerado para representar o áudio. O dois, o uso do método denominado compensão, que utiliza a quantização não linear, não linear pessoal, para comprimir sinais de voz. As leis de compensão do tipo MICA e A, são usadas na telefonia digital, que é o sistema PCM. Lembra do sistema PCM? Então, e o uso do método PCM, que é o Adaptative Differential Pulse Code Modulation, que é o ADPCM, que funciona através do armazenamento de informações sobre a diferença entre o valor real da amostra e o valor previsto na mesma, também é usado na telefonia. Então, veja bem, isso aqui foi uma coisa de prova. Ele pegou a definição do compensão, falando que se o compensão fazia, ele era realmente essa diferença do real e da amostra, não. O real da amostra é o PCM, o ADPCM. O compensão, ele é um método denominado, que utiliza a quantização não-linear. Lembra da quantização não-linear? Então, aqui entra o compensão, ele usa essa quantização não-linear. Já o PCM, não, o PCM aqui, ele vai fazer a diferença do valor real e da amostra, um valor previsto da mesma, entendeu? Isso que ele faz. Lembrando que o primeiro método é o RLE, que também é usado para fazer a compressão das imagens, lembra disso? A gente falou lá do GIF, o TIFF, o TIFF com certeza usa. O GIF, o processo de compressão dele, você lembra? Ele usa, então, a biblioteca, a biblioteca, porque ele tem o I, lembra disso? O TIFF também usa a biblioteca, os dois que usam. Agora, por exemplo, o Bitmap, ele já usa o RLE, e o RLE é justamente esse aqui, ok? Então, vamos continuar. Vamos fazer esse comentário aqui, que é bem importante, é princípios de compressão de áudio digital, é áudio aqui, e aqui você usa o esquema de codificação com perdas, que é o Lossy Compression, baseado em fenômenos psicoacústicos. Lembra que o Lossy Compression nas imagens era o JPEG, lembra disso? Que ele utilizava, que era um sistema de perda, mas ele utilizava lá o método de compressão, era a transcodificação do seno, exatamente, transcrição do seno, alguma coisa assim. Aqui, o Lossy Compression, ele usa fenômenos no áudio, ele usa fenômenos psicoacústicos, capazes de realizar compressão transparente e perceptivelmente sem perdas de sinais de áudio de alta fidelidade, ok? Então, testes subjetivos de audição realizados mostraram que com uma taxa de compressão 6 para 1, os sinais codificados e originais são perceptivelmente indistinguíveis, ou seja, 6 para 1 realmente é complicado, né? Se o humano não conseguir perceber essas perdas, é como se essas perdas não tivessem ocorrido, ok? Algumas pessoas têm percepção de som maior que outras. Bom, aqui já é som. O som tem aquele negócio chamado bandas críticas, que o ouvido interno representa o espectro de potências do sinal em escala não-linear, na forma de bandas de frequência, bandas críticas. Aqui é uma parábola, tem um gráfico aqui que é uma parábola de cabeça para baixo e ela toca os dois pontos no eixo X, tem o X1 e o X2, os dois pontos tocam lá o eixo das coordenadas, entendeu? Então, aqui ele está caracterizando isso, tá? E você tem no eixo X a frequência em Hertz e você tem o ganho em decibéis no eixo Y, ok? Agora vamos falar de mascaramento auditivo. Quando dois sinais, um sinal de baixa intensidade e outro sinal de alta intensidade ocorrem simultaneamente, estão próximos em frequência. Isso, então, se chama mascaramento auditivo. Bom, agora características psicoacústicas do sinal humano. Se o sinal mais fraco estiver abaixo de linear de mascaramento, o sinal mais forte o torna inaudível, ou seja, ele vai sumir por conta do sinal mais forte. E dizemos que o sinal de baixa intensidade é mascarado pelo sinal de alta intensidade. Este efeito é mais intenso se os dois sinais ocorrem na mesma banda crítica, entendeu? Então, aqui a gente tem lá um gráfico em que mostra duas parábolas, elas são juntas, de concavidade para cima, e você tem entre a junção delas o ponto mais alto, que é aquela crista, quando você pensa lá numa senoidal, e você tem ali o sinal mascarante de 500 Hz. Ou seja, tudo que estiver abaixo desse linear de mascaramento, quando você olha para esse gráfico, ele vai ser então mascarado, por conta desse sinal mascarante aí. A pessoa não consegue ouvir abaixo dessa parábola. E aí você tem a comparação agora desse sinal mascarante com três outros sinais, os dois que estão na mesma frequência deles, e aí não tem jeito, esses dois sinais não vão ser ouvidos, porque ele é o mascarante, os dois que estão abaixo ainda do linear de mascaramento vão ser, enfim, mascarados. Agora, o outro sinal, que seria o terceiro, o verde, esse daí já está no outro lado da banda, esse daí já está do lado da banda meio a meio, parte teoricamente não seria ouvido e parte seria ouvido. Mas a questão é, como ele não está na mesma frequência do sinal mascarante, aquele grandão, aquele mais extenso, ele então é ouvido, esse sinal de frequência menor. Ele é até menor frequência dele do que os outros que estão lá junto na mesma faixa de frequência do sinal mascarante. Curioso isso. Informações importantes a respeito do mascaramento. Sinais de áudio reais podem ser decompostos em vários sinais tomos mascarantes em diferentes frequências. O linear de mascaramento global é calculado a partir de todos os lineares individuais dos sons mascarantes. O linear de mascaramento é uma função da frequência variante no tempo, que indica o ruído inaudível máximo em cada frequência. Polêmica da prova. MP3, formato MP3. O MPEG 1 Audio Layer 3, mais comumente referido como MP3, é um formato de codificação digital de áudio patenteado. O MP3 é o formato de compressão de áudio mais usado para armazenamento de áudio de consumo. Há perdas. A sua efetividade de compressão é medida em kbps, quilobits por segundo, sendo que 128 kbps é a qualidade padrão mais usada na qual a redução do tamanho do arquivo é de cerca de 90%, ou seja, a razão é de 10 para 1. Ainda sob o formato MP3, a sua taxa de compressão atualmente pode chegar até 320 kbps, a qualidade máxima na qual a redução do tamanho do arquivo é de cerca de 25%, ou seja, uma razão de 4 para 1, passando antes por 192 kbps que é 6,66 para 1, ou 256 kbps que é de 5 para 1. Então o método de compressão com perdas empregado na compressão do MP3, ele é baseado no fenômeno de mascaramento auditivo. MP3 é baseado no fenômeno de mascaramento auditivo. O processo de codificação do formato MP3 é o seguinte, sinal de áudio vem, o PCM, ele passa primeiro o processo que é a rede de mapeamento tempo-frequência, em paralelo ele utiliza aquele modelo psicoacústico, e depois da rede de mapeamento tempo-frequência ele já vai direto para o quantizador e codificador, aí ele passa pela montagem de quadro até gerar os fluxos de bits codificados. O codificador do formato MP3, a rede de mapeamento tempo-frequência decompõe o sinal de áudio em múltiplas sub-bandas. O mapeamento é feito em 3 bandas, vendo MP3, 3, 3 bandas, 3 camadas na verdade, nomeadas 1, 2 e 3, em ordem crescente de complexidade e desempenho perceptual subjetivo. O algoritmo da camada 3 é o mais refinado e ficou popularmente conhecido como MP3, que é o MPEG-1 Layer 3. Caiu isso na prova, hein? Agora o modelo psicoacústico, ele analisa o conteúdo espectral do sinal de áudio e calcula a relação sinal-máscara, que é o SM, para cada sub-banda. E o quantizador-codificador, que é a outra etapa, ele realiza uma alocação dinâmica de bits, de forma a minimizar a audibilidade do ruído de quantização. Então a montagem de quadros faz o empacotamento das amostras quantizadas no padrão MPEG-1. Muito legal isso, né gente? Agora a gente vai falar aqui o seguinte, o decodificador simplesmente reverte as operações de processamento de sinal realizadas no codificador, convertendo a sequência de bits recebida em um sinal de áudio no domínio do tempo. Então é isso aí, decodificador de formato MP3. Ele posteriormente foi desenvolvido o padrão MPEG-2, áudio para TV digital, utilizado no padrão europeu, com possibilidade de codificar até 5 canais de áudio home E a camada 1 alcança uma relação de compressão de 4 para 1, com uma taxa de 384 kbps, estéreo. Então a correspondente relação de compressão para as camadas MP3 são 8 para 1 e 12 para 1, a uma taxa de 192 kbps, estéreo. Então a qualidade subjetiva do padrão MPEG-1, é equivalente ao do CD PCM, 16 bits. Bem importante agora o Advanced Audio Coding, AAC, que é o MPEG-4, AAC, é um esquema de compressão de áudio digital com perdas. Ele pode ser concebido para ser o sucessor do formato MP3. O AAC geralmente alcança melhor qualidade de som do que o MP3 nas mesmas taxas de bits. O AAC foi padronizado pela ISO e pela IEC, como parte das especificações dos padrões MPEG-2 e MPEG-4. O AAC é também o formato de áudio padrão para Iphone, Apple, iPod, iTunes, Playstation 3, Celular e Sony, Nintendo Wii, Nintendo DS e o padrão MPEG-4 Vídeo. Melhorias do AAC sobre o MP3, comparativo, mais frequências de amostragem de 8 Hz a 96 kHz do que o MP3 de 16 a 48 kHz. Ele suporta até 48 canais de áudio. O MP3 suporta até 2 canais no modo MPEG-1 e até 5 canais no modo MPEG-2. A taxa de bits do AAC são bits arbitrários e frames de comprimento variável. O banco de filtros mais simples e eficiente ao invés da codificação híbrida do MP3. O AAC usa uma MDCT pura. Lembra-se que a MDCT é transformada discreta de cosseno modificado. Isso aqui é o MPEG, o JPEG, aqui é o MPEG. O JPEG usava o DCT, que é a discreta cosseno modificada. Bom, vamos lá, melhorias do AAC sobre o MP3, ainda não acabou. Maior eficiência na codificação de sinais estacionários. Então o AAC usa um tamanho de bloco de 1,24 x 960 amostras e ela permite a codificação mais eficiente do que os blocos fixos de 576 amostras do MP3. Então mais precisão na codificação de sinais transitórios. O AAC usa um tamanho de bloco de 128 ou 120 amostras e permite a codificação mais precisa que os blocos fixos de 192 amostras do MP3. Ainda o formato A3, que é o AAC, que é sucesso. Ele usa um algoritmo de codificação de áudio de banda larga que explora duas estratégias principais de codificação para reduzir drasticamente a quantidade de dados necessária para representar áudio digital de alta qualidade. Então, um, componentes são perceptivelmente irrelevantes, são descartados, se ele descarta mesmo, não é relevante, descartou. O AAC é assim. Redundância, os sinais são eliminados. Deu redundância, ele elimina. AAC é fantástico. Então o processo de codificação do AAC é composto pelas seguintes etapas. Primeira, o sinal é convertido do domínio do tempo para o domínio da frequência, que é o negócio da transformada discreta cosseno modificada. Dois, o sinal do domínio de frequência é quantizado e codificado com base em modelo psicoacústico similar ao do MP3. Importante isso. Não é só o MP3 que tem psicoacústico. O AAC também tem. São irmãos nesse processo. Psicoacústico igual. E três, código de correção de erros de bit são adicionados ao sinal digital codificado. Muito bom. Agora aqui é aquele caso que veio destruir todo esse processo de patenteação chamado Ogg Vorbis. Fantástico. É um free, é um software libre, vamos dizer assim. Apesar de serem os mais difundidos no MP3 e AAC, que são proprietários, qualquer produto comercial que utilize precisa pagar errores. Então é complicado isso. Agora o Vorbis, o Ogg Vorbis, é outro esquema. É um software libre, open source, do projeto liderado pela fundação Schiff Org. É uma especificação do formato também, a implementação de software Codec para a compressão de áudio com perda. Com perda. O formato Vorbis é mais comumente usado em conjunto com o formato Contempor Org. E por isso muitas vezes referido o Ogg Vorbis, ou seja, que é o parzinho. O formato Vorbis se tornou popular entre os adeptos do software livre. Eles argumentam que por sua alta fidelidade, por ser livre de patentes, isso torna o substituto adequado para os formatos patenteados restritos com o MP3. Muitos jogos de videogame usam os Vorbis. O Hello Unreal Tournament 2004, o Crimsonland, Devil May Cry 3, Live for Speed and Guitar Hero. Vários websites, incluindo Wikipedia, usam Vorbis. Também usam o formato Vorbis várias estações de rádio espalhadas pelo mundo, como a CBC Radio, a Jazz Radio, Absolute Radio, Radio Nova Zelândia, New Zealand e o Dutch Light Radio. Serviço de streaming de áudio, Spotify, usa Vorbis para suas transmissões de áudio. Fantástico, né? Teste de adição tem tentado encontrar a melhor qualidade na comparação de codecs de áudio esperando nas mesmas taxas de bits. Eis algumas conclusões obtidas em recentes testes de audição. Isso é muito importante, cara. Parou, presta atenção. Quando a baixa a taxa de bits, que é menos 64k bits por segundo, o mais recente teste público, o multiformatado de 48 bits por segundo, mostra que Vorbis tem uma qualidade melhor do que o WMA e o AAC e LC. E a mesma qualidade do WMA Professional e uma qualidade inferior ao HE AAC. Mas ele é fantástico, né? Para a baixa taxa de bits é o Vorbis. Taxas médias agora, de 128 a 64k bits por segundo. Testes privados de 80k bits em 96k bits mostram que o Vorbis tem uma qualidade melhor do que outros codecs de áudio, como o LC AAC, o AE AAC, o MP3 MPC e o WMA. Agora nas altas taxas, mais de 128k bits. A maioria das pessoas não percebe diferença significativa, certo? Por conta dessas altas taxas. Os ouvintes mais treinados podem ouvir muitas vezes diferença significativa entre os codecs em idênticas taxas. E se verificou que os Vorbis soam melhor que o LAC, o LC AAC, o MP3 e o MPC. Fantástico, né? Vorbis! Log Vorbis! Uhul! Bom, agora vamos falar de técnicas de síntese digital de som. Síntese digital de música, mais conhecida como música eletrônica, foi uma das primeiras tecnologias de multimídia digital desenvolvidas. Os primeiros sintetizadores eletrônicos eram analógicos. Os sintetizadores mais populares atualmente usam microprocessadores CPU especializados, beleza? As principais técnicas de síntese digital em tempo real são a síntese FM e a síntese PCM. A síntese FM é baseada na técnica da modulação e frequência. Era usada em teclados mais antigos e nas primeiras placas de som. Agora a PCM é baseada na gravação de formas de ondas instrumentais reais. É usada nos teclados mais modernos e nas placas de som mais avançadas. Então aqui você tem o M.I.D.I, M.I.D.I ou M.I.D.I, tá? Então aqui você tem lá todo um processo que fala desse sintetizador fantástico. Então com isso a gente finaliza a aula 5 também. Põe na conta aí que vamos ao topo, Santiago!

Listen Next

Aula5_Ger_Qualidade_RH_Comunicações
Marcelo B Santiago
Voice Over
00:00-37:07

Other Creators

ep12,
mrmrsw22
Voice Over
speechinsidesmall room
+2
00:00-31:04
vpt-6881-6881-125-953070075-1700733988 (1)
Gloria Solier
Voice Over
speechbusy signaldial tone
+2
00:00-03:26
fjgjh
Yaseen@123
Voice Over
speechspeech synthesizerclicking
+2
00:00-00:19
TC9
Lori Cannon
3
3
Voice Over
speechfemale speechwoman speaking
+2
00:00-54:53
ElevenLabs_2023-11-12T11_36_14_Elli_pre_s50_sb75_se0_b_m2
noor ali
Voice Over
speechfemale speechwoman speaking
+2
00:00-00:39
raman
Ramandeep Kaur Gill
3
3
Voice Over
speechclickingwriting
+2
00:00-03:16
т
Tatiana Ternoy
Voice Over
speechcomputer keyboardtyping
+2
00:00-00:36
Slide (8)
Ahmed Abdullah
Voice Over
speechinsidesmall room
+2
00:00-01:04
ff
swastik sharma
1
1
Voice Over
speechchopinside
+2
00:00-00:34
podcast
Hélio Emm
2
2
Voice Over
speechnarrationmonologue
+2
00:00-01:40