Por Thomas Kramer, vice-presidente de desenvolvimento e estratégia de negócios, MainConcept, e Adrian Murtaza, gerente sênior de tecnologia e padrões, Fraunhofer IIS
O áudio MPEG-H já existe há vários anos, tendo sido apresentado pela primeira vez pelo Fraunhofer IIS em 2014. Esse formato rapidamente ganhou força e foi integrado a uma ampla gama de dispositivos de consumo. No entanto, recentemente o formato vem ganhando grande destaque após ser considerado o sistema de áudio mais avançado em uma avaliação rigorosa e detalhada realizada por um laboratório de testes independente sob a supervisão do Fórum SBTVD.
O áudio MPEG-H é usado na Coreia do Sul desde 2017 para transmissão ATSC 3.0. O Brasil o adotou em 2019 para aprimorar seus serviços HDTV terrestres existentes. Em 2023, as principais emissoras, incluindo Globo, Rede Amazônica e TV Cultura, o habilitaram em seus serviços regulares de transmissão. O áudio MPEG-H é o único sistema de áudio obrigatório para o serviço de transmissão de TV 3.0 de próxima geração do país, com lançamento previsto para 2025. Ele também foi incluído em vários outros padrões globais, incluindo DVB, ATSC 3.0 e 3GPP.
Então, por que o interesse crescente no sistema de áudio baseado em objetos? A indústria de transmissão está mudando rapidamente em resposta à mudança nos hábitos de consumo. Embora o áudio MPEG-H traga uma série de vantagens e aprimoramentos importantes para esse cenário em evolução, acreditamos que existem algumas tendências de destaque que estão contribuindo para a popularidade dos formatos:
Esportes ao vivo estão se tornando mais interativos
De acordo com Altman Solon, a transmissão de esportes no mundo todo aumentou significativamente nos últimos dois anos. A pesquisa constatou que 57% dos entrevistados estão assistindo mais esportes agora, em comparação com 43% em 2020. No entanto, a forma como conteúdo é consumido também mudou drasticamente. Embora os esportes ao vivo continuem sendo os mais comuns, há uma mudança definitiva, especialmente entre os espectadores mais jovens, que tendem a assistir seu conteúdo esportivo em pequenos trechos e destaques nas mídias sociais, ao invés de assistir a uma partida inteira ao vivo.
O desafio para os provedores de conteúdo esportivo é encontrar maneiras de atrair esses fãs de volta à exibição ao vivo e uma maneira de fazer isso é tornar a experiência ainda mais cativante. A mesma pesquisa mostrou que 30% dos entrevistados no Reino Unido assistiriam a jogos ao vivo como se estivessem dentro de seu estádio ou arena favorita em VR, por exemplo. Enquanto isso, a Deloitte descobriu que os fãs querem mais recursos como parte de seus serviços SVOD para aprimorar sua experiência de visualização de esportes. Isso inclui 35% querendo estatísticas e análises em tempo real e 34% procurando por diferentes ângulos de câmera. Quando questionados sobre o futuro do consumo de esportes, 54% dos entrevistados acreditam que a transmissão se tornará mais imersiva.
O que tudo isso significa para o áudio? É simples, uma experiência de vídeo não pode ser verdadeiramente imersiva sem um ótimo áudio. Mais do que isso, o áudio MPEG-H possibilita uma imersão personalizada de outro nível. A abordagem baseada em objetos significa que os torcedores podem escolher exatamente no que desejam mergulhar, selecionando uma das várias opções oferecidas pela emissora. Os espectadores podem diminuir o volume dos comentaristas, ou até mesmo desligá-los, e aumentar o som da torcida, por exemplo, para sentir que estão no estádio. Ao mesmo tempo, para os torcedores que usam fones de ouvido, os movimentos da cabeça podem ser rastreados para que o som permaneça preso ao ponto de origem, proporcionando uma experiência muito mais natural.
A contribuição ao vivo é desafiadora, especialmente em um mundo imersivo
Uma contribuição ao vivo vem com uma série de desafios, que são ainda maiores quando você adiciona experiências imersivas à mixagem. Os provedores de conteúdo precisam garantir que possam capturar vários feeds de vídeo e áudio, adicionar gráficos e comentários e obter tudo o que for produzido em tempo real para ser distribuído aos espectadores em todo o mundo. Ao mesmo tempo, eles precisam lidar com limitações de largura de banda, latência e garantir uma qualidade de áudio consistente. Durante partidas esportivas ao vivo, capturar o áudio certo para os espectadores em casa, sem que seja abafado por outros sons no estádio, pode ser extremamente desafiador. Não acertar nessa etapa pode levar a uma experiência abaixo do ideal para o consumidor em casa.
Ao capturar fontes de áudio muito direcionadas e criar objetos com metadados associados, o áudio MPEG-H dá o controle ao espectador em casa para obter o equilíbrio de áudio certo para eles, criando uma experiência imersiva muito personalizada e clareza de som nas coisas que eles desejam ouvir. Simultaneamente, ele usa técnicas de compactação eficientes, garantindo que todos os objetos de áudio possam ser entregues mesmo quando a largura de banda for limitada, mantendo uma qualidade de som extremamente alta.
Os fluxos de trabalho de mídia estão se baseando na nuvem
Embora a enorme popularidade inicial dos fluxos de trabalho de mídia baseados na nuvem tenha sido impulsionada pela necessidade, está claro que os benefícios que as empresas de mídia obtêm ao migrar para a nuvem significam que é uma tendência que veio para ficar. À medida que mais fluxos de trabalho de mídia se tornam baseados na nuvem, as emissoras e os provedores de conteúdo procuram fazer com que tudo funcione perfeitamente na nuvem. No entanto, ao mesmo tempo, a qualidade continua a ser primordial.
O áudio MPEG-H permite que os provedores de conteúdo contribuam com eficiência com o áudio e os metadados associados fortemente acoplados diretamente na nuvem sem perder a qualidade. Isso é obtido usando um codificador de contribuição MPEG-H no local durante um evento ao vivo. Ele codifica o formato de produção MPEG-H e o disponibiliza na nuvem usando protocolos típicos como Zixi ou SRT. Depois de inserido, ele é alimentado em codificadores de streaming, como o MainConcept Live Encoder, onde pode ser processado para distribuição.
O futuro do áudio imersivo e personalizado
As experiências de visualização estão se tornando mais imersivas e interativas. Não basta ter um vídeo imersivo, os provedores de conteúdo precisam garantir que tenham o áudio correspondente e fornecer uma maneira de os espectadores interagirem com o conteúdo. Embora a realidade virtual e os esportes ao vivo estejam liderando o caminho, provavelmente veremos experiências imersivas e personalizadas em vários gêneros, de música ao vivo a filmes de grande sucesso. O áudio MPEG-H será a chave para permitir isso.
No início deste ano, o suporte para Áudio MPEG-H foi adicionado nos plug-ins Live Encoder e FFmpeg da MainConcept, permitindo a codificação, contribuição e streaming de conteúdo com áudio personalizado e imersivo para vários dispositivos. Isso se mostrou especialmente interessante para empresas que oferecem eventos ao vivo, como esportes e shows.
Visite-nos na SET Expo de 8 a 10 de agosto ou na IBC de 15 a 18 de setembro para ouvi-lo e saber mais.