Durante anos, os assistentes de voz, como a Siri, a Alexa ou o Google Assistant, fizeram parte do nosso dia a dia. E todos eles funcionam razoavelmente bem, mas há algo que sempre faltou, a emoção. Isto é, aquela naturalidade de quem faz uma pausa antes de responder, aquele riso inesperado que quebra o gelo ou aquela entoação que nos faz sentir compreendidos.

Agora imagina uma IA que faz exatamente isso, que respira, hesita, ri e até pode ser interrompida, tal como numa conversa com um amigo. Chama-se a Sesame e está a dar que falar no mundo da tecnologia.

A Voz de IA que Redefine Naturalidade e Expressividade

A Sesame é uma inovação que combina naturalidade, expressividade e emoção de forma exemplar.

Esta inovação vem da mão de uma startup inovadora fundada em 2023, que tem como objetivo criar a voz de IA mais natural do mundo. Os seus cofundadores Brendan Iribe, ex-cofundador da Oculus, (sim, aquela famosa marca de óculos de realidade virtual que a Meta comprou) e Ankit Kumar, ex-cofundadora da Ubiquity6, startup de realidade aumentada adquirida pelo Discord em 2021, trazem uma vasta experiência em realidade virtual e aumentada para o projeto. E, verdade seja dita, está a conseguir.

Em vez de utilizar o modelo tradicional dos assistentes de voz (TTS, texto para fala), a Sesame deu um salto gigante e criou um modelo chamado CSM-1B, que significa Conversational Speech Model com mil milhões de parâmetros e que opera num formato “speech-to-speech“, o que quer dizer que ela é capaz de receber e responder com áudio diretamente, sem converter tudo a texto no meio. E é aqui que a magia começa.

A Sesame já é considerada uma referência na evolução da IA conversacional devido aos avanços significativos que trouxe com o seu Modelo de Fala Conversacional (CSM) e os seus assistentes de voz Maya e Miles. Estes desenvolvimentos destacam-se por transformar a interação entre seres humanos e máquinas, o que a torna mais natural, expressiva e emocionalmente inteligente.

Razões do Modelo Ser Especial

Para quem está fora do mundo técnico, pode parecer apenas mais uma sigla, mas o CSM-1B tem várias características que o tornam único:

  • Processamento Multimodal: O modelo processa texto e áudio ao mesmo tempo, que utiliza uma arquitetura Transformer avançada (Transformer Decoder-Only) para criar saídas de voz naturais e adaptáveis. Esta arquitetura permite que a IA entenda o contexto da fala e elabore respostas que refletem as nuances emocionais e as características vocais humanas.
  • Expressividade Emocional: A IA ajusta o tom da voz consoante o estado emocional do utilizador, pelo que, quer seja para uma resposta reconfortante num momento de frustração ou de tristeza, quer seja para um comentário descontraído ou engraçado, a Sesame entrega uma interação que parece genuína. O modelo pode incorporar elementos como hesitações, mudanças de tom e até sons sutis como “hum” ou risadas, o que proporciona interações mais realistas.
  • Memória Contextual: O modelo lembra-se do que disseste anteriormente e mantém a coerência ao longo da conversa, assim sendo, consegue adaptar as suas respostas com base no histórico do diálogo, o que garante fluidez e relevância.
  • Voz Naturalíssima: Por causa da tecnologia de quantização vetorial residual (RVQ), o modelo consegue produzir vozes com ritmos, entoações e até imperfeições humanas como, por exemplo, pequenas hesitações.
  • Tecnologia Avançada: O modelo CSM-1B é baseado na arquitetura da família Llama da Meta e utiliza um descodificador especializado para produzir códigos de áudio RVQ, uma técnica avançada para codificação de áudio em tokens discretos. O modelo possui mil milhões de parâmetros e opera numa escala intermediária entre as versões menores (7B) e maiores (405B) da família Llama.

E posso-te dizer que apesar de ser uma conversa com uma IA, não soa a robô!

Os Assistentes Que nos Ouvem (E nos Sentem)

Para mostrar ao mundo do que é capaz, a Sesame criou duas vozes, a Maya, uma assistente de voz feminina expressiva e calorosa e o Miles, a versão masculina igualmente carismática. Ambos são capazes de manter conversas longas, com personalidade própria e uma naturalidade desconcertante.

Estes assistentes ultrapassam os limites dos assistentes tradicionais, que muitas vezes soam monótonos, robóticos ou mecânicos. As interações com a Maya e com o Miles criam uma sensação de “presença vocal“, onde os utilizadores se sentem compreendidos e valorizados durante a conversa.

Ou seja, devido a estes dois assistentes, a Sesame é capaz de criar algo único como vozes que para além de falarem, transmitem emoção!

Características principais da Maya e do Miles:

  • Interação Natural e Realista: Ambos os assistentes utilizam o modelo de fala conversacional (CSM) para criar interações que imitam a pronúncia correta das palavras, a acentuação e a entonação humana, com pausas, variações de tom e ritmo, que tornam as conversas fluidas e envolventes.
  • Inteligência Emocional: A Maya e o Miles conseguem interpretar o estado emocional do utilizador com quem estão a falar e, consequentemente, conseguem ajustar as suas respostas de acordo com o contexto.
  • Personalidade Coerente: Cada um dos assistentes mantém uma personalidade consistente ao longo das interações, o que promove a confiança e a conexão com os utilizadores.
  • Adaptação Contextual: Eles ajustam o estilo da comunicação com base no tipo de conversa, ou seja, quer seja formal ou casual, o que garante relevância e naturalidade.

Curioso? A Sesame tem uma demo gratuita que podes experimentar diretamente no teu navegador. Para tal visita o site oficial da Sesame ou a plataforma Hugging Face.

Maya ou Miles

Da minha experiência, posso-te dizer que a Sesame é tão convincente que, em poucos minutos, é possível esqueceres-te de que se trata de uma IA, ela impressiona verdadeiramente pela naturalidade das suas interações. Ela respira, hesita, ri e até a podes interromper, tal e qual como numa conversa real.

Sesame vs Assistentes Tradicionais de Voz

Tabla Comparativa de Asistentes de Voz

Tabela Comparativa da Sesame e dos Asistentes Tradicionais de Voz

Desliza horizontalmente para ver toda a tabela em dispositivos móveis

Critério Sesame (CSM-1B) Siri (Apple) Alexa (Amazon) Google Assistant
Naturalidade da Voz Extremamente realista, com pausas naturais, hesitações e risos Boa, mas ainda limitada em expressividade Boa, mas com entoação mais robótica Muito natural, com entoação adaptável
Capacidade Emocional Ajusta o tom e a emoção com base no contexto Respostas neutras, sem adaptação emocional Sem adaptação emocional Adapta as respostas ao contexto, mas com emoção limitada
Memória Contextual Mantém o histórico das conversas para respostas coerentes Limitada a interações simples Memória básica entre as instruções Excelente memória contextual para diálogos contínuos
Conhecimento Geral Amplo conhecimento em múltiplos domínios Bom para factos gerais e integração Apple Foco nas informações práticas e nos serviços Amazon Excelente em conhecimento geral e pesquisas web
Multilíngue Suporte nativo a 7 idiomas principais Suporte a múltiplos idiomas, com qualidade variável Disponível em idiomas principais Amplo suporte a idiomas e dialetos regionais
Personalização Adapta-se às preferências do utilizador ao longo do tempo Personalização básica através de configurações Boa personalização através de skills e rotinas Personalização profunda baseada no histórico do Google
Integração com Dispositivos Em desenvolvimento, foco em integrações nativas Excelente com dispositivos Apple, limitada com terceiros Amplo ecossistema de dispositivos compatíveis Extensa compatibilidade com dispositivos Google e parceiros
Latência Muito baixa (70-150ms) Variável, dependente de conexão Baixa em tarefas comuns Geralmente baixa, especialmente em dispositivos Google
Precisão de Reconhecimento Excecional mesmo em ambientes ruidosos Boa em ambientes controlados Muito boa, com microfones de longo alcance Excelente, mesmo com sotaques e ruído de fundo
Privacidade Desenho focado na privacidade, processamento local Forte foco na privacidade, com transparência Opções de privacidade configuráveis Recursos de privacidade em evolução, opções de exclusão
Capacidades Offline Funções core disponíveis offline Instruções básicas offline Limitada no modo offline Bom suporte offline para instruções básicas

A Sesame diferencia-se pela sua abordagem hiperrealista e emocionalmente inteligente, enquanto os assistentes tradicionais são mais focados em funções práticas e integração com os seus respectivos ecossistemas.

Um Modelo Acessível

Um dos pontos mais fascinantes da Sesame é a sua postura aberta. O modelo CSM-1B foi disponibilizado, no GitHub e Hugging Face, como open source sob a licença Apache 2.0, o que permite a qualquer pessoa (ou empresa) usá-lo, adaptá-lo e integrá-lo em produtos comerciais com restrições mínimas.

Ele permite a criação de vozes hiperrealistas com IA sem a necessidade de adaptar os diversos parâmetros e as características para melhorar a qualidade das vozes, porém, enfrenta algumas limitações como os idiomas não ingleses devido à contaminação dos dados do treino.

Isto representa uma viragem no panorama da IA de voz, que até agora era dominado por soluções proprietárias e fechadas.

Óculos de IA com Voz Realista

E se te disser que a Sesame também está a desenvolver óculos inteligentes? Sim, estão a criar wearables com microfones, colunas e sensores visuais, que te permitem interagir com a IA ao longo do dia de forma fluida e contínua.

Estes gadgets, ainda em fase de protótipo, têm o potencial de rivalizar com os produtos da Meta e da Apple, ao oferecer não só uma interface visual, mas também uma voz que te acompanha, compreende e responde com naturalidade.

O propósito dos óculos de IA é criar uma experiência imersiva em que o assistente de voz pode “entender o mundo” ao teu lado.

Os óculos serão equipados com os modelos de IA proprietários da Sesame, o que irá permitir interações naturais e contextuais durante o dia.

Impacto no Mundo

Este tipo de tecnologia pode parecer futurista, mas está a bater à porta de vários setores:

  • Educação e acessibilidade: Transformar e-learning, audiobooks e ferramentas para pessoas com deficiência visual ou auditiva.
  • Entretenimento: Dar voz a personagens de jogos e animações, com expressões emocionais que motivem.
  • Atendimento ao cliente: Permitir interações mais empáticas e menos frustrantes, com assistentes que compreendam o contexto emocional da conversa.
  • Assistência pessoal: Criar assistentes pessoais mais humanos, que, para além de ajudarem, também escutem com atenção emocional, adaptando o seu tom e estilo conforme o contexto.

A Sesame não apenas aprimorou as capacidades técnicas da IA conversacional, mas também a tornou centrada no utilizador.

Expansão para Múltiplos Idiomas

Atualmente, o modelo CSM-1B da Sesame é predominantemente treinado com dados em inglês, mas a empresa já anunciou planos para expandir o suporte a mais de 20 idiomas nos próximos meses. Esta expansão incluirá o aumento do tamanho do modelo e o aumento da quantidade de dados utilizados no seu treino, com o objetivo de melhorar a performance em contextos multilíngues e diversificar as aplicações do modelo.

Esta iniciativa reflete o compromisso da Sesame em tornar a sua tecnologia mais acessível a nível mundial e em atender às necessidades dos utilizadores que não falam inglês.

Questões Éticas

Como qualquer avanço tecnológico, a Sesame levanta algumas questões sérias:

  • Clonagem de voz: O modelo consegue criar vozes muito realistas, o que levanta preocupações com a imitação de vozes reais.
  • Fake news sonoras: A criação de áudios falsos com intenção maliciosa é uma ameaça real, especialmente num contexto de desinformação crescente.
  • Privacidade: Quanto mais integrada está uma IA nas nossas vidas, maior a responsabilidade em proteger os nossos dados.

Por enquanto, a Sesame optou por fornecer as diretrizes éticas e confiou nos utilizadores para evitar abusos, em vez de implementar restrições técnicas rigorosas. O debate sobre as salvaguardas éticas está longe de ter terminado.

Sesame vs Outros Modelos em IA Conversacional

Tabla Comparativa de Asistentes de IA

Tabela Comparativa da Sesame e dos Concorrentes em IA Conversacional

Desliza horizontalmente para ver toda a tabela em dispositivos móveis

Critério Sesame (CSM-1B) Grok (xAI) Gemini (Google) ChatGPT com Voz IBM Watson Google Dialogflow
Naturalidade da Voz Extremamente expressiva, com pausas, hesitações e risos naturais Boa, com vozes personalizáveis e diferentes personalidades Voz natural, mas ainda em fase de melhoria Boa, mas ocasionalmente robótica Natural, mas limitada a interações formais Natural com suporte a SSML (Speech Synthesis Markup Language) para ajustes
Capacidade Emocional Ajusta o tom e a emoção com base no contexto Personalidades ajustáveis para criar interações mais empáticas Respostas contextuais, mas menos adaptáveis emocionalmente Respostas limitadas a tons predefinidos Sem adaptação emocional Configurável via SSML
Latência Baixa (50-150ms) Baixa, otimizada para conversas rápidas Baixa, especialmente nos dispositivos Google Pode apresentar atrasos em cenários complexos Variável dependendo da integração Baixa, mas depende da configuração externa
Conhecimento Contextual Mantém o contexto por longos períodos Bom, principalmente em assuntos técnicos Excelente com as informações gerais e do Google Mantém o contexto entre as mensagens Limitado aos assuntos e temas que foram previamente definidos e configurados Precisa de ser programado via contextos
Personalização Adaptável com base nas preferências do utilizador Altamente personalizável via API Integração com outros serviços Google Personalizável via prompts e instruções Requer um programador para personalização Altamente configurável, mas complexo
Multilingue Suporte nativo de mais de 20 idiomas Principalmente em inglês, com expansão planeada Amplo suporte a idiomas Amplo suporte com qualidade variável Suporte limitado a regiões Amplo suporte a idiomas
Velocidade de Processamento Muito rápida, otimizada para diálogo Rápida para as consultas diretas Rápida para as tarefas simples, mais lenta para as complexas Variável dependendo da complexidade Bom para os casos de uso predefinidos Rápida para os fluxos pré-configurados
Integração de Sistemas API flexível, mas ainda em desenvolvimento Integração limitada fora do ecossistema xAI Excelente com produtos Google API robusta e bem documentada Excelente integração com sistemas IBM Excelente para o desenvolvimento de chatbots
Precisão Semântica Alta, especialmente em diálogos naturais Boa em temas técnicos e científicos Boa, com referências a fontes confiáveis Geralmente alta, com mecanismos anti-alucinação Limitada ao seu treino Depende da configuração
Suporte a Voz em Tempo Real Sim, com baixíssima latência Integração planeada Disponível via Google Assistant Sim, via navegador e app Disponível com configuração adicional Excelente via integração com Speech-to-Text
Privacidade e Segurança Desenvolvido com privacidade por design Dados do utilizador são usados para fazer melhorias Políticas de privacidade do Google Opção de não armazenar as conversas Forte em ambientes empresariais Configurável, ideal para empresas

A análise comparativa demonstra que, enquanto outros modelos de IA de ponta, como o Grok, o Gemini, o ChatGPT com voz e outras soluções, se destacam em áreas específicas, a Sesame destaca-se pela sua capacidade emocional avançada e pela naturalidade da sua voz, o que a posiciona como uma forte concorrente.

O Futuro da Interação Humano-Máquina

A Sesame não é apenas mais uma voz de IA, é um passo em direção a um futuro onde a tecnologia se mistura perfeitamente com as nossas vidas.

Por força da sua naturalidade, expressividade única, natureza open source e potencial para integração em wearables e assistentes pessoais, a Sesame está a redefinir a forma como interagimos com a IA, ela está a aproximar as máquinas dos seres humanos como nunca antes.

Vê com os teus próprios olhos, ou melhor, ouve com os teus ouvidos, como esta tecnologia pode transformar a tua vida! Porque mais do que uma simples voz de IA, a Sesame cria laços.

Experimenta já e descobre como, em 2025, a voz da IA se está a tornar indistinguível da nossa.

Proudly powered by WordPress

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *