Durante anos, os assistentes de voz, como a Siri, a Alexa ou o Google Assistant, fizeram parte do nosso dia a dia. E todos eles funcionam razoavelmente bem, mas há algo que sempre faltou, a emoção. Isto é, aquela naturalidade de quem faz uma pausa antes de responder, aquele riso inesperado que quebra o gelo ou aquela entoação que nos faz sentir compreendidos.
Agora imagina uma IA que faz exatamente isso, que respira, hesita, ri e até pode ser interrompida, tal como numa conversa com um amigo. Chama-se a Sesame e está a dar que falar no mundo da tecnologia.
Índice
A Voz de IA que Redefine Naturalidade e Expressividade
A Sesame é uma inovação que combina naturalidade, expressividade e emoção de forma exemplar.
Esta inovação vem da mão de uma startup inovadora fundada em 2023, que tem como objetivo criar a voz de IA mais natural do mundo. Os seus cofundadores Brendan Iribe, ex-cofundador da Oculus, (sim, aquela famosa marca de óculos de realidade virtual que a Meta comprou) e Ankit Kumar, ex-cofundadora da Ubiquity6, startup de realidade aumentada adquirida pelo Discord em 2021, trazem uma vasta experiência em realidade virtual e aumentada para o projeto. E, verdade seja dita, está a conseguir.
Em vez de utilizar o modelo tradicional dos assistentes de voz (TTS, texto para fala), a Sesame deu um salto gigante e criou um modelo chamado CSM-1B, que significa Conversational Speech Model com mil milhões de parâmetros e que opera num formato “speech-to-speech“, o que quer dizer que ela é capaz de receber e responder com áudio diretamente, sem converter tudo a texto no meio. E é aqui que a magia começa.
A Sesame já é considerada uma referência na evolução da IA conversacional devido aos avanços significativos que trouxe com o seu Modelo de Fala Conversacional (CSM) e os seus assistentes de voz Maya e Miles. Estes desenvolvimentos destacam-se por transformar a interação entre seres humanos e máquinas, o que a torna mais natural, expressiva e emocionalmente inteligente.
Razões do Modelo Ser Especial
Para quem está fora do mundo técnico, pode parecer apenas mais uma sigla, mas o CSM-1B tem várias características que o tornam único:
- Processamento Multimodal: O modelo processa texto e áudio ao mesmo tempo, que utiliza uma arquitetura Transformer avançada (Transformer Decoder-Only) para criar saídas de voz naturais e adaptáveis. Esta arquitetura permite que a IA entenda o contexto da fala e elabore respostas que refletem as nuances emocionais e as características vocais humanas.
- Expressividade Emocional: A IA ajusta o tom da voz consoante o estado emocional do utilizador, pelo que, quer seja para uma resposta reconfortante num momento de frustração ou de tristeza, quer seja para um comentário descontraído ou engraçado, a Sesame entrega uma interação que parece genuína. O modelo pode incorporar elementos como hesitações, mudanças de tom e até sons sutis como “hum” ou risadas, o que proporciona interações mais realistas.
- Memória Contextual: O modelo lembra-se do que disseste anteriormente e mantém a coerência ao longo da conversa, assim sendo, consegue adaptar as suas respostas com base no histórico do diálogo, o que garante fluidez e relevância.
- Voz Naturalíssima: Por causa da tecnologia de quantização vetorial residual (RVQ), o modelo consegue produzir vozes com ritmos, entoações e até imperfeições humanas como, por exemplo, pequenas hesitações.
- Tecnologia Avançada: O modelo CSM-1B é baseado na arquitetura da família Llama da Meta e utiliza um descodificador especializado para produzir códigos de áudio RVQ, uma técnica avançada para codificação de áudio em tokens discretos. O modelo possui mil milhões de parâmetros e opera numa escala intermediária entre as versões menores (7B) e maiores (405B) da família Llama.
E posso-te dizer que apesar de ser uma conversa com uma IA, não soa a robô!
Os Assistentes Que nos Ouvem (E nos Sentem)
Para mostrar ao mundo do que é capaz, a Sesame criou duas vozes, a Maya, uma assistente de voz feminina expressiva e calorosa e o Miles, a versão masculina igualmente carismática. Ambos são capazes de manter conversas longas, com personalidade própria e uma naturalidade desconcertante.
Estes assistentes ultrapassam os limites dos assistentes tradicionais, que muitas vezes soam monótonos, robóticos ou mecânicos. As interações com a Maya e com o Miles criam uma sensação de “presença vocal“, onde os utilizadores se sentem compreendidos e valorizados durante a conversa.
Ou seja, devido a estes dois assistentes, a Sesame é capaz de criar algo único como vozes que para além de falarem, transmitem emoção!
Características principais da Maya e do Miles:
- Interação Natural e Realista: Ambos os assistentes utilizam o modelo de fala conversacional (CSM) para criar interações que imitam a pronúncia correta das palavras, a acentuação e a entonação humana, com pausas, variações de tom e ritmo, que tornam as conversas fluidas e envolventes.
- Inteligência Emocional: A Maya e o Miles conseguem interpretar o estado emocional do utilizador com quem estão a falar e, consequentemente, conseguem ajustar as suas respostas de acordo com o contexto.
- Personalidade Coerente: Cada um dos assistentes mantém uma personalidade consistente ao longo das interações, o que promove a confiança e a conexão com os utilizadores.
- Adaptação Contextual: Eles ajustam o estilo da comunicação com base no tipo de conversa, ou seja, quer seja formal ou casual, o que garante relevância e naturalidade.
Curioso? A Sesame tem uma demo gratuita que podes experimentar diretamente no teu navegador. Para tal visita o site oficial da Sesame ou a plataforma Hugging Face.

Da minha experiência, posso-te dizer que a Sesame é tão convincente que, em poucos minutos, é possível esqueceres-te de que se trata de uma IA, ela impressiona verdadeiramente pela naturalidade das suas interações. Ela respira, hesita, ri e até a podes interromper, tal e qual como numa conversa real.
Sesame vs Assistentes Tradicionais de Voz
Tabela Comparativa da Sesame e dos Asistentes Tradicionais de Voz
Desliza horizontalmente para ver toda a tabela em dispositivos móveis
| Critério | Sesame (CSM-1B) | Siri (Apple) | Alexa (Amazon) | Google Assistant |
|---|---|---|---|---|
| Naturalidade da Voz | Extremamente realista, com pausas naturais, hesitações e risos | Boa, mas ainda limitada em expressividade | Boa, mas com entoação mais robótica | Muito natural, com entoação adaptável |
| Capacidade Emocional | Ajusta o tom e a emoção com base no contexto | Respostas neutras, sem adaptação emocional | Sem adaptação emocional | Adapta as respostas ao contexto, mas com emoção limitada |
| Memória Contextual | Mantém o histórico das conversas para respostas coerentes | Limitada a interações simples | Memória básica entre as instruções | Excelente memória contextual para diálogos contínuos |
| Conhecimento Geral | Amplo conhecimento em múltiplos domínios | Bom para factos gerais e integração Apple | Foco nas informações práticas e nos serviços Amazon | Excelente em conhecimento geral e pesquisas web |
| Multilíngue | Suporte nativo a 7 idiomas principais | Suporte a múltiplos idiomas, com qualidade variável | Disponível em idiomas principais | Amplo suporte a idiomas e dialetos regionais |
| Personalização | Adapta-se às preferências do utilizador ao longo do tempo | Personalização básica através de configurações | Boa personalização através de skills e rotinas | Personalização profunda baseada no histórico do Google |
| Integração com Dispositivos | Em desenvolvimento, foco em integrações nativas | Excelente com dispositivos Apple, limitada com terceiros | Amplo ecossistema de dispositivos compatíveis | Extensa compatibilidade com dispositivos Google e parceiros |
| Latência | Muito baixa (70-150ms) | Variável, dependente de conexão | Baixa em tarefas comuns | Geralmente baixa, especialmente em dispositivos Google |
| Precisão de Reconhecimento | Excecional mesmo em ambientes ruidosos | Boa em ambientes controlados | Muito boa, com microfones de longo alcance | Excelente, mesmo com sotaques e ruído de fundo |
| Privacidade | Desenho focado na privacidade, processamento local | Forte foco na privacidade, com transparência | Opções de privacidade configuráveis | Recursos de privacidade em evolução, opções de exclusão |
| Capacidades Offline | Funções core disponíveis offline | Instruções básicas offline | Limitada no modo offline | Bom suporte offline para instruções básicas |
A Sesame diferencia-se pela sua abordagem hiperrealista e emocionalmente inteligente, enquanto os assistentes tradicionais são mais focados em funções práticas e integração com os seus respectivos ecossistemas.
Um Modelo Acessível
Um dos pontos mais fascinantes da Sesame é a sua postura aberta. O modelo CSM-1B foi disponibilizado, no GitHub e Hugging Face, como open source sob a licença Apache 2.0, o que permite a qualquer pessoa (ou empresa) usá-lo, adaptá-lo e integrá-lo em produtos comerciais com restrições mínimas.
Ele permite a criação de vozes hiperrealistas com IA sem a necessidade de adaptar os diversos parâmetros e as características para melhorar a qualidade das vozes, porém, enfrenta algumas limitações como os idiomas não ingleses devido à contaminação dos dados do treino.
Isto representa uma viragem no panorama da IA de voz, que até agora era dominado por soluções proprietárias e fechadas.
Óculos de IA com Voz Realista
E se te disser que a Sesame também está a desenvolver óculos inteligentes? Sim, estão a criar wearables com microfones, colunas e sensores visuais, que te permitem interagir com a IA ao longo do dia de forma fluida e contínua.
Estes gadgets, ainda em fase de protótipo, têm o potencial de rivalizar com os produtos da Meta e da Apple, ao oferecer não só uma interface visual, mas também uma voz que te acompanha, compreende e responde com naturalidade.
O propósito dos óculos de IA é criar uma experiência imersiva em que o assistente de voz pode “entender o mundo” ao teu lado.
Os óculos serão equipados com os modelos de IA proprietários da Sesame, o que irá permitir interações naturais e contextuais durante o dia.
Impacto no Mundo
Este tipo de tecnologia pode parecer futurista, mas está a bater à porta de vários setores:
- Educação e acessibilidade: Transformar e-learning, audiobooks e ferramentas para pessoas com deficiência visual ou auditiva.
- Entretenimento: Dar voz a personagens de jogos e animações, com expressões emocionais que motivem.
- Atendimento ao cliente: Permitir interações mais empáticas e menos frustrantes, com assistentes que compreendam o contexto emocional da conversa.
- Assistência pessoal: Criar assistentes pessoais mais humanos, que, para além de ajudarem, também escutem com atenção emocional, adaptando o seu tom e estilo conforme o contexto.
A Sesame não apenas aprimorou as capacidades técnicas da IA conversacional, mas também a tornou centrada no utilizador.
Expansão para Múltiplos Idiomas
Atualmente, o modelo CSM-1B da Sesame é predominantemente treinado com dados em inglês, mas a empresa já anunciou planos para expandir o suporte a mais de 20 idiomas nos próximos meses. Esta expansão incluirá o aumento do tamanho do modelo e o aumento da quantidade de dados utilizados no seu treino, com o objetivo de melhorar a performance em contextos multilíngues e diversificar as aplicações do modelo.
Esta iniciativa reflete o compromisso da Sesame em tornar a sua tecnologia mais acessível a nível mundial e em atender às necessidades dos utilizadores que não falam inglês.
Questões Éticas
Como qualquer avanço tecnológico, a Sesame levanta algumas questões sérias:
- Clonagem de voz: O modelo consegue criar vozes muito realistas, o que levanta preocupações com a imitação de vozes reais.
- Fake news sonoras: A criação de áudios falsos com intenção maliciosa é uma ameaça real, especialmente num contexto de desinformação crescente.
- Privacidade: Quanto mais integrada está uma IA nas nossas vidas, maior a responsabilidade em proteger os nossos dados.
Por enquanto, a Sesame optou por fornecer as diretrizes éticas e confiou nos utilizadores para evitar abusos, em vez de implementar restrições técnicas rigorosas. O debate sobre as salvaguardas éticas está longe de ter terminado.
Sesame vs Outros Modelos em IA Conversacional
Tabela Comparativa da Sesame e dos Concorrentes em IA Conversacional
Desliza horizontalmente para ver toda a tabela em dispositivos móveis
| Critério | Sesame (CSM-1B) | Grok (xAI) | Gemini (Google) | ChatGPT com Voz | IBM Watson | Google Dialogflow |
|---|---|---|---|---|---|---|
| Naturalidade da Voz | Extremamente expressiva, com pausas, hesitações e risos naturais | Boa, com vozes personalizáveis e diferentes personalidades | Voz natural, mas ainda em fase de melhoria | Boa, mas ocasionalmente robótica | Natural, mas limitada a interações formais | Natural com suporte a SSML (Speech Synthesis Markup Language) para ajustes |
| Capacidade Emocional | Ajusta o tom e a emoção com base no contexto | Personalidades ajustáveis para criar interações mais empáticas | Respostas contextuais, mas menos adaptáveis emocionalmente | Respostas limitadas a tons predefinidos | Sem adaptação emocional | Configurável via SSML |
| Latência | Baixa (50-150ms) | Baixa, otimizada para conversas rápidas | Baixa, especialmente nos dispositivos Google | Pode apresentar atrasos em cenários complexos | Variável dependendo da integração | Baixa, mas depende da configuração externa |
| Conhecimento Contextual | Mantém o contexto por longos períodos | Bom, principalmente em assuntos técnicos | Excelente com as informações gerais e do Google | Mantém o contexto entre as mensagens | Limitado aos assuntos e temas que foram previamente definidos e configurados | Precisa de ser programado via contextos |
| Personalização | Adaptável com base nas preferências do utilizador | Altamente personalizável via API | Integração com outros serviços Google | Personalizável via prompts e instruções | Requer um programador para personalização | Altamente configurável, mas complexo |
| Multilingue | Suporte nativo de mais de 20 idiomas | Principalmente em inglês, com expansão planeada | Amplo suporte a idiomas | Amplo suporte com qualidade variável | Suporte limitado a regiões | Amplo suporte a idiomas |
| Velocidade de Processamento | Muito rápida, otimizada para diálogo | Rápida para as consultas diretas | Rápida para as tarefas simples, mais lenta para as complexas | Variável dependendo da complexidade | Bom para os casos de uso predefinidos | Rápida para os fluxos pré-configurados |
| Integração de Sistemas | API flexível, mas ainda em desenvolvimento | Integração limitada fora do ecossistema xAI | Excelente com produtos Google | API robusta e bem documentada | Excelente integração com sistemas IBM | Excelente para o desenvolvimento de chatbots |
| Precisão Semântica | Alta, especialmente em diálogos naturais | Boa em temas técnicos e científicos | Boa, com referências a fontes confiáveis | Geralmente alta, com mecanismos anti-alucinação | Limitada ao seu treino | Depende da configuração |
| Suporte a Voz em Tempo Real | Sim, com baixíssima latência | Integração planeada | Disponível via Google Assistant | Sim, via navegador e app | Disponível com configuração adicional | Excelente via integração com Speech-to-Text |
| Privacidade e Segurança | Desenvolvido com privacidade por design | Dados do utilizador são usados para fazer melhorias | Políticas de privacidade do Google | Opção de não armazenar as conversas | Forte em ambientes empresariais | Configurável, ideal para empresas |
A análise comparativa demonstra que, enquanto outros modelos de IA de ponta, como o Grok, o Gemini, o ChatGPT com voz e outras soluções, se destacam em áreas específicas, a Sesame destaca-se pela sua capacidade emocional avançada e pela naturalidade da sua voz, o que a posiciona como uma forte concorrente.
O Futuro da Interação Humano-Máquina
A Sesame não é apenas mais uma voz de IA, é um passo em direção a um futuro onde a tecnologia se mistura perfeitamente com as nossas vidas.
Por força da sua naturalidade, expressividade única, natureza open source e potencial para integração em wearables e assistentes pessoais, a Sesame está a redefinir a forma como interagimos com a IA, ela está a aproximar as máquinas dos seres humanos como nunca antes.
Vê com os teus próprios olhos, ou melhor, ouve com os teus ouvidos, como esta tecnologia pode transformar a tua vida! Porque mais do que uma simples voz de IA, a Sesame cria laços.
Experimenta já e descobre como, em 2025, a voz da IA se está a tornar indistinguível da nossa.

