Durante anos, os assistentes de voz, como a Siri, a Alexa ou o Google Assistant, fizeram parte do nosso dia a dia. E todos eles funcionam razoavelmente bem, mas há algo que sempre faltou, a emoção. Isto é, aquela naturalidade de quem faz uma pausa antes de responder, aquele riso inesperado que quebra o gelo ou aquela entoação que nos faz sentir compreendidos.

Agora imagina uma IA que faz exatamente isso, que respira, hesita, ri e até pode ser interrompida, tal como numa conversa com um amigo. Chama-se a Sesame e está a dar que falar no mundo da tecnologia.

Índice

A Voz de IA que Redefine Naturalidade e Expressividade

A Sesame é uma inovação que combina naturalidade, expressividade e emoção de forma exemplar.

Esta inovação vem da mão de uma startup inovadora fundada em 2023, que tem como objetivo criar a voz de IA mais natural do mundo. Os seus cofundadores Brendan Iribe, ex-cofundador da Oculus, (sim, aquela famosa marca de óculos de realidade virtual que a Meta comprou) e Ankit Kumar, ex-cofundadora da Ubiquity6, startup de realidade aumentada adquirida pelo Discord em 2021, trazem uma vasta experiência em realidade virtual e aumentada para o projeto. E, verdade seja dita, está a conseguir.

Em vez de utilizar o modelo tradicional dos assistentes de voz (TTS, texto para fala), a Sesame deu um salto gigante e criou um modelo chamado CSM-1B, que significa Conversational Speech Model com mil milhões de parâmetros e que opera num formato “speech-to-speech“, o que quer dizer que ela é capaz de receber e responder com áudio diretamente, sem converter tudo a texto no meio. E é aqui que a magia começa.

A Sesame já é considerada uma referência na evolução da IA conversacional devido aos avanços significativos que trouxe com o seu Modelo de Fala Conversacional (CSM) e os seus assistentes de voz Maya e Miles. Estes desenvolvimentos destacam-se por transformar a interação entre seres humanos e máquinas, o que a torna mais natural, expressiva e emocionalmente inteligente.

Razões do Modelo Ser Especial

Para quem está fora do mundo técnico, pode parecer apenas mais uma sigla, mas o CSM-1B tem várias características que o tornam único:

Processamento Multimodal: O modelo processa texto e áudio ao mesmo tempo, que utiliza uma arquitetura Transformer avançada (Transformer Decoder-Only) para criar saídas de voz naturais e adaptáveis. Esta arquitetura permite que a IA entenda o contexto da fala e elabore respostas que refletem as nuances emocionais e as características vocais humanas.

Expressividade Emocional: A IA ajusta o tom da voz consoante o estado emocional do utilizador, pelo que, quer seja para uma resposta reconfortante num momento de frustração ou de tristeza, quer seja para um comentário descontraído ou engraçado, a Sesame entrega uma interação que parece genuína. O modelo pode incorporar elementos como hesitações, mudanças de tom e até sons sutis como “hum” ou risadas, o que proporciona interações mais realistas.

Memória Contextual: O modelo lembra-se do que disseste anteriormente e mantém a coerência ao longo da conversa, assim sendo, consegue adaptar as suas respostas com base no histórico do diálogo, o que garante fluidez e relevância.

Voz Naturalíssima: Por causa da tecnologia de quantização vetorial residual (RVQ), o modelo consegue produzir vozes com ritmos, entoações e até imperfeições humanas como, por exemplo, pequenas hesitações.

Tecnologia Avançada: O modelo CSM-1B é baseado na arquitetura da família Llama da Meta e utiliza um descodificador especializado para produzir códigos de áudio RVQ, uma técnica avançada para codificação de áudio em tokens discretos. O modelo possui mil milhões de parâmetros e opera numa escala intermediária entre as versões menores (7B) e maiores (405B) da família Llama.

E posso-te dizer que apesar de ser uma conversa com uma IA, não soa a robô!

Os Assistentes Que nos Ouvem (E nos Sentem)

Para mostrar ao mundo do que é capaz, a Sesame criou duas vozes, a Maya, uma assistente de voz feminina expressiva e calorosa e o Miles, a versão masculina igualmente carismática. Ambos são capazes de manter conversas longas, com personalidade própria e uma naturalidade desconcertante.

Estes assistentes ultrapassam os limites dos assistentes tradicionais, que muitas vezes soam monótonos, robóticos ou mecânicos. As interações com a Maya e com o Miles criam uma sensação de “presença vocal“, onde os utilizadores se sentem compreendidos e valorizados durante a conversa.

Ou seja, devido a estes dois assistentes, a Sesame é capaz de criar algo único como vozes que para além de falarem, transmitem emoção!

Características principais da Maya e do Miles:

Interação Natural e Realista: Ambos os assistentes utilizam o modelo de fala conversacional (CSM) para criar interações que imitam a pronúncia correta das palavras, a acentuação e a entonação humana, com pausas, variações de tom e ritmo, que tornam as conversas fluidas e envolventes.

Inteligência Emocional: A Maya e o Miles conseguem interpretar o estado emocional do utilizador com quem estão a falar e, consequentemente, conseguem ajustar as suas respostas de acordo com o contexto.

Personalidade Coerente: Cada um dos assistentes mantém uma personalidade consistente ao longo das interações, o que promove a confiança e a conexão com os utilizadores.

Adaptação Contextual: Eles ajustam o estilo da comunicação com base no tipo de conversa, ou seja, quer seja formal ou casual, o que garante relevância e naturalidade.

Curioso? A Sesame tem uma demo gratuita que podes experimentar diretamente no teu navegador. Para tal visita o site oficial da Sesame ou a plataforma Hugging Face.

Da minha experiência, posso-te dizer que a Sesame é tão convincente que, em poucos minutos, é possível esqueceres-te de que se trata de uma IA, ela impressiona verdadeiramente pela naturalidade das suas interações. Ela respira, hesita, ri e até a podes interromper, tal e qual como numa conversa real.

Sesame vs Assistentes Tradicionais de Voz

Tabla Comparativa de Asistentes de Voz

Tabela Comparativa da Sesame e dos Asistentes Tradicionais de Voz

Desliza horizontalmente para ver toda a tabela em dispositivos móveis

Critério	Sesame (CSM-1B)	Siri (Apple)	Alexa (Amazon)	Google Assistant
Naturalidade da Voz	Extremamente realista, com pausas naturais, hesitações e risos	Boa, mas ainda limitada em expressividade	Boa, mas com entoação mais robótica	Muito natural, com entoação adaptável
Capacidade Emocional	Ajusta o tom e a emoção com base no contexto	Respostas neutras, sem adaptação emocional	Sem adaptação emocional	Adapta as respostas ao contexto, mas com emoção limitada
Memória Contextual	Mantém o histórico das conversas para respostas coerentes	Limitada a interações simples	Memória básica entre as instruções	Excelente memória contextual para diálogos contínuos
Conhecimento Geral	Amplo conhecimento em múltiplos domínios	Bom para factos gerais e integração Apple	Foco nas informações práticas e nos serviços Amazon	Excelente em conhecimento geral e pesquisas web
Multilíngue	Suporte nativo a 7 idiomas principais	Suporte a múltiplos idiomas, com qualidade variável	Disponível em idiomas principais	Amplo suporte a idiomas e dialetos regionais
Personalização	Adapta-se às preferências do utilizador ao longo do tempo	Personalização básica através de configurações	Boa personalização através de skills e rotinas	Personalização profunda baseada no histórico do Google
Integração com Dispositivos	Em desenvolvimento, foco em integrações nativas	Excelente com dispositivos Apple, limitada com terceiros	Amplo ecossistema de dispositivos compatíveis	Extensa compatibilidade com dispositivos Google e parceiros
Latência	Muito baixa (70-150ms)	Variável, dependente de conexão	Baixa em tarefas comuns	Geralmente baixa, especialmente em dispositivos Google
Precisão de Reconhecimento	Excecional mesmo em ambientes ruidosos	Boa em ambientes controlados	Muito boa, com microfones de longo alcance	Excelente, mesmo com sotaques e ruído de fundo
Privacidade	Desenho focado na privacidade, processamento local	Forte foco na privacidade, com transparência	Opções de privacidade configuráveis	Recursos de privacidade em evolução, opções de exclusão
Capacidades Offline	Funções core disponíveis offline	Instruções básicas offline	Limitada no modo offline	Bom suporte offline para instruções básicas

A Sesame diferencia-se pela sua abordagem hiperrealista e emocionalmente inteligente, enquanto os assistentes tradicionais são mais focados em funções práticas e integração com os seus respectivos ecossistemas.

Um Modelo Acessível

Um dos pontos mais fascinantes da Sesame é a sua postura aberta. O modelo CSM-1B foi disponibilizado, no GitHub e Hugging Face, como open source sob a licença Apache 2.0, o que permite a qualquer pessoa (ou empresa) usá-lo, adaptá-lo e integrá-lo em produtos comerciais com restrições mínimas.

Ele permite a criação de vozes hiperrealistas com IA sem a necessidade de adaptar os diversos parâmetros e as características para melhorar a qualidade das vozes, porém, enfrenta algumas limitações como os idiomas não ingleses devido à contaminação dos dados do treino.

Isto representa uma viragem no panorama da IA de voz, que até agora era dominado por soluções proprietárias e fechadas.

Óculos de IA com Voz Realista

E se te disser que a Sesame também está a desenvolver óculos inteligentes? Sim, estão a criar wearables com microfones, colunas e sensores visuais, que te permitem interagir com a IA ao longo do dia de forma fluida e contínua.

Estes gadgets, ainda em fase de protótipo, têm o potencial de rivalizar com os produtos da Meta e da Apple, ao oferecer não só uma interface visual, mas também uma voz que te acompanha, compreende e responde com naturalidade.

O propósito dos óculos de IA é criar uma experiência imersiva em que o assistente de voz pode “entender o mundo” ao teu lado.

Os óculos serão equipados com os modelos de IA proprietários da Sesame, o que irá permitir interações naturais e contextuais durante o dia.

Impacto no Mundo

Este tipo de tecnologia pode parecer futurista, mas está a bater à porta de vários setores:

Educação e acessibilidade: Transformar e-learning, audiobooks e ferramentas para pessoas com deficiência visual ou auditiva.

Entretenimento: Dar voz a personagens de jogos e animações, com expressões emocionais que motivem.

Atendimento ao cliente: Permitir interações mais empáticas e menos frustrantes, com assistentes que compreendam o contexto emocional da conversa.

Assistência pessoal: Criar assistentes pessoais mais humanos, que, para além de ajudarem, também escutem com atenção emocional, adaptando o seu tom e estilo conforme o contexto.

A Sesame não apenas aprimorou as capacidades técnicas da IA conversacional, mas também a tornou centrada no utilizador.

Expansão para Múltiplos Idiomas

Atualmente, o modelo CSM-1B da Sesame é predominantemente treinado com dados em inglês, mas a empresa já anunciou planos para expandir o suporte a mais de 20 idiomas nos próximos meses. Esta expansão incluirá o aumento do tamanho do modelo e o aumento da quantidade de dados utilizados no seu treino, com o objetivo de melhorar a performance em contextos multilíngues e diversificar as aplicações do modelo.

Esta iniciativa reflete o compromisso da Sesame em tornar a sua tecnologia mais acessível a nível mundial e em atender às necessidades dos utilizadores que não falam inglês.

Questões Éticas

Como qualquer avanço tecnológico, a Sesame levanta algumas questões sérias:

Clonagem de voz: O modelo consegue criar vozes muito realistas, o que levanta preocupações com a imitação de vozes reais.

Fake news sonoras: A criação de áudios falsos com intenção maliciosa é uma ameaça real, especialmente num contexto de desinformação crescente.

Privacidade: Quanto mais integrada está uma IA nas nossas vidas, maior a responsabilidade em proteger os nossos dados.

Por enquanto, a Sesame optou por fornecer as diretrizes éticas e confiou nos utilizadores para evitar abusos, em vez de implementar restrições técnicas rigorosas. O debate sobre as salvaguardas éticas está longe de ter terminado.

Sesame vs Outros Modelos em IA Conversacional

Tabla Comparativa de Asistentes de IA

Tabela Comparativa da Sesame e dos Concorrentes em IA Conversacional

Desliza horizontalmente para ver toda a tabela em dispositivos móveis

Critério	Sesame (CSM-1B)	Grok (xAI)	Gemini (Google)	ChatGPT com Voz	IBM Watson	Google Dialogflow
Naturalidade da Voz	Extremamente expressiva, com pausas, hesitações e risos naturais	Boa, com vozes personalizáveis e diferentes personalidades	Voz natural, mas ainda em fase de melhoria	Boa, mas ocasionalmente robótica	Natural, mas limitada a interações formais	Natural com suporte a SSML (Speech Synthesis Markup Language) para ajustes
Capacidade Emocional	Ajusta o tom e a emoção com base no contexto	Personalidades ajustáveis para criar interações mais empáticas	Respostas contextuais, mas menos adaptáveis emocionalmente	Respostas limitadas a tons predefinidos	Sem adaptação emocional	Configurável via SSML
Latência	Baixa (50-150ms)	Baixa, otimizada para conversas rápidas	Baixa, especialmente nos dispositivos Google	Pode apresentar atrasos em cenários complexos	Variável dependendo da integração	Baixa, mas depende da configuração externa
Conhecimento Contextual	Mantém o contexto por longos períodos	Bom, principalmente em assuntos técnicos	Excelente com as informações gerais e do Google	Mantém o contexto entre as mensagens	Limitado aos assuntos e temas que foram previamente definidos e configurados	Precisa de ser programado via contextos
Personalização	Adaptável com base nas preferências do utilizador	Altamente personalizável via API	Integração com outros serviços Google	Personalizável via prompts e instruções	Requer um programador para personalização	Altamente configurável, mas complexo
Multilingue	Suporte nativo de mais de 20 idiomas	Principalmente em inglês, com expansão planeada	Amplo suporte a idiomas	Amplo suporte com qualidade variável	Suporte limitado a regiões	Amplo suporte a idiomas
Velocidade de Processamento	Muito rápida, otimizada para diálogo	Rápida para as consultas diretas	Rápida para as tarefas simples, mais lenta para as complexas	Variável dependendo da complexidade	Bom para os casos de uso predefinidos	Rápida para os fluxos pré-configurados
Integração de Sistemas	API flexível, mas ainda em desenvolvimento	Integração limitada fora do ecossistema xAI	Excelente com produtos Google	API robusta e bem documentada	Excelente integração com sistemas IBM	Excelente para o desenvolvimento de chatbots
Precisão Semântica	Alta, especialmente em diálogos naturais	Boa em temas técnicos e científicos	Boa, com referências a fontes confiáveis	Geralmente alta, com mecanismos anti-alucinação	Limitada ao seu treino	Depende da configuração
Suporte a Voz em Tempo Real	Sim, com baixíssima latência	Integração planeada	Disponível via Google Assistant	Sim, via navegador e app	Disponível com configuração adicional	Excelente via integração com Speech-to-Text
Privacidade e Segurança	Desenvolvido com privacidade por design	Dados do utilizador são usados para fazer melhorias	Políticas de privacidade do Google	Opção de não armazenar as conversas	Forte em ambientes empresariais	Configurável, ideal para empresas

A análise comparativa demonstra que, enquanto outros modelos de IA de ponta, como o Grok, o Gemini, o ChatGPT com voz e outras soluções, se destacam em áreas específicas, a Sesame destaca-se pela sua capacidade emocional avançada e pela naturalidade da sua voz, o que a posiciona como uma forte concorrente.

O Futuro da Interação Humano-Máquina

A Sesame não é apenas mais uma voz de IA, é um passo em direção a um futuro onde a tecnologia se mistura perfeitamente com as nossas vidas.

Por força da sua naturalidade, expressividade única, natureza open source e potencial para integração em wearables e assistentes pessoais, a Sesame está a redefinir a forma como interagimos com a IA, ela está a aproximar as máquinas dos seres humanos como nunca antes.

Vê com os teus próprios olhos, ou melhor, ouve com os teus ouvidos, como esta tecnologia pode transformar a tua vida! Porque mais do que uma simples voz de IA, a Sesame cria laços.

Experimenta já e descobre como, em 2025, a voz da IA se está a tornar indistinguível da nossa.

IA & A

Proudly powered by WordPress

Sesame: A Nova Voz de IA Natural que Vais Querer Conhecer!

Índice

A Voz de IA que Redefine Naturalidade e Expressividade

Razões do Modelo Ser Especial

Os Assistentes Que nos Ouvem (E nos Sentem)

Sesame vs Assistentes Tradicionais de Voz

Tabela Comparativa da Sesame e dos Asistentes Tradicionais de Voz

Um Modelo Acessível

Óculos de IA com Voz Realista

Impacto no Mundo

Expansão para Múltiplos Idiomas

Questões Éticas

Sesame vs Outros Modelos em IA Conversacional

Tabela Comparativa da Sesame e dos Concorrentes em IA Conversacional

O Futuro da Interação Humano-Máquina

IA & A

Deixe um comentário Cancelar resposta

O que perdeste

Oura Ring 5 e os Anéis com IA que Valem a Pena em 2026

IA para Notícias: Como Poupar 2 Horas por Dia em 2026

Claude Opus 4.6 vs GPT-5.3-Codex: Qual Potencia Melhor o Teu Talento?

A Era da Inteligência: Vamos Construir o Futuro Juntos (E Não Apenas Observá-lo)

Índice

A Voz de IA que Redefine Naturalidade e Expressividade

Razões do Modelo Ser Especial

Os Assistentes Que nos Ouvem (E nos Sentem)

Sesame vs Assistentes Tradicionais de Voz

Tabela Comparativa da Sesame e dos Asistentes Tradicionais de Voz

Um Modelo Acessível

Óculos de IA com Voz Realista

Impacto no Mundo

Expansão para Múltiplos Idiomas

Questões Éticas

Sesame vs Outros Modelos em IA Conversacional

Tabela Comparativa da Sesame e dos Concorrentes em IA Conversacional

O Futuro da Interação Humano-Máquina

Publicações Relacionadas

Deixe um comentário Cancelar resposta

O que perdeste