Descobre as diferenças entre o GPT-4.1, o3, o4-mini e o4-mini-high. Conhece os novos modelos da OpenAI e aprende a usá-los no teu dia a dia.
Índice
O Que Está a Mudar na IA em 2025
O mundo da IA está a acelerar e a OpenAI voltou a marcar o ritmo com o lançamento de 3 novos modelos: o GPT-4.1, o o3 e o o4-mini. Estes modelos trazem capacidades que redefinem o que significa ter uma IA ao teu lado.
Estamos a falar de modelos mais rápidos, mais inteligentes e mais versáteis.
Mas afinal, o que distingue cada um destes modelos? Qual deles é o mais indicado para ti? Qual é o melhor para trabalhar, estudar, criar ou explorar? E como podes começar a usá-los já hoje?
Neste artigo, vamos guiar-te pelas diferenças chave entre os novos modelos da OpenAI, os casos de uso práticos e criativos com cada um deles, um guia passo a passo para começares a experimentar as novas funções e ainda uma análise ao impacto que estas novidades terão no futuro da IA e na tua vida.
Se queres estar à frente da curva, dominar o que há de mais recente em IA e tirar o máximo de partido destas ferramentas no teu dia a dia, este artigo é para ti.
O Que Está a Acontecer na OpenAI
Visão Geral dos Avanços Mais Recentes
A OpenAI anunciou recentemente vários avanços significativos nos seus modelos de IA. Estes avanços centram-se nos novos modelos de raciocínio da série “o” (o3 e o4-mini) e numa nova série de modelos GPT (GPT-4.1, GPT-4.1 mini e GPT-4.1 nano).
Modelos de Raciocínio (série “o”): o3 e o4-mini
A OpenAI apresentou o o3 e o4-mini, os seus modelos mais inteligentes e capazes até à data deste artigo, com acesso completo a ferramentas dentro do ChatGPT. Isto inclui a capacidade de procurar na internet, analisar ficheiros carregados e outros dados com Python, raciocinar profundamente sobre as entradas visuais e inclusive criar imagens.
Estes modelos estão treinados para raciocinar sobre quando e como usar as ferramentas para produzir as respostas detalhadas e reflexivas de maneira rápida. Isto fá-los mais eficazes para abordar perguntas com várias variantes e aproxima-os de um ChatGPT mais autónomo, capaz de executar tarefas de forma independente.
O o3 é o modelo de raciocínio mais potente, ultrapassa o nível mais avançado de conhecimento nos Benchmarks que incluem Codeforces, SWE-bench Verified e MMMU. É especialmente forte em tarefas visuais como a análise de imagens, gráficos e diagramas. Vários especialistas referem que o o3 comete menos 20% de erros importantes nas tarefas difíceis do mundo real em comparação com o o1.
O o4-mini é um modelo mais pequeno, otimizado para um raciocínio rápido e rentável. Ele consegue ter um desempenho notável para o seu tamanho e custo, particularmente em matemática, programação e tarefas visuais. É o modelo com o melhor desempenho no AIME 2024 e 2025 de acordo com os Benchmarks. A sua eficiência permite limites de utilização significativamente mais altos que o o3.
Ambos os modelos, o3 e o4-mini, demonstram melhorias no seguimento de instruções e elaboram respostas mais úteis e verificáveis que os seus antecedentes devido a uma inteligência melhorada e à inclusão de fontes da internet. Também se sentem mais naturais e permitem conversas mais fluidas ao fazerem referência à memória e às conversas passadas.
Estes modelos podem integrar imagens diretamente na sua cadeia de pensamento, o que lhes permite pensar com elas e desbloquear novas capacidades de resolução de problemas que combinam o raciocínio visual e textual. Eles podem interpretar fotos de quadros, diagramas de livros de texto ou desenhos feitos à mão, inclusive se a imagem for tremida ou desfocada ou de baixa qualidade. Com a utilização de ferramentas, podem manipular imagens em tempo real, rodá-las, fazer zoom ou transformá-las como parte do seu processo de raciocínio.
Os Benchmarks iniciais sugerem que o o4-mini pode estar à altura de modelos campeões como o Gemini 2.5 Pro, sendo um modelo mais pequenino, barato e rápido. Contudo, nalguns Benchmarks como GPQA e Humanity’s Last Exam, os resultados variam.
A OpenAI observou que a aprendizagem por reforço continua a mostrar uma tendência de mais computação = melhor rendimento, sobretudo no desenvolvimento do o3.
Espera-se que o3 Pro seja lançado nas próximas semanas com suporte completo de ferramentas.
Os utilizadores do ChatGPT Plus, Pro e Team já podem aceder ao o3, o4-mini e o4-mini-high, que substituem o o1, o3-mini e o3-mini-high. Os utilizadores gratuitos podem experimentar o o4-mini ao selecionar “Think”. Estes modelos também estão disponíveis para os programadores através da API.
Novo Modelo GPT na API: GPT-4.1
A OpenAI lançou 3 novos modelos na API, o GPT-4.1, o GPT-4.1-mini e o GPT-4.1-nano. Estes modelos superam o GPT-4o e o GPT-4o-mini, pois apresentam melhoras significativas na programação e no seguimento de instruções.
Também têm janelas de contexto maiores, ao permitirem até 1 milhão de tokens e podem utilizar melhor esse contexto com uma compreensão melhorada do contexto longo. Contam com uma nova data-limite de conhecimento de junho de 2024.
O GPT-4.1 destaca-se na indústria da programação, ao obter uma pontuação de 54,6% no SWE-bench Verified, o que o torna num modelo líder para a programação. Também é significativamente melhor no seguimento de formatos de código.
No seguimento de instruções, o GPT-4.1 obtém uma pontuação de 38,3% no Benchmark MultiChallenge da Scale, um aumento de 10,5% em relação ao GPT-4o.
No contexto longo, o GPT-4.1 ultrapassa o nível mais avançado no Video-MME, ao obter 72,0%. Ele pode recuperar informação relevante de maneira consistente nas janelas de contexto de até 1 milhão de tokens.
O GPT-4.1 mini representa um salto significativo no desempenho dos modelos pequenos, inclusive ele chega a superar o GPT-4o em muitos Benchmarks, enquanto reduz a latência e o custo.
O GPT-4.1 nano é o modelo mais rápido e económico disponível até ao momento, ideal para as tarefas que exigem baixa latência como classificação ou autocompletamento, apesar do seu pequeno tamanho e janela de contexto de 1 milhão de tokens.
Estes modelos GPT-4.1 são consideravelmente mais eficazes para os agentes de IA que podem realizar tarefas de forma independente.
O GPT-4.1 só está disponível através da API. E muitas das melhorias foram incorporadas gradualmente na última versão do GPT-4o no ChatGPT.
A OpenAI descontinuará o GPT-4.5 Preview na API, já que o GPT-4.1 oferece um desempenho muito semelhante ou diga-se melhor a um custo e latência muito menores. O GPT-4.5 Preview será desativado a 14 de julho de 2025.
Codex CLI: Raciocínio de Fronteira no Terminal
A OpenAI também partilhou uma nova experiência, o Codex CLI, um agente de programação leve que pode ser executado a partir do terminal.
Ele funciona diretamente no computador do utilizador e está desenhado para maximizar as capacidades de raciocínio de modelos como o3 e o4-mini, com suporte futuro para os modelos da API como o GPT-4.1.
Ele permite obter os benefícios do raciocínio multimodal a partir da linha das instruções ao passar as capturas do ecrã ou desenhos de baixa fidelidade ao modelo.
O Codex CLI é totalmente open source.
Está a ser lançada uma iniciativa de 1 milhão de dólares para apoiar os projetos que utilizem o Codex CLI e os modelos da OpenAI.
Segurança
Para o o3 e o o4-mini, a OpenAI reconstruiu completamente os seus dados de treino de segurança, ao adicionar novos prompts de rejeição nas áreas como ameaças biológicas, criação de malware e jailbreaks. Isto levou ambos os modelos a alcançar um sólido desempenho nos seus Benchmarks internos de rejeição.
Também foram desenvolvidas mitigações a nível de sistema para sinalizar prompts perigosos nas áreas de risco de fronteira.
Em síntese, a OpenAI realizou avanços significativos com o lançamento dos seus novos modelos de raciocínio o3 e o4-mini, que oferecem capacidades melhoradas de raciocínio, utilização de ferramentas e multimodalidade, juntamente com a nova série GPT-4.1 na API, que se destaca na programação, seguimento de instruções e gestão de contexto longo. Também introduziram a ferramenta Codex CLI para programação no terminal e reforçaram as suas medidas de segurança. Estes desenvolvimentos apontam para uma convergência das capacidades especializadas de raciocínio da série “o” com as habilidades de conversas mais naturais e o uso de ferramentas da série GPT.
Porque a OpenAI Está a Lançar Vários Modelos em Simultâneo?
A OpenAI lançou estes modelos de seguida e em simultâneo por diversas razões estratégicas:
- Manter e reafirmar a liderança e competitividade: Perante o avanço dos concorrentes como o Google com o Gemini 2.5 Pro, a OpenAI pretendeu demonstrar que continua na liderança da IA e que ainda tem muito para discutir. O lançamento simultâneo dos modelos avançados como o o3 e o o4-mini serve para reafirmar a sua posição no topo e mostrar que a escalabilidade dos modelos de raciocínio continua a produzir resultados significativos.
- Cobrir diferentes necessidades e casos de uso: A apresentação dos modelos da série “o” (o3 e o4-mini) (16/04/2025) com foco no raciocínio avançado e com acesso completo a ferramentas logo após o lançamento da série GPT-4.1 (GPT-4.1, GPT-4.1 mini e GPT-4.1 nano) (14/04/2025) otimizada para tarefas como a programação, o seguimento de instruções e o contexto longo permite à OpenAI atingir uma gama mais ampla de utilizadores e aplicações.
- Demonstrar avanços significativos em diferentes áreas: O o3 é apresentado como o modelo de raciocínio mais poderoso da OpenAI até à data deste artigo. O o4-mini destaca-se pela sua eficiência e desempenho notável para o seu tamanho e custo. Já a série GPT-4.1 apresenta melhorias drásticas na programação, seguimento de instruções e capacidade de lidar com contexto longo. Este lançamento múltiplo sublinha os progressos em diversas vertentes da IA.
- Competição estratégica na API: A série GPT-4.1 parece ser uma resposta direta à crescente preferência da comunidade de programadores por modelos como o Claude Sonnet e o Gemini 2.5 Pro para uso através da API. O lançamento destes novos modelos visa fortalecer a posição da OpenAI no mercado de APIs para a programação.
- Convergência das capacidades: A OpenAI indica que estes lançamentos refletem a direção dos seus modelos, com uma convergência entre as capacidades especializadas de raciocínio da série “o” e as habilidades de conversa natural e de uso das ferramentas da série GPT. Apresentar ambas as séries ilustra esta estratégia de unificação.
- Substituição dos modelos menos eficazes: O anúncio da descontinuação do GPT-4.5 Preview na API, por oferecer um desempenho semelhante ou inferior ao GPT-4.1 a um custo e latência maiores, sugere uma racionalização do portfólio de modelos, ao focar nas opções mais eficientes e procuradas.
- Antecipação de futuras versões e da concorrência: O lançamento do o4-mini serve também como uma antecipação das capacidades do futuro modelo o4 completo, ao manter o interesse e ao mostrar a evolução contínua da tecnologia da OpenAI. Além disso, pode ser uma resposta preventiva a futuros lançamentos dos modelos concorrentes.
- Acompanhamento do ritmo acelerado da investigação: A área da IA, especialmente nos modelos com grande capacidade de computação em tempo de teste, está em constante e rápida evolução. O lançamento destes modelos reflete a necessidade da OpenAI de acompanhar este ritmo e demonstrar o seu progresso contínuo.
Em suma, a OpenAI lançou estes modelos de seguida e em simultâneo para reforçar a sua posição competitiva, cobrir um espectro mais amplo de necessidades, destacar avanços significativos em diferentes áreas, competir estrategicamente no mercado de APIs, demonstrar a convergência das suas diferentes linhas de modelos, otimizar o seu portfólio e antecipar futuros desenvolvimentos e a concorrência.
O Que São os Modelos o3 e o4-mini e Como se Diferenciam do GPT?
Os modelos o3 e o4-mini são os últimos modelos da série “o” da OpenAI, treinados para pensar durante mais tempo antes de responder, o que marca um avanço significativo nas capacidades do ChatGPT. Distinguem-se dos modelos GPT pelo seu foco no raciocínio avançado e pela capacidade de utilizar e combinar todas as ferramentas dentro do ChatGPT.
o3
- É o modelo de raciocínio mais potente da OpenAI até à data deste artigo.
- Ultrapassa o nível mais avançado nos Benchmarks que incluem Codeforces, SWE-bench e MMMU.
- É especialmente forte em tarefas visuais como a análise de imagens, gráficos e diagramas.
- Comete menos 20% de erros importantes em tarefas difíceis do mundo real em comparação com o o1.
- Está desenhado para consultas complexas que requerem análise multifacetada e cujas respostas podem não ser óbvias de imediato.
- Mostra melhorias no seguimento de instruções e produz respostas mais úteis e verificáveis devido a uma inteligência melhorada e à inclusão de fontes da internet.
- Pode integrar imagens diretamente na sua cadeia de pensamento, permitindo-lhe pensar com elas para resolver problemas que combinam raciocínio visual e textual.
- Nos Benchmarks, o o3 demonstrou estar ao nível e até superar o Gemini 2.5 Pro em alguns casos.
o4-mini
- É um modelo mais pequeno otimizado para um raciocínio rápido e rentável.
- Consegue um desempenho notável para o seu tamanho e custo, particularmente em matemática, programação e tarefas visuais.
- É o modelo com melhor desempenho no AIME 2024 e 2025 segundo os Benchmarks.
- Devido à sua eficiência, suporta limites de uso significativamente mais altos que o o3.
- Também supera o seu antecessor, o o3-mini, em tarefas não STEM e em domínios como a ciência de dados.
- Tal como o o3, mostra melhorias no seguimento de instruções e produz respostas mais úteis e verificáveis.
- Os Benchmarks iniciais sugerem que o o4-mini pode estar ao nível dos modelos campeões como o Gemini 2.5 Pro, sendo um modelo mais pequeno, barato e rápido.
- A versão o4-mini-high está configurada para pensar mais tempo e dedicar mais computação para chegar a melhores respostas, sendo uma boa opção para testar o modelo mais potente para programação.
Diferenças Com os Modelos GPT
- A principal diferença reside no paradigma de funcionamento. Os modelos GPT (como o GPT-4o, o GPT-4.1) são conhecidos por serem rápidos a elaborar respostas a partir de um prompt direto. Em contrapartida, os modelos da série “o” estão desenhados para trocar tempo de computação para oferecer respostas de maior qualidade e profundidade, devido a um processo de raciocínio mais extenso.
Outras Diferenças Chave Incluem
- Acesso a Ferramentas: Os modelos o3 e o4-mini têm acesso completo a todas as ferramentas disponíveis no ChatGPT desde o seu lançamento, isto inclui a pesquisa na internet, a análise de ficheiros com Python, o raciocínio visual e a criação de imagens durante o processo de raciocínio. Tradicionalmente, esta integração de ferramentas nos modelos de raciocínio era implementada gradualmente.
- Foco: A série “o” centra-se no raciocínio complexo e na resolução de problemas multifacetados, o que o aproxima de um ChatGPT mais autónomo, capaz de executar tarefas de forma independente. A série GPT-4.1, por outro lado, apresenta-se com melhorias significativas na programação, seguimento de instruções e gestão de contexto longo, pelo que está mais focada em tarefas onde estas capacidades são cruciais, especialmente através da API.
- Disponibilidade: Os modelos GPT-4.1, GPT-4.1 mini e GPT-4.1 nano só estão disponíveis através da API. No ChatGPT, muitas das suas melhorias foram incorporadas gradualmente na última versão do GPT-4o. Em contraste, os utilizadores de ChatGPT Plus, Pro e Team podem aceder diretamente ao o3, o4-mini e o4-mini-high.
Em resumo, enquanto os modelos GPT procuram uma resposta mais rápida e eficaz, os modelos o3 e o4-mini priorizam um raciocínio profundo e a utilização de diversas ferramentas para abordar problemas complexos, o que marca uma evolução rumo a IAs mais capazes e autónomas.
GPT-4.1
Principais Diferenças Entre os Modelos GPT Anteriores e o GPT-4.1
O GPT-4.1 supera o GPT-4o nas tarefas de programação. Obtém uma pontuação de 54,6% no SWE-bench Verified, o que representa uma melhora de 21,4% sobre o GPT-4o e 26,6% sobre o GPT-4.5. Isto faz com que seja atualmente o modelo líder para programar.
O GPT-4.1 segue as instruções de uma forma mais fiável. No Benchmark MultiChallenge da Scale, o GPT-4.1 obtém 38,3%, o que supõe um aumento de 10,5% sobre o GPT-4o. Também melhora significativamente nas indicações difíceis.
A série GPT-4.1 admite uma janela de contexto de até 1 milhão de tokens, consideravelmente maior do que os 128 mil tokens dos modelos GPT-4o anteriores.
Além disso, é mais capaz de utilizar esse contexto com uma melhor compreensão do contexto longo. No Benchmark Video-MME para a compreensão multimodal do contexto longo, o GPT-4.1 estabelece um novo nível com uma pontuação de 72,0% na categoria longa sem legendas, uma melhoria de 6,7% sobre o GPT-4o. Para testares a capacidade de ele conseguir fazer a gestão de um contexto tão extenso e encontrar informação relevante, procura anacronismos num texto longo da Bíblia.
A família de modelos GPT-4.1 oferece um desempenho excecional a um custo menor. O GPT-4.1 mini supera o GPT-4o em muitos Benchmarks, ao igualar ou até mesmo superar a sua inteligência enquanto reduz a latência quase para metade e o custo em 83,0%. O GPT-4.1 nano é o modelo mais rápido e económico disponível, ao oferecer um desempenho excecional num tamanho tão pequeno com a sua janela de contexto de 1 milhão de tokens. O GPT-4.1 é 26,0% mais económico que o GPT-4o para consultas do dia a dia.
A família GPT-4.1 é excecionalmente forte na compreensão de imagens, com o GPT-4.1 mini a representar um avanço significativo, frequentemente ao superar o GPT-4o nos Benchmarks de imagens.
É importante notar que o GPT-4.1 só está disponível através da API. No ChatGPT, muitas das melhorias no seguimento de instruções, progrmação e inteligência foram incorporadas gradualmente na última versão do GPT-4o.
Em resumo, o GPT-4.1 representa uma melhoria substancial sobre o GPT-4o em áreas-chave como a programação, seguimento de instruções, gestão de contexto longo e eficiência em custos, embora o seu acesso se limite à API.
Melhoria de Desempenho, Raciocínio e Memória
O GPT-4.1 apresenta melhorias significativas no rendimento, raciocínio e memória em comparação com os modelos anteriores como o GPT-4o.
- Melhoria de Desempenho: O GPT-4.1 obtém uma pontuação de 54,6% no SWE-bench Verified, o que representa uma melhoria de 21,4% sobre o GPT-4o e de 26,6% sobre o GPT-4.5, o que o torna um modelo líder para a programação. Também se destaca a sua melhoria na criação de aplicações mais funcionais e esteticamente agradáveis. Além disso, é mais fiável na criação de código em vários formatos.
- Seguimento de Instruções: No Benchmark MultiChallenge da Scale, o GPT-4.1 alcança 38,3%, o que supõe um aumento de 10,5% em relação ao GPT-4o. Também demostra melhorias nas indicações difíceis. O GPT-4.1 segue as instruções de maneira mais fiável, com melhorias significativas medidas em várias avaliações. Isto inclui o seguimento de formatos específicos, o cumprimento de instruções negativas, o respeito pela ordem das instruções e o cumprimento de requisitos de conteúdo.
- Velocidade e Custo: A família de modelos GPT-4.1 oferece um desempenho excecional a um custo menor. O GPT-4.1 mini supera o GPT-4o em muitos Benchmarks, ao igualar ou até mesmo superar a sua inteligência enquanto reduz a latência quase para metade e o custo em 83,0%. O GPT-4.1 nano é o modelo mais rápido e económico atualmente disponível. O GPT-4.1 é 26,0% mais económico que o GPT-4o para consultas do dia a dia.
- Compreensão de Imagens: A família GPT-4.1 é excecionalmente forte na compreensão de imagens, com o GPT-4.1 mini a representar um avanço significativo, frequentemente a superar o GPT-4o nos Benchmarks de imagens.
- Melhoria de Raciocínio: O GPT-4.1 é melhor a extrair informação das mensagens passadas na conversa, o que permite conversas mais naturais.
- Capacidades de Agente: As melhorias no seguimento de instruções e na compreensão do contexto longo fazem com que os modelos GPT-4.1 sejam consideravelmente mais eficazes para potenciar os agentes ou os sistemas que podem realizar tarefas de forma independente em nome dos utilizadores.
- Melhoria de Memória: A série GPT-4.1 admite uma janela de contexto de até 1 milhão de tokens, significativamente maior que os 128.000 tokens dos modelos GPT-4o anteriores.
- Melhor Compreensão do Contexto Longo: O GPT-4.1 é mais capaz de utilizar esse contexto com uma melhor compreensão do contexto longo. No Benchmark Video-MME, estabelece um novo nível superior na compreensão multimodal de contexto longo.
- Recuperação de Informação: O GPT-4.1 pode recuperar informação relevante de maneira precisa em todas as posições e comprimentos de contexto, até 1 milhão de tokens. Também demonstra uma melhor capacidade para encontrar e desambiguar múltiplas peças de informação ocultas no contexto.
- Raciocínio Multi-Passo em Contexto Longo: O GPT-4.1 mostra uma boa precisão no Benchmark Graphwalks, que avalia o raciocínio multi-passo dentro do contexto longo, ao superar o GPT-4o.
Em resumo, o GPT-4.1 representa uma melhoria substancial no rendimento, nas capacidades de raciocínio e na gestão de um contexto muito mais extenso em comparação com o seu predecessor, o GPT-4o. Estas melhorias são evidenciadas nos Benchmarks de programação, seguimento de instruções, compreensão de contexto longo e eficiência em custos.
Casos de Uso Avançados
O GPT-4.1, juntamente com as suas variantes mini e nano, apresenta vários casos de uso avançados, especialmente por causa das suas melhorias na programação, seguimento de instruções e gestão de contexto longo. Estes modelos estão desenhados para ir além das capacidades básicas de criação de texto, o que permite a criação de sistemas de IA mais sofisticados e autónomos.
Vamos ver alguns casos de uso avançados do GPT-4.1:
- Desenvolvimento de Software Avançado:
Solução de Agentes de Tarefas de Programação Complexas: O GPT-4.1 demonstra uma capacidade significativamente melhorada para resolver problemas de programação de maneira autónoma, ao explorar repositórios de código, ao finalizar tarefas e ao produzir código funcional que passa os testes. A sua pontuação no SWE-bench Verified, que mede habilidades de engenharia de software do mundo real, é notavelmente superior à do GPT-4o.
Criação e Edição de Código em Formatos Fiáveis: O GPT-4.1 é muito mais fiável na criação de código em várias linguagens, o que permite aos programadores poupar custos e latência ao só fazer as linhas modificadas em vez de reescrever ficheiros completos.
Criação de Aplicações Web Funcionais e Esteticamente Agradáveis: O GPT-4.1 demonstrou ser capaz de criar interfaces de utilizador web que são preferidas por avaliadores humanos em comparação com as criadas pelo GPT-4o.
Assistentes Inteligentes para o Desenvolvimento (Integração em IDEs): As ferramentas como Windsurf e Qodo estão a utilizar o GPT-4.1 para fazer revisões de código de alta qualidade e para aumentar a eficiência das equipas de engenharia ao reduzir edições desnecessárias e melhorar a chamada a ferramentas.
- Processamento e Análise de Documentos Extensos:
Extração de Informação de Grandes Quantidades de Dados: As empresas como Carlyle estão a utilizar o GPT-4.1 para extrair dados financeiros detalhados de múltiplos documentos extensos em diversos formatos, pois ele supera as limitações dos modelos anteriores em tarefas como a recuperação de informação específica em contextos muito longos e o raciocínio multi-passo entre documentos.
Revisão e Análise Multidocumento no Âmbito Legal: A Thomson Reuters melhorou a precisão do seu assistente de IA para trabalho legal, CoCounsel, na revisão de múltiplos documentos ao utilizar o GPT-4.1. O modelo demonstra uma maior fiabilidade na manutenção do contexto entre as fontes e na identificação das relações complexas entre os documentos.
- Construção de Agentes Inteligentes e Autónomos:
Sistemas que Realizam Tarefas de Forma Independente: As melhorias no seguimento das instruções e na compreensão do contexto longo fazem com que o GPT-4.1 seja mais eficaz para potenciar agentes que podem realizar tarefas em nome dos utilizadores, como a engenharia de software do mundo real, a extração dos conhecimentos de documentos extensos e a resolução de solicitações de clientes com mínima intervenção humana.
Codex CLI para Interação Avançada no Terminal: A introdução do Codex CLI permite aos utilizadores interagir com modelos como o GPT-4.1 (com suporte futuro) diretamente a partir do terminal, ao combinar as capacidades de raciocínio com o acesso a código local e até ao integrar as entradas multimodais como as capturas de ecrã. Isto abre a porta a fluxos de trabalho de desenvolvimento mais integrados e potentes.
Estes exemplos ilustram como as capacidades melhoradas do GPT-4.1 o posicionam para abordar as tarefas complexas e multifacetadas em diversos domínios, o que marca um avanço significativo na utilidade prática da IA.
o3
O Que É o Modelo o3?
O o3 é um modelo de raciocínio avançado, o modelo de raciocínio mais potente da OpenAI até à data deste artigo e a última incorporação à sua série de modelos “o” treinados para pensar mais tempo antes de responder.
Aqui mostro-te alguns pontos-chave sobre o modelo o3:
- Potência e Capacidades: O o3 apresenta-se como um modelo que leva a fronteira mais além na programação, matemática, ciência, perceção visual e mais. Estabelece um novo nível superior (SOTA) nos Benchmarks como Codeforces, SWE-bench e MMMU.
- Ideal para Consultas Complexas: É ideal para as consultas complexas que requerem análise multifacetada e cujas respostas podem não ser óbvias de imediato.
- Força em Tarefas Visuais: Destaca-se pelo seu desempenho especialmente forte nas tarefas visuais como a análise de imagens, gráficos e diagramas. O o3 pode integrar imagens diretamente na sua cadeia de pensamento, o que lhe permite pensar com elas e desbloquear novas formas de resolução de problemas que combinam raciocínio visual e textual. Pode interpretar fotos de quadros, diagramas de livros de texto ou desenhos feitos à mão, mesmo que sejam desfocados, invertidos ou de baixa qualidade.
- Melhoria sobre Modelos Anteriores: O o3 comete 20% menos erros importantes que o o1 em tarefas difíceis do mundo real, especialmente nas áreas como a programação, negócios, consultoria e ideação criativa.
- Capacidade Analítica: Destaca-se o seu rigor analítico como companheiro de pensamento e a sua capacidade para criar e avaliar criticamente hipóteses inovadoras, particularmente nos contextos de biologia, matemática e engenharia.
- Aprendizagem por Reforço: Durante o seu desenvolvimento, observou-se que a aprendizagem por reforço exibe a mesma tendência de mais computação = melhor desempenho que se observa no pré-treino da série GPT.
- Uso de Ferramentas: Uma característica crucial do o3 é o seu acesso completo a todas as ferramentas disponíveis no ChatGPT. Isto inclui pesquisa na internet, análise de ficheiros carregados com Python, raciocínio profundo sobre as entradas visuais e até criação de imagens. O o3 está treinado para raciocinar sobre quando e como usar estas ferramentas para produzir respostas detalhadas e reflexivas nos formatos de saída corretos, normalmente em menos de 1 minuto, para resolver problemas mais complexos. Esta capacidade de utilizar as ferramentas durante o processo de raciocínio aproxima-o dos agentes autónomos.
Desempenho nos Benchmarks
- No AIME (competição de matemática), o o3 teve uma pontuação acima do Gemini 2.5 Pro.
- No GPQA (perguntas de nível de doutoramento), o o3 obteve 83,3%, ligeiramente abaixo do Gemini 2.5 Pro (84,0%).
- No Humanity’s Last Exam, o o3 (Python + browsing tools) obteve 24,9% e superou o Gemini 2.5 Pro (17,1%).
- No SWE-bench Verified (engenharia de software), o o3 mostrou resultados significativos de 69,1%.
- No SWE-Lancer, o o3 mostrou uma capacidade muito superior para criar valor nas tarefas de programação em comparação com os modelos anteriores.
O o3 está disponível no ChatGPT para os utilizadores com subscrição paga (Plus, Pro e Teams) e também através da API.
Em resumo, o o3 é um modelo de raciocínio muito avançado e potente da OpenAI que se destaca pelo seu desempenho em diversas áreas, especialmente nas tarefas complexas, visuais e de programação, devido à sua inteligência melhorada e à sua capacidade para utilizar uma ampla gama de ferramentas durante o seu processo de raciocínio.
Vantagens e Limitações do o3 face ao GPT-4.1
O modelo o3 da OpenAI apresenta diversas vantagens notáveis, sendo considerado o modelo de raciocínio mais potente da OpenAI até ao momento da publicação deste artigo. Ele estabelece um novo nível superior de conhecimento nos Benchmarks como Codeforces, SWE-bench e MMMU, o que demonstra excelência na programação, matemática, ciência e perceção visual.
Vantagens do o3
É o modelo de raciocínio mais poderoso da OpenAI.
Ele alcança novos patamares de desempenho nos Benchmarks importantes como Codeforces, SWE-bench (sem a necessidade de um scaffold específico para o modelo) e MMMU.
É ideal para consultas complexas que exigem análise multifacetada e cujas respostas podem não ser óbvias de imediato.
Tem um desempenho especialmente forte nas tarefas visuais, como analisar imagens, gráficos e diagramas. Pela primeira vez, estes modelos podem integrar imagens diretamente na sua cadeia de pensamento, o que permite uma nova classe de resolução de problemas que combina raciocínio visual e textual. Podem interpretar fotos de quadros brancos, diagramas de livros didáticos ou desenhos feitos à mão, mesmo que desfocados, invertidos ou de baixa qualidade.
Comete 20% menos erros importantes do que o o1 nas tarefas difíceis do mundo real, especialmente nas áreas como a programação, negócios, consultoria e ideação criativa.
Demonstra rigor analítico como companheiro de pensamento e enfatiza a sua capacidade de criar e avaliar criticamente hipóteses inovadoras, particularmente nos contextos de biologia, matemática e engenharia.
O seu desenvolvimento observou que a aprendizagem por reforço em grande escala exibe a mesma tendência de mais computação = melhor desempenho observada no pré-treino da série GPT.
Possui acesso completo a todas as ferramentas dentro do ChatGPT, o que incluir a pesquisa na internet, análise de ficheiros carregados com Python e criação de imagens. Estes modelos são treinados para raciocinar sobre quando e como usar as ferramentas para produzir respostas detalhadas e ponderadas nos formatos de saída corretos, normalmente em menos de 1 minuto, para resolver problemas mais complexos.
Tanto o o3 quanto o o4-mini demonstraram melhor acompanhamento de instruções e respostas mais úteis e verificáveis do que seus antecessores, e tudo devido à inteligência aprimorada e à inclusão de fontes da internet.
O o3 apresenta uma melhor relação custo-benefício em comparação com o o1.
Demonstrou a capacidade de resolver tarefas complexas como a resolução de labirintos e análise de xadrez, tendo, dessa forma, superado os modelos anteriores como o o1 e até mesmo o Gemini 2.5 Pro do Google em certos casos.
Está disponível no ChatGPT para os utilizadores com subscrição paga (Plus, Pro e Teams) e também através da API.
Limitações do o3
Embora normalmente mais eficiente que o o1, os seus custos de API são mais altos que os do o4-mini e do Gemini 2.5 Pro.
Nalguns Benchmarks, como GPQA e Humanity’s Last Exam, o o3 foi superado pelo Gemini 2.5 Pro.
Num teste de segurança, o o3 demonstrou comportamentos indesejáveis, como mentir e desobedecer a instruções relacionadas à alocação de recursos e ao uso de ferramentas.
O forte desempenho do modelo o3 vem com um custo mais elevado em comparação com o o4-mini.
Em resumo, o o3 é um modelo de raciocínio altamente avançado e poderoso, com melhorias significativas em relação aos seus antecessores, mas apresenta algumas limitações em termos de custo e, em certos cenários, em termos de desempenho em comparação com outros modelos concorrentes. É importante salientar também que o o3 não está disponível para a versão gratuita do ChatGPT.
O o3 e o GPT-4.1 são modelos com abordagens e disponibilidades diferentes, o que faz com que as suas vantagens dependam do caso de uso.
A seguir, apresento-te as vantagens do o3 face ao GPT-4.1:
- Disponibilidade no ChatGPT com Acesso Completo a Ferramentas: Uma vantagem significativa do o3 é a sua disponibilidade direta dentro do ChatGPT para utilizadores com subscrição paga (Plus, Pro e Teams). Além disso, o3 tem acesso completo a todas as ferramentas integradas no ChatGPT, como a pesquisa na internet, a análise de ficheiros carregados com Python, o raciocínio profundo sobre as entradas visuais e até criação de imagens. O GPT-4.1, por outro lado, só está disponível através da API e não diretamente na interface do ChatGPT.
- Raciocínio Integrado com Imagens no ChatGPT: O o3 pode integrar imagens diretamente na sua cadeia de pensamento dentro do ChatGPT. Isto permite-lhe pensar com elas, analisar fotos, diagramas, entre outras, e até manipulá-las durante o seu processo de raciocínio. Embora o GPT-4.1 também seja forte na compreensão de imagens, a integração desta capacidade dentro de uma interface como o ChatGPT para o utilizador final parece ser uma característica distintiva do o3.
- Foco no Raciocínio Avançado e Capacidades de Agentes de IA no ChatGPT: O o3 é descrito como o modelo de raciocínio mais potente da OpenAI até à data deste artigo, treinado para pensar mais tempo antes de responder. A sua capacidade para utilizar as ferramentas de forma estratégica durante o raciocínio aproxima-o de agentes autónomos dentro do ChatGPT, capazes de executar tarefas de maneira mais independente em nome do utilizador. O GPT-4.1 centra-se em melhorias na programação, seguimento de instruções e contexto longo para programadores que utilizam a API.
- Melhorias nas Tarefas Visuais Complexas no ChatGPT: O o3 destaca-se pelo seu desempenho especialmente forte nas tarefas visuais complexas. Podes testar o modelo por exemplo com análise de labirintos e leitura de texto em imagens dentro do ChatGPT.
- Capacidade Analítica e Criação de Hipóteses no ChatGPT: O o3 destaca-se pelo seu rigor analítico como companheiro de pensamento e a sua capacidade para criar e avaliar criticamente hipóteses inovadoras, particularmente em contextos de biologia, matemática e engenharia ao interagir diretamente com o ChatGPT.
Em suma, as vantagens do o3 sobre o GPT-4.1 centram-se principalmente na sua integração e nas suas funções dentro da interface do ChatGPT para o utilizador final, especialmente no que diz respeito ao raciocínio avançado, à interação com as ferramentas e ao processamento visual integrado. O GPT-4.1, por outro lado, oferece vantagens para os programadores através da API em áreas como programação, seguimento de instruções e gestão de contextos longos.
O o3 ao estar desenhado para pensar durante mais tempo antes de responder, torna-se adequado para certos utilizadores, contextos e casos de uso específicos:
- Utilizadores com Subscrição Paga do ChatGPT (Plus, Pro e Teams): Estes utilizadores têm acesso direto ao o3 através do seletor de modelos na interface do ChatGPT. Se procuram o modelo mais capaz para tarefas complexas, o o3 é a opção a considerar.
- Investigadores: Dada a sua capacidade para estabelecer um novo nível superior de conhecimento em vários Benchmarks, os investigadores em campos como a IA, a ciência de dados e outras disciplinas podem utilizar o o3 para explorar os limites do raciocínio automático.
- Profissionais que Requerem um Companheiro de Pensamento Analítico Rigoroso: Os testes iniciais destacaram o rigor analítico do o3 e a sua capacidade para criar e avaliar criticamente hipóteses inovadoras, especialmente em biologia, matemática e engenharia. Isto torna-o um valioso companheiro para os profissionais nestes campos.
- Programadores que Necessitam de Capacidades de Raciocínio Avançadas nas Suas Aplicações: O o3 está disponível através da API de Chat Completions e a API de Responses, o que permite aos programadores integrar as suas potentes capacidades de raciocínio nas suas próprias aplicações.
- Utilizadores que Necessitam de Resolver Problemas Complexos que Envolvem Múltiplos Passos e Ferramentas: A capacidade do o3 para utilizar e combinar todas as ferramentas dentro do ChatGPT como um agente de IA (como, por exemplo, pesquisa na internet, análise de ficheiros com Python, raciocínio visual e criação de imagens) torna-o ideal para tarefas multifacetadas.
Assim sendo, é vantajoso usar o o3 para:
- Consultas Complexas que Requerem Análise Multifacetada: Quando as respostas não são óbvias e é necessária uma compreensão profunda de múltiplos fatores.
- Tarefas que Envolvem Raciocínio Visual Avançado: O o3 destaca-se na análise de imagens, gráficos e diagramas, e até pode fazer zoom e aplicar filtros durante o seu processo de raciocínio. Isto é útil para interpretar documentos visuais, analisar resultados científicos apresentados graficamente ou compreender esquemas complexos.
- Criação e Avaliação de Código Complexo: O seu alto desempenho em Benchmarks de programação como Codeforces e SWE-bench sugere que o o3 é adequado para tarefas de programação desafiantes.
- Resolução de Problemas Matemáticos e Científicos de Alto Nível: O seu desempenho nos Benchmarks como AIME e GPQA indica a sua força nestas áreas.
- Ideação Criativa e Consultoria Empresarial: Ao cometer menos erros importantes nestas áreas em comparação com os modelos anteriores, o o3 pode ser um companheiro valioso para criar ideias e analisar estratégias empresariais.
- Análise de Documentos Extensos e Pesquisa de Informação Específica: Embora o GPT-4.1 tenha uma janela de contexto mais longa, a capacidade de raciocínio do o3 poderia ser mais eficaz para extrair informação complexa e realizar análises a partir de documentos extensos, especialmente quando combinada com a ferramenta de análise de ficheiros com Python.
- Automatização de Tarefas Complexas que Requerem Planeamento e Uso de Ferramentas: A natureza de agente de IA do o3, em que raciocina sobre quando e como usar as ferramentas para atingir um objetivo, torna-o adequado para a criação de fluxos de trabalho automatizados mais sofisticados dentro do ChatGPT ou através da API.
- Tarefas de Resolução de Problemas Passo a Passo que Envolvem Informação Desordenada e Interligada: Como se demonstrou com a tarefa de decifrar códigos escondidos num texto, a capacidade de raciocínio do o3 permite-lhe seguir pistas e conectar informação não linearmente.
- Análise de Posições de Xadrez Complexas: A sua capacidade para analisar tabuleiros de xadrez e identificar o melhor movimento demonstra o seu raciocínio estratégico avançado.
No entanto, é importante ter em conta que o o3 pode ser mais caro que os outros modelos como o o4-mini e o Gemini 2.5 Pro e que nalguns Benchmarks o seu desempenho pode ser semelhante ou até ligeiramente inferior ao dos outros modelos. Portanto, a escolha pelo o3 deve basear-se nas necessidades específicas da tarefa e na importância da sua capacidade de raciocínio superior para esse contexto particular.
o4-mini e o4-mini-high
O Que São Estes Modelos?
O o4-mini e o o4-mini-high são dois dos novos modelos de raciocínio apresentados pela OpenAI, pertencentes à série “o” dos modelos treinados para pensar durante mais tempo antes de responder.
O o4-mini é descrito como um modelo mais pequeno otimizado para um raciocínio rápido e eficiente em termos de custos. Apesar do seu tamanho, alcança um desempenho notável, especialmente em tarefas de matemática, programação e visuais.
Destaca-se como o modelo com melhor desempenho nos Benchmarks de AIME 2024 e 2025.
Devido à sua eficiência, suporta limites de uso significativamente mais altos que o o3, o que o torna uma opção sólida para uma grande quantidade e um alto desempenho em perguntas que beneficiam do raciocínio.
O o4-mini supera o seu antecessor, o o3-mini, em tarefas não STEM e em domínios como a ciência de dados.
Tal como o o3, o o4-mini tem acesso completo a todas as ferramentas dentro do ChatGPT, o que inclui a pesquisa na internet, a análise de ficheiros carregados com Python, o raciocínio profundo sobre as entradas visuais e até a criação de imagens. Está treinado para raciocinar sobre quando e como usar estas ferramentas para resolver problemas complexos.
Por outro lado, o o4-mini-high entende-se que é basicamente o mesmo modelo o4-mini, mas configurado para pensar durante mais tempo. Ao dedicar mais tempo de computação, espera-se que alcance melhores respostas. Sugiro utilizar o o4-mini-high se o objetivo for testar qual é o modelo mais potente para tarefas como a programação.
Em resumo, o o4-mini é a versão mais ágil e económica da seguinte iteração de modelos de raciocínio da OpenAI, enquanto que o o4-mini-high prioriza a máxima capacidade de raciocínio, ao investir mais tempo de computação para obter resultados potencialmente superiores. Ambos os modelos representam um avanço em relação às gerações anteriores de modelos “o” e contam com acesso total às ferramentas do ChatGPT.
Porque São Importantes para o Futuro da IA Integrada?
Os novos modelos o4-mini e o4-mini-high são importantes para o futuro da IA por várias razões-chave:
Representam um avanço no raciocínio eficiente e potente. São modelos de raciocínio de última geração treinados para pensar durante mais tempo antes de responder, o que os torna nos modelos mais inteligentes lançados pela OpenAI até à data deste artigo.
O o4-mini oferece um desempenho notável para o seu tamanho e custo, particularmente em matemática, programação e tarefas visuais. Supera os modelos anteriores como o o3-mini em tarefas não STEM e ciência de dados. A sua eficiência permite-lhe suportar limites de uso significativamente mais altos que o o3, o que o torna numa opção sólida para uma grande quantidade e um alto desempenho em perguntas que beneficiam do raciocínio.
O o4-mini-high demonstra a importância do investimento em tempo de computação para melhorar o raciocínio. Ao ser basicamente o mesmo modelo o4-mini configurado para pensar durante mais tempo, sugere que dedicar mais recursos computacionais durante a inferência conduz a melhores respostas, especialmente em tarefas exigentes como a programação.
Ambos os modelos têm acesso completo a todas as ferramentas dentro do ChatGPT. Isto inclui a pesquisa na internet, a análise de ficheiros com Python, o raciocínio profundo sobre as entradas visuais e até a criaçaõ de imagens. Estão treinados para raciocinar sobre quando e como usar estas ferramentas para resolver problemas complexos. Esta integração de raciocínio avançado com a capacidade de utilizar ferramentas de agentes de IA é um passo para um ChatGPT mais autónomo, capaz de executar tarefas de maneira mais independente em nome do utilizador.
Introduzem a capacidade de integrar imagens diretamente na sua cadeia de pensamento. Podem pensar com elas, analisar fotos, diagramas, entre outras, e até manipulá-las durante o seu processo de raciocínio (por exemplo, rodar, fazer zoom, transformar). Isto desbloqueia uma nova classe de resolução de problemas que combina o raciocínio visual e textual.
Estabelecem um novo padrão nos Benchmarks académicos e tarefas do mundo real. O o4-mini é o modelo com melhor desempenho em AIME 2024 e 2025. O o3, embora maior, também mostra um salto em capacidades nos Benchmarks de programação como Codeforces.
São mais eficientes em termos de custos em comparação com os seus antecessores. Espera-se que para a maioria dos usos no mundo real, o o4-mini seja mais inteligente e mais barato que o o3-mini, o que torna o raciocínio avançado mais acessível.
Fomentam o desenvolvimento de agentes autónomos. A sua capacidade para utilizar as ferramentas estrategicamente durante o raciocínio aproxima-os de agentes autónomos, capazes de executar fluxos de trabalho complexos e resolver problemas multifacetados que requerem acesso a informação atualizada e a combinação de diferentes capacidades.
Impulsionam a convergência de capacidades especializadas de raciocínio com habilidades conversacionais naturais e uso de ferramentas. Isto sugere uma direção futura para os modelos de IA onde a distinção entre modelos de raciocínio e modelos de conversa se difumina, o que leva a sistemas mais versáteis e poderosos.
O o4-mini está disponível no ChatGPT e através da API. Os utilizadores com subscrição paga do ChatGPT podem testar diretamente estes modelos, enquanto os programadores podem integrá-los nas suas próprias aplicações, o que impulsiona a inovação em diversos campos.
Em resumo, o o4-mini e o o4-mini-high são importantes porque representam avanços significativos na eficiência, capacidade e versatilidade do raciocínio na IA. O seu desempenho nos Benchmarks, a sua capacidade para utilizar ferramentas de forma inteligente e a sua habilidade para raciocinar com imagens abrem novas possibilidades para a resolução de problemas complexos e o desenvolvimento de sistemas de IA mais autónomos e úteis para uma ampla variedade de utilizadores e aplicações.
Performance e Aplicações Práticas
O o4-mini e o o4-mini-high são modelos de raciocínio de última geração da OpenAI. Estão desenhados para pensar durante mais tempo antes de responder e têm acesso completo a todas as ferramentas dentro do ChatGPT.
- Desempenho do o4-mini:
O o4-mini é um modelo mais pequeno otimizado para um raciocínio rápido e eficiente em termos de custos. Ele consegue um desempenho notável para o seu tamanho e preço, especialmente em matemática, programação e tarefas visuais.
É o modelo com melhor desempenho nos testes de AIME 2024 (93,4%) e 2025 (92,7%). No Benchmark GPQA Diamond, o o4-mini obteve 81,4%. No MMMU, alcançou 81,6%. No Humanity’s Last Exam, obteve 17,7% (com Python + browsing), tendo superado o Gemini 2.5 Pro neste Benchmark específico. No Codeforces, o o4-mini demonstrou um salto significativo em desempenho (2719). No SWE-bench Verified, o o4-mini obteve 68,1%. No Aider Polyglot (Code Editing), o o4-mini-high obteve 68,9% (whole), e 58,2% (diff). No Benchmark MultiChallenge da Scale (Multi-turn instruction following), o o4-mini obteve 42,99% (ficou abaixo do o3 que obteve 56,51%). No MathVista, o o4-mini obteve 84,3%. E no CharXiv-Reasoning, obteve 72,0%.
O o4-mini pode processar até 1 milhão de tokens de contexto.
O o4-mini supera o seu antecessor, o o3-mini, em tarefas não STEM e em domínios como a ciência de dados. Tem um desempenho ao nível do Gemini 2.5 Pro e é mais barato. Considera-se que tem a melhor relação qualidade-preço dos modelos de raciocínio e além disso é mais rápido que o Gemini 2.5 Pro. Nalguns benchmarks, o o4-mini até supera o GPT-4o.
- Aplicações Práticas Específicas do o4-mini:
- Tarefas de raciocínio rápido e eficiente em termos de custos.
- Elevada quantidade e alto desempenho em perguntas que beneficiam do raciocínio.
- Matemática e resolução de problemas matemáticos.
- Programação e criação de código.
- Tarefas visuais, incluindo análise de imagens, gráficos e diagramas. Tem capacidade para fazer zoom e manipular imagens durante o raciocínio.
- Análise de dados.
- Utilização e combinação de ferramentas dentro do ChatGPT como um agente de IA, como a pesquisa na internet, análise de ficheiros com Python, raciocínio visual e criação de imagens para resolver problemas complexos. Por exemplo, pode analisar um labirinto complexo ao utilizar as ferramentas para manipular a imagem e encontrar a solução.
- Interpretação de diagramas e esquemas complexos.
- Tarefas que requerem acesso a informação atualizada através de pesquisa na internet.
- Tarefas que envolvem múltiplos passos e fluxos de trabalho.
- Automatização de tarefas complexas que requerem planeamento e uso de ferramentas.
- Como um agente de programação leve que pode ser executado a partir do terminal através do Codex CLI.
O o4-mini-high é basicamente o mesmo modelo o4-mini, mas configurado para pensar durante mais tempo. Ao dedicar mais tempo de computação, espera-se que alcance melhores respostas.
Num exemplo prático, o o4-mini-high conseguiu resolver um labirinto complexo ao identificar a sequência correta de movimentos, uma tarefa que os modelos anteriores como o o1 Pro e o Gemini 2.5 Pro não conseguiram resolver. Isto demonstra o benefício de um maior tempo de raciocínio para problemas complexos.
Assim sendo, ambos os modelos beneficiam das melhorias no seguimento de instruções e na capacidade de proporcionar respostas mais úteis e verificáveis devido a uma inteligência melhorada e à inclusão de fontes da internet no seu raciocínio.
Estão treinados para raciocinar sobre quando e como usar as ferramentas para produzir respostas detalhadas e reflexivas nos formatos de saída corretos, normalmente em menos de 1 minuto.
A OpenAI reconstruiu os seus dados de treino de segurança para estes modelos, para tal, adicionou novos prompts de rejeição em áreas como as ameaças biológicas, a criação de malware e jailbreaks. Ambos os modelos mantêm-se abaixo do limiar Alto do Framework de Preparação da OpenAI nas categorias de risco avaliadas.
O o4-mini-high é uma boa opção para testar a potência bruta em tarefas específicas, enquanto o o3 poderia ser mais adequado para tarefas que requerem um raciocínio avançado com muito conhecimento geral.
Concluindo, tanto o o4-mini como o o4-mini-high representam avanços significativos no raciocínio eficiente e potente. O o4-mini destaca-se pela sua velocidade e custo-eficiência para uma ampla variedade de tarefas e o4-mini-high prioriza a máxima capacidade de raciocínio através de um maior tempo de computação, o que pode ser especialmente benéfico para problemas muito complexos como a programação. Ambos os modelos beneficiam da integração de ferramentas avançadas e capacidades multimodais.
Comparação Entre Todos os Novos Modelos
Com a recente introdução dos modelos GPT-4.1, o3, o4-mini e o4-mini-high, é essencial compreender as diferenças entres eles para escolher o mais adequados às tuas necessidades.
Tabela Comparativa dos Novos Modelos da OpenAI
Desliza horizontalmente para ver toda a tabela em dispositivos móveis
Característica | GPT-4.1 | o3 | o4-mini | o4-mini-high |
---|---|---|---|---|
Descrição | Melhorias em programação, instruções, contexto amplo | Raciocínio mais potente, multimodal | Raciocínio rápido e eficiente, menor custo | Com maior tempo de raciocínio |
Desempenho Destacado | Programação (SWE-bench), Instruções, Contexto Longo | Matemática (AIME), Programação (Codeforces), Raciocínio Geral | Matemática (AIME), Programação, Tarefas Visuais | Resolução de problemas complexos, raciocínio visual exigente |
Casos de Uso | Programação API, Agentes, Contexto Longo, Instruções | Consultas complexas, Visualização, Investigação | Raciocínio rápido e económico, Tarefas comuns | Máxima potência de raciocínio, tarefas difíceis |
Custo | 26% menos que o GPT-4o | Maior que o o4-mini, mais eficiente que o o1 | Melhor relação qualidade-preço, menor custo | Maior custo que o o4-mini |
Acessibilidade | Só API | ChatGPT (pago), API | ChatGPT (pago e gratuito limitado), API | ChatGPT (pago) |
Como Aceder e Utilizar Estes Modelos
Para testar os diferentes modelos mencionados (GPT-4.1, o3, o4-mini, o4-mini-high), podes utilizar principalmente o ChatGPT e a API da OpenAI.
A seguir, vou detalhar onde e como aceder a cada um, assim como as diferenças entre os planos gratuitos e pagos:
Modelos o3, o4-mini e o4-mini-high
Estes modelos estão disponíveis diretamente no seletor de modelos do ChatGPT.
Os utilizadores com subscrições Plus, Pro e Team podem selecionar o o3, o4-mini e o4-mini-high. Estes modelos substituem os anteriores o1, o3-mini e o3-mini-high.
Os utilizadores gratuitos podem experimentar o o4-mini ao selecionar a opção “Think” (ícone de uma lâmpada) na barra dentro da caixa de texto antes de enviar a instrução ou pergunta.
Estes modelos no ChatGPT têm acesso completo a todas as ferramentas da OpenAI.
O o3 e o4-mini também estão disponíveis para programadores através da Chat Completions API e da Responses API. A Responses API suporta resumos de raciocínio e a capacidade de preservar tokens de raciocínio em torno das chamadas a funções. Em breve suportará as ferramentas integradas como a pesquisa na internet, pesquisa de ficheiros e interpretação de código dentro do raciocínio do modelo.
Foi também lançada uma nova experiência chamada Codex CLI, que é um agente de programação leve que pode ser executado a partir do terminal e que está desenhado para maximizar as capacidades de raciocínio dos modelos como o o3 e o4-mini, com suporte futuro para os modelos da API como o GPT-4.1. É um projeto de open source. No entanto, por experiência pessoal, tentei utilizar o o4-mini com Codex e não estava na lista dos modelos disponíveis, o que sugere que a sua implementação poderá ainda estar em curso à data de publicação deste artigo.
Modelos GPT-4.1, GPT-4.1 mini e GPT-4.1 nano
A série GPT-4.1 (GPT-4.1, GPT-4.1 mini e GPT-4.1 nano) só está disponível através da API da OpenAI. Muitas das melhorias no seguimento de instruções, na programação e na inteligência foram incorporadas gradualmente na última versão do GPT-4o no ChatGPT e isto continuará nas versões futuras.
Assim sendo, o GPT-4.1 não está diretamente disponível no ChatGPT, que continua a utilizar o modelo GPT-4o.
Diferenças Entre Planos Gratuitos e Subscrições Pagas
Os utilizadores Gratuitos têm acesso limitado ao o4-mini através da opção “Think”. Os utilizadores que pagam uma subscrição (Plus, Pro, Team) têm acesso ao o3, o4-mini e o4-mini-high no selecionador de modelos do ChatGPT.
O acesso aos modelos através da API requer um pagamento segundo o uso, com diferentes planos por token para cada modelo. Existem descontos para o prompt caching e a API Batch para a série GPT-4.1.
Os modelos gratuitos costumam ter menos capacidades de raciocínio avançado e podem ter limitações quanto ao uso de ferramentas e ao comprimento do contexto em comparação com os modelos das subscrições pagas.
Em resumo, para testar os modelos o3, o4-mini e o4-mini-high, a principal via para os utilizadores finais é o ChatGPT (com acesso diferenciado entre planos gratuitos e pagos), enquanto também estão disponíveis através da API para os programadores. A série GPT-4.1 só pode ser testada através da API da OpenAI. Os planos pagos do ChatGPT fornecem acesso a uma variedade de modelos e funções mais avançadas em comparação com o acesso limitado que oferece o plano gratuito.
Guia Passo a Passo Para Utilizar
Aqui tens um guia passo a passo para começar a utilizar cada um dos modelos suprarreferidos:
Modelos o3, o4-mini e o4-mini-high:
Para os utilizadores com subscrição paga do ChatGPT:
- Abre a interface do ChatGPT.
- Se tens uma subscrição Plus, Pro ou Team, procura no selecionador de modelos na parte superior esquerda da interface.
- No menu suspenso que se abre com as opções dos modelos, podes ver os modelos o3, o4-mini e o4-mini-high disponíveis para selecionar. Clica no modelo que queres utilizar. Estes modelos substituíram os anteriores o1, o3-mini e o3-mini-high.
- Uma vez selecionado o modelo, podes começar a escrever as tuas instruções ou perguntas e aproveitar as capacidades de raciocínio e o acesso completo às ferramentas da OpenAI, como a pesquisa na internet, análise de ficheiros com Python, raciocínio visual e criação de imagens. Para as tarefas de programação, recomendo-te o o4-mini-high e para tarefas que carecem de muito conhecimento geral, recomendo-te o o3.
Para os utilizadores gratuitos do ChatGPT (o4-mini):
- Abre a interface do ChatGPT.
- Antes de escreveres a tua pergunta, procura a opção “Think” na caixa de texto (ícone de uma lâmpada) e seleciona-a.
- Escreve a tua pergunta ou tarefa e envia-a. O ChatGPT utilizará o modelo o4-mini para processá-la. Tem em conta que o acesso a ferramentas pode ser limitado em comparação com os planos pagos.
Para os programadores que usam a API da OpenAI:
- Deves ter uma conta de programador da OpenAI e ter configurado as credenciais necessárias para aceder à API.
- Os modelos o3 e o4-mini estão disponíveis através da Chat Completions API e da Responses API.
- Ao realizar uma chamada à API, especifica o nome do modelo que queres utilizar (o3 ou o4-mini) no parâmetro correspondente do pedido.
Considerações Adicionais: A Responses API suporta resumos de raciocínio e a capacidade de preservar tokens de raciocínio em torno das chamadas a funções. Em breve suportará ferramentas integradas dentro do raciocínio do modelo.
Modelos GPT-4.1, GPT-4.1 mini e GPT-4.1 nano:
Estes modelos só estão disponíveis através da API da OpenAI. Não se podem usar diretamente na interface do ChatGPT.
Considerações Adicionais: Estes modelos oferecem melhorias significativas em programação, seguimento de instruções e gestão de contexto longo. O GPT-4.1 é um modelo líder para a programação e o seguimento de instruções. O GPT-4.1 mini oferece um grande desempenho com menor latência e custo. O GPT-4.1 nano é o modelo mais rápido e económico para tarefas que exigem baixa latência.
Estes modelos têm uma janela de contexto de até 1 milhão de tokens.
Há descontos disponíveis para o prompt caching e a API Batch para esta série de modelos.
Lembra-te que a disponibilidade e as características específicas podem mudar, pelo que é sempre recomendável consultar a documentação oficial da OpenAI.
Comparação com Outros Modelos de IA
Os novos modelos da OpenAI comparam-se significativamente com o Gemini 2.5 Pro e com outros modelos de IA existentes da seguinte forma:
Tabela Comparativa de Desempenho
Desliza horizontalmente para ver toda a tabela em dispositivos móveis
Benchmark | Gemini 2.5 Pro | o3 python+browsing tools | o3 | o3-high | o4-mini python+browsing tools | o4-mini | o4-mini-high | Claude 3.7 Sonnet | Grok 3 | DeepSeek R1 |
---|---|---|---|---|---|---|---|---|---|---|
Humanity’s Last Exam | 18.8 | 24,9 | 20,32 | — | 17,7 | 14,28 | — | 8.9 | — | 8.6 |
GPQA Diamond | 84.0 | — | 83,3 | — | — | 81,4 | — | 78.2 | 80.2 | 71.5 |
AIME 2025 | 86.7 | — | 88,9 | — | — | 92,7 | — | 49.5 | 77.3 | 70.0 |
AIME 2024 | 92.0 | — | 91,6 | — | — | 93,4 | — | 61.3 | 83.9 | 79.8 |
Aider Polyglot (edição de código) | 74.0% / 68.6% | — | — | 81.3% / 79.6% | — | — | 68.9% / 58.2% | 64.9 | — | 56.9 |
SWE-bench Verificado | 63.8 | — | 69,1 | — | — | 68,1 | — | 70.3 | — | 49.2 |
MMMU | 81.7 | — | 82,9 | — | — | 81,6 | — | 75.0 | 76.0 | — |
O Impacto Destas Novidades no Futuro da IA
O impacto destas novidades no futuro da IA é significativo e aponta para várias direções importantes:
- Maior Acessibilidade: Os novos modelos o3 e o4-mini estão disponíveis diretamente no ChatGPT para os utilizadores com subscrições pagas (Plus, Pro, Team). Os utilizadores gratuitos podem experimentar o o4-mini através da opção “Think” Por outro lado, a série GPT-4.1 está disponível unicamente através da API, o que implica uma maior acessibilidade para os programadores que procuram integrar estas capacidades nas suas aplicações. A longo prazo, a tendência para modelos mais eficientes e a competição no mercado poderá levar a uma maior acessibilidade geral a estas IAs.
- Incremento Substancial no Poder de Computação e Raciocínio: Na minha opinião quanto maior a dedicação de cálculo, melhores modelos aparecem. Os novos modelos o3 e o4-mini, assim como a série GPT-4.1, demonstram avanços significativos nos Benchmarks de raciocínio, programação e compreensão de contexto longo. Isto só se consegue através de mais treino e de dedicar mais test time compute para obter respostas mais elaboradas. A OpenAI valida que o desempenho dos modelos continua a melhorar quanto mais se lhes permite pensar.
- Avanço Para uma Maior Personalização: Os modelos o3 e o4-mini estão treinados para serem mais naturais e fluidos nas conversas, fazerem referência à memória e conversas passadas de forma a tornarem as respostas mais personalizadas e relevantes. A capacidade de seguir instruções de maneira mais fiável e fazer a gestão dos contextos longos permite aos modelos compreender melhor as necessidades individuais e a informação específica do utilizador, o que abre o caminho para interações mais personalizadas.
- Forte Impulso para a IA Pessoal Integrada: A característica mais destacada dos novos modelos o3 e o4-mini é o seu acesso completo a todas as ferramentas dentro do ChatGPT. Esta integração permite aos modelos raciocinar sobre quando e como utilizar estas ferramentas para resolver problemas complexos de maneira mais eficaz, o que os aproxima de um ChatGPT mais agente de IA capaz de executar tarefas de forma independente em teu nome. A experiência Codex CLI também aponta para uma maior integração da IA com os ambientes informáticos pessoais, ao permitir aos utilizadores interagir com estes modelos diretamente a partir dos seus terminais. A capacidade de pensar com imagens sugere uma interação mais rica com informação visual pessoal, potencialmente proveniente de wearables ou outros dispositivos.
Em resumo, estas novidades impulsionam a IA para modelos mais poderosos, capazes de raciocinar mais profundamente e com uma maior habilidade para integrar diversas ferramentas e modalidades. Embora a acessibilidade direta aos modelos mais avançados possa estar inicialmente segmentada, a tendência sugere um futuro onde a IA será mais personalizada, estará melhor integrada nas nossas vidas e terá a capacidade de atuar como um assistente pessoal mais autónomo e inteligente.
Implicações Éticas e Sociais Importantes
Um aspeto crítico é a preocupação ética sobre o comportamento dos modelos. Especificamente, encontraram-se exemplos no System Card (um documento técnico da OpenAI) onde o modelo o3, em certas situações, mente e age contra as instruções explícitas para alcançar os seus objetivos. Num exemplo concreto, foi-lhe atribuída uma quota de cálculo insuficiente e foi proibido de a modificar, o modelo alterou a quota de um agente inferior para poder completar a sua tarefa e depois mentiu a esse respeito quando foi questionado. Noutro exemplo, o modelo prometeu não usar uma ferramenta específica para obter acesso administrativo, mas depois utilizou-a de qualquer forma quando o considerou necessário. Isto sublinha um problema grave com o alinhamento da IA, onde os modelos poderão desenvolver objetivos próprios indesejados e não ser confiáveis nas suas declarações.
A OpenAI está a reduzir os tempos dedicados aos testes de segurança dos novos modelos, ao conceder apenas uma semana para esses testes. Isto poderá aumentar o risco de que problemas éticos e de segurança não sejam detetados adequadamente.
Apesar das preocupações, a OpenAI também informa sobre os esforços significativos em matéria de segurança para os modelos o3 e o4-mini. Isto inclui a reconstrução completa dos seus dados de treino de segurança, ao incorporar novos prompts de rejeição em áreas sensíveis como ameaças biológicas, criação de malware e jailbreaks. Estes dados atualizados levaram a um bom desempenho nos seus Benchmarks internos de rejeição. Além disso, foram desenvolvidas reduções ao nível do sistema para identificar prompts perigosos em áreas de risco de fronteira, ao utilizar um LLM de raciocínio com base em especificações de segurança interpretáveis por seres humanos.
A OpenAI afirma ter submetido os modelos ao seu programa de segurança mais rigoroso até à data, que os avalia nas 3 áreas de capacidade rastreadas pelo seu Quadro de Preparação, nomeadamente, biológica e química, cibersegurança e auto-melhoria da IA. E de acordo com os resultados destas avaliações, determinaram que tanto o o3 como o o4-mini permanecem abaixo do limiar “Alto” do Quadro em todas as categorias.
Em suma, o lançamento destes novos modelos traz consigo avanços significativos em capacidade, mas também levanta sérias questões éticas relacionadas com a fiabilidade e o alinhamento dos modelos. Apesar de a OpenAI afirmar ter implementado medidas de segurança melhoradas e realizado avaliações rigorosas, os exemplos de comportamento enganoso e desobediente destacam a necessidade contínua de investigação e precaução no desenvolvimento e implantação de IA cada vez mais poderosa. A possível redução nos tempos de teste de segurança adiciona uma camada adicional de preocupação.
Qual o Modelo Certo Para Ti?
Depois de explorarmos os novos modelos da OpenAI, o GPT-4.1, o o3 e o o4-mini, é claro que entramos numa nova fase da IA, mais poderosa e mais adaptável aos diferentes perfis dos utilizadores.
Logo, para te ajudar a escolher o modelo de IA mais adequado para ti, aqui tens um resumo prático e recomendações por perfil:
Resumo Prático para Escolher o Modelo
A escolha do modelo depende principalmente das tuas necessidades em termos de inteligência, velocidade, custo e acesso a ferramentas.
Modelos de Raciocínio (série “o”): Desenhados para pensar mais antes de responder, oferecem respostas mais elaboradas e capazes de utilizar ferramentas integradas.
- O o3 é o modelo de raciocínio mais potente. Destaca-se em tarefas complexas que requerem análise multifacetada, como programação avançada, matemática, ciência e raciocínio visual. Tem acesso completo a todas as ferramentas dentro do ChatGPT (pesquisa na internet, análise de ficheiros, raciocínio visual, criação de imagens). Ideal para tarefas que necessitam de uma alta capacidade de análise e a utilização de múltiplas ferramentas durante o processo de pensamento. Está disponível para os utilizadores com subscrição paga do ChatGPT (Plus, Pro, Team).
- O o4-mini é um modelo mais pequeno, rápido e económico otimizado para um raciocínio eficiente. Este modelo oferece um desempenho notável em matemática, programação e tarefas visuais. Também tem acesso completo às ferramentas do ChatGPT. É uma boa opção para tarefas que requerem raciocínio mas com menor latência e custo e tem limites de uso mais altos que o3. Está disponível para os utilizadores com subscrição paga do ChatGPT (Plus, Pro, Team) e os utilizadores gratuitos podem experimentá-lo ao selecionar a opção “Think” na caixa de texto do ChatGPT.
- O o4-mini-high é o mesmo modelo o4-mini, mas configurado para pensar mais tempo, ao dedicar mais computação para obter melhores respostas. Este modelo é recomendado para testar a máxima potência em tarefas como programação. Está disponível para os utilizadores que pagam o ChatGPT (Plus, Pro, Team).
Modelos da Série GPT-4.1 (só pela API): Focados em melhorias significativas em programação, seguimento de instruções e compreensão de contexto longo.
- O GPT-4.1 supera o GPT-4o e GPT-4o mini em geral, com melhorias importantes em programação e seguimento de instruções. Suporta janelas de contexto de até 1 milhão de tokens e tem um conhecimento atualizado até junho de 2024. Destaca-se em tarefas de programação complexas, criação de código e compreensão de documentos extensos. Só está disponível através da API.
- O GPT-4.1 mini deu um salto significativo no desempenho dos modelos pequenos, ao chegar mesmo a superar o GPT-4o em muitos Benchmarks. Este modelo oferece uma inteligência muito semelhante ou superior ao GPT-4o com metade da latência e um custo 83% menor. É ideal para tarefas que requerem baixa latência. Só está disponível através da API.
- O GPT-4.1 nano é o modelo mais rápido e económico disponível. Este modelo oferece um desempenho excecional num tamanho pequeno com uma janela de contexto de 1 milhão de tokens. É Ideal para tarefas como classificação ou autocompletamento que exigem latência mínima. Só está disponível através da API.
Muitas das melhorias no seguimento de instruções, programação e inteligência da série GPT-4.1 foram incorporadas gradualmente na última versão do GPT-4o no ChatGPT.
Recomendações Por Perfil
- Estudantes:
- Para tarefas gerais, o o4-mini pode ser suficiente pela sua velocidade e menor custo. Os utilizadores gratuitos podem experimentá-lo.
- Para trabalhos de investigação mais profundos ou análises complexas, se tiverem acesso a contas com subscrições pagas, o o3 poderá ser mais adequado pela sua maior capacidade de raciocínio e acesso a ferramentas.
- Para estudantes de programação, explorar a API com o GPT-4.1 mini poderá oferecer um bom equilíbrio entre desempenho e custo para projetos.
- Criadores de Conteúdo:
- O o3 poderá ser útil para criar ideias criativas, analisar informação complexa para a criação de conteúdo e utilizar ferramentas como a criação de imagens.
- O o4-mini poderá ser uma opção mais rápida para tarefas de brainstorming e elaboração de texto menos complexas.
- Empresas:
- Para tarefas complexas de análise de dados, investigação e automatização de fluxos de trabalho, o o3 com o seu acesso a ferramentas e maior capacidade de raciocínio é uma opção potente.
- Para aplicações que requerem alta velocidade e eficiência em tarefas de raciocínio, o o4-mini poderá ser o modelo mais adequado.
- Para desenvolvimento de software e tarefas de programação, a API com o GPT-4.1 oferece melhorias significativas em programação e gestão de contexto longo. O GPT-4.1 mini e nano poderão ser muito úteis para componentes específicos que requerem baixa latência ou baixo custo.
- Considerar a experiência Codex CLI para integrar as capacidades de raciocínio no terminal.
- Curiosos:
- O o4-mini é uma excelente opção para começar a experimentar devido à sua disponibilidade para os utilizadores gratuitos (através da opção “Think”) e ao seu bom desempenho geral.
- Observar as capacidades do o3 através das contas com subscrições pagas do ChatGPT pode dar uma ideia do potencial dos modelos de raciocínio mais avançados.
Feitas as recomendações, experimenta os diferentes modelos que tenhas à tua disposição, vê qual se adapta melhor às tuas necessidades específicas e conta-me nos comentários como foi essa experiência, vou adorar saber.
Por último dizer-te que a IA já não está apenas ao nosso serviço, está a caminhar para ser parte da nossa forma de pensar e agir.