
Desafio da IA
Você achava que Super Mario Bros. era um grande desafio para a inteligência artificial? De acordo com um grupo de pesquisadores, Super Mario Bros. é ainda mais difícil. Na última sexta-feira, o Hao AI Lab, uma organização de pesquisa da Universidade da Califórnia em San Diego, testou modelos de inteligência artificial em partidas ao vivo de Super Mario Bros.. O modelo Claude 3.7, da Anthropic, obteve o melhor desempenho, seguido pelo Claude 3.5. No entanto, o Gemini 1.5 Pro, do Google, e o GPT-4 da OpenAI enfrentaram dificuldades.
Adaptação do Jogo para IA
É importante esclarecer que não se tratava exatamente da mesma versão de Super Mario Bros. lançada em 1985. O jogo foi executado em um emulador e integrado a um framework chamado GamingAgent, que possibilitou que as IAs controlassem o personagem Mario.
O Benchmark de Super Mario Bros. para IA
O GamingAgent, desenvolvido internamente pelo Hao AI Lab, forneceu instruções básicas para a IA, como: “Se um obstáculo ou inimigo estiver próximo, mova-se/salte para a esquerda para desviar”, juntamente com capturas de tela do jogo. Dessa forma, a IA gerou comandos na forma de código Python para controlar Mario.
Ainda assim, o grupo Hao destaca que o jogo obrigou cada modelo a “aprender” a planejar manobras complexas e desenvolver estratégias de jogo. Curiosamente, o laboratório descobriu que modelos de raciocínio, como o o1 da OpenAI, que “pensam” nos problemas passo a passo para encontrar soluções, tiveram desempenho inferior aos modelos “não racionais”, mesmo sendo geralmente mais fortes na maioria dos benchmarks.
Desafios de Tempo Real para IA
Um dos principais motivos para a dificuldade dos modelos de raciocínio em jogos em tempo real é o fato de que eles demoram alguns segundos para decidir as ações, conforme explicam os pesquisadores. Em Super Mario Bros., a questão do tempo é crucial. Um segundo pode significar a diferença entre um salto bem-sucedido e uma queda fatal.
Jogos como Benchmark para IA
Jogos têm sido utilizados como benchmark para inteligência artificial há décadas. No entanto, alguns especialistas questionam a sabedoria de estabelecer conexões diretas entre as habilidades de jogo da IA e o avanço tecnológico. Diferente do mundo real, os jogos tendem a ser abstratos e relativamente simples, além de fornecerem uma quantidade teoricamente infinita de dados para treinar a IA.
Apesar dos recentes benchmarks de jogos chamativos, Andrej Karpathy, cientista de pesquisa e membro fundador da OpenAI, mencionou uma “crise de avaliação”. “Não sei muito bem quais métricas de IA analisar neste momento”, ele escreveu em uma postagem na rede social X. “Em resumo, minha reação é que realmente não sei quão bons esses modelos são agora.”
Ainda que as capacidades das IAs em jogos como Super Mario Bros. sejam questionadas, pelo menos podemos assistir a uma IA jogando Mario.
FAQ
Por que Super Mario Bros. é considerado um desafio maior para a inteligência artificial do que Pokémon?
De acordo com pesquisadores do Hao AI Lab, Super Mario Bros. apresenta complexidades e dinâmicas que tornam sua resolução mais desafiadora para modelos de inteligência artificial. Durante testes, o desempenho de IAs como Claude 3.7 superou outras, evidenciando os obstáculos que os modelos enfrentaram ao emular o jogo, em comparação a outros desafios, como Pokémon.
Qual é o papel do emulador e do GamingAgent no teste da IA?
O emulador e o framework GamingAgent foram cruciais para permitir que as IAs jogassem Super Mario Bros.. O GamingAgent forneceu o ambiente simulado e as instruções básicas que orientaram a IA a controlar o personagem Mario. Sem essa tecnologia, o teste de performance das IAs em um ambiente de jogo realista seria inviável.
Como funciona o processo de controle do Mario pela IA?
A IA controlou Mario gerando comandos em Python, com base nas instruções do GamingAgent. Esses comandos foram provistos do tipo “se um obstáculo estiver próximo, mova-se para a esquerda”. Desta maneira, a IA poderia reagir a diferentes circunstâncias do jogo, mesmo que isso demandasse um raciocínio mais complexo.
O que os pesquisadores descobriram sobre modelos de raciocínio e não racionais?
Os pesquisadores observaram que os modelos de raciocínio, que costumam adotar uma abordagem passo a passo, tiveram um desempenho inferior em Super Mario Bros. em comparação aos modelos que não seguem esse raciocínio. Isso é surpreendente, considerando que esses modelos normalmente se destacam em benchmarks, mas falharam em jogos em tempo real, exigindo mais agilidade nas decisões.
Por que o tempo é um fator crítico em Super Mario Bros. para a IA?
O tempo é um aspecto crucial em Super Mario Bros., pois a velocidade de decisões pode ser a chave para o sucesso ou a falha. Um segundo pode significar a diferença entre um salto bem-sucedido e uma queda. Isso, em essência, afeta como a IA processa informações e toma decisões em tempo real.
Como os jogos têm sido utilizados como benchmark para inteligência artificial?
Jogos têm sido uma ferramenta de avaliação para inteligência artificial há muitos anos, ajudando na análise de como as IAs se comportam em ambientes controlados. Contudo, há uma discussão sobre a validade dessas avaliações, visto que os jogos são ambientes abstratos e podem não refletir a complexidade do mundo real, onde as condições são muito mais variáveis.
O que Andrej Karpathy quis dizer com a “crise de avaliação”?
Andrej Karpathy, da OpenAI, mencionou a “crise de avaliação” ao expressar incerteza sobre quais métricas seriam adequadas para medir o sucesso das IAs em jogos. Essa falta de clareza em como avaliar as habilidades dos modelos de IA sugere um impasse em compreender verdadeiramente o desempenho desses sistemas, especialmente em Super Mario Bros..
O que podemos observar sobre a capacidade das IAs em jogar Mario?
Apesar das críticas e incertezas, é fascinante ver como as IAs conseguem jogar Super Mario Bros.. Os testes realizados mostraram que as capacidades dessas IAs continuam sendo um campo de exploração, refletindo tanto avanços quanto limitações no campo da inteligência artificial.
Quais IAs se destacaram no teste feito pelo Hao AI Lab?
No teste realizado pelo Hao AI Lab, o modelo Claude 3.7 da Anthropic foi o que obteve o melhor desempenho, seguido de perto pelo Claude 3.5. Em contraste, o Gemini 1.5 Pro, do Google, e o GPT-4 da OpenAI não conseguiram ter um desempenho satisfatório no jogo, evidenciando variações significativas entre os modelos.
Quais são as implicações dos desafios enfrentados pelas IAs em jogos?
Os desafios que as IAs enfrentam em jogos como Super Mario Bros. ressaltam a complexidade do desenvolvimento de modelos que consigam atuar de forma eficaz em tempo real. Isso levanta questões sobre a capacidade da IA em situações práticas, onde estratégias e decisões rápidas são essenciais, apontando para a necessidade de inovações nesse campo.
Com informações: TechCrunch
Veja também: Google Colab Introduz Nova Solução de IA: Data Science Agent