Os modelos de IA ainda lutam para depurar o software, o estudo da Microsoft mostra

Os modelos de IA do OpenAI, Antrópico e de outros laboratórios de IA principais estão sendo cada vez mais usados para ajudar nas tarefas de programação. CEO do Google Sundar Pichai disse em outubro Esse 25% do novo código da empresa é gerado pela IA, e Meta CEO Mark Zuckerberg expressou ambições Para implantar amplamente os modelos de codificação de IA dentro da gigante da mídia social.

No entanto, mesmo alguns dos melhores modelos hoje lutam para resolver bugs de software que não viajariam desenvolvedores experientes.

UM Novo estudo Da Microsoft Research, a divisão de P&D da Microsoft revela que os modelos, incluindo o antropal Claude 3,7 soneto e Openai’s O3-mini, Não depra muitos problemas em um benchmark de desenvolvimento de software chamado SWE-banch Lite. Os resultados são um lembrete preocupante de que, apesar audacioso pronunciamentos De empresas como o OpenAIAI ainda não é páreo para especialistas humanos em domínios como codificação.

Os co-autores do estudo testaram nove modelos diferentes como a espinha dorsal de um “agente de prompt único” que tinha acesso a várias ferramentas de depuração, incluindo um depurador do Python. Eles encarregaram esse agente de resolver um conjunto com curadoria de 300 tarefas de depuração de software da SWE-banch Lite.

De acordo com os co-autores, mesmo quando equipados com modelos mais fortes e mais recentes, seu agente raramente completava mais da metade das tarefas de depuração com sucesso. Claude 3,7 soneto teve a maior taxa de sucesso médio (48,4%), seguida pelo O1 (30,2%) e O3-mini da OpenAI (22,1%).

Um gráfico do estudo. O “aumento relativo” refere -se aos modelos de impulso ao serem equipados com ferramentas de depuração.Créditos da imagem:Microsoft

Por que o desempenho abaixo do esperado? Alguns modelos lutaram para usar as ferramentas de depuração disponíveis e entender como diferentes ferramentas podem ajudar com diferentes problemas. O problema maior, no entanto, era a escassez de dados, de acordo com os co-autores. Eles especulam que não há dados suficientes representando “processos de tomada de decisão seqüencial”-ou seja, traços de depuração humana-nos dados de treinamento dos modelos atuais.

“Acreditamos fortemente que o treinamento ou o ajuste fino (modelos) podem torná-los melhores depuradores interativos”, escreveu os co-autores em seu estudo. “No entanto, isso exigirá dados especializados para cumprir esse treinamento de modelos, por exemplo, dados de trajetória que registram agentes interagindo com um depurador para coletar as informações necessárias antes de sugerir uma correção de bug”.

As descobertas não são exatamente chocantes. Muitos estudos têm mostrado Essa IA geradora de código tende a introduzir vulnerabilidades e erros de segurança, devido a fraquezas em áreas como a capacidade de entender a lógica de programação. Uma avaliação recente de Devinuma ferramenta popular de codificação de IA, descobriu que só poderia completar três dos 20 testes de programação.

Mas o trabalho da Microsoft é uma das looks mais detalhadas, mas em uma área problemática persistente para os modelos. Provavelmente não vai diminuir entusiasmo dos investidores Para as ferramentas de codificação de assistência movidas a IA, mas com alguma sorte, isso fará com que os desenvolvedores-e seus superiores-pense duas vezes em deixar a IA executar o programa de codificação.

Pelo que vale, um número crescente de líderes de tecnologia contestou a noção de que a IA automatizará os empregos de codificação. Bill Gates, co-fundador da Microsoft disse que acha que a programação como uma profissão está aqui para ficar. Então o tem CEO Replit Amjad MasadAssim, CEO da Okta, Todd McKinnone CEO da IBM Arvind Krishna.

Os modelos de IA ainda lutam para depurar o software, o estudo da Microsoft mostra

Comments

Deixe um comentário Cancelar resposta