Os bots de rastejamento da AI são as baratas da Internet, acreditam muitos desenvolvedores de software. Alguns desenvolvedores começaram a revidar de maneiras ingênuas, muitas vezes engraçadas.
Embora qualquer site possa ser direcionado por um mau comportamento de rastreador – Às vezes derrubando o site – Os desenvolvedores de código aberto são “desproporcionalmente” impactados, escreve Niccolò Venerandi, desenvolvedor de uma área de trabalho Linux conhecida como plasma e proprietário do blog Librenews.
Por sua natureza, os sites que hospedam projetos gratuitos e de código aberto (FOSS) compartilham mais sua infraestrutura publicamente e também tendem a ter menos recursos do que os produtos comerciais.
A questão é que muitos bots de IA não homenageam o arquivo robot.txt do Robots Exclusão Protocol Robot.txt, a ferramenta que informa aos bots o que não rastejar, criado originalmente para os bots de mecanismo de pesquisa.
Em um “clamor por ajuda” Postagem do blog Em janeiro, o desenvolvedor da Foss, XE Iias, descreveu como o AmazonBot bateu incansavelmente em um site do Git Server, a ponto de causar interrupções em DDOs. Os servidores Git hospedam projetos FOSS para que quem quiser baixar o código ou contribuir com ele.
Mas esse bot ignorou o Robot.txt de Laso, se escondeu atrás de outros endereços IP e fingiu ser outros usuários, disse Laso.
“É inútil bloquear os rastreadores da AI porque eles mentem, mudarem seu agente de usuários, usar os endereços IP residenciais como proxies e muito mais”, laso laso.
“Eles rasparão seu site até que ele caia e depois raspará um pouco mais. Eles clicarão em todos os links em todos os links em todos os links, visualizando as mesmas páginas repetidamente.
Entre no deus das sepulturas
Então, o IASO revidou com inteligência, construindo uma ferramenta chamada Anubis.
Anubis é uma verificação de prova de trabalho reversa de proxy Isso deve ser passado antes que os pedidos possam atingir um servidor Git. Ele bloqueia os bots, mas permite que os navegadores operados por seres humanos.
A parte engraçada: Anubis é o nome de um deus na mitologia egípcia que leva os mortos a julgamento.
“Anubis pesava sua alma (coração) e se fosse mais pesado que uma pena, seu coração foi comido e você, tipo, Mega morreu”, disse Laso ao TechCrunch. Se uma solicitação da web passar o desafio e está determinada a ser humana, Uma foto de anime fofa anuncia sucesso. O desenho é “minha opinião sobre os anubis antropomorfizantes”, diz Iias. Se for um bot, a solicitação é negada.
O projeto ironicamente nomeado se espalhou como o vento entre a comunidade Foss. Laso compartilhou no github Em 19 de março, e em apenas alguns dias, coletou 2.000 estrelas, 20 colaboradores e 39 garfos.
Vingança como defesa
A popularidade instantânea de Anubis mostra que a dor de Iias não é única. De fato, Venerandi compartilhou história após história:
- CEO do fundador de Fontehut Drew Devault descreveu gastar “de 20 a 100% do meu tempo em uma semana mitigando rastreadores Hiper-Agressivos LLM em escala” e “experimentando dezenas de breves interrupções por semana”.
- Jonathan Corbet, um famoso desenvolvedor de Foss que dirige o site de notícias da indústria LWN, alertou que seu site era sendo retardado pelo tráfego no nível do DDoS “De Ai Rusping Bots.”
- Kevin Fenzi, o Sysadmin do enorme projeto Linux Fedora, disse o raspador de AI bots Tinha ficado tão agressivo que ele teve que bloquear todo o país do Brasil do acesso.
Venerandi diz ao TechCrunch que ele conhece vários outros projetos que enfrentam os mesmos problemas. Um deles “teve que banir temporariamente todos os endereços IP chineses em um ponto”.
Deixe que isso afunde por um momento – que os desenvolvedores “precisam recorrer a proibir países inteiros” apenas para afastar os robôs da IA que ignoram os arquivos robot.txt, diz Venerandi.
Além de pesar a alma de um solicitante da web, outros desenvolvedores acreditam que a vingança é a melhor defesa.
Alguns dias atrás Notícias de hackerusuário xyzal Robot de carregamento sugerido.
“Acho que precisamos buscar os bots para obter o valor do utilitário negativo ao visitar nossas armadilhas, não apenas o valor zero”, explicou Xyzal.
Por acaso, em janeiro, um criador anônimo conhecido como “Aaron” lançou uma ferramenta chamada Nepentes Isso pretende fazer exatamente isso. Ele prende rastreadores em um labirinto sem fim de conteúdo falso, uma meta que o dev admitiu ARS Technica é agressivo se não absolutamente malicioso. A ferramenta recebeu o nome de uma planta carnívora.
E o CloudFlare, talvez o maior jogador comercial que oferece várias ferramentas para afastar os rastreadores da AI, lançou na semana passada uma ferramenta semelhante chamada Ai Labyrinth.
Destina -se a “desacelerar, confundir e desperdiçar os recursos dos rastreadores de IA e outros bots que não respeitam as diretrizes” sem rastreamento “”, descreveu Cloudflare em sua postagem no blog. A Cloudflare disse que alimenta os rastreadores de AI que se comporta mal “conteúdo irrelevante, em vez de extrair dados legítimos do site”.
O Devault, da Sourcehut, disse ao TechCrunch que “Nepenthes tem um senso satisfatório de justiça, pois alimenta bobagens para os rastreadores e envenenosos seus poços, mas, em última análise, Anubis é a solução que funcionou” para seu site.
Mas o DeVault também emitiu um apelo público e sincero para uma correção mais direta: “Pare de legitimar os LLMs ou AI Image Gerators ou o Github Copilot ou qualquer um desses lixo. Estou implorando para que você pare de usá -los, pare de falar sobre eles, pare de fazer novos, apenas pare.”
Como a probabilidade disso é Zilch, os desenvolvedores, particularmente em Foss, estão lutando com esperteza e um toque de humor.