Dados vazados expõem uma máquina de censura de IA chinesa

Uma queixa sobre a pobreza na China rural. Uma reportagem sobre um membro corrupto do partido comunista. Um grito de ajuda sobre policiais corruptos agitando empreendedores.

Estes são apenas alguns dos 133.000 exemplos alimentados em um sofisticado modelo de idioma grande, projetado para sinalizar automaticamente qualquer conteúdo considerado sensível ao governo chinês.

Um banco de dados vazado visto pelo TechCrunch revela que a China desenvolveu um sistema de IA que sobrecarrega sua máquina de censura já formidável, estendendo -se muito além dos tabus tradicionais como o massacre da Tiananmen Square.

O sistema aparece principalmente voltado para censurar cidadãos chineses on -line, mas pode ser usado para outros propósitos, como melhorar os modelos de IA chineses ‘ já extensa censura.

Esta foto tirada em 4 de junho de 2019 mostra a bandeira chinesa atrás de Razor Wire em um complexo habitacional em Yangisar, ao sul de Kashgar, na região oeste de Xinjiang da China.Créditos da imagem:Imagens Greg Baker / AFP / Getty

Xiao Qiang, pesquisador da UC Berkeley que estuda a censura chinesa e também examinou o conjunto de dados, disse ao TechCrunch que era “evidência clara” de que o governo chinês ou seus afiliados desejam usar o LLMS para melhorar a repressão.

“Ao contrário dos mecanismos de censura tradicionais, que dependem do trabalho humano para filtragem e revisão manual baseadas em palavras-chave, um LLM treinado em tais instruções melhoraria significativamente a eficiência e a granularidade do controle de informações lideradas pelo Estado”, disse Qiang à TechCrunch.

Isso aumenta as evidências crescentes de que os regimes autoritários estão adotando rapidamente a mais recente tecnologia de IA. Em fevereiro, por exemplo, Openai disse Ele pegou várias entidades chinesas usando LLMs para rastrear postos antigovernamentais e manchas de dissidentes chineses.

A embaixada chinesa em Washington, DC disse ao TechCrunch em comunicado que se opõe a “ataques infundados e calúnios contra a China” e que a China atribui grande importância ao desenvolvimento da IA ética.

Dados encontrados à vista da planície

O conjunto de dados foi descoberto pelo pesquisador de segurança Netaskarique compartilhou uma amostra com o TechCrunch depois de encontrá -lo armazenado em um banco de dados de Elasticsearch não garantido hospedado em um servidor Baidu.

Isso não indica nenhum envolvimento de nenhuma das empresas – todos os tipos de organizações armazenam seus dados com esses fornecedores.

Não há indicação de quem, exatamente, construiu o conjunto de dados, mas os registros mostram que os dados são recentes, com suas últimas entradas datadas de dezembro de 2024.

Um LLM para detectar dissidência

Na linguagem, relembrando estranhamente de como as pessoas provocam chatgpt, o criador do sistema tarefas um LLM sem nome para descobrir Se um conteúdo tem algo a ver com tópicos sensíveis relacionados à política, vida social e militares. Esse conteúdo é considerado “maior prioridade” e precisa ser imediatamente sinalizado.

Os principais tópicos de prioridade incluem escândalos de poluição e segurança alimentar, fraude financeira e disputas trabalhistas, que são questões de botão quente na China que às vezes levam a protestos públicos-por exemplo, o Protestos anti-poluição de Shifang de 2012.

Qualquer forma de “sátira política” é explicitamente direcionada. Por exemplo, se alguém usa analogias históricas para argumentar sobre “figuras políticas atuais”, que devem ser sinalizadas instantaneamente, e assim deve qualquer coisa relacionada à “política de Taiwan”. As questões militares são amplamente direcionadas, incluindo relatos de movimentos militares, exercícios e armas.

Um trecho do conjunto de dados pode ser visto abaixo. O código dentro dele faz referência a Tokens e LLMs, confirmando que o sistema usa um modelo de IA para fazer sua oferta:

Um trecho de código JSON que referências solicita tokens e LLMs. Grande parte do conteúdo está em chinês. — Créditos da imagem: Charles Rollet

Dentro dos dados de treinamento

A partir desta enorme coleção de 133.000 exemplos que o LLM deve avaliar para censura, o TechCrunch reuniu 10 peças de conteúdo representativas.

Os tópicos que provavelmente provocam agitações sociais são um tema recorrente. Um trecho, por exemplo, é um post de um proprietário de uma empresa reclamando de policiais locais corruptos sacudindo empreendedores, Uma questão crescente na China enquanto sua economia luta.

Outra parte do conteúdo lamenta a pobreza rural na China, descrevendo cidades degradadas que só têm idosos e crianças nelas. Há também uma reportagem sobre o Partido Comunista Chinês (CCP) expulsar um funcionário local por corrupção severa e acreditar em “superstições” em vez de marxismo.

Há um extenso material relacionado a Taiwan e questões militares, como comentários sobre as capacidades militares de Taiwan e detalhes sobre um novo caça a jato chinês. Somente a palavra chinesa para Taiwan (台湾) é mencionada mais de 15.000 vezes nos dados, mostra uma pesquisa do TechCrunch.

Dividência sutil também parece ser alvo também. Um trecho incluído no banco de dados é uma anedota sobre a natureza fugaz do poder que usa o idioma popular chinês: “Quando a árvore cai, os macacos se dispersam”.

As transições de poder são um tópico especialmente delicado na China, graças ao seu sistema político autoritário.

Construído para ‘trabalho de opinião pública‘

O conjunto de dados não inclui nenhuma informação sobre seus criadores. Mas diz que se destina ao “trabalho de opinião pública”, que oferece uma forte pista de que deve atender às metas do governo chinês, disse um especialista ao TechCrunch.

Michael Caster, o gerente do programa da Ásia, o artigo 19 da Organização de Direitos, explicou que “o trabalho de opinião pública” é supervisionada por um poderoso regulador do governo chinês, a administração do ciberespaço da China (CAC) e normalmente se refere aos esforços de censura e propaganda.

O objetivo final é garantir que as narrativas do governo chinês sejam protegidas on -line, enquanto quaisquer visões alternativas são expurgadas. Presidente chinês Xi Jinping próprio descrito A Internet como a “linha de frente” do “trabalho de opinião pública” do PCC.

Repressão está ficando mais inteligente

O conjunto de dados examinado pelo TechCrunch é a mais recente evidência de que os governos autoritários estão buscando alavancar a IA para fins repressivos.

Openai divulgou um relatório no mês passado Revelando que um ator não identificado, provavelmente operando da China, usou IA generativa para monitorar conversas de mídia social – particularmente aqueles que defendem protestos de direitos humanos contra a China – e os encaminham para o governo chinês.

Contate-nos

Se você souber mais sobre como a IA é usada na oporão do estado, entre em contato com Charles Rollet com segurança no sinal em Charlesrollet.12 Você também pode entrar em contato com o TechCrunch via Segurado.

O Openai também encontrou a tecnologia usada para gerar comentários altamente críticos de um importante dissidente chinês, Cai Xia.

Tradicionalmente, os métodos de censura da China dependem de algoritmos mais básicos que bloqueiam automaticamente o conteúdo mencionando termos na lista negra, como “Massacre de Tiananmen” ou “Xi Jinping”, como Muitos usuários experimentaram o uso do Deepseek pela primeira vez.

Mas a tecnologia de IA mais recente, como o LLMS, pode tornar a censura mais eficiente ao encontrar críticas sutis em uma vasta escala. Alguns sistemas de IA também podem continuar melhorando à medida que devoram cada vez mais dados.

“Eu acho crucial destacar como a censura orientada pela IA está evoluindo, tornando o controle do estado sobre o discurso público ainda mais sofisticado, especialmente em um momento em que modelos de IA chineses, como Deepseek, estão fazendo ondas de cabeça”, disse a TechCrunch de Xiao, o pesquisador de Berkeley.