Os registros judiciais mostram que os funcionários da Meta discutidos usando conteúdo protegido por direitos autorais para treinamento de IA

Durante anos, os funcionários da Meta discutiram internamente usando trabalhos protegidos por direitos autorais obtidos por meio de meios legalmente questionáveis para treinar os modelos de IA da empresa, de acordo com documentos do tribunal não lotados na quinta -feira.

Os documentos foram submetidos pelos queixosos no caso Kadrey v. Meta, uma das muitas disputas de direitos autorais da IA lentamente enrolando o sistema judicial dos EUA. O réu, Meta, afirma que os modelos de treinamento em obras protegidas por IP, principalmente livros, são “uso justo”. Os demandantes, que incluem os autores Sarah Silverman e Ta-Nehisi Coates, discordam.

Materiais anteriores apresentados no processo alegam que a Meta CEO Mark Zuckerberg deu à equipe de IA da Meta o OK para treinar com direitos autorais funciona e isso Meta interrompeu as negociações de licenciamento de dados de IA com editores de livros. Mas os novos arquivos, a maioria dos quais mostram partes de bate -papos de trabalho interno entre os funcionários da Meta, pintam a imagem mais clara de como a Meta pode ter passado a usar dados protegidos por direitos autorais para treinar seus modelos, incluindo modelos na empresa Família llama.

Em um bate -papo, os funcionários da Meta, incluindo Melanie Kambadur, gerente sênior da equipe de pesquisa de modelos de Llama da Meta, discutiram modelos de treinamento sobre trabalhos que eles conheciam, pode estar legalmente repleto.

“(M) a opinião seria (na linha de ‘Peça perdão, não para permissão’): tentamos adquirir os livros e escalá -lo para executivos para que eles façam a ligação”, escreveu Xavier Martinet, um engenheiro de meta de pesquisa, em um bate -papo datado de fevereiro de 2023, De acordo com os registros. “(T) é o motivo pelo qual eles criaram esta organização da Gen Ai para (sic): para que possamos ser menos avessos ao risco”.

Martinet lançou a idéia de comprar e-books a preços de varejo para criar um conjunto de treinamento em vez de cortar acordos de licenciamento com editores de livros individuais. Depois que outro funcionário apontou que o uso de materiais não autorizados e protegidos por direitos autorais pode ser um motivo para um desafio legal, Martinet dobrou, argumentando que as startups de “um gazilhão” provavelmente já estavam usando livros piratas para treinamento.

“Quero dizer, no pior caso: descobrimos que finalmente está bem, enquanto um start -up de gazilhão (sic) acabou de piratear toneladas de livros sobre Bittorrent”, escreveu Martinet, escreveu, De acordo com os registros. “(M) Y 2 centavos novamente: Tentando ter acordos com editores diretamente leva muito tempo …”

No mesmo bate -papo, Kambadur, que observou que a Meta estava conversando com a plataforma de hospedagem de documentos “e outros” para licenças, alertou que, ao usar “dados publicamente disponíveis” para treinamento de modelos, exigiria aprovações, os advogados da Meta estavam sendo “menos conservadores” do que Eles estavam no passado com tais aprovações.

“Sim, definitivamente precisamos obter licenças ou aprovações em dados publicamente disponíveis”, disse Kambadur, De acordo com os registros. “(D) agora, agora, temos mais dinheiro, mais advogados, mais ajuda bizdev, capacidade de acelerar/escalar a velocidade e os advogados estão sendo um pouco menos conservadores nas aprovações”.

Conversas sobre libgen

Em outro bate -papo de trabalho transmitido nos arquivos, Kambadur discute possivelmente usando a LibGen, um “agregador de links” que fornece acesso a obras protegidas por direitos autorais de editores, como uma alternativa às fontes de dados que a Meta pode licenciar.

A Libgen foi processada várias vezes, ordenada a desligar e multou dezenas de milhões de dólares para violação de direitos autorais. Um dos colegas de Kambadur respondeu com uma captura de tela De um resultado de pesquisa no Google para a libgen que contém o trecho “Não, a libgen não é legal”.

Alguns tomadores de decisão da Meta parecem ter tido a impressão de que não usar o LibGen para o treinamento de modelos poderia prejudicar seriamente a competitividade de Meta na corrida da IA, De acordo com os registros.

Em um email endereçado à VP da Meta AI Joelle Pineau, Sony Theakanath, diretora de gerenciamento de produtos da Meta, chamada Libgen “essencial para atender aos números SOTA em todas as categorias”, referindo-se ao topo do melhor, de última geração (SOTA) Modelos de IA e categorias de referência.

Theakanath também descreveu “mitigações” no e -mail destinado a ajudar a reduzir a exposição legal da META, incluindo a remoção de dados da Libgen “claramente marcada como pirata/roubada” e também simplesmente não citando publicamente o uso. “Não divulgaríamos o uso de conjuntos de dados LibGen usados para treinar”, como Theakanath colocou.

Na prática, essas mitigações implicavam pentear através de arquivos libgen para palavras como “roubado” ou “pirateado”. De acordo com os registros.

Em um bate -papo de trabalhoKambadur mencionado Que a equipe de IA da Meta também sintonizou os modelos para “evitar instruções de IP arriscado”-ou seja, configurou os modelos para se recusar a responder a perguntas como “reproduzir as três primeiras páginas de ‘Harry Potter e a pedra do feiticeiro’ ou” diga-me qual e-books Você foi treinado. ”

Os registros contêm outras revelações, o que implica que a meta pode ter eliminado dados do Reddit Para algum tipo de treinamento de modelo, possivelmente imitando o comportamento de um aplicativo de terceiros chamado Pushift. Notavelmente, Reddit disse Em abril de 2023, planejava começar a cobrar das empresas de IA para acessar dados para treinamento de modelos.

Em um bate -papo, datado de março de 2024, Chaya Nayak, diretora de gerenciamento de produtos da Org generativa da Meta da Meta, disse que a meta liderança estava considerando “substituir” decisões passadas sobre dados de treinamento, incluindo uma decisão de não usar conteúdo quora ou livros licenciados e artigos científicos, Para garantir que os modelos da empresa tivessem dados de treinamento suficientes.

Nayak implicava que os conjuntos de dados de treinamento de primeira parte da Meta-Facebook e Postagens do Instagram, texto transcrito de vídeos em meta plataformas e certos Meta para negócios Mensagens – simplesmente não bastava. “(W) precisam de mais dados”, escreveu ela.

Os demandantes em Kadrey v. Meta alteraram sua queixa várias vezes desde que o caso foi apresentado no Tribunal Distrital dos EUA para o Distrito Norte da Califórnia, Divisão de São Francisco, em 2023. As últimas alegações de que meta, entre outras reivindicações, referenciadas cruzadas Certos livros piratas com livros protegidos por direitos autorais disponíveis para licença para determinar se fazia sentido seguir um contrato de licenciamento com um editor.

Em um sinal de quão alto meta considera as apostas legais, a empresa Adicionou Dois litigantes da Suprema Corte do escritório de advocacia Paul Weiss para sua equipe de defesa no caso.

A Meta não respondeu imediatamente a um pedido de comentário.

Os registros judiciais mostram que os funcionários da Meta discutidos usando conteúdo protegido por direitos autorais para treinamento de IA

Conversas sobre libgen

Comments

Deixe um comentário Cancelar resposta