Em novembro, recebi um email alarmante de alguém que eu não conhecia: Rui Zhu, um candidato a doutorado na Universidade de Indiana Bloomington, nos EUA.
Zhu afirmou que tinha meu endereço de email porque o GPT-3.5 Turbo, um dos modelos de linguagem grandes mais recentes e robustos da OpenAI, havia entregado a ele.
Minhas informações de contato estavam incluídas em uma lista de endereços de email comerciais e pessoais de mais de 30 funcionários do New York Times que uma equipe de pesquisa, incluindo Zhu, conseguiu extrair do GPT-3.5 Turbo no outono do ano passado (primavera no Brasil). Com algum trabalho, a equipe conseguiu “burlar as restrições do modelo em responder a consultas relacionadas à privacidade”, escreveu Zhu.
Meu endereço de email não é um segredo. Mas o sucesso do experimento dos pesquisadores deve soar o alarme porque revela o potencial do ChatGPT e de ferramentas de IA generativa semelhantes para revelar informações pessoais muito mais sensíveis com apenas alguns ajustes.
Quando você faz uma pergunta ao ChatGPT, ele não pesquisa na web só para encontrar a resposta. Ele se baseia também no que “aprendeu” a partir de uma grande quantidade de informações —dados de treinamento que foram usados para alimentar e desenvolver o modelo— para gerar uma resposta.
Os modelos de linguagem grandes (LLMs, da sigla em inglês) são treinados com inúmeras quantidades de texto, que podem incluir informações pessoais retiradas da internet e de outras fontes. Esses dados de treinamento informam como a ferramenta de IA funciona, mas não devem ser lembrados textualmente.
Em teoria, quanto mais informações alimentam um modelo de linguagem grande, mais as memórias das informações antigas são enterradas nas profundezas do modelo. Um processo conhecido como esquecimento catastrófico pode fazer com que um modelo de linguagem grande considere informações previamente aprendidas como menos relevantes quando novos dados estão sendo adicionados.
Esse processo pode ser benéfico quando você deseja que o modelo “esqueça” coisas como informações pessoais. No entanto, Zhu e seus colegas —entre outros— descobriram recentemente que as memórias dos modelos de linguagem grandes, assim como as humanas, podem ser reativadas.
No caso do experimento que revelou minhas informações de contato, os pesquisadores da Universidade de Indiana forneceram ao GPT-3.5 Turbo uma pequena lista de nomes e endereços de email verificados de funcionários do New York Times, o que fez com que o modelo retornasse resultados semelhantes aos que ele se lembrava de seus dados de treinamento.
Assim como a memória humana, a capacidade de recordação do GPT-3.5 Turbo não era perfeita. A saída que os pesquisadores conseguiram extrair ainda estava sujeita a alucinações, uma tendência a produzir informações falsas. No exemplo fornecido para os funcionários do New York Times, muitos dos endereços de email pessoais estavam incorretos por alguns caracteres ou completamente errados. Mas 80% dos endereços corporativos retornados pelo modelo estavam corretos.
Empresas como OpenAI, Meta e Google usam diferentes técnicas para evitar que os usuários solicitem informações pessoais por meio de prompts de chat ou outras interfaces. Um método envolve ensinar a ferramenta a negar solicitações de informações pessoais ou outras opções relacionadas à privacidade. Um usuário comum que inicia uma conversa com o ChatGPT pedindo informações pessoais será negado, mas os pesquisadores recentemente encontraram maneiras de contornar essas proteções.
Zhu e seus colegas não estavam trabalhando diretamente com a interface pública padrão do ChatGPT, mas sim com sua interface de programação de aplicativos, ou API, que programadores externos podem usar para interagir com o GPT-3.5 Turbo. O processo que eles usaram, chamado de ajuste fino, destina-se a permitir que os usuários forneçam ao modelo de linguagem grande mais conhecimento sobre uma área específica, como medicina ou finanças. Mas, como Zhu e seus colegas descobriram, também pode ser usado para contornar algumas das defesas incorporadas à ferramenta. Solicitações que normalmente seriam negadas na interface do ChatGPT foram aceitas.
“Eles não têm proteções para os dados de ajuste fino”, disse Zhu.
“É muito importante para nós que o ajuste fino de nossos modelos seja seguro”, disse um porta-voz da OpenAI em resposta à reportagem. “Treinamos nossos modelos para rejeitar solicitações de informações privadas ou sensíveis sobre pessoas, mesmo que elas estejam disponíveis na internet aberta.”
A vulnerabilidade é particularmente preocupante porque ninguém —além de um número limitado de funcionários da OpenAI— realmente sabe o que está escondido na memória de dados de treinamento do ChatGPT.
De acordo com o site da OpenAI, a empresa não busca ativamente informações pessoais, nem usa dados de “sites que agregam principalmente informações pessoais” para construir suas ferramentas. A OpenAI também destaca que seus modelos de linguagem grande não copiam nem armazenam informações em um banco de dados: “Assim como uma pessoa lê um livro e o coloca de lado, nossos modelos não têm acesso às informações de treinamento depois de terem aprendido com elas.”
Além de suas garantias sobre quais dados de treinamento não são usados, a OpenAI é notoriamente reservada sobre quais informações ela usa, bem como informações que ela usou no passado.
“Até onde eu sei, nenhum modelo de linguagem grande disponível comercialmente tem defesas fortes para proteger a privacidade”, disse Prateek Mittal, professor do departamento de engenharia elétrica e de computação da Universidade de Princeton.
Mittal disse que as empresas de IA não eram capazes de garantir que esses modelos não tivessem aprendido informações sensíveis. “Acho que isso representa um grande risco”, disse ele.
O que são os modelos de linguagem grande?
Os LLMs são projetados para continuar aprendendo quando novos fluxos de dados são introduzidos. Dois dos LLMs da OpenAI (GPT-3.5 Turbo e GPT-4) são alguns dos modelos públicos mais poderosos disponíveis hoje. A empresa utiliza textos em linguagem natural de várias fontes públicas diferentes, incluindo sites, mas também licencia dados de entrada de terceiros.
Alguns conjuntos de dados são comuns a muitos LLMs. Um deles é um conglomerado de cerca de meio milhão de emails, incluindo milhares de nomes e endereços de email, que foram tornados públicos quando a Enron estava sendo investigada por reguladores de energia no início dos anos 2000. Os emails da Enron são úteis para desenvolvedores de IA porque contêm centenas de milhares de exemplos de como pessoas reais se comunicam.
A OpenAI lançou sua interface de ajuste fino para o GPT-3.5 em agosto de 2023. Semelhante aos passos para extrair informações sobre os funcionários do New York Times, Zhu disse que ele e seus colegas pesquisadores foram capazes de extrair mais de 5.000 pares de nomes e endereços de email da Enron, com uma taxa de precisão de cerca de 70%, fornecendo apenas dez pares conhecidos.
Mittal avaliou que o problema com informações privadas em LLMs comerciais é semelhante ao treinamento desses modelos com conteúdo tendencioso ou tóxico. “Não há motivo para esperar que o modelo resultante que sair seja privado ou de alguma forma não cause danos”, disse.