No fim de 2021, a OpenAI enfrentou um problema de fornecimento. O laboratório de IA (Inteligência Artificial) havia esgotado todos os reservatórios de textos em inglês com boa reputação na internet enquanto desenvolvia seu mais recente sistema de IA. Mas ela precisava de mais dados para treinar a próxima versão de sua tecnologia —muito mais.
Então os desenvolvedores da OpenAI criaram uma ferramenta de reconhecimento de fala chamada Whisper. Ela poderia transcrever o áudio de vídeos do YouTube, produzindo um novo texto conversacional que tornaria o sistema de IA mais inteligente.
Alguns funcionários discutiram como a ação poderia ir contra as regras do YouTube, disseram três pessoas com conhecimento das conversas. O YouTube, que é de propriedade do Google, proíbe o uso de seus vídeos para aplicativos que sejam “independentes” da plataforma.
No final, uma equipe da OpenAI transcreveu mais de 1 milhão de horas de vídeos do YouTube, segundo essas pessoas. A equipe incluía Greg Brockman, presidente da OpenAI, que pessoalmente ajudou a coletar os vídeos, disseram duas fontes.
Os textos foram então alimentados no GPT-4, que é amplamente considerado um dos modelos de IA mais poderosos do mundo e foi a base da última versão do chatbot ChatGPT.
A corrida para liderar a IA se tornou uma caçada desesperada por informações digitais necessárias para avançar a tecnologia.
Para obter esses dados, empresas de tecnologia, incluindo OpenAI, Google e Meta, cortaram caminhos, ignoraram políticas corporativas e debateram sobre contornar a lei, de acordo com uma investigação do The New York Times.
Na Meta, que é dona do Facebook e Instagram, gerentes, advogados e engenheiros discutiram no ano passado a compra da editora Simon & Schuster para obter obras longas, de acordo com gravações de reuniões internas obtidas pelo Times.
Eles também discutiram sobre reunir dados protegidos por direitos autorais em toda a internet, mesmo que isso significasse enfrentar processos judiciais. Negociar licenças com editoras, artistas, músicos e a indústria de notícias levaria muito tempo, disseram eles.
Assim como a OpenAI, o Google transcreveu vídeos do YouTube para coletar texto para seus modelos de IA, disseram cinco pessoas com conhecimento das práticas da empresa. Isso pode ter violado os direitos autorais dos vídeos, que pertencem aos seus criadores.
No ano passado, o Google também ampliou seus termos de serviço. Uma motivação para a mudança, de acordo com membros da equipe de privacidade da empresa e uma mensagem interna vista pelo Times, era permitir que o Google pudesse acessar documentos do Google Docs disponíveis publicamente, avaliações de restaurantes no Google Maps e outros materiais online para mais de seus produtos de IA.
As ações das empresas ilustram como as informações online —notícias, obras de ficção, postagens em fóruns, artigos da Wikipedia, programas de computador, fotos, podcasts e trechos de filmes— se tornaram cada vez mais vitais para a indústria de IA.
Criar sistemas inovadores depende de ter dados suficientes para ensinar as tecnologias a produzir instantaneamente texto, imagens, sons e vídeos que se assemelham ao que um humano cria.
O volume de dados é crucial. Os principais sistemas de chatbot aprenderam a partir de conjuntos digitais de texto com até 3 trilhões de palavras, ou aproximadamente o dobro do número de palavras armazenadas na Biblioteca Bodleian da Universidade de Oxford, que coleta manuscritos desde 1602.
Os dados mais valorizados, disseram os pesquisadores de IA, são informações de alta qualidade, como livros e artigos publicados que foram cuidadosamente escritos e editados por profissionais.
Por anos, a internet —com sites como Wikipedia e Reddit— era uma fonte aparentemente infinita de dados. Mas, à medida que a IA avançava, as empresas de tecnologia buscavam mais repositórios.
Google e Meta, que têm bilhões de usuários que produzem consultas de pesquisa e postagens em redes sociais todos os dias, estavam em grande parte limitados por leis de privacidade e suas próprias políticas de aproveitar grande parte desse conteúdo para a IA.
A situação delas é urgente. As empresas de tecnologia poderiam esgotar os dados de alta qualidade na internet já em 2026, de acordo com a Epoch, um instituto de pesquisa. As empresas estão usando os dados mais rapidamente do que eles são produzidos.
“A única maneira prática para essas ferramentas existirem é se puderem ser treinadas em grandes quantidades de dados sem precisar que sejam licenciados”, disse no ano passado Sy Damle, advogado que representa a Andreessen Horowitz, uma empresa de capital de risco do Vale do Silício, sobre modelos de IA em uma discussão pública sobre direitos autorais. “Os dados necessários são tão massivos que nem mesmo a licença coletiva realmente pode funcionar.”
As empresas estão tão ávidas por novos dados que algumas estão desenvolvendo informações “sintéticas”. Isso não são dados orgânicos criados por humanos, mas texto, imagens e código que os modelos de IA produzem —em outras palavras, os sistemas aprendem com o que eles mesmos geram.
A OpenAI disse que cada um de seus modelos de IA “possui um conjunto de dados exclusivo de nossa curadoria para ajudar sua compreensão do mundo e permanecer globalmente competitivo em pesquisa”.
O Google disse que seus modelos de IA “são treinados em algum conteúdo do YouTube”, o que foi permitido sob acordos com criadores do YouTube, e que a empresa não utilizou dados de aplicativos de escritório fora de um programa experimental.
O Meta disse que fez “investimentos agressivos” para integrar a IA em seus serviços e tinha bilhões de imagens e vídeos publicamente compartilhados do Instagram e Facebook para treinar seus modelos.
Para os criadores de conteúdo, o crescente uso de suas obras por empresas de IA tem provocado processos judiciais por direitos autorais e licenciamento. O Times processou a OpenAI e a Microsoft no ano passado por usar artigos de notícias protegidos por direitos autorais sem permissão para treinar chatbots de IA.
A OpenAI e a Microsoft afirmaram que usar os artigos era “uso justo”, ou permitido pela lei de direitos autorais, porque transformaram as obras para um propósito diferente.
Transcrição do YouTube
Em maio, Sam Altman, CEO da OpenAI, reconheceu que as empresas de IA usariam todos os dados viáveis na internet.
“Isso vai se esgotar”, disse em um discurso em uma conferência de tecnologia.
Altman tinha visto o fenômeno de perto. Na OpenAI, os pesquisadores haviam coletado dados por anos, limpado e alimentado um vasto conjunto de texto para treinar os modelos de linguagem da empresa. Eles haviam minerado o repositório de códigos de computador GitHub, sugado bancos de dados de movimentos de xadrez e se baseado em dados descrevendo testes de ensino médio e tarefas de casa do site Quizlet.
Até o final de 2021, esses suprimentos estavam esgotados, disseram oito pessoas com conhecimento da empresa, que não estavam autorizadas a falar publicamente.
A OpenAI estava desesperada por mais dados para desenvolver seu modelo de IA de próxima geração, o GPT-4. Então os funcionários discutiram transcrever podcasts, audiolivros e vídeos do YouTube, segundo essas pessoas. Eles falaram sobre criar dados do zero com sistemas de IA. Também consideraram comprar startups que haviam coletado grandes quantidades de dados digitais.
A OpenAI criou o Whisper, a ferramenta de reconhecimento de fala, para transcrever vídeos do YouTube e podcasts, disseram seis pessoas. Mas o YouTube proíbe as pessoas não apenas de usar seus vídeos para aplicativos “independentes”, mas também de acessar seus vídeos por “qualquer meio automatizado (como robôs, botnets ou raspadores)”.
Os funcionários da OpenAI sabiam que estavam entrando em uma área legal cinzenta, disseram as fontes, mas acreditavam que treinar a IA com os vídeos era uso justo. Brockman, presidente da OpenAI, foi listado em um artigo de pesquisa como criador do Whisper. Ele pessoalmente ajudou a reunir vídeos do YouTube e alimentá-los na tecnologia, disseram duas pessoas.
Brockman encaminhou pedidos de comentário para a OpenAI, que disse que usa “numerosas fontes” de dados.
No ano passado, a OpenAI lançou o GPT-4, que se baseou nas mais de 1 milhão de horas de vídeos do YouTube que o Whisper havia transcritos. Brockman liderou a equipe que desenvolveu o GPT-4.
Alguns funcionários do Google estavam cientes de que a OpenAI havia coletado vídeos do YouTube para abastecer seus dados, disseram duas pessoas com conhecimento das empresas. Mas eles não impediram a OpenAI porque o Google também havia usado transcrições de vídeos do YouTube para treinar seus modelos de IA, disseram as fontes. Essa prática pode ter violado os direitos autorais dos criadores do YouTube. Então, se o Google fizesse um escândalo sobre a OpenAI, poderia haver uma reação pública contra seus próprios métodos, disseram.
Matt Bryant, porta-voz do Google, disse que a empresa não tinha conhecimento das práticas da OpenAI e proibia “raspagem ou download não autorizado de conteúdo do YouTube”. O Google toma medidas quando tem uma base legal ou técnica clara para fazê-lo, disse ele.
No final de 2022, após a OpenAI lançar o ChatGPT e iniciar uma corrida na indústria, pesquisadores e engenheiros do Google discutiram acessar outros dados de usuários. Bilhões de palavras estavam nos documentos de usuários do Google e em outros aplicativos gratuitos. Mas as restrições de privacidade da empresa limitavam como eles poderiam usar os dados, disseram três pessoas com conhecimento das práticas do Google.
Em junho, o departamento jurídico do Google pediu à equipe de privacidade para redigir linguagem para ampliar o que a empresa poderia usar de dados do consumidor, de acordo com dois membros da equipe de privacidade e uma mensagem interna vista pelo Times.
A equipe de privacidade escreveu novos termos para que o Google pudesse acessar os dados para seus “modelos de IA e construir produtos e recursos como Google Translate, Bard e capacidades de IA na nuvem”, que era uma coleção mais ampla de tecnologias de IA.
Bryant disse que as mudanças na política de privacidade foram feitas para melhorar a clareza e que o Google não usava informações do Google Docs ou aplicativos relacionados para treinar modelos de linguagem “sem permissão explícita” dos usuários, referindo-se a um programa voluntário que permite aos usuários testar recursos experimentais.
“Não começamos a treinar em tipos adicionais de dados com base nessa mudança de linguagem”, disse ele.
O debate na Meta
Mark Zuckerberg, CEO da Meta, havia investido em IA por anos —mas de repente se viu para trás quando a OpenAI lançou o ChatGPT em 2022. Ele imediatamente se esforçou para igualar e superar o ChatGPT, ligando para executivos e engenheiros a qualquer hora da noite para pressioná-los a desenvolver um chatbot rival, disseram três funcionários atuais e antigos, que não estavam autorizados a discutir conversas confidenciais.
Mas no início do ano passado, a Meta encontrou o mesmo obstáculo que seus concorrentes: não havia dados suficientes.
Ahmad Al-Dahle, vice-presidente de IA generativa da Meta, disse aos executivos que sua equipe havia usado quase todos os livros, ensaios, poemas e artigos de notícias em inglês disponíveis na internet para desenvolver um modelo, de acordo com gravações de reuniões internas, que foram compartilhadas por um funcionário.
A Meta não poderia igualar o ChatGPT a menos que obtivesse mais dados, Al-Dahle disse aos colegas. Em março e abril de 2023, alguns líderes de desenvolvimento de negócios, engenheiros e advogados da empresa se reuniram quase diariamente para enfrentar o problema.
Alguns debateram pagar US$ 10 por livro pelos direitos de licenciamento completos de novos títulos. Eles discutiram a possibilidade de comprar a Simon & Schuster, que publica autores como Stephen King, de acordo com as gravações.
Eles também falaram sobre como resumiram livros, ensaios e outras obras da internet sem permissão e discutiram a possibilidade de obter mais, mesmo que isso significasse enfrentar processos judiciais.
Um advogado alertou sobre preocupações “éticas” em torno de tomar propriedade intelectual de artistas, mas foi recebido com silêncio, de acordo com as gravações.