Revelado: Militar israelense Criando uma ferramenta semelhante a ChatGPT usando a vasta coleção de dados de vigilância palestina

A Agência de Vigilância Militar de Israel usou uma vasta coleção de comunicações palestinas interceptadas para construir uma poderosa ferramenta de inteligência artificial semelhante ao ChatGPT que ele espera que transforme suas capacidades de espionagem, uma investigação do Guardian pode revelar.

A investigação conjunta com a publicação israelense-palestina +972 e a chamada local de saída em hebraico encontrou a Unidade 8200 treinou o modelo de IA para entender o árabe falado usando grandes volumes de conversas telefônicas e mensagens de texto, obtidas por meio de sua extensa vigilância dos territórios ocupados.

De acordo com fontes familiarizadas com o projeto, a unidade começou a construir o modelo para criar uma sofisticada ferramenta semelhante a chatbot capaz de responder perguntas sobre pessoas que está monitorando e fornecendo informações sobre os enormes volumes de dados de vigilância que coleta.

A agência de escutas de elite, comparável em suas capacidades com a Agência de Segurança Nacional dos EUA (NSA), acelerou seu desenvolvimento do sistema após o início da guerra em Gaza em outubro de 2023. O modelo ainda estava sendo treinado na segunda metade do ano passado. Não está claro se ainda foi implantado.

Os esforços para construir o Modelo de Linguagem Grande (LLM)-um sistema de aprendizado profundo que gera texto do tipo humano-foram parcialmente revelados em uma conversa pública pouco notada por um ex-tecnólogo de inteligência militar que disse que supervisionou o projeto.

“Tentamos criar o maior conjunto de dados possível [and] Colete todos os dados que o Estado de Israel já teve em árabe ”, disse o ex -funcionário, Roger Joseph Sayedoff, disse uma audiência em uma conferência militar de AI em Tel Aviv no ano passado. O modelo, disse ele, exigia “quantidades psicóticas” de dados.

Três ex -funcionários da inteligência com conhecimento da iniciativa confirmaram a existência do LLM e compartilharam detalhes sobre sua construção. Várias outras fontes descreveram como a Unidade 8200 usou modelos de aprendizado de máquina em menor escala nos anos antes de lançar o ambicioso projeto-e o efeito que essa tecnologia já teve.

“A IA amplifica o poder”, disse uma fonte familiarizada com o desenvolvimento dos modelos de IA da Unidade 8200 nos últimos anos. “Não se trata apenas de evitar ataques de tiro, eu posso rastrear ativistas de direitos humanos, monitorar a construção palestina na área C [of the West Bank]. Tenho mais ferramentas para saber o que toda pessoa da Cisjordânia está fazendo. ”

Detalhes da escala do novo modelo lança luz sobre a retenção em larga escala da Unidade 8200 do conteúdo de comunicações interceptadas, ativadas pelo que os funcionários atuais e antigos de inteligência israelense e ocidental descreveram como sua vigilância geral das telecomunicações palestinas.

O projeto também ilustra como a Unidade 8200, como muitas agências de espionagem em todo o mundo, está buscando aproveitar os avanços da IA para executar tarefas analíticas complexas e entender os enormes volumes de informações que eles coletam rotineiramente, que desafiam cada vez mais o processamento humano sozinho.

Uma instalação de coleta de inteligência de sinal da Unidade 8200, uma unidade de Corpo de Inteligência Israelense responsável por coletar inteligência de sinal e descriptografia de código, localizada em um ponto de observação na fronteira com Israelenses, perto de Rosh Hanikra Crossing. Fotografia: Eddie Gerald/Alamy

Mas a integração de sistemas como LLMs na análise de inteligência tem riscos, pois os sistemas podem exacerbar vieses e são propensos a cometer erros, alertaram especialistas e ativistas de direitos humanos. Sua natureza opaca também pode dificultar a compreensão de como as conclusões geradas pela IA foram alcançadas.

Zach Campbell, pesquisador sênior de vigilância da Human Rights Watch (HRW), expressou alarme de que a Unidade 8200 usaria o LLMS para tomar decisões conseqüentes sobre a vida dos palestinos sob ocupação militar. “É uma máquina de adivinhação”, disse ele. “E, finalmente, essas suposições podem acabar sendo usadas para incriminar as pessoas”.

Um porta -voz das Forças de Defesa de Israel (IDF) se recusou a responder às perguntas do Guardian sobre o novo LLM, mas disse que os militares “destacam vários métodos de inteligência para identificar e impedir a atividade terrorista por organizações hostis no Oriente Médio”.

Um vasto grupo de comunicações em árabe

A Unidade 8200 desenvolveu uma variedade de ferramentas movidas a IA nos últimos anos. Sistemas como o evangelho e a lavanda estavam entre os que foram rapidamente integrados às operações de combate na guerra em Gaza, desempenhando um papel significativo no bombardeio do Território pelas IDFs, ajudando na identificação de possíveis alvos (pessoas e estruturas) para ataques letais.

Por quase uma década, a unidade também usou a IA para analisar as comunicações que intercepta e as lojas, usando uma série de modelos de aprendizado de máquina para classificar informações em categorias predefinidas, aprender a reconhecer padrões e fazer previsões.

Depois que o OpenAI lançou o ChatGPT no final de 2022, os especialistas da IA da Unidade 8200 previstaram a construção de uma ferramenta mais expansiva semelhante ao chatbot. Agora um dos LLMs mais utilizados do mundo, o ChatGPT é sustentado pelo chamado “Modelo de Fundação”, uma IA de uso geral treinada em imensas volumes de dados e capaz de responder a consultas complexas.

Inicialmente, a Unidade 8200 lutou para construir um modelo nessa escala. “Não tínhamos idéia de como treinar um modelo de fundação”, disse Sayedoff, ex -funcionário da inteligência, em sua apresentação. Em um estágio, a unidade enviou uma solicitação malsucedida ao OpenAI para executar o ChatGPT nos sistemas seguros das forças armadas (o OpenAI se recusou a comentar).

No entanto, quando a IDF mobilizou centenas de milhares de reservistas em resposta aos ataques de 7 de outubro liderados pelo Hamas, um grupo de oficiais com experiência em Building LLMS retornou à unidade do setor privado. Alguns vieram de grandes empresas de tecnologia dos EUA, como Google, Meta e Microsoft. (O Google disse que o trabalho que seus funcionários fazem como reservistas “não estava conectado” à empresa. Meta e Microsoft se recusaram a comentar.)

A pequena equipe de especialistas logo começou a construir um LLM que entenda o árabe, disseram fontes, mas efetivamente teve que começar do zero depois de descobrir que os modelos de língua árabe comercial e de código aberto existentes foram treinados usando árabe escrito padrão-usado em comunicações formais, literatura e mídia-em vez de árabe falado.

“Não há transcrições de chamadas ou conversas do WhatsApp na Internet. Ele não existe na quantidade necessária para treinar esse modelo ”, afirmou uma fonte. O desafio, acrescentaram, foi “coletar todos os [spoken Arabic] Texto que a unidade já teve e a colocou em um local centralizado ”. Eles disseram que os dados de treinamento do modelo consistiam em aproximadamente 100 bilhões de palavras.

Uma fonte bem colocada familiarizada com o projeto disse ao Guardian que esse vasto conjunto de comunicações incluía conversas em dialetos libaneses e palestinos. Sayedoff disse em sua apresentação que a equipe construindo o LLM “focou apenas os dialetos que nos odeiam”.

Um soldado israelense da Unidade 8200 participando de um evento de desafio de defesa cibernética, no qual as equipes competem ao impedir que hackers maliciosos invadissem infraestruturas vitais em um jogo de simulação. Fotografia: Eddie Gerald/Alamy

A unidade Também procurou treinar o modelo para entender a terminologia militar específica de grupos militantes, disseram fontes. Mas a enorme coleta de dados de treinamento parece ter incluído grandes volumes de comunicações com pouco ou nenhum valor de inteligência sobre a vida cotidiana dos palestinos.

“Alguém ligando para alguém e dizendo a eles para sair porque está esperando por eles fora da escola, isso é apenas uma conversa, isso não é interessante. Mas para um modelo como esse, é ouro ”, disse uma das fontes.

Vigilância facilitada da AI

A Unidade 8200 não está sozinha entre as agências de espionagem que experimentam a tecnologia generativa de IA. Nos EUA, a CIA tem lançou uma ferramenta de bate-papo Para peneirar informações de código aberto. As agências de espionagem do Reino Unido também estão desenvolvendo seus próprios LLMs, que também se diz estar treinando com conjuntos de dados de código aberto.

Mas vários ex-funcionários de segurança dos EUA e do Reino Unido disseram que a comunidade de inteligência de Israel parece estar assumindo riscos maiores do que seus aliados mais próximos ao integrar novos sistemas baseados em IA na análise de inteligência.

Um ex -chefe de espionagem ocidental disse que a extensa coleção da inteligência militar israelense do conteúdo das comunicações palestinas permitiu que ele usasse a IA de maneiras “que não seriam aceitáveis” entre as agências de inteligência em países com uma supervisão mais forte sobre o uso de poderes de vigilância e manuseio de dados pessoais sensíveis.

Campbell, da Human Rights Watch, disse que o uso de material de vigilância para treinar um modelo de IA foi “invasivo e incompatível com os direitos humanos” e que, como poder de ocupação, Israel é obrigado a proteger os direitos de privacidade dos palestinos. “Estamos falando de dados altamente pessoais retirados de pessoas que não são suspeitas de um crime, sendo usadas para treinar uma ferramenta que poderia ajudar a estabelecer suspeitas”, acrescentou.

Nadim Nashif, diretor da 7Amleh, um grupo de direitos digitais e de defesa da palestina, disse que os palestinos “se tornaram sujeitos no laboratório de Israel para desenvolver essas técnicas e armas ai, tudo com o objetivo de manter [an] O regime de apartheid e ocupação, onde essas tecnologias estão sendo usadas para dominar um povo, para controlar suas vidas ”.

Vários oficiais atuais e antigos de inteligência israelense familiarizados com os modelos de aprendizado de máquina em menor escala usados pela Unidade 8200-precursores do modelo de fundação-disseram que a IA tornou a vigilância geral dos palestinos mais eficaz como uma forma de controle, principalmente na Cisjordânia, onde disseram que contribuiu para um número maior de paradas.

Duas das fontes disseram que os modelos ajudaram a IDF a analisar automaticamente conversas telefônicas interceptadas, identificando os palestinos que expressam raiva na ocupação ou desejos de atacar soldados ou pessoas que vivem em assentamentos ilegais. Um deles disse que, quando a IDF entrou nas aldeias na Cisjordânia, a IA seria usada para identificar as pessoas que usavam palavras consideradas para indicar “problemas de problemas”.

“Isso nos permite agir com as informações de muitas outras pessoas, e isso permite o controle da população”, disse uma terceira fonte. “Quando você possui tantas informações, pode usá -las para qualquer propósito que desejar. E a IDF tem muito poucas restrições a esse respeito. ”

‘Erros vão ser cometidos’

Para uma agência de espionagem, o valor de um modelo de fundação é que ele pode levar “tudo o que já foi coletado” e detectar “conexões e padrões que são difíceis para um humano fazer sozinho”, disse Ori Goshen, co-fundador da AI21 Labs. Vários funcionários da empresa israelense trabalhavam no novo projeto LLM enquanto estavam em serviço de reserva.

Mas Goshen, que já serviu na Unidade 8200, acrescentou: “Estes são modelos probabilísticos – você dá a eles uma rápida ou uma pergunta e eles geram algo que parece mágico. Mas, muitas vezes, a resposta não faz sentido. Chamamos isso de ‘alucinação’. “

Brianna Rosen, ex-oficial de segurança nacional da Casa Branca e agora associada sênior de pesquisa da Universidade de Oxford, observa que, embora uma ferramenta semelhante a ChatGPT possa ajudar um analista de inteligência “detectar ameaças que os seres humanos podem perder, mesmo antes de surgirem, também corre o risco de tirar conexões falsas e conclusões defeituosas”.

Ela disse que era vital para as agências de inteligência que usavam essas ferramentas para poder entender o raciocínio por trás das respostas que eles produzem. “Os erros serão cometidos, e alguns desses erros podem ter consequências muito sérias”, acrescentou.

Em fevereiro, o Associated Press relatado A IA provavelmente foi usada por oficiais de inteligência para ajudar a selecionar um alvo em um ataque aéreo israelense em Gaza em novembro de 2023 que matou quatro pessoas, incluindo três adolescentes. Uma mensagem vista pela agência de notícias sugeriu que o ataque aéreo havia sido conduzido por engano.

A IDF não respondeu às perguntas do Guardian sobre como a Unidade 8200 garante que seus modelos de aprendizado de máquina, incluindo o novo LLM que estão sendo desenvolvidos, não exacerbam imprecisões e preconceitos. Também não diria como protege os direitos de privacidade dos palestinos ao treinar modelos com dados pessoais sensíveis.

“Devido à natureza sensível das informações, não podemos elaborar ferramentas específicas, incluindo métodos usados para processar informações”, disse um porta -voz.

“No entanto, o IDF implementa um processo meticuloso em todo uso de habilidades tecnológicas”, acrescentaram. “Isso inclui o envolvimento integral do pessoal profissional no processo de inteligência, a fim de maximizar as informações e a precisão ao mais alto grau”.

Você tem informações sobre esta história? Envie um email para [email protected], ou (usando um telefone que não trabalha), use sinal ou whatsapp para mensagem +44 7721 857348.