Como Usar o Copy Job para Copiar o Arquivo Mais Recente com Data Factory no Fabric

Se você trabalha com arquivos estruturado, como CSVs, e precisa carregá-los em um Lakehouse ou Warehouse, provavelmente já enfrentou o desafio de identificar e processar apenas o arquivo mais recente. Neste post, vamos explorar como o recurso Copy Job do Microsoft Fabric pode facilitar esse processo, carregando incrementalmente arquivos de um diretório para um destino final.

FABRICDATAFACTORYCOPYJOB

Henrique Bueno

2/4/20252 min read

Configuração da Estrutura de Diretórios

Antes de iniciarmos o processo, é importante estruturar os diretórios corretamente dentro do Microsoft Fabric. A estrutura recomendada é:

  • Pasta "stage": Onde os arquivos serão inicialmente armazenados.

  • Pasta "archive": Para onde os arquivos serão movidos após o processamento.

Essa organização permite um fluxo controlado de arquivos, evitando retrabalho e processamento duplicado.

Criando um Copy Job no Data Factory

Passo 1: Criar um Copy Job

  1. Acesse o Microsoft Fabric e entre no seu workspace.

  2. No menu lateral, clique em Incremental Copy.

  3. Selecione "Novo item" e escolha "Copy Job".

  4. Dê um nome ao Copy Job (por exemplo, Incremental_CSV_Loader).

  5. Clique em Criar.

Passo 2: Selecionar a Fonte de Dados

  1. Escolha a origem dos dados. O Data Factory oferece várias opções, como:

    • SQL Server

    • Azure SQL Database

    • Blobs

    • S3

    • ADLS Gen2

    • Lakehouse (usaremos essa opção neste tutorial)

  2. Selecione o Lakehouse como origem.

  3. Escolha File Section para indicar que estamos lidando com arquivos e não tabelas.

  4. Escolha a pasta "stage" como o local onde os arquivos estão armazenados.

Passo 3: Configurar o Destino dos Dados

  1. Escolha onde deseja armazenar os dados processados.

  2. Opte pelo Lakehouse novamente, mas agora selecione Tables como destino.

  3. Dê um nome para a tabela, por exemplo, InternetSales_CopyJob.

Passo 4: Ajustar o Schema e Mapeamento de Dados

  1. O Fabric permite definir o esquema de dados manualmente.

  2. Configure os tipos de dados de cada coluna:

    • Colunas numéricas como inteiros ou floats.

    • Colunas de data como datetime.

    • Demais colunas como string.

  3. Confirme e avance para a próxima etapa.

Passo 5: Escolher o Tipo de Carga

  1. Selecione Incremental Copy para garantir que apenas os novos arquivos sejam processados.

  2. Especifique as regras para detecção de novos arquivos.

Passo 6: Configurar e Executar

  1. Defina se deseja rodar a cópia automaticamente ou manualmente.

  2. Salve as configurações e clique em Executar.

  3. O Copy Job processará apenas os arquivos novos e os carregará na tabela do Lakehouse.

Validando os Dados

  1. Acesse o Notebook do Fabric para verificar se os dados foram inseridos corretamente.

  2. Execute uma consulta para listar os dados da tabela:

    SELECT * FROM InternetSales_CopyJob;

  3. Caso novos arquivos sejam adicionados, basta rodar novamente o Copy Job que apenas os novos registros serão processados.

Conclusão

Usar o Copy Job no Data Factory do Fabric simplifica a carga incremental de arquivos, economizando tempo e minimizando erros. Essa abordagem funciona não apenas para arquivos CSV, mas também para outras fontes relacionais, como SQL Server. Lembre-se que essa é um funcionalidade preview mas que com toda certeza vem para ficar

Se você já usou essa funcionalidade ou tem experiências semelhantes, deixe suas impressões, e se quiser mais detalhes sobre essa e outras mais funcionalidades fica ligado aqui no BI com Bueno... Valeu!