Como Usar o Copy Job para Copiar o Arquivo Mais Recente com Data Factory no Fabric

Se você trabalha com arquivos estruturado, como CSVs, e precisa carregá-los em um Lakehouse ou Warehouse, provavelmente já enfrentou o desafio de identificar e processar apenas o arquivo mais recente. Neste post, vamos explorar como o recurso Copy Job do Microsoft Fabric pode facilitar esse processo, carregando incrementalmente arquivos de um diretório para um destino final.

FABRICDATAFACTORYCOPYJOB

Henrique Bueno

2/4/20252 min read

Configuração da Estrutura de Diretórios

Antes de iniciarmos o processo, é importante estruturar os diretórios corretamente dentro do Microsoft Fabric. A estrutura recomendada é:

Pasta "stage": Onde os arquivos serão inicialmente armazenados.
Pasta "archive": Para onde os arquivos serão movidos após o processamento.

Essa organização permite um fluxo controlado de arquivos, evitando retrabalho e processamento duplicado.

Criando um Copy Job no Data Factory

Passo 1: Criar um Copy Job

Acesse o Microsoft Fabric e entre no seu workspace.
No menu lateral, clique em Incremental Copy.
Selecione "Novo item" e escolha "Copy Job".
Dê um nome ao Copy Job (por exemplo, Incremental_CSV_Loader).
Clique em Criar.

Passo 2: Selecionar a Fonte de Dados

Escolha a origem dos dados. O Data Factory oferece várias opções, como:
- SQL Server
- Azure SQL Database
- Blobs
- S3
- ADLS Gen2
- Lakehouse (usaremos essa opção neste tutorial)
Selecione o Lakehouse como origem.
Escolha File Section para indicar que estamos lidando com arquivos e não tabelas.
Escolha a pasta "stage" como o local onde os arquivos estão armazenados.

Passo 3: Configurar o Destino dos Dados

Escolha onde deseja armazenar os dados processados.
Opte pelo Lakehouse novamente, mas agora selecione Tables como destino.
Dê um nome para a tabela, por exemplo, InternetSales_CopyJob.

Passo 4: Ajustar o Schema e Mapeamento de Dados

O Fabric permite definir o esquema de dados manualmente.
Configure os tipos de dados de cada coluna:
- Colunas numéricas como inteiros ou floats.
- Colunas de data como datetime.
- Demais colunas como string.
Confirme e avance para a próxima etapa.

Passo 5: Escolher o Tipo de Carga

Selecione Incremental Copy para garantir que apenas os novos arquivos sejam processados.
Especifique as regras para detecção de novos arquivos.

Passo 6: Configurar e Executar

Defina se deseja rodar a cópia automaticamente ou manualmente.
Salve as configurações e clique em Executar.
O Copy Job processará apenas os arquivos novos e os carregará na tabela do Lakehouse.

Validando os Dados

Acesse o Notebook do Fabric para verificar se os dados foram inseridos corretamente.
Execute uma consulta para listar os dados da tabela:
SELECT * FROM InternetSales_CopyJob;
Caso novos arquivos sejam adicionados, basta rodar novamente o Copy Job que apenas os novos registros serão processados.

Conclusão

Usar o Copy Job no Data Factory do Fabric simplifica a carga incremental de arquivos, economizando tempo e minimizando erros. Essa abordagem funciona não apenas para arquivos CSV, mas também para outras fontes relacionais, como SQL Server. Lembre-se que essa é um funcionalidade preview mas que com toda certeza vem para ficar

Se você já usou essa funcionalidade ou tem experiências semelhantes, deixe suas impressões, e se quiser mais detalhes sobre essa e outras mais funcionalidades fica ligado aqui no BI com Bueno... Valeu!