Como Usar o Copy Job para Copiar o Arquivo Mais Recente com Data Factory no Fabric
Se você trabalha com arquivos estruturado, como CSVs, e precisa carregá-los em um Lakehouse ou Warehouse, provavelmente já enfrentou o desafio de identificar e processar apenas o arquivo mais recente. Neste post, vamos explorar como o recurso Copy Job do Microsoft Fabric pode facilitar esse processo, carregando incrementalmente arquivos de um diretório para um destino final.
FABRICDATAFACTORYCOPYJOB
Henrique Bueno
2/4/20252 min read


Configuração da Estrutura de Diretórios
Antes de iniciarmos o processo, é importante estruturar os diretórios corretamente dentro do Microsoft Fabric. A estrutura recomendada é:
Pasta "stage": Onde os arquivos serão inicialmente armazenados.
Pasta "archive": Para onde os arquivos serão movidos após o processamento.
Essa organização permite um fluxo controlado de arquivos, evitando retrabalho e processamento duplicado.
Criando um Copy Job no Data Factory
Passo 1: Criar um Copy Job
Acesse o Microsoft Fabric e entre no seu workspace.
No menu lateral, clique em Incremental Copy.
Selecione "Novo item" e escolha "Copy Job".
Dê um nome ao Copy Job (por exemplo, Incremental_CSV_Loader).
Clique em Criar.
Passo 2: Selecionar a Fonte de Dados
Escolha a origem dos dados. O Data Factory oferece várias opções, como:
SQL Server
Azure SQL Database
Blobs
S3
ADLS Gen2
Lakehouse (usaremos essa opção neste tutorial)
Selecione o Lakehouse como origem.
Escolha File Section para indicar que estamos lidando com arquivos e não tabelas.
Escolha a pasta "stage" como o local onde os arquivos estão armazenados.
Passo 3: Configurar o Destino dos Dados
Escolha onde deseja armazenar os dados processados.
Opte pelo Lakehouse novamente, mas agora selecione Tables como destino.
Dê um nome para a tabela, por exemplo, InternetSales_CopyJob.
Passo 4: Ajustar o Schema e Mapeamento de Dados
O Fabric permite definir o esquema de dados manualmente.
Configure os tipos de dados de cada coluna:
Colunas numéricas como inteiros ou floats.
Colunas de data como datetime.
Demais colunas como string.
Confirme e avance para a próxima etapa.
Passo 5: Escolher o Tipo de Carga
Selecione Incremental Copy para garantir que apenas os novos arquivos sejam processados.
Especifique as regras para detecção de novos arquivos.
Passo 6: Configurar e Executar
Defina se deseja rodar a cópia automaticamente ou manualmente.
Salve as configurações e clique em Executar.
O Copy Job processará apenas os arquivos novos e os carregará na tabela do Lakehouse.
Validando os Dados
Acesse o Notebook do Fabric para verificar se os dados foram inseridos corretamente.
Execute uma consulta para listar os dados da tabela:
SELECT * FROM InternetSales_CopyJob;
Caso novos arquivos sejam adicionados, basta rodar novamente o Copy Job que apenas os novos registros serão processados.
Conclusão
Usar o Copy Job no Data Factory do Fabric simplifica a carga incremental de arquivos, economizando tempo e minimizando erros. Essa abordagem funciona não apenas para arquivos CSV, mas também para outras fontes relacionais, como SQL Server. Lembre-se que essa é um funcionalidade preview mas que com toda certeza vem para ficar
Se você já usou essa funcionalidade ou tem experiências semelhantes, deixe suas impressões, e se quiser mais detalhes sobre essa e outras mais funcionalidades fica ligado aqui no BI com Bueno... Valeu!
Dados
© 2024. All rights reserved.