Como Trabalhar com Notebooks PySpark no Microsoft Fabric?

Se você está se preparando para o exame DP-600 ou deseja aprender como ingerir e transformar dados no Microsoft Fabric usando notebooks PySpark, este guia é para você. Aqui, abordaremos os conceitos essenciais e um passo a passo para trabalhar com notebooks dentro da plataforma.

FABRICNOTEBOOKSPYSPARK

Henrique Bueno

2/15/20253 min read

Introdução aos Notebooks no Microsoft Fabric

Os notebooks são uma poderosa ferramenta para manipulação de dados, especialmente quando lidamos com Big Data. Enquanto os Dataflows podem ser suficientes para pequenas quantidades de dados, os notebooks oferecem mais flexibilidade e escalabilidade para volumes maiores. Além disso, eles permitem a escolha entre várias linguagens, como Python, Scala, R e SQL.

Neste artigo, usaremos PySpark para demonstrar como ingerir e transformar dados dentro do Microsoft Fabric.

Criando um Workspace no Microsoft Fabric

Antes de iniciar, é necessário garantir que você tenha um workspace configurado na sua capacidade do Microsoft Fabric. Se ainda não o fez, siga estes passos:

Acesse o Microsoft Fabric e entre no Data Engineering Workspace.
Crie um novo workspace e nomeie-o de acordo com sua necessidade (exemplo: dp600_ingestion_data).
Certifique-se de que o Fabric está habilitado na sua organização. Se não estiver, habilite uma licença de teste ou configure uma capacidade dedicada.

Criando um Lakehouse para Armazenamento de Dados

Após configurar o workspace, você precisa criar um Lakehouse, que servirá como destino dos dados. Para isso:

No painel do Microsoft Fabric, clique em Criar > Lakehouse.
Nomeie seu Lakehouse (exemplo: demo_pyspark_ingestion).
Aguarde a criação do Lakehouse e verifique os elementos padrões, como as pastas Tables e Files.

Configurando um Notebook no Fabric

Agora que temos o ambiente pronto, podemos criar um notebook:

No topo da tela, clique em Open Notebook.
Escolha New Notebook para criar um novo arquivo.
Selecione a linguagem de programação desejada (usaremos PySpark).

Configurando o Caminho para os Dados

Dentro do notebook, precisamos configurar a conexão com o Azure Blob Storage File System (ABFS). O caminho pode ser encontrado nas propriedades do Lakehouse:

abfs_path = "abfss://seuarquivo@seuarmazem.dfs.core.windows.net"

print("Caminho ABFS:", abfs_path)

Ingestão e Transformação de Dados com PySpark

Agora, vamos carregar um arquivo de dados no nosso Lakehouse e transformá-lo:

from pyspark.sql import SparkSession
# Criando uma sessao Spark

spark = SparkSession.builder.appName("FabricPySpark").getOrCreate()

# Definindo caminhos de entrada e saida

data_source = f"{abfs_path}/yellow_taxi.parquet"

output_path = f"{abfs_path}/processed/yellow_taxi"

# Lendo os dados do Azure Blob Storage

df = spark.read.parquet(data_source)

# Selecionando as primeiras 1000 linhas

df_sample = df.limit(1000)

# Salvando os dados processados

df_sample.write.mode("overwrite").parquet(output_path)

print("Dados ingeridos e transformados com sucesso!")

Verificando os Dados Ingeridos

Após a execução do código acima, podemos verificar se os dados foram carregados corretamente:

Vá até o seu Lakehouse no Fabric.
Atualize a visualização da pasta de arquivos.
Verifique se o arquivo yellow_taxi foi criado na pasta de destino.

O que Mais Podemos Fazer com Notebooks no Microsoft Fabric?

Os notebooks dentro do Microsoft Fabric oferecem muitas possibilidades além da ingestão e transformação de dados. Algumas delas incluem:

Análises avançadas: Use bibliotecas como Pandas, NumPy e Matplotlib para análises estatísticas e criação de visualizações.
Machine Learning: Integre o Fabric com o Azure Machine Learning para treinar e implantar modelos diretamente nos notebooks.
Automação de Processos: Agende notebooks para rodar automaticamente e executar pipelines de dados sem intervenção manual.
Conexões com múltiplas fontes: Acesse dados de diversos serviços, como SQL Server, APIs, Data Lakes e outros sistemas do Azure.

Desafios Comuns ao Usar Notebooks no Fabric

Embora os notebooks sejam poderosos, alguns desafios podem surgir ao utilizá-los:

Gerenciamento de recursos: Certifique-se de utilizar a capacidade computacional correta para evitar falhas ou lentidão na execução.
Permissões e segurança: Alguns dados podem exigir configurações de segurança adicionais, como Managed Identity para acesso ao Azure Blob Storage.
Controle de versões: Como notebooks podem ser alterados frequentemente, o uso de repositórios Git pode ajudar no versionamento e rastreamento de mudanças.
Integração com outros serviços: Trabalhar com diferentes serviços pode exigir configurações específicas para autenticação e ingestão de dados.

Conclusão

Os notebooks no Microsoft Fabric oferecem uma maneira flexível e eficiente de ingerir e transformar dados, especialmente quando lidamos com grandes volumes. Com PySpark, podemos conectar facilmente ao Azure Blob Storage, manipular os dados e armazená-los dentro do Fabric Lakehouse.

Se você está se preparando para o exame DP-600, recomendo praticar bastante esses conceitos, pois questões sobre ELT, ABFS e transformação de dados são comuns na prova.

Fique atento para mais posts de grande conhecimento, aqui no BI com Bueno!