Estamos com mais uma edição do Bootcamp Data Engineering com AWS, Apache Hop & Cia, no formato Online ao Vivo e temos o prazer em te convidar para participar entre os dias 10 e 30 de Setembro de 2024, a partir das 19h (segundas, terças e quintas), deste super evento para acompanhar o desenvolvimento do ABSOLUTO ZERO de uma moderna arquitetura de dados de alta performance, baixo custo de armazenamento e processamento para análises de grandes volumes de dados.
Na era digital, a Engenharia de Dados está em alta e se destaca como uma das carreiras mais promissoras. Seu papel fundamental é guiar as organizações na tomada de decisões estratégicas, baseadas em dados confiáveis e ágeis.
A demanda por profissionais de dados está em constante crescimento em todos os setores da indústria de tecnologia. Apenas no LinkedIn, existem mais de 1.200 vagas abertas para cargos como Data Engineer e Engenheiro de Dados, onde a média salarial para profissionais de nível pleno na área varia entre R$ 7.625 e R$ 11.125, de acordo com o Data Report - Intera. (fonte: https://byintera.com/materiais/download-data-report-2021/).
Não perca tempo! Esta é uma ótima oportunidade para colocar a sua carreira num próximo nível de classe mundial, +500 Profissionais de Tecnologia e de Empresas como: Itaú, Matera, Iugu, Pic Pay, Porto Seguro, BTG Pactual, Dataside, Cognizant, Sicoob, Latam, Claro, First Decision, Furukawa, Vivo, Avanade, Sonda, Nestle, Aramis, Autoglass, Wheaton, Unimed, Grupo GPS, já fizeram isso, pois apesar do uso de nuvem no Brasil já ser uma realidade há algum tempo, o uso de tecnologias e serviços voltados ao desenvolvimento de uma moderna plataforma de dados, ainda está em estágios iniciais, porém já é algo bastante utilizado em empresas lá fora e que a demanda só cresce por aqui e já pagando ótimos salários.
Neste bootcamp o participante acompanhará o desenvolvimento completo e do ABSOLUTO ZERO de uma solução para Serverless Data Lakehouse, que reúne o melhor de 2 mundos, o Data Lake e o Data Warehouse, através de uma série de laboratórios (+50) totalmente práticos desenvolvidos ao vivo pelo instrutor do treinamento que abordará a construção de um moderno pipeline de dados para um Data Lake em S3 com arquitetura medallion, usando duas das mais promissoras tecnologias do ecossistema Apache: Apache Iceberg, padrão de design de formato de tabelas, criado pela Netflix (doado em 2018 a Apache Software Fundation) para superar as limitações dos seus data lakes tradicionais, baseados em tabelas Hive, que cuidará da camada ACID para o nosso Data Lake e o Apache Hop, ferramenta de transformação de dados, baseada no fork do Pentaho Data Integration (doado em 2020 a Apache Software Fundation) para o desenvolvimento dos pipelines e workflows de transformação de dados de forma visual, sem codificação e em conjunto com a utilização de inúmeros serviços da AWS e tecnologias Open Source, como: VPC, IAM, CloudWatch Log, EventBridge Scheduler, Cloudformation, SES, CLI, Secrets Manager, EC2, RDS, DMS, Glue Data Catalog, Athena, Cloud9, ECS, ECR, Fargate, Apache Parquet, Docker, Git, Github, Github Actions e Dbeaver, responsáveis pela criação de uma camada de sustentação de dados para Analytics, o Data Warehouse, onde através do serviço AWS QuickSight, sejam entregues as informações aos usuários de negócios num ambiente mais ágil, moderno, robusto e escalável.
Imagem ilustrativa da arquitetura a ser desenvolvida
Todo o desenvolvimento da arquitetura da imagem acima, será feito através do conceito IaC (Infrastructure as Code ou Infraestrutura como Código) em conjunto com o conceito CI/CD que vem permeando a cultura DevOps nas empresas, e ter essas duas práticas dentro do dia a dia de um profissional de engenharia de dados é fundamental.
Objetivos da aprendizagem
- Capacitar os participantes a trabalharem com uma pilha tecnológica moderna e multidisciplinar;
- Criar toda a infraestrutura via IaC e CI/CD;
- Gerar conhecimento aos participantes para além da criação de uma solução desta, do zero, mas também podendo usar o conhecimento para migrar soluções on-premise para cloud;
- Criar um ambiente de Data Lake apoiado pela arquitetura medallion para apoiar entregas organizadas para Analytics;
- Utilizar as principais ferramentas da AWS para Analytics;
- Estruturar um Data Warehouse interno, dentro do Data Lake, o Data Lakehouse;
- Utilizar o Apache Iceberg como formato de tabela para o nosso Data Lake, suportando transações ACID;
- Desenvolver processos de ingestão baseados em CDC com baixo impacto transacional e transformação de dados com mais produtividade, sem a necessidade de codificação (no-code/low-code);
- Estruturar uma camada de processamento short lived com Apaceh Hop em containers gerenciados AWS;
- Conectar ferramenta de Data Viz nessa moderna arquitetura de dados para entregar BI; e
- Utilizar de best practices para ter um consumo mais econômico e seguro na AWS.
- Guardrails para usuários IAM acessarem recursos específicos;
- Lifecycles para objetos em S3;
- Armazenamento seguro de credenciais de acesso;
- Compressão, formatação colunar, sumarização, particionamento e organização de dados;
- Otimizações para melhora do desempenho das consultas e redução do custo de armazenamento; e
- Limpeza de arquivos de dados e metadados desnecessários, otimizando o armazenamento e melhorando a performance da leitura das tabelas.
AQUI...Tecnologias utilizadas
Requisitos
- Ser um profissional da área de tecnologia ou formado em áreas ligadas a TI; e
- Não há necessidade de conhecimento prévio em nenhuma tecnologia ou serviço que iremos utilizar.
Pré-requisitos
- Criar uma conta nova (necessário ter cartão de crédito) na AWS para poder usufruir de alguns dos serviços necessários ao bootcamp na modalidade gratuita e
- Ter conta Gmail para acesso as aulas através do Youtube.
Público Alvo
- Profissionais iniciando na carreira de Engenharia de Dados;
- Profissionais envolvidos em projetos de Desenvolvimento de Software com interesse em Engenharia de Dados; e
- Profissionais já envolvidos em projetos de Desenvolvimento de Data Lake, Data Warehouse, Data Viz, Data Science, Machine Learning, IA e Business Intelligence.
Benefícios da aprendizagem
- O participante terá o entendimento completo para atuar como Engenheiro de Dados e construir via AWS, Apache Hop & Cia, pipelines de dados, a partir do zero para uma moderna arquitetura de dados para Analytics, apoiada por uma solução de Data Lakehouse;
- É parte integrante desta proposta, o acesso as aulas gravadas dos encontros em nosso canal no Youtube por 365 dias, liberadas já no dia seguinte aos encontros;
- Integra também esta proposta a participação vitalícia do participante em nossa comunidade Data Engineering com AWS, Apache Hop & Cia no Telegram, onde poderá realizar networking e participar de encontros virtuais com outros membros da comunidade; e
- No grupo do Telegram também poderá obter suporte técnico referente ao conteúdo do bootcamp e mentoria sobre outras possibilidades de uso.
Idioma
- Ministrado em português e Material didático em formato eletrônico em português (Brasil).
Conteúdo Programático
- Abertura do treinamento com instruções;
- O escopo do desafio;
- O que é uma solução de Data Lakehouse;
- Ambiente de desenvolvimento em EC2 e Cloud9;
- Repositórios para versionamento e deploy para o curso - DevOps com Git e Github;
- Amazon Cloudformation (AWS Cloudformation) para criar e gerenciar a infraestrutura da arquitetura com IaC (Infraestrutura como código);
- Amazon Virtual Private Cloud (AWS VPC) via Cloudformation para segmentar a rede do ambiente produtivo;
- AWS IAM para o gerenciamento de identidade e acesso ao Data Lake e ao Data Viz;
- Github Actions para deployar (CI/CD) a infraestrutura do curso;
- Templates Cloudformation deployados em Github Actions para:
- os buckets em S3 para a arquitetura medallion;
- o banco de dados OLTP PostgreSQL em RDS;
- do cofre de segredos no AWS Secrets Manager;
- as tasks DMS que realizarão a ingestão CDC no Data Lake;
- os catálogos de dados das tabelas dos bancos ODS e Data Warehouse no Glue Data Catalog;
- o serviço de query do Athena que permitirá executar queries nos ODS e Data Warehouse;
- o usuário AWS IAM de acesso aos recursos do Data Lake; e
- o ambiente Linux em AWS Cloud9 para o desenvolvimento e publicação da imagem docker para as execuções short-lived.
- Instalando e configurando o AWS CLI para acesso programático aos dados;
- Configurando utilitários (S3 Browser e Dbeaver) para acesso aos dados;
- Modelagem de dados com suporte ACID usando o formato de tabela Apache Iceberg;
- Configuração do ambiente Apache Hop para o desenvolvimento dos workflows/pipelines;
- Repositório do projeto;
- Variáveis de ambiente;
- Ferramentas Apache Hop;
- Credencial AWS;
- Arquivos em formato aberto Parquet;
- Carga de dados em tabelas Iceberg com suporte a insert, update, delete e particionamento;
- Resgate de credencial Secrets key do AWS Secrets Manager;
- Conexões com o bancos postgreSQL e Athena; e
- Desenvolvimento dos processos (workflows/pipelines) ETL de transformação dos dados na arquitetura medallion do Data Lake com o Apache Hop sem a necessidade de codificação.
- Utilizando Docker para as execuções short-lived de workflows/pipelines através do Apaxche Hop;
- Orquestrando e executando workflows/pipelines em containers gerenciados; e
- Elaborando o template Cloudformation para o serviço ECR, deployado via Github Actions;
- Registrando a imagem docker local no repositório do ECR;
- Elaborando o template Cloudformation para o serviço ECS e deployado via Github Actions; e
- Executando e agendando à execução da task definition no cluster ECS via AWS CLI e EventBridge Scheduler.
- Configurando e conectando o AWS QuickSight para acesso ao banco de dados do Data Warehouse.
Cronograma previsto
Dia 10/09 (terça-feira) das 19h até às 22h
- Abertura do treinamento com instruções
- O escopo do desafio
- O que é uma solução de Data Lakehouse
- VPC Default como rede para o ambiente de desenvolvimento em EC2 e Cloud9
- Repositórios para versionamento e deploy para o curso - DevOps com Git e Github
- Amazon Cloudformation (AWS Cloudformation) para criar e gerenciar a infraestrutura da arquitetura com IaC (Infraestrutura como código)
- Amazon Virtual Private Cloud (AWS VPC) via Cloudformation para segmentar a rede do ambiente produtivo
Dia 12/09 (quinta-feira) das 19h até às 22h
- AWS IAM para o gerenciamento de identidade e acesso ao Data Lake e ao Data Viz
- Github Actions para deployar (CI/CD) a infraestrutura do curso
- Implementando via template do AWS Cloudformation e deployados com Actions
- os Buckets da Arquitetura Medallion
- o banco de dados OLTP PostgreSQL em RDS
- o cofre de segredos no AWS Secrets Manager
Dia 16/09 (segunda-feira) das 19h até às 22h
- Sessão de mentoria e suporte para o conteúdo do treinamento cursado até o momento
Dia 17/09 (terça-feira) das 19h até às 22h
- Implementando via template do AWS Cloudformation e deployados com Actions
- as Tasks do CDC com AWS DMS
- o catálogo de dados para os bancos ODS e DWH com o AWS Glue
- o motor de query para consultas aos bancos ODS e DWH com o AWS Athena e
- o usuário AWS IAM de acesso aos recursos do Data Lake
- Instalando e configurando o AWS CLI para acesso programático aos dados
- Configurando utilitários (S3 Browser e Dbeaver) para acesso aos dados
Dia 19/09 (quinta-feira) das 19h até às 22h
- Modelagem de dados com suporte ACID usando o formato de tabela Apache Iceberg
- Configuração do ambiente Apache Hop para o desenvolvimento dos workflows/pipelines
- Repositório do projeto
- Variáveis de ambiente
- Ferramentas Apache Hop
- Credencial AWS
- Arquivos em formato aberto Parquet
- Carga de dados em tabelas Iceberg com suporte a insert, update, delete e particionamento
- Resgate de credencial Secrets key do AWS Secrets Manager
- Conexões com o bancos postgreSQL e Athena e
- Desenvolvimento dos processos (workflows/pipelines) ETL de transformação dos dados na arquitetura medallion do Data Lake com o Apache Hop
Dia 23/09 (segunda-feira) das 19h até às 22h
- Sessão de mentoria e suporte para o conteúdo do treinamento cursado até o momento
Dia 24/09 (segunda-feira) das 19h até às 22h
- Continuação: Desenvolvimento dos workflows/pipelines com Apache Hop
- Utilizando Docker via Cloud9 para as execuções short-lived de workflows/pipelines através do Apaxche Hop
Dia 26/09 (segunda-feira) das 19h até às 22h
- Continuação: Utilizando Docker via Cloud9 para as execuções short-lived de workflows/pipelines através do Apaxche Hop
- Orquestrando, executando e agendando workflows/pipelines em containers gerenciados na AWS
- Configurando, conectando e desenvolvendo com AWS QuickSight
Dia 30/09 (segunda-feira) das 19h até às 22h
- Sessão de mentoria e suporte para o conteúdo do treinamento cursado até o momento
Conteúdos extras: Autorais e Curados
A proposta desse tópico é trazer mais conhecimento associado ao conteúdo principal que será ministrado ao vivo aos alunos, com o objetivo de potencializar o aprendizado dos mesmos. Tudo em Português, com mais de 13 horas de conteúdo.
Autorais
- Introdução ao treinamento
- Fundamentos AWS
- Criando sua conta na AWS
- Criando um orçamento financeiro para não ser surpreendido
- Criando um usuário admin para uso no lugar do usuário root
- Usando Ec2 para o ambiente de desenvolvimento
- Apache Iceberg: Entendendo os metadados e as otimizações básicas do dia a dia
Curados
- Infraestrutura como código na AWS
- Fundamentos de redes AWS
- DevOps com Git e GitHub
- Construindo um data lake com S3 na AWS (best practices)
- Estratégia de otimização de custos para EC2
- Novos lançamento, features e serviços relacionados a instâncias EC2, containers e serverless
- Aprofundamento em instâncias EC2
- Introdução ao Github Actions
- Introdução ao AWS IAM
- Introdução ao AWS RDS
- Introdução ao AWS S3
- Introdução ao AWS DMS
- Introdução ao AWS Athena
- Introdução ao Apache Hop
- Introdução ao AWS QuickSight
- Introdução ao AWS Containers
- Git Branches - O que são? Como funcionam?
- Modelagem Star schema ou One Big Table
- Apache Iceberg integrado ao AWS Athena
Sessões ao vivo de mentoria e suporte
Dentro do período de 10 a 30 de setembro, teremos 3 encontros online ao vivo para mentoria e suporte aos conteúdos do treinamento, acontecendo nos dias 16, 23 e 30 de setembro, sempre às segundas-feiras, das 19h às 22h. Aproveite esse momento para apoio online ao vivo do instrutor ao desenvolvimento dos seus labs.
Dinâmica do evento
Durante os encontros online ao vivo para o desenvolvimento, que acontecerão nos dias 10, 12, 17, 19, 24 e 26 de Setembro de 2024, a partir das 19h, com duração máxima 3 horas no formato Online ao Vivo via ferramenta Zoom, o participante acompanhará o desenvolvimento dos labs pelo instrutor e nos momentos pós aula, apoiando-se no conteúdo absorvido durante os encontros de desenvolvimento ao vivo, na gravação das aulas liberadas no canal da Openin no Youtube, nas sessões de mentoria e suporte e utilizando o grupo de apoio no Telegram, desenvolverá os seus próprios labs alcançando desta forma um aprendizado mais eficaz. ATENÇÃO: O acesso a plataforma EaD para o consumo dos conteúdos curados só será liberado 30 dias antes do início do mesmo na data combinada acima, antes disso não será possível se conectar ao curso, pois não há conteúdo liberado.
Event policy
Cancelamento de pedidos pagos
Cancelamentos de pedidos serão aceitos até 7 dias após a compra, desde que a solicitação seja enviada até 48 horas antes do início do evento.
Saiba mais sobre o cancelamentoEdição de participantes
Você poderá editar o participante de um ingresso apenas uma vez. Essa opção ficará disponível até 24 horas antes do início do evento.
Saiba como editar participantes