- Documentação
- Regra de negocio (Readme)
- Consultoria
- Definição do escopo do projeto
- Engenharia de requisitos
- Oque ele quer ver ?
- Onde Acho isso ?
- Oque sao os dados principais ?
- Definição do escopo do projeto
- Diagramação
- Modelo conceitual regra de negocio
- Modelo logico código ETL
- Modelo logico código python
- Banco de dados NO-SQL
- Estrutura do modelo de banco de dados
- SQL
- Integração das bases de dados
- pré-tratamento
- Relacionamento
- Relacionamento em estrela
- Modelo de Kimbal
- Cube model OLAP
- Usar limit nos teste no etl
- Data Warehouse
- Data Lake
- Data Storage
- Data Hub
- Python
- Mineração de dados
- Tratamento de dados (Pandas,Numpy,matplotlib,sns)
- Análise Descritiva
- Análise Prescritiva
- Análise Preditiva (ML)
- Análise Diagnóstica
- Simulação e otimização
- Formato do dado
- Calculo Estatístico
- Tipo de dado
- Organizar visualização de dado
- Organização da tabela
- Tratamento de dados estáticos csv no etl
- ML (Supervisionada e nao supervisionada)
- Classificação
- regression
- Arvore de decisão
- linear model
- Outlier (ponto fora da curva)
- Testes(SQL e Python)
- Excel
- Gerar src em csv da base
- Consulta na base de dados para verificar a veracidade
- Excel
- Nuvem
- Google Cloud
- Docker
- Rodagem de teste de machine learning entre outros
- GitHub
- Update diário
- Visualização de coisas Difícil de explicar
- Etl
- OLAP
- INSERT
- FORMULA
- UPDATE
- REGEX
- Colocar arquivos fixos na OLAP
- OLAP
- Figma
- Designer do painel
- Pizza
- Barra
- Dispersão
- Abc
- Designer do painel
- Tableau
- Campos calculados (Estatística)
- Filtragem
- Gerais (Filtros de valores gerais que vem do datasets)
- Locais (Filtros específicos)
- Planilhas em comuns
- Painéis
- Projeto
- Visualização
- Relacionamento em estrela
- Modelo de kimbal
- Cube model OLAP
- Revisar
- QA
- Retorna a uma das etapas citadas acima
- Anotar pontos enquanto realiza as atividades
- Rever o planejamento do projeto
- Documentação
- Diagramação
- Rever e Separar entre back-end e front-end
- Back end
- ETL
- Nuvem
- SQL
- Python
- GitHub
- Testes
- Front end
- Figma
- Tableau
- Back end
- QA
Ver todas elas no W3schools !!!
- python
- SQL
- Excel formulas (VBA)
- Docker
- Tipos de arquivos
- FastApi
- Sckit learning
- Numpy
- Pandas
- Tensor Flow
- Anaconda
- Tabpy
- PySpark
Tudo voltado para as maiores empresas do mercado
AWS Nuvem
Apache Ferramentas
Postgres Banco de dados relacional
MongoDB Banco de dados No SQL
- Big data
- Cibersegurança
- Engenharia de dados
- Data fabric
- Integrar banco de dados
- integrar sistemas
- lambda big data design (lambda kappa)
- Arquitetura Big Data Design
- Streaming
- CI/CD Kibana + Elastic
- ingestão, integração, processamento e armazenamento de dados
- Terraform, cloudformation
- Infraestrutura de Dados
- árvore de decisão/regressão, clustering
- Lake house
- Ecossistema de uma ferramenta (Hadoop)
- Linux
- Mlops
- Anaconda
- Tabpy
- Map reduce
- Cheat sheet
- Resumo
- Road map
- Sites
- Imagens
- Metodologias
- Pratica com datasets da Kaggle
- Revisar Processo e código de outra pessoa
- Kambam e scrum
- Alarmes e calendário com tasks (Kambam e scrum)
- Metodo cientifico
- Cientista de dados
- Arquiteto de dados
- engenheiro ML
- analista de dados
- DBA
- engenheiro de dados
- Generalista data science
- Voce que está
- Data science Academic
- Harvard
- Udacity
- AWS
- Cisco
- Aws
- Fiap
- Coursera
- Udemy
- kaggle
- labdata
- awari
- Ibm
- Nyu
- Datacamp
TUDO TEM CUSTO A melhor tecnologia e aquela que resolve o problema do cliente metadado e um dado sobre o dados
Ciência de dados é uma área interdisciplinar, que localiza-se em uma interface entre a estatística e a ciência da computação, que utiliza o método científico; processos, algoritmos e sistemas
- Matemática estatística
- calculo
- analise
- correlação
- limpeza
- interpreção dos dados
- Ciência da Computação
- ferramentas
- cluster
- Area de negócios
- financeiro
- contábil
- comercial
- rh
- vendas
- logística
- saúde
DADOS NA TOMADA DE DECISÃO
Dados e analise
dados coletados para analise de um cientista de dados
Decisao
Baseado nos dados que foram passados e feito a tomada de decisão
Açao
Depois da decisao tomada pelo gestor e feito uma ação para que aconteça as mudanças e ver o resultado do trabalho do cientista de dados
DATA DRIVEN
- OQUE ACONTECEU ? (IDENTIFICAÇAO DO PROBLEMA)
- PQ ACONTECEU ? (EU RESPONDO ISSO COM MHS FERRAMENTAS)
- ACONTECERA NOVAMENTE ? (FAZER MACHINE LEARNE)
- OQUE DEVE SER FEITO ? (SUGERIR SOLUÇOES PARA O GESTOR)
De onde vem os dados ?
- procedimentos medicos
- midias sociais (web escraping)
- noticias e jornais
- imagens de satelite (visao computacional)
- e-commerce (sistema de recomedaçoes )
- tv
- sensores
Oque os dados representao ?
- entidade
- caracteristicas
- ambientes
- eventos
- comportamento
- resultado
Oque um ciencista de dados pode fazer ?
- observaçao
- mediçao
- Susposiçao
dados e informacoes
Oque os gestores esperam sao informações
nao dados que resolvam sua problemática
O que são dados?
são coleções de fatos, dados como números, medições, observações, ou mesmo apenas informações de fatos.
Resultados de pesquisas, registro de vendas, banco de dados de sistemas internos são classificados como: Formato de dados específicos e internos.
Definnindo estatistica
Estatística é um conjunto de métodos usados para se analisar dados. A Estatística pode ser aplicada em praticamente todas as áreas do conhecimento humano e em algumas áreas recebe um nome especial. Este é o caso da Bioestatística, que trata de aplicações da Estatística em Ciências Biológicas e da Saúde.
Areas da estatistica
- Probabilidade Estudo da aleatoriedade e incerteza
- Estatistica descritiva Metodos de coleta organizaçao e apresentação analise e sintese dos dados obitidos de populaçao ou amostra
- Estatistica inferencial Estimar informacoes sobre uma populaçao apartir de amostrass
Oque a estatistica nos ensina ?
- Depende muito o uso da estatistica para a ciencia de dados
- Ciencia de dados e uma area multidiciplinar r e python e machine learning em ciencia de daods e conhecimento na area dos negocios
- Aprender de forma geral para depois ir especificando o raciocino para melhor compreençao da materia ou ferramenta e linguagem
Oque aprendizado tomar descisoes (Obrigatorio ter dados historicos)
Machine learning deu um boom por conta do big data e por conta da capacidade de armazenamento e processamento Com os GPU's (Unidades de processamento grafico)
O aprendizado de maquina e um campo da ciencia da computaçao que se concentra em criar sistemas que sao capazes de aprender apartir dos dados
Aplicaçoes do machine learn
- reconhecimento de voz
- analise de sentimentos
- recomendaçoes
- detecçao de fraudes
- previsoes empresariais
Tipos de aprendizado de maquina
- supervisionado
- Regressoa
- classificaçao
- Nao supervisionado
- faz entrega de clusters para fazer a analise
- Mineração de dados (so se o padrao existir)
- Por reforço
- Tentativa e erro se da toda a logica desse modelo
- Nao da pra fazer ml sem dados historicos
- Tentativa e erro se da toda a logica desse modelo
- Apredizado profundo
- E muito enviezado pelo deep learn
- um dos viezes e colocar para aprender detalhes dos dados de forma profunda
curiosidade : deep learn imita o funcionamento da mente humana
Overfitting
é um conceito em ciência de dados, que ocorre quando um modelo estatístico se ajusta exatamente aos seus dados de treinamento. Quando isso acontece, o algoritmo infelizmente não pode funcionar com precisão em dados não vistos, anulando seu propósito.Underfitting
é um cenário em ciência de dados em que um modelo de dados é incapaz de capturar a relação entre as variáveis de entrada e saída com precisão, gerando uma alta taxa de erro tanto no conjunto de treinamento quanto nos dados não vistos.
reduzir os custos e aumentar o lucro
oque e nessesario ?
1 - problemas de negocios
2 - dados historicos
3- padrao exixtente nos dados
4 - capacidade computacional e armazenamento e processamento de dados (AWS)
5 - proficional de dados
Onde podemos aplicar a ciencia de dados ?
Em todas as areas contanto que tenha um problema pra resolver com dados
Areas de aplicaçao da ciencia de dados
saúde
- prever ocorrencias de crises epleticas
- previsao de epatite
- analise exploratoria para dados de previsao de custos medicos
- analises de chamadas medicas de emergencia com mapreduce
- Extratificaçao de risco usando registros para doenças
- segmentaçao de tumores em imagens no cerebro
- analise de imagens de raio-x no toraz
- detecsao de anormalidades nos mebros
- medicina personalizada dna melhor tratamento clinico
marketing
- avaliação de produto
- mix de produto
- seo
- indicadores de varejo
- mecanismo de recomendações
- MApeamento de cliques
Finanças
- Bot trader - róbor de recomendações de ativos
- Analise de risco em operações financeiras com previsões
- Analise de redes sociais com detecção de fraudes
- Data quality report detecção de fraudes
- text analíticas sobre noticias sobre uma empresa
- previsão de lucros
- atomização e analise de risco de Portifolio
- Automação da auditoria financeiras e contábil
- detecção de anomalias de transasses com fintechs
- analise de fundos de hedge
Vendas
- previsão de demanda e vendas
- Analises preditivas em vendas B2b
- engajamento e analise de sentimento do cliente b2b
- previsão do resultado das eleições com base
- previsao do volume de entregas de uma transportadora ao longo do tempo
- previsão de demanda de pedidos
- analise de risco de supply chain
- sistemas de recomendações para rede varejo
- people analytics - Atritos no ambiemnte de trabalho na equipe de vendas
Probelma >> arquitetura e planejamentp e Tecnologias >> Dashboard
Quanto tempo leva para concluir um projeto ?
leva de 3 a 6 meses dependendo do tamanho do projeto caracteristicas de um projeto
Oque e presiso para definir um projeto ?
-
definiçao do problema
-
tem inicio e fim
-
e progresivo (ter um entregavel a cada etapa do projeto para feedbeack com o cliente)
-
limitaçao de recursos e computacionais e de dinheiro
-
ter objetivo claro e viavel no começo do projeto para a soluçao
-
probelmas e escopo do projeto e por area de conhecimento de area de negocios
Quais sao os conhecimentos Extras para fazer um projeto ?
- Conhecimento na area de gestao de projetos
- diciplina e gerenciamento de dados
- pmbok
- pmi
- workflows
- automatizaçap de processos
- gitflow
- Fluxo de trabalho de bifurcação dentro de dataops e MLops
Dicas
- Compreender o problema
- NUnca sabem oque quer perguntas claras deixar a pessoa pesando fazer ela raciocinar
- Criar brainstorm para os dois lados compreender o problema E SEMPRE VC TEM QUE TER A RAZAO sempre levar a pessoa pro seu lado
- provesso interativo de descoberta do problema
- Identificasao do problema eo mais dificil
- Estudar gestao empresarial
- Matematica
- estudar a area que vc quer atuar e se especializar tanto na area de negocios quanto na area de tecnologia pqestao intrisicamente ligados
Definisao de problema
Area de vendas
- Quais sao os clientes mais rentaveis?
- soluçao : fazer um dashboard para o entendimento desses dados(SQL TABLEAU)
- existem diferenças entre os clientes mais rentaveis ea media de clientes ?
- soluçao : usar estatistica e realizar um teste de hipotese (R)
- Algum cliente em particular estara no grupo dos mais rentaveis e qual eo faturamento dele ?
- Solução : analise exploratoria com python e usar um modelo de ML
Colocar varios entregaveis para cada problema
Ciclo de vida
Planejamento
Ter um plano bem definido para poder executar as atividade e resolver o problema com todas as tecnologias e pontos do problema bem definidos
Engenharia de dados
Cuida de todo o backend da aplicaçao de dados para deixar tudo certo para o analytcs
Analytics
Modelagem dos modelos de estatistica e machine learning
Produçao
Construçao dos produtos nos diversos formatos que vao atender o cliente com sua demanda para a resoluçao do problema
Aprendizado orientado a projetos com squads para trabalahar em equipe (alura x DSA)
Fases dos projetos de dados
Tem que ser muito bem tratado os dados.A chave e ter boas questoes na area de data science
-
Definisao do problema
-
Dados
-
Analise exploratoria
-
Modelagem
- Modelagem preditiva
- Modelagem estatistica
-
Interpretaçao
-
Comunicar o resultado de tudo
- Explicabilidade
Produto final do projetos
- relatorios
- Graficos e dashboards
- Modelos estatisticos/preditivos (geralmente e entregue a outro profisinal de TI ou de daodos)
- web apps (interasao entre
Software e Dados
gerar apiDaas
) - sistema de recomendações
Cultura de dados data driven
Tem que covencer o gestor que e nessesario ser orientado a dados TEM QUE VENDER O PRODUTO
- Gestao Empresarial fazer pos ou MBA
- Se especializar em uma area de problemas de negocios (Ex: Finanças)
- Se especializar em uma area de tecnologia (Ex: Computaçao em nuvem e machine learning)
- saber conversar os dois idiomas tanto o de TI quanto o de negocios
Areas e profisoes em dados
- Consultoria em dados (Empreendedor)
- Analista de negocios
- Analista de dados
- Cientista de dados
- Engenheiro de dados
- Engenheiro ML
- Arquiteto de dados
- Engenheiro DataOps
- DBA
- Estatistico (SAS,R)
- Empreendedor
- Analista de inteligência de Mercado
- funçoes de gerentes
soft skilss
- Comunicaçao (ingles)
- Perserverança
- Creatividade
- senso de negocios
- Pensamento Critico para soluçao
- Inteligencia emocional
Artigos para Guia && Cursos
Carreiras na area de dados
https://blog.dsacademy.com.br/10-carreiras-em-big-data-e-data-science/
primeiro proejto machine learning
https://insightlab.ufc.br/6-passos-para-criar-seu-primeiro-projeto-de-machine-learning/
Roadmap de estudos
https://www.programaria.org/roadmap-de-estudos-para-analise-ciencia-e-engenharia-de-dados/
tendencias para Data Analytics
https://lxp.triggo.ai/article/10-tendencias-de-Data-Analytics-para-este-ano
primeiro deploy de machine learning
https://www.youtube.com/watch?v=_dRfScGH7NA
Calculo de regressa linear
https://www.alura.com.br/artigos/desvendando-a-regressao
Comandos em pandas mais importantes
https://paulovasconcellos.com.br/28-comandos-%C3%BAteis-de-pandas-que-talvez-voc%C3%AA-n%C3%A3o-conhe%C3%A7a-6ab64beefa93
Primeira aplicaçao machine learning
https://paulovasconcellos.com.br/como-criar-seu-primeiro-aplicativo-de-machine-learning-7b6af291ba11
Arquitetura Big Data
https://www.linkedin.com/pulse/arquitetura-big-data-escolha-canaliza%C3%A7%C3%A3o-correta-para-lopes/?originalSubdomain=pt
Computaçao em nuvem na alura Primeiros passos
https://cursos.alura.com.br/challenge-devops-1-semana-2-google-cloud-leonardo-sartorello-1652371199861-p362760
Cusros gratuitos de machine learning
https://insightlab.ufc.br/5-cursos-gratuitos-de-data-science-e-machine-learning-para-fazer-na-quarentena
A DBA virou Engenheira de Dados, e agora?
https://imasters.com.br/carreira-dev/a-dba-virou-engenheira-de-dados-e-agora
Consumindo APIs com Python - Parte 1
https://www.treinaweb.com.br/blog/consumindo-apis-com-python-parte-1q
Construçao de uma API em python
https://dadosaocubo.com/manipulando-dados-em-postgresql-com-python/
Tabpy
https://www.datacamp.com/tutorial/getting-started-with-tabpy
https://towardsdatascience.com/getting-started-with-tabpy-268f1da881cd
Docker + postgresql
https://www.programandocomcarlos.com.br/2020/01/postgresql-pgadmin-4-docker-compose.html
Portifolio de ciencia de dados
https://blog.dsacademy.com.br/como-construir-um-portfolio-de-projetos-em-data-science/