Skip to content

TASIO852/Data-Science

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

40 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Data science tudo que voce precisa saber 🐱‍🏍

Montagem e planejamento de um project

Preços

Planejamento (Cliente) 📚

  • Documentação
    • Regra de negocio (Readme)
    • Consultoria
      • Definição do escopo do projeto
        • Engenharia de requisitos
        • Oque ele quer ver ?
        • Onde Acho isso ?
        • Oque sao os dados principais ?
  • Diagramação
    • Modelo conceitual regra de negocio
    • Modelo logico código ETL
    • Modelo logico código python

Backend 🤖

  • Banco de dados NO-SQL
    • Estrutura do modelo de banco de dados
  • SQL
    • Integração das bases de dados
    • pré-tratamento
      • Relacionamento
      • Relacionamento em estrela
      • Modelo de Kimbal
      • Cube model OLAP
      • Usar limit nos teste no etl
    • Data Warehouse
    • Data Lake
    • Data Storage
    • Data Hub
  • Python
    • Mineração de dados
    • Tratamento de dados (Pandas,Numpy,matplotlib,sns)
      • Análise Descritiva
      • Análise Prescritiva
      • Análise Preditiva (ML)
      • Análise Diagnóstica
      • Simulação e otimização
      • Formato do dado
      • Calculo Estatístico
      • Tipo de dado
      • Organizar visualização de dado
      • Organização da tabela
      • Tratamento de dados estáticos csv no etl
    • ML (Supervisionada e nao supervisionada)
      • Classificação
      • regression
      • Arvore de decisão
      • linear model
      • Outlier (ponto fora da curva)
  • Testes(SQL e Python)
    • Excel
      • Gerar src em csv da base
      • Consulta na base de dados para verificar a veracidade

Deploy para a produção do Backend

  • Nuvem
    • Google Cloud
    • Docker
      • Rodagem de teste de machine learning entre outros
  • GitHub
    • Update diário
    • Visualização de coisas Difícil de explicar
  • Etl
    • OLAP
      • INSERT
      • FORMULA
      • UPDATE
      • REGEX
    • Colocar arquivos fixos na OLAP

Front end | Deploy para a produção do Frontend ✨

  • Figma
    • Designer do painel
      • Pizza
      • Barra
      • Dispersão
      • Abc
  • Tableau
    • Campos calculados (Estatística)
    • Filtragem
      • Gerais (Filtros de valores gerais que vem do datasets)
      • Locais (Filtros específicos)
      • Planilhas em comuns
      • Painéis
      • Projeto
    • Visualização
    • Relacionamento em estrela
    • Modelo de kimbal
    • Cube model OLAP

Melhorias

  • Revisar
    • QA
      • Retorna a uma das etapas citadas acima
      • Anotar pontos enquanto realiza as atividades
      • Rever o planejamento do projeto
        • Documentação
        • Diagramação
      • Rever e Separar entre back-end e front-end
        • Back end
          • ETL
          • Nuvem
          • SQL
          • Python
          • GitHub
          • Testes
        • Front end
          • Figma
          • Tableau

Linguagem usadas

Ver todas elas no W3schools !!!

  • python
  • SQL
  • Excel formulas (VBA)
  • Docker
  • Tipos de arquivos

Frameworks

  • FastApi
  • Sckit learning
  • Numpy
  • Pandas
  • Tensor Flow
  • Anaconda
  • Tabpy
  • PySpark

Matérias para aprender

Tudo voltado para as maiores empresas do mercado

AWS Nuvem

Apache Ferramentas

Postgres Banco de dados relacional

MongoDB Banco de dados No SQL

  • Big data
  • Cibersegurança
  • Engenharia de dados
  • Data fabric
  • Integrar banco de dados
  • integrar sistemas
  • lambda big data design (lambda kappa)
  • Arquitetura Big Data Design
  • Streaming
  • CI/CD Kibana + Elastic
  • ingestão, integração, processamento e armazenamento de dados
  • Terraform, cloudformation
  • Infraestrutura de Dados
  • árvore de decisão/regressão, clustering
  • Lake house
  • Ecossistema de uma ferramenta (Hadoop)
  • Linux
  • Mlops
  • Anaconda
  • Tabpy
  • Map reduce

Técnicas para usar nos estudos

  • Cheat sheet
  • Resumo
  • Road map
  • Sites
  • Imagens
  • Metodologias
  • Pratica com datasets da Kaggle
  • Revisar Processo e código de outra pessoa
  • Kambam e scrum
  • Alarmes e calendário com tasks (Kambam e scrum)
  • Metodo cientifico

Areas de Atuação e empregos

  • Cientista de dados
  • Arquiteto de dados
  • engenheiro ML
  • analista de dados
  • DBA
  • engenheiro de dados
  • Generalista data science

Onde eu estou ? E por onde começar ?

  • Voce que está

Plataformas gratuitas com certificado

  • Data science Academic
  • Harvard
  • Udacity
  • AWS
  • Cisco
  • Aws
  • Google
  • Fiap
  • Coursera
  • Udemy
  • kaggle
  • labdata
  • awari
  • Ibm
  • Nyu
  • Datacamp

Ciencia de dados

TUDO TEM CUSTO A melhor tecnologia e aquela que resolve o problema do cliente metadado e um dado sobre o dados

O que e Ciencia de dados ?

Ciência de dados é uma área interdisciplinar, que localiza-se em uma interface entre a estatística e a ciência da computação, que utiliza o método científico; processos, algoritmos e sistemas

Pilares da ciencia de dados

  • Matemática estatística
    • calculo
    • analise
    • correlação
    • limpeza
    • interpreção dos dados
  • Ciência da Computação
    • ferramentas
    • cluster
  • Area de negócios
    • financeiro
    • contábil
    • comercial
    • rh
    • vendas
    • logística
    • saúde

DADOS NA TOMADA DE DECISÃO

Dados e analise dados coletados para analise de um cientista de dados

Decisao

Baseado nos dados que foram passados e feito a tomada de decisão Açao

Depois da decisao tomada pelo gestor e feito uma ação para que aconteça as mudanças e ver o resultado do trabalho do cientista de dados

DATA DRIVEN

Pontos a serem questionados em uma cultura data driven

  • OQUE ACONTECEU ? (IDENTIFICAÇAO DO PROBLEMA)
  • PQ ACONTECEU ? (EU RESPONDO ISSO COM MHS FERRAMENTAS)
  • ACONTECERA NOVAMENTE ? (FAZER MACHINE LEARNE)
  • OQUE DEVE SER FEITO ? (SUGERIR SOLUÇOES PARA O GESTOR)

Ciencia de dados & Big data

De onde vem os dados ?

  • procedimentos medicos
  • midias sociais (web escraping)
  • noticias e jornais
  • imagens de satelite (visao computacional)
  • e-commerce (sistema de recomedaçoes )
  • tv
  • sensores

Oque os dados representao ?

  • entidade
  • caracteristicas
  • ambientes
  • eventos
  • comportamento
  • resultado

Oque um ciencista de dados pode fazer ?

  • observaçao
  • mediçao
  • Susposiçao

dados e informacoes

Oque os gestores esperam sao informações nao dados que resolvam sua problemática

O que são dados?

são coleções de fatos, dados como números, medições, observações, ou mesmo apenas informações de fatos.

Resultados de pesquisas, registro de vendas, banco de dados de sistemas internos são classificados como: Formato de dados específicos e internos.

Ciencia de dados e estatistica

Definnindo estatistica

Estatística é um conjunto de métodos usados para se analisar dados. A Estatística pode ser aplicada em praticamente todas as áreas do conhecimento humano e em algumas áreas recebe um nome especial. Este é o caso da Bioestatística, que trata de aplicações da Estatística em Ciências Biológicas e da Saúde.

Areas da estatistica

  • Probabilidade Estudo da aleatoriedade e incerteza
  • Estatistica descritiva Metodos de coleta organizaçao e apresentação analise e sintese dos dados obitidos de populaçao ou amostra
  • Estatistica inferencial Estimar informacoes sobre uma populaçao apartir de amostrass

Oque a estatistica nos ensina ?

  • Depende muito o uso da estatistica para a ciencia de dados
  • Ciencia de dados e uma area multidiciplinar r e python e machine learning em ciencia de daods e conhecimento na area dos negocios
  • Aprender de forma geral para depois ir especificando o raciocino para melhor compreençao da materia ou ferramenta e linguagem

Machine learning e MLops

Oque aprendizado tomar descisoes (Obrigatorio ter dados historicos)

Machine learning deu um boom por conta do big data e por conta da capacidade de armazenamento e processamento Com os GPU's (Unidades de processamento grafico)

O aprendizado de maquina e um campo da ciencia da computaçao que se concentra em criar sistemas que sao capazes de aprender apartir dos dados

Aplicaçoes do machine learn

  • reconhecimento de voz
  • analise de sentimentos
  • recomendaçoes
  • detecçao de fraudes
  • previsoes empresariais

Tipos de aprendizado de maquina

  • supervisionado
    • Regressoa
    • classificaçao
  • Nao supervisionado
    • faz entrega de clusters para fazer a analise
    • Mineração de dados (so se o padrao existir)
  • Por reforço
    • Tentativa e erro se da toda a logica desse modelo
      • Nao da pra fazer ml sem dados historicos
  • Apredizado profundo
    • E muito enviezado pelo deep learn
    • um dos viezes e colocar para aprender detalhes dos dados de forma profunda

curiosidade : deep learn imita o funcionamento da mente humana

  • Overfitting é um conceito em ciência de dados, que ocorre quando um modelo estatístico se ajusta exatamente aos seus dados de treinamento. Quando isso acontece, o algoritmo infelizmente não pode funcionar com precisão em dados não vistos, anulando seu propósito.
  • Underfitting é um cenário em ciência de dados em que um modelo de dados é incapaz de capturar a relação entre as variáveis de entrada e saída com precisão, gerando uma alta taxa de erro tanto no conjunto de treinamento quanto nos dados não vistos.

Aplicaçoes da ciencia de dados

reduzir os custos e aumentar o lucro

oque e nessesario ?

1 - problemas de negocios

2 - dados historicos

3- padrao exixtente nos dados

4 - capacidade computacional e armazenamento e processamento de dados (AWS)

5 - proficional de dados

Onde podemos aplicar a ciencia de dados ?

Em todas as areas contanto que tenha um problema pra resolver com dados

Areas de aplicaçao da ciencia de dados

saúde

  • prever ocorrencias de crises epleticas
  • previsao de epatite
  • analise exploratoria para dados de previsao de custos medicos
  • analises de chamadas medicas de emergencia com mapreduce
  • Extratificaçao de risco usando registros para doenças
  • segmentaçao de tumores em imagens no cerebro
  • analise de imagens de raio-x no toraz
  • detecsao de anormalidades nos mebros
  • medicina personalizada dna melhor tratamento clinico

marketing

  • avaliação de produto
  • mix de produto
  • seo
  • indicadores de varejo
  • mecanismo de recomendações
  • MApeamento de cliques

Finanças

  • Bot trader - róbor de recomendações de ativos
  • Analise de risco em operações financeiras com previsões
  • Analise de redes sociais com detecção de fraudes
  • Data quality report detecção de fraudes
  • text analíticas sobre noticias sobre uma empresa
  • previsão de lucros
  • atomização e analise de risco de Portifolio
  • Automação da auditoria financeiras e contábil
  • detecção de anomalias de transasses com fintechs
  • analise de fundos de hedge

Vendas

  • previsão de demanda e vendas
  • Analises preditivas em vendas B2b
  • engajamento e analise de sentimento do cliente b2b
  • previsão do resultado das eleições com base
  • previsao do volume de entregas de uma transportadora ao longo do tempo
  • previsão de demanda de pedidos
  • analise de risco de supply chain
  • sistemas de recomendações para rede varejo
  • people analytics - Atritos no ambiemnte de trabalho na equipe de vendas

Ciclo de vida de um projeto em ciencia de dados

Probelma >> arquitetura e planejamentp e Tecnologias >> Dashboard

Quanto tempo leva para concluir um projeto ?

leva de 3 a 6 meses dependendo do tamanho do projeto caracteristicas de um projeto

Oque e presiso para definir um projeto ?

  • definiçao do problema

  • tem inicio e fim

  • e progresivo (ter um entregavel a cada etapa do projeto para feedbeack com o cliente)

  • limitaçao de recursos e computacionais e de dinheiro

  • ter objetivo claro e viavel no começo do projeto para a soluçao

  • probelmas e escopo do projeto e por area de conhecimento de area de negocios

Quais sao os conhecimentos Extras para fazer um projeto ?

  • Conhecimento na area de gestao de projetos
  • diciplina e gerenciamento de dados
  • pmbok
  • pmi
  • workflows
  • automatizaçap de processos
  • gitflow
  • Fluxo de trabalho de bifurcação dentro de dataops e MLops

METODOS

Dicas

  • Compreender o problema
  • NUnca sabem oque quer perguntas claras deixar a pessoa pesando fazer ela raciocinar
  • Criar brainstorm para os dois lados compreender o problema E SEMPRE VC TEM QUE TER A RAZAO sempre levar a pessoa pro seu lado
  • provesso interativo de descoberta do problema
  • Identificasao do problema eo mais dificil
  • Estudar gestao empresarial
  • Matematica
  • estudar a area que vc quer atuar e se especializar tanto na area de negocios quanto na area de tecnologia pqestao intrisicamente ligados

probloema

Definisao de problema

Area de vendas

  • Quais sao os clientes mais rentaveis?
    • soluçao : fazer um dashboard para o entendimento desses dados(SQL TABLEAU)
  • existem diferenças entre os clientes mais rentaveis ea media de clientes ?
    • soluçao : usar estatistica e realizar um teste de hipotese (R)
  • Algum cliente em particular estara no grupo dos mais rentaveis e qual eo faturamento dele ?
    • Solução : analise exploratoria com python e usar um modelo de ML

Colocar varios entregaveis para cada problema

Ciclo de vida

ciclo

Planejamento

Ter um plano bem definido para poder executar as atividade e resolver o problema com todas as tecnologias e pontos do problema bem definidos

panejamento

Engenharia de dados

Cuida de todo o backend da aplicaçao de dados para deixar tudo certo para o analytcs

engennir

Analytics

Modelagem dos modelos de estatistica e machine learning

analise

Produçao

Construçao dos produtos nos diversos formatos que vao atender o cliente com sua demanda para a resoluçao do problema

product

Aprendizado orientado a projetos com squads para trabalahar em equipe (alura x DSA)

Fases dos projetos de dados

projeto

Tem que ser muito bem tratado os dados.A chave e ter boas questoes na area de data science

  • Definisao do problema

  • Dados

  • Analise exploratoria

  • Modelagem

    • Modelagem preditiva
    • Modelagem estatistica
  • Interpretaçao

  • Comunicar o resultado de tudo

    • Explicabilidade

Produto final do projetos

  • relatorios
  • Graficos e dashboards
  • Modelos estatisticos/preditivos (geralmente e entregue a outro profisinal de TI ou de daodos)
  • web apps (interasao entre Software e Dados gerar api Daas)
  • sistema de recomendações

Cultura de dados data driven

Tem que covencer o gestor que e nessesario ser orientado a dados TEM QUE VENDER O PRODUTO

Soft Skills data science (Carreiras)

  • Gestao Empresarial fazer pos ou MBA
  • Se especializar em uma area de problemas de negocios (Ex: Finanças)
  • Se especializar em uma area de tecnologia (Ex: Computaçao em nuvem e machine learning)
  • saber conversar os dois idiomas tanto o de TI quanto o de negocios

Areas e profisoes em dados

  • Consultoria em dados (Empreendedor)
  • Analista de negocios
  • Analista de dados
  • Cientista de dados
  • Engenheiro de dados
  • Engenheiro ML
  • Arquiteto de dados
  • Engenheiro DataOps
  • DBA
  • Estatistico (SAS,R)
  • Empreendedor
  • Analista de inteligência de Mercado
  • funçoes de gerentes

soft skilss

  • Comunicaçao (ingles)
  • Perserverança
  • Creatividade
  • senso de negocios
  • Pensamento Critico para soluçao
  • Inteligencia emocional
Artigos para Guia && Cursos

Web Scraping https://medium.com/gbtech/usando-apache-airflow-para-orquestrar-web-scraping-de-tabela-de-c%C3%A2mbios-especiais-do-banco-central-f145c2bcdc07

Carreiras na area de dados https://blog.dsacademy.com.br/10-carreiras-em-big-data-e-data-science/

primeiro proejto machine learning https://insightlab.ufc.br/6-passos-para-criar-seu-primeiro-projeto-de-machine-learning/

Roadmap de estudos https://www.programaria.org/roadmap-de-estudos-para-analise-ciencia-e-engenharia-de-dados/

tendencias para Data Analytics https://lxp.triggo.ai/article/10-tendencias-de-Data-Analytics-para-este-ano

primeiro deploy de machine learning https://www.youtube.com/watch?v=_dRfScGH7NA

Calculo de regressa linear https://www.alura.com.br/artigos/desvendando-a-regressao

Comandos em pandas mais importantes https://paulovasconcellos.com.br/28-comandos-%C3%BAteis-de-pandas-que-talvez-voc%C3%AA-n%C3%A3o-conhe%C3%A7a-6ab64beefa93

Primeira aplicaçao machine learning https://paulovasconcellos.com.br/como-criar-seu-primeiro-aplicativo-de-machine-learning-7b6af291ba11

Arquitetura Big Data https://www.linkedin.com/pulse/arquitetura-big-data-escolha-canaliza%C3%A7%C3%A3o-correta-para-lopes/?originalSubdomain=pt

Computaçao em nuvem na alura Primeiros passos https://cursos.alura.com.br/challenge-devops-1-semana-2-google-cloud-leonardo-sartorello-1652371199861-p362760

Cusros gratuitos de machine learning https://insightlab.ufc.br/5-cursos-gratuitos-de-data-science-e-machine-learning-para-fazer-na-quarentena

A DBA virou Engenheira de Dados, e agora? https://imasters.com.br/carreira-dev/a-dba-virou-engenheira-de-dados-e-agora

Consumindo APIs com Python - Parte 1 https://www.treinaweb.com.br/blog/consumindo-apis-com-python-parte-1q

Construçao de uma API em python https://dadosaocubo.com/manipulando-dados-em-postgresql-com-python/

Tabpy https://www.datacamp.com/tutorial/getting-started-with-tabpy https://towardsdatascience.com/getting-started-with-tabpy-268f1da881cd

Docker + postgresql https://www.programandocomcarlos.com.br/2020/01/postgresql-pgadmin-4-docker-compose.html

Portifolio de ciencia de dados https://blog.dsacademy.com.br/como-construir-um-portfolio-de-projetos-em-data-science/