Como criar um portfólio de projetos?

Portfólio de projetos.

Um portfólio de projetos toma o lugar dessa experiência de trabalho em sua busca por emprego.

Ele mostra aos possíveis empregadores que você realmente pode fazer o tipo de trabalho de ciência de dados para o qual está se candidatando.

Na verdade, os projetos podem ser a parte mais importante, porque eles surgem em todos os estágios do processo.

Eles serão mencionados em seu currículo, vinculados à sua inscrição, e você pode esperar que eles desempenhem um papel importante em muitas entrevistas de emprego também.

A maioria dos recrutadores revisam projetos e portfólios ao selecionar candidatos, mas também pedem para os candidatos falarem sobre os seus projetos nas entrevistas.

Pode ser solicitado que você explique as escolhas estatísticas feitas em um projeto de análise de dados ou converse com um gerente de contratação por meio de seu código.

Você pode ser questionado sobre suas experiências de trabalho com outras pessoas em um projeto em grupo ou sobre os desafios que enfrentou ao montar um projeto em particular.

O que seu portfólio deve demonstrarPrecisamente o que você precisa demonstrar com seu portfólio dependerá do trabalho para o qual você está se candidatando.

Alguém que esteja procurando cargos de analista de dados em marketing deve ter um portfólio de projetos destacando as habilidades analíticas relacionadas ao marketing.

Alguém que está procurando uma posição de engenheiro de machine learning deve ter um portfólio de projetos impressionantes de machine learning.

Mas qualquer que seja o papel que você esteja procurando, o mantra a ser lembrado é o seguinte: seu portfólio deve provar que você pode fazer o trabalho.

Fazer o trabalho não significa apenas provar que você tem a habilidade técnica.

Para a maioria das posições relacionadas a dados, você desejará que seu portfólio demonstre que você tem:A capacidade de se comunicarA capacidade de colaborar com os outrosCompetência técnicaA capacidade de raciocinar sobre dadosA motivação e capacidade de tomar iniciativaTambém é importante ressaltar que a palavra você em “provar que você pode fazer o trabalho” é importante.

Seus projetos de portfólio devem ser únicos.

O objetivo de um portfólio é provar que você trabalhou de uma maneira que pode ser facilmente verificada.

Se você optar por mostrar algo que é comumente feito e já tem tutoriais já disponíveis, é muito difícil para o recrutador, avaliar se você realmente teve trabalho e uma linha de pensamento, ou se simplesmente seguiu um tutorial genérico.

Projetos para incluir em um portfólio de ciência de dadosUm portfólio de ciência de dados deve consistir de 3 a 5 projetos que mostrem suas habilidades relevantes para o trabalho.

Novamente, o objetivo aqui é provar que você pode fazer o trabalho, então quanto mais o seu portfólio se parece com o trabalho do dia-a-dia dos trabalhos que você está buscando, mais convincente vai ser.

Isso se aplica aos tipos de tarefas que você está realizando em seus projetos, mas também às áreas de assunto que seus projetos examinam e aos tipos de conjuntos de dados com os quais você está trabalhando.

Vamos dar uma olhada em cada um desses três fatores:Tipos de tarefas : Que tipo de coisas você precisará fazer no trabalho para o qual está se candidatando?.Você fará muita limpeza de dados?.Machine Learning?.Visualização de dados?.Processamento de linguagem natural (NLP)?.Você fará análise estritamente, ou construirá painéis e outras ferramentas de análise para outras pessoas?.Quaisquer que sejam as respostas para essas perguntas, elas devem ser integradas ao seu portfólio.

Áreas de assunto : Você está buscando vagas de marketing?.Você provavelmente desejará destacar projetos destinados a responder a perguntas relacionadas a marketing.

Se você estiver procurando por um trabalho de dados no desenvolvimento de aplicativos para dispositivos móveis, convém exibir projetos que demonstrem que você pode extrair informações úteis sobre o produto a partir dos dados do aplicativo.

Usar seus projetos para mostrar que você tem algum conhecimento ou, pelo menos, interesse em assuntos e problemas de negócios relevantes para os trabalhos em que se candidatou pode ajudar você a se destacar.

Tipos de conjuntos de dados (datasets): diferentes tipos de dados podem ser comuns em diferentes setores, então mostrar que você tem alguma experiência em trabalhar com conjuntos de dados semelhantes aos que você vê no trabalho ajuda a provar que você tem o que é preciso para fazer o trabalho.

Se é provável que você esteja analisando muitos dados de séries temporais no trabalho de destino, por exemplo, seria útil mostrar algumas habilidades de análise de séries temporais em seu portfólio.

Confira aqui alguns sites para encontrar conjuntos de dados gratuitos para projetos de ciência de dados.

Em caso de dúvida, inclua estes projetos:Quanto mais adaptado for seu portfólio aos trabalhos específicos para os quais você está se candidatando, melhores serão os resultados.

Mas se você estiver se candidatando a cargos de estágio, provavelmente ficará em dúvida sobre o que colocar no seu projeto e provavelmente também estará procurando posições que exijam muitas das mesmas habilidades, independentemente do setor.

Se você montar um portfólio com pelo menos um projeto em cada uma dessas categorias, terá um excelente começo.

Projeto de limpeza de dados : preparação de dados, dados, limpeza de dados, o que você quiser chamá-lo, é responsável por 60–80% da maioria dos empregos de ciência de dados, então você definitivamente precisa de um projeto que demonstre suas habilidades de limpeza de dados.

No mínimo, você vai querer encontrar um conjunto de dados “sujo” ( não escolha nada que já tenha sido limpo), faça algumas perguntas analíticas interessantes para examinar e depois limpe os dados e faça uma análise básica para responder as questões usando os dados.

Se você quiser aumentar a dificuldade aqui, coletar seus próprios dados (via APIs, web scraping ou algum outro método) demonstra alguma habilidade adicional.

Trabalhar com dados não estruturados de algum tipo (em oposição a um conjunto de dados bagunçado, mas ainda estruturado) também parece ser bom.

Projeto de Storytelling e visualização de dados : Contar histórias, oferecer insights reais e convencer outras pessoas com dados são partes fundamentais de qualquer trabalho de ciência de dados.

A melhor análise do mundo é inútil se você não conseguir que seu CEO entenda ou aja com base nele.

Este projeto deve levar os leitores a uma jornada analítica e levá-los a uma conclusão que seja compreensível até mesmo para um leigo com pouca experiência em codificação ou estatística.

A visualização de dados e as habilidades de comunicação serão importantes aqui para mostrar e explicar o que seu código está fazendo.

Seria bom apresentar isso na forma de um Bloco de Notas Jupyter ou em R Markdown (faremos um artigo sobre isso posteriormente), mas você poderia adicionar alguma dificuldade extra personalizando seus projetos incluindo alguns gráficos interativos.

Um projeto em grupo : Trabalhar em conjunto em um grupo demonstra que você tem habilidades de comunicação e colaboração, ambas importantes para os empregos na área de ciência de dados.

Qualquer tipo de projeto pode ser um projeto em grupo; O importante aqui é demonstrar que você pode atuar em um ambiente de equipe tanto em termos interpessoais (comunicação clara, divisão justa do trabalho, colaboração genuína) quanto em termos técnicos (gerenciamento de projetos com Git e GitHub).

Se você quiser aumentar a dificuldade aqui, tente envolver-se com um projeto popular de código aberto, como contribuir para uma biblioteca de código aberto relacionada à ciência de dados em um idioma de sua escolha.

Isso pode ser bastante difícil, mas se você conseguir fazer uma contribuição para uma biblioteca ou pacote popular, isso pode realmente fazer com que seu portfólio se destaque para os empregadores.

Outros tipos de projeto a serem consideradosProjeto de criação de sistema de ponta a ponta : muitos empregos na área de ciência de dados podem incluir a criação de sistemas que podem analisar com eficiência conjuntos de dados regulares à medida que entram, em vez de analisar um único conjunto de dados específico.

Por exemplo, você pode ter a tarefa de criar um painel para a equipe de vendas que visualize os dados de vendas da empresa e atualize regularmente à medida que novos dados forem recebidos.

Este projeto deve mostrar que você é capaz de construir um sistema que possa executar a mesma análise em novos conjuntos de dados à medida que eles são inseridos, bem como capaz de construir um sistema que possa ser entendido e executado com relativa facilidade por outros.

A versão mais simples disso seria um código bem comentado, capaz de coletar dados de um conjunto de dados público atualizado regularmente e realizar algumas análises.

Seu arquivoREADMEdeve explicar como ele pode ser usado por outros, e o projeto deve ser relativamente fácil para outros programadores executarem.

Se você quiser aumentar a dificuldade aqui, o céu é o limite: você pode criar painéis da Web interativos completos ou criar um sistema que manipule dados em tempo real / streaming usando o pacote shiny, por exemplo.

A chave aqui é apenas para mostrar que você pode construir um sistema analítico que seja reutilizável e que outras pessoas, ou pelo menos outros programadores, possam entender.

Formatos de Projetos de Portfólio e ApresentaçãoAgora que você tem ideia do que você gostaria de incluir em seu portfólio, como você deve apresentá-lo?.Na verdade, existem apenas duas abordagens comuns: GitHub e sites de portfólio pessoal.

Todos os recrutadores com quem falamos para este artigo concordaram que os candidatos devem ter contas ativas do GitHub que exibam seus projetos.

Portanto, se você está buscando um recurso amplo, é definitivamente onde deve começar.

Alguns recrutadores disseram que ficaram impressionados com apresentações de projetos mais cuidadosamente construídos em sites de portfólio, mas outros disseram que não se importavam muito com sites de portfólio separados, e só olhavam para o GitHub de um candidato.

Por esse motivo, faz sentido começar a preparar o seu GitHub.

GitHub para projetos de ciência de dadosSe você estiver criando uma nova conta do GitHub, escolha um nome de usuário profissional (os nomes de usuários são públicos e como os empregadores em potencial o encontrarão).

Uma vez que você está configurado no GitHub, a boa notícia é que a apresentação do seu projeto não precisa ser particularmente complexa: mostrar seus projetos no formato Jupyter Notebook ou R Markdown é bom para a maioria dos projetos.

Nos próprios projetos, tente manter blocos de código relativamente curtos e intercalá-los com blocos de texto que expliquem de forma clara e concisa o que o código está fazendo e por quê .

Use formatação de texto (cabeçalhos e subtítulos, negrito, itálico, trechos de código, etc.

) para manter as coisas organizadas e fáceis de ler.

Você deve sempre presumir que seu código será lido por alguém que saiba do que está falando.

Isso significa que você deve tentar manter as convenções de nomenclatura no seu idioma, seguir o estilo preferido e tentar manter seu código eficiente e limpo.

Isso também significa que você deve adicionar comentários ao seu código sempre que achar que pode ser útil, para que seja fácil ver rapidamente o que está acontecendo.

(O código de comentários é uma prática especialmente importante quando se trabalha colaborativamente como parte de uma equipe, portanto, incluir bons comentários que tornem o código fácil de ser seguido demonstra também uma boa comunicação e habilidades de trabalho em equipe.

)Alguns outros possíveis pontos a serem observados no seu código:Se você criou um projeto localmente, talvez tenha codificado permanentemente o caminho dos arquivos para os dados, para que o código leia um diretório muito específico no computador em que você armazenou os dados.

Para projetos públicos, é melhor manter os dados na mesma pasta que o seu bloco de notas (ou subpasta), de modo que você possa incluir um caminho relativo que funcione para qualquer um que esteja baixando seu repositório e executando seu código.

Você provavelmente desejará incluir informações sobre pacotes e detalhes de versão de pacotes e bibliotecas externos que você usou, para facilitar o download e a execução do código por outras pessoas.

Se você incluir os dados usados ​​no repositório do seu projeto, verifique se tem o direito legal de redistribuí-lo.

Você deve sempre incluir um arquivoREADME, normalmente no formato Markdown, com cada projeto que contém uma breve explicação do que é o projeto.

Esse é o arquivo que o GitHub exibirá por padrão quando alguém estiver olhando para o repositório do seu projeto, então ele deve fornecer uma visão geral do que ele verá.

Isso pode incluir detalhes como o que seu projeto analisa, quais são seus objetivos com esse projeto, quais técnicas você usou e um resumo de suas conclusões.

Também deve incluir qualquer informação que alguém possa precisar para instalar e executar seu projeto para si.

Uma coisa importante a lembrar com o GitHub é que ele mostrará a qualquer um que visualizar seu perfil todos os seus repositórios públicos e também mostrará toda a sua atividade de contribuição.

Isso significa que você precisa manter sua conta limpa e ativa.

Será desestimulante para os possíveis empregadores clicarem no seu perfil e encontrarem centenas de projetos abandonados, e isso será desanimador para potenciais empregadores se eles virem que você não fez nada nos últimos meses.

Nesse sentido, lembre-se de que você pode e deve continuar a iterar sobre eles, mesmo quando estiver se candidatando a empregos.

Se você receber um feedback útil (ou se tiver uma ótima ideia), não há nada de errado em implementar essas alterações em um projeto que você já publicou.

Na verdade, continuar a iterar nos seus projetos é uma boa ideia — mostra aos empregadores que você é ativo, interessado e engajado com o mesmo tipo de trabalho que eles o contratariam para fazer.

A etapa final na preparação do seu GitHub?.Certificando-se de que está ligado em todos os lugares que um empregador possa encontrar.

Deve haver um link do GitHub que pode ser clicado em seu currículo, mas você também deve incluir um em sites sociais que você usa (LinkedIn, Twitter, sites pessoais etc.

) e incluir o URL com qualquer formulário de inscrição on-line enviado por você.

Você quer que seja tão fácil quanto possível para qualquer um que esteja procurando seu GitHub.

O Próximo Nível: Projeto Dedicado ou Portfólio de SitesUma vez que você tenha um GitHub ativo em funcionamento, pode valer a pena dedicar algum tempo para montar uma apresentação mais exclusiva para um ou mais de seus projetos.

Nem todo recrutador terá tempo para examinar uma página de projeto dedicada ou um site de portfólio especial, mas, para alguns, essa medida extra será atraente.

Obviamente, construir um site dedicado para um projeto, particularmente um interativo, requer muito mais tempo do que simplesmente jogar um Jupyter no GitHub.

Mas, embora exija mais investimento inicial, ele pode realmente pagar dividendos a longo prazo, especialmente se você for apressado e quiser logo trabalhar na área.

Será difícil impressionar alguém que esteja percorrendo seu GitHub em seu telefone em um meetup, olhando e tentando ler seu código.

Uma história clara, visual, baseada em dados ou projeto interativo pode deixar uma impressão muito mais profunda.

Recursos do ProjetoNeste ponto, você sabe por que precisa de um portfólio de projetos.

Você sabe quais projetos devem ser incluídos em seu portfólio e como apresentá-los.

Agora, vem a parte difícil: realmente fazer os projetos.

Os projetos escolhidos variam tremendamente com base em seus interesses pessoais e em suas funções de trabalho.

Mas aqui estão alguns recursos adicionais que podem ser úteis quando você estiver reunindo novos projetos ou voltando para melhorar e repetir os antigos antes de uma procura de emprego:Fontes de dadosUma das escolhas mais importantes que você fará em qualquer projeto é quais dados analisar.

Se você quiser trabalhar com um conjunto de dados público existente, talvez seja melhor evitar os grandes acessos de sites como o Kaggle — conjuntos de dados populares no Kaggle terão sido usados ​​em centenas de projetos, e os empregadores estarão fartos de vê-los.

Felizmente, existem muitos lugares na web onde você pode encontrar dados menos utilizados para trabalhar.

Aqui estão alguns dos nossos favoritos:Portais de dados — uma lista enorme de 551 portais de dados abertos de todo o mundo, cada um com sua própria biblioteca de conjuntos de dados para oferecer.

Você pode navegar geograficamente (ou alfabeticamente) e também pode pesquisar por palavra-chave.

A maioria dos portais aqui são portais de dados abertos administrados pelo governo.

Data.

gov — o lar de praticamente todos os dados do governo dos EUA, com quase um quarto de milhão de dados sobre temas que vão desde a indústria até a saúde pública e o financiamento.

AWS Open Data — O portal da Amazon tem todos os tipos de coisas interessantes e inesperadas, desde dados de rastreamento da web até dados de monitoramento por satélite do espaço.

Data.

world — Tipo como o GitHub para dados.

Você encontrará todos os tipos de conjuntos de dados aqui, embora alguns deles incluam conjuntos de dados comuns e populares, como os dados de passageiros do Titanic, e como eles são enviados pelo usuário, eles nem sempre são precisos ou confiáveis.

Reddit — Um subreddit para compartilhar conjuntos de dados.

Anos de história para navegar, novas coisas todos os dias, e você pode até fazer pedidos!AcademicTorrents — Um site onde os cientistas podem carregar conjuntos de dados de suas pesquisas e publicações.

Naturalmente, a melhor maneira de garantir que você está trabalhando em algo totalmente único é pegar seu próprio conjunto de dados em vez de baixar algo que alguém tenha compilado.

As duas maneiras mais fáceis de fazer isso são via web-scraping ou acessar uma API.

Se você quiser realmente ir além, você também pode coletar dados fazendo algo como conduzir sua própria pesquisa ou coletar dados manualmente.

Coletar seus próprios dados é muito demorado, mas se for a única maneira de obter um conjunto de dados interessante e exclusivo, o fator “uau” que você pode criar com sua análise exclusiva mais tarde valerá todo esse esforço inicial.

E não se esqueça de que você provavelmente gera uma quantidade razoável de seus próprios dados — com um computador e um smartphone, você pode coletar todos os tipos de dados sobre você, de níveis de produtividade a hábitos de sono.

Seguir esse caminho pode ser arriscado (você não quer parecer autocentrado, e seus dados pessoais podem não ser tão interessantes para os outros quanto para você), mas certamente existem maneiras de transformar dados seus em um projeto de ciência de dados interessante com um apelo mais amplo.

Recursos de designQuando um projeto é concluído, uma das maneiras mais fáceis de destacá-lo pode ser a atualização das visualizações, para que elas não tenham o visual “padrão” que os recrutadores estão vendo em muitos outros portfólios de ciência de dados.

Existem maneiras de fazer isso com código.

Mas, de maneira mais geral, aplicar alguns princípios básicos de design ao seu trabalho ajudará seus gráficos a se destacarem e contar suas histórias com mais clareza.

Aqui estão alguns outros recursos úteis de visualização de dados:A grande galeria de tipos de gráficos do Data Viz Project é perfeita para lembrar-se da grande variedade de tipos de gráficos disponíveis e ajudá-lo a encontrar o melhor para se adequar aos seus dados.

Os dados do Hubspot, têm algumas dicas realmente úteis para projetar tipos específicos de gráficos.

O Geckoboard oferece um pôster para impressão que você pode pendurar no seu escritório.

A UC Berkeley tem um vídeo de 30 minutos sobre design gráfico no contexto de dados que é bastante útil se você tiver tempo para se aprofundar.

Fontes de inspiraçãoÀs vezes, você só precisa de uma pequena faísca para começar um projeto, ou para lhe dar a ideia que o leva de bom a ótimo.

Aqui estão alguns lugares onde você pode encontrar projetos de ciência de dados verdadeiramente excelentes:FiveThirtyEight — O atual campeão sobre jornalismo de dados e está constantemente publicando novos trabalhos baseados em dados sobre política e esportes.

Eles também publicam muitos de seus dados para que você possa tentar fazer engenharia reversa de parte de seu trabalho.

Information is Beautiful Awards — Este site concede prêmios anuais para uma variedade de categorias de projetos baseados em dados, mas também publica destaques regulares de grandes projetos ao longo do ano.

Data is Beautiful — Este subreddit hospeda projetos e visualizações de ciência de dados amadores e profissionais.

Você também pode compartilhar seus próprios projetos para obter feedback de outros usuários do reddit.

Kaggle -Kaggle pode ser um ótimo lugar para encontrar projetos de ciência de dados concluídos (procure por competições concluídas e, em seguida, navegue pelos “Kernels” com mais votos.

A beleza aqui é que você consegue ver todo o projeto, incluindo todo o código.

Equipes de Ciência de Dados nos Jornais Nacionais — Os principais jornais nacionais e internacionais e outras organizações de mídia geralmente têm seções de “dados” onde você pode encontrar os resultados de um interessante trabalho de ciência de dados.

Em alguns casos, eles também têm contas do GitHub, nas quais compartilham projetos e / ou dados.

Próximos passosNo R-Ladies, promovemos cursos de R que vão do básico até o avançado, e que ajudam você a começar a construir um portfólio de ciência de dados para demonstrar suas habilidades para os empregadores e conseguir um emprego no mundo dos dados.

Acompanhe nossas redes e fique de olho nas nossas datas!.

. More details

Leave a Reply