diff --git a/project/2024/entrega3.md b/project/2024/entrega3.md new file mode 100644 index 0000000..1f53cfe --- /dev/null +++ b/project/2024/entrega3.md @@ -0,0 +1,84 @@ +# Projeto de Curso – Entrega Intermediária + +* MO413/MC936 - Ciência e Visualização de Dados em Saúde 2024 +* UNICAMP + +# Resumo + +O objetivo geral do projeto de curso é realizar a análise de dados relacionados à saúde, aliada às seguintes possíveis tarefas: recomendação, estudo de associações, validação de hipóteses, análise exploratória, análise visual, análise comparativa e predição. + +O problema escolhido deve ser no contexto das "ômicas" e a análise de dados deve usar estratégias de Ciência de Redes. Esta segunda entrega intermediária tem a função de apresentar o andamento dos trabalhos, debater dificuldades, redirecionamentos, avanços e novas ideias. O que for apresentado nesta versão pode ser modificado e melhorado na entrega final. + +# Fontes de Dados + +O trabalho poderá usar fontes de dados públicas ou provenientes de pesquisa de um ou mais componentes da equipe. No segundo caso, a equipe deverá apresentar o número do CAAE referente à aprovação do comitê de ética, quando couber. A equipe de docentes pode vetar algum projeto caso configure alguma impertinência ética. + +As fontes de dados não precisam ser originalmente em formato de rede, pois as redes podem ser construídas a partir dos dados dessas fontes. Também é possível e positivo integrar dados de “ômicas” com dados de outras naturezas. Por exemplo, dados de sintomas de uma doença com dados genéticos associados à mesma. + +É importante considerar cenários que contenham um número significativo de dados na base que será criada, que justifiquem um banco de dados. + +# Diferenciais do Projeto + +O projeto pode escolher um ou mais dos seguintes diferenciais: + +* criatividade; +* originalidade; +* audácia em propostas desafiadoras; +* integração de mais de uma fonte de dados; +* recursos de visualização de dados; +* integração entre os papéis da equipe. + +É muito importante considerar que serão valorizadas equipes que arrisquem em análises ousadas, às quais não se saiba se se alcançará o resultado esperado. Equipes podem obter nota máxima, mesmo que não alcancem o resultado esperado, considerando que apresentem um trabalho bem fundamentado, audacioso, que demonstre integração entre os componentes. + +# Entrega Final + +Na entrega final a equipe deve apresentar pelo menos os tópicos sugeridos abaixo. Alguns deles já foram apresentados na primeira e segunda etapas e devem ser reapresentados - iguais, se não houve mudança, ou revisados: + +* slides de apresentação da entrega final; +* resumo da proposta; +* perguntas de pesquisa a serem respondidas; +* metodologia; +* ferramentas; +* fundamentação teórica do problema em saúde/biologia; +* bases de dados de fonte escolhidas; +* modelo lógico da base de grafos que será construída; +* detalhamento do processo e resultados obtidos; +* discussão dos resultados; +* conclusões; +* trabalhos futuros. + +# Equipes + +As equipes deverão ter entre 5 e 6 componentes. Deverão ser resultado da fusão de duas equipes de 2 ou 3 componentes que estão realizando as atividades e laboratórios. + +Cada equipe terá no mínimo 2 membros da área de biologia/saúde. + +# Papéis + +O desenvolvimento do trabalho prevê papéis distintos para alunos de biologia e saúde e aqueles de computação e exatas. Cada aluno da equipe será avaliado conforme o seu papel dentro do trabalho, portanto as notas serão individuais dentro da equipe e poderão sofrer variações. + +## Papel de Biologia e Saúde + +São os responsáveis pela fundamentação do ponto de vista da saúde/biologia em partes do trabalho como: aspectos relacionados à biologia/saúde para a escolha do problema e solução, fundamentação teórica em biologia/saúde, textos apresentados relacionados à biologia saúde. Estes aspectos e os respectivos alunos serão avaliados pelos professores da biologia. + +## Papel de Computação e Exatas + +São responsáveis por aspectos computacionais como: escolha das soluções computacionais, implementação dos algoritmos e textos relacionados a aspectos computacionais. + +## Atribuições Compartilhadas + +Algumas atribuições são compartilhadas por se entender que é fruto da interação entre os papéis, como: modelo lógico do grafo, debates e conclusões de resultados de análises. + +# Entrega e Apresentação + +A entrega do projeto deve ser feita via GitHub. Para isso a equipe deve: + +* usar a mesma organização e projeto no GitHub da etapa anterior; +* atualize (se necessário) o arquivo README.md na raiz do projeto; +* crie uma pasta `project3-final` na raiz do projeto e coloque a segunda entrega dentro desta pasta conforme [Modelo da Terceira Entrega](/resources/templates/2024/project3-final/). + +A submissão da entrega 2 será dividida em duas partes: slides até o dia **18/06 às 7:59 am** e texto no GitHub até **25/06**. + +A apresentação será no dia da submissão dos slides **18/06** no horário da aula. Cada equipe terá 15 minutos para se apresentar e haverá mais 10 minutos para perguntas/respostas. Todos os membros da equipe devem participar apresentando. + +É muito importante que a equipe organize o tempo de forma a detalhar mais o que for mais relevante de modo que possa receber feedback. diff --git a/resources/templates/2024/README.md b/resources/templates/2024/README.md index 64a21d3..50cc5be 100644 --- a/resources/templates/2024/README.md +++ b/resources/templates/2024/README.md @@ -16,7 +16,7 @@ A seguir é apresentada a estrutura de pastas esperada no repositório do projet * [Entrega 1](project1/) * [Entrega 2](project2/) -* Entrega Final +* [Entrega 3 - Final](project3-final/) Na raiz do projeto do GitHub deve haver um arquivo de nome `README.md` contendo a apresentação da equipe e projeto, como detalhado na seção seguinte. Este arquivo é escrito em Markdown. Para conhecer Markdown, veja [Editando o Arquivo README.md](markdown.md). diff --git a/resources/templates/2024/project3/README.md b/resources/templates/2024/project3/README.md new file mode 100644 index 0000000..72ca499 --- /dev/null +++ b/resources/templates/2024/project3/README.md @@ -0,0 +1,187 @@ +# P3 - Template da Terceira Entrega - Final +*2024.1 Ciência e Visualização de Dados em Saúde* + +# Estrutura de sua pasta de projeto + +A fim de uniformizar os repositórios de projetos da disciplina, os diretórios de seu repositório deverão ser nomeados conforme segue. + +A estrutura aqui apresentada é uma simplificação daquela proposta pelo [Cookiecutter Data Science](https://drivendata.github.io/cookiecutter-data-science/). Também será aceito que o projeto adote a estrutura completa do Cookiecutter Data Science e isso será considerado um diferencial. A estrutura geral é a seguinte e será detalhada a seguir: + +~~~ +... +│ +└── project3-final + | + ├── README.md <- texto da Entrega 3 do projeto + │ + ├── data + │ ├── external <- dados de terceiros em formato usado para entrada na transformação + │ ├── interim <- dados intermediários, e.g., resultado de transformação + │ ├── processed <- dados finais usados para a publicação + │ └── raw <- dados originais sem modificações + │ + ├── pipelines + │ ├── notebooks <- Jupyter notebooks ou equivalentes + │ └── workflows <- workflows Orange ou equivalentes + | + ├── src <- fonte em linguagem de programação ou sistema (e.g., Cytoscape) + │ └── README.md <- instruções básicas de instalação/execução + │ + └── assets <- mídias usadas no projeto + ├── images <- imagens usadas no texto do README.md + └── slides <- slides em PDF +~~~ + +Na raiz da pasta `project3-final` deve haver um arquivo de nome `README.md` contendo a apresentação do projeto, como detalhado na seção seguinte. + +## `data` + +Arquivos de dados usados no projeto, quando isso ocorrer. + +## `pipelines` + +Processos implementados no projeto que tenham sido executados em algum mecanismo de notebook, como o Jupyter, ou de workflow, como o Orange. + +Dentro da pasta notebooks, podem ser apresentadas sequências de queries em Cypher usando o markdown. + +## `src` + +Projeto na linguagem escolhida caso não seja usado o notebook, incluindo todos os arquivos de dados e bibliotecas necessários para a sua execução. Só coloque código Python ou Java aqui se ele não rodar dentro do notebook. + +Coloque aqui também projetos em Cytoscape. + +Acrescente na raiz um arquivo `README.md` com as instruções básicas de instalação e execução. + +## `assets` + +Qualquer mídia usada no seu projeto: vídeo, imagens, animações, slides etc. Coloque os arquivos aqui (mesmo que você mantenha uma cópia no diretório do código). + +Segue abaixo o modelo de como deve ser apresentado e documentado o projeto. Há partes do modelo a seguir que têm uma marcação específica indicando que **não devem ser literalmente transcritas**: + +Trecho entre `<...>` representa algo que deve ser substituído pelo indicado. Nesse caso, você não deve manter os símbolos `<...>`. +> Parágrafos que aparecem neste modo de citação representa algo que deve ser substituído pelo explicado. + +No modelo a seguir são colocados exemplos ilustrativos, que serão substituídos pelos do seu projeto. + +> # Modelo para Apresentação da Entrega 3 do Projeto (Arquivo README.md) + +# Projeto `` +# Project `` + +# Descrição Resumida do Projeto + +> Descrição resumida do tema do projeto. Sugestão de roteiro (cada item tipicamente tratado em uma ou poucas frases): +> +> Contextualização do projeto +> +> Caracterização do problema +> +> Motivação +> +> Relevância +> +> Trabalhos relacionados +> +> Indicação (bastante resumida) da análise proposta +> +> Indicação (bastante resumida) dos resultados alcançados + +# Slides + +> Coloque aqui o link para o PDF da apresentação da parte 3. + +# Fundamentação Teórica + +> Fundamentação teórica do problema em saúde/biologia. Cite artigos tomados como base e em que problema. + +# Perguntas de Pesquisa +> Perguntas de pesquisa (revisadas e atualizadas) que o projeto responde ou hipóteses que foram avaliadas, enunciadas de maneira objetiva e verificável. +> Apresente aqui como o projeto ajudou a responder as perguntas de pesquisa. + +# Metodologia +> Proposta de metodologia incluindo especificação de quais as técnicas/métricas de Ciência de Redes que estão sendo usadas no projeto, +> tais como: detecção de comunidades, análise de centralidade, predição de links, ou a combinação de uma ou mais técnicas. Descreva o que perguntas pretende endereçar com a técnica escolhida. + +## Bases de Dados e Evolução + +> Para cada base, coloque uma entrada na tabela no modelo a seguir e depois detalhamento sobre como ela foi analisada/usada, conforme exemplo a seguir. + +> Base de Dados | Endereço na Web | Resumo descritivo +> ----- | ----- | ----- +> Título da Base 1 | http://base1.org/ | Breve resumo (duas ou três linhas) sobre a base. +> Título da Base 2 | http://base2.org/ | Breve resumo (duas ou três linhas) sobre a base. + +> Faça uma descrição sobre o que concluiu sobre esta base. Sugere-se que respondam perguntas ou forneçam informações indicadas a seguir: +> * O que descobriu sobre essa base? +> * Quais as transformações e tratamentos (e.g., dados faltantes e limpeza) feitos? + +## Modelo Lógico + +> Modelo lógico da base de grafos revisado. Para o modelo de grafos de propriedades, utilize este +> [modelo de base](https://docs.google.com/presentation/d/10RN7bDKUka_Ro2_41WyEE76Wxm4AioiJOrsh6BRY3Kk/edit?usp=sharing) para construir o seu. +> Coloque a imagem do PNG do seu modelo lógico como ilustrado abaixo (a imagem estará na pasta `image`): +> +> ![Modelo Lógico de Grafos](images/modelo-logico-grafos.png) + +## Integração entre Bases + +> Descreva se houve desafios de integração de fontes de dados e etapas para a mesma. + +## Análises Realizadas + +> Apresente aqui uma análise dos dados. +> Utilize gráficos que descrevam os aspectos principais da base que são relevantes para as perguntas de pesquisa consideradas. +> +> Nesta seção ou na seção de Resultados podem aparecer destaques de código como indicado a seguir. Note que foi usada uma técnica de highlight de código, que envolve colocar o nome da linguagem na abertura de um trecho com `~~~`, tal como `~~~python`. +> +> Os destaques de código devem ser trechos pequenos de poucas linhas, que estejam diretamente ligados a alguma explicação. Não utilize trechos extensos de código. Se algum código funcionar online (tal como um Jupyter Notebook), aqui pode haver links. No caso do Jupyter, preferencialmente para o Binder abrindo diretamente o notebook em questão. + +~~~python +df = pd.read_excel("/content/drive/My Drive/Colab Notebooks/dataset.xlsx"); +sns.set(color_codes=True); +sns.distplot(df.Hemoglobin); +plt.show(); +~~~ + +## Evolução do Projeto + +> Relatório de evolução, descrevendo as evoluções na modelagem do projeto, dificuldades enfrentadas, mudanças de rumo, melhorias e lições aprendidas. Referências aos diagramas, modelos e recortes de mudanças são bem-vindos. +> Podem ser apresentados destaques na evolução do modelo lógico. O modelo inicial e intermediários (quando relevantes) e explicação de refinamentos, mudanças ou evolução do projeto que fundamentaram as decisões. +> Relatar o processo para se alcançar os resultados é tão importante quanto os resultados. + +# Ferramentas + +> Panorama das ferramentas utilizadas incluindo discussão sobre o uso das mesmas. + +# Resultados + +> Esta pode ser uma seção independente ou combinada com a seção de Análises Realizadas. +> +> Descrição dos resultados mais importantes obtidos. +> +> Apresente os resultados da forma mais rica possível, com gráficos e tabelas. Mesmo que o seu código rode online em um notebook, copie para esta parte a figura estática. A referência a código e links para execução online pode ser feita aqui ou na seção de Análises Realizadas (o que for mais pertinente). + +# Discussão + +> Discussão dos resultados. Relacionar os resultados com as perguntas de pesquisa ou hipóteses avaliadas. +> +> A discussão dos resultados também pode ser feita opcionalmente na seção de Resultados, na medida em que os resultados são apresentados. Aspectos importantes a serem discutidos: Por que seu modelo alcançou (ou não) um bom resultado? É possível tirar conclusões dos resultados? Quais? Há indicações de direções para estudo? São necessários trabalhos mais profundos? + +# Conclusão + +> Destacar as principais conclusões obtidas no desenvolvimento do projeto. +> +> Destacar os principais desafios enfrentados. +> +> Principais lições aprendidas. + +# Trabalhos Futuros + +> O que poderia ser melhorado se houvesse mais tempo? +> Quais possíveis desdobramentos este projeto pode ter? + +# Referências Bibliográficas + +> Lista de artigos, links e referências bibliográficas. +> +> Fiquem à vontade para escolher o padrão de referenciamento preferido pelo grupo. \ No newline at end of file diff --git a/resources/templates/2024/project3/images/modelo-logico-grafos.png b/resources/templates/2024/project3/images/modelo-logico-grafos.png new file mode 100644 index 0000000..3e25a42 Binary files /dev/null and b/resources/templates/2024/project3/images/modelo-logico-grafos.png differ