Skip to content

Luizgs7/Imersao_Dados_Bioestatistica_Desafio_Final

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

25 Commits
 
 
 
 
 
 
 
 

Repository files navigation

Desafio Final Imersão Dados

imagem mostrando no canto superior direito a opção Fork

Tabela de conteúdos

Preâmbulo

Este projeto representa um compilado do meu aprendizado durante a Imersão Dados Alura sobre Bioestatística.

Foram analisados dados reais de um experimentos de Drug Discovery que busca entender a relação de substâncias/compostos em determinados genes e seus mecânismos de ativação.

Delimitação do projeto

Inicialmente, vamos realizar uma análise exploratória (EDA) para entender melhor a estrutura dos dados dos experimentos, observando o comportamentos das expressões genicas e a dinâmica delas segunda as variáveis descritivas (Tempo, Dose e se recebeu o composto).

Após isso, temos como objetivo desenvolver um modelo de classificação com base nos dados de expressões genicas para encontrar quais compostos atuam como inibidores do complexo proteíco Nf-KB que é associado em alguns estudos como uma estratégia para a indução da morte celular de tumores (Câncer).

Segundo experimentos de um paper publicado pela Universidade Federal do Rio Grande do Sul, concluiu que "Em suma, os dados aqui apresentados sugerem que o fator de NFκB constitui-se um potencial alvo para inibição farmacológica no tratamento de neoplasias."(Filho,A., 2012)

Sendo assim, dado a importância do tema, procura-se ajustar um modelo que possa inferir quais compostos estão associados a inibição do complexo proteico NF-kB.

Dados

  • id: Chave de cada experimento único
  • tratamento: flag se recebeu ou não o composto (com_droga ou com_controle)
  • tempo: faixa de horas da coleta dos dados após tratamento (24, 48 e 72 horas)
  • dose: Tipo de dose (D1 e D2)
  • composto: Chave do composto/droga utilizada
  • g_0 a g_771: Expressões génicas normalizadas
  • c_0 a c_99: Viabilidade celular
  • nfkb_inhibitor: Variável de interesse que mostra a inibição ou não da proteina NF-kB

Resultados

Modelo Score
Regressao Logistica 0.9884
Random Forest 0.9947
XGBoost 0.9952

Ao final do projeto, foi possível observar que o modelo XGBoost obteve o melhor resultado (Acurácia) na classificação de compostos que ativam a proteina NF-kB, indicando que é possível utilizar algoritmos de ML sob dados de expressões genicas de compostos para inferir se impactam ou não a proteina NF-kB. Proteina essa que segundo a revista Nature, é possui papel cruscial no combado ao cancer: "Nuclear factor-κB (NF-κB), a transcription factor that is essential for inflammatory responses, is one of the most important molecules linking chronic inflammation to cancer, and its activity is tightly regulated by several mechanisms." (Taniguchi, 2018)

Melhorias futuras

Tendo em vista que possuo pouca experiência no mundo de ciência de dados e de biologia, acredito que o projeto pode ser melhorado aplicando um grid-search para optimizar os parâmetros dos modelos utilizados, pesquisar mais fatores já listados na literatura dos mecânismos de ativação da proteina NF-kB e por fim testar outros tipos de modelos, como Redes Neurais.

Referências

  • Taniguchi, K., Karin, M. NF-κB, inflammation, immunity and cancer: coming of age. Nat Rev Immunol 18, 309–324 (2018). Artigo

  • Verzella, D., Pescatore, A., Capece, D. et al. Life, death, and autophagy in cancer: NF-κB turns up everywhere. Cell Death Dis 11, 210 (2020). Artigo

  • Xia Y, Shen S, Verma IM. NF-κB, an active player in human cancers. Cancer Immunol Res. 2014;2(9):823-830. doi:10.1158/2326-6066.CIR-14-0112. Disponível em: Artigo

  • Filho, A; J. Moreira. Inibição do fator de transcrição NFkappaB como estratégia para indução de morte celular em tumores. 2012. Disponível em: Artigo

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 100.0%