Este projeto representa um compilado do meu aprendizado durante a Imersão Dados Alura sobre Bioestatística.
Foram analisados dados reais de um experimentos de Drug Discovery que busca entender a relação de substâncias/compostos em determinados genes e seus mecânismos de ativação.
Inicialmente, vamos realizar uma análise exploratória (EDA) para entender melhor a estrutura dos dados dos experimentos, observando o comportamentos das expressões genicas e a dinâmica delas segunda as variáveis descritivas (Tempo, Dose e se recebeu o composto).
Após isso, temos como objetivo desenvolver um modelo de classificação com base nos dados de expressões genicas para encontrar quais compostos atuam como inibidores do complexo proteíco Nf-KB que é associado em alguns estudos como uma estratégia para a indução da morte celular de tumores (Câncer).
Segundo experimentos de um paper publicado pela Universidade Federal do Rio Grande do Sul, concluiu que "Em suma, os dados aqui apresentados sugerem que o fator de NFκB constitui-se um potencial alvo para inibição farmacológica no tratamento de neoplasias."(Filho,A., 2012)
Sendo assim, dado a importância do tema, procura-se ajustar um modelo que possa inferir quais compostos estão associados a inibição do complexo proteico NF-kB.
- id: Chave de cada experimento único
- tratamento: flag se recebeu ou não o composto (com_droga ou com_controle)
- tempo: faixa de horas da coleta dos dados após tratamento (24, 48 e 72 horas)
- dose: Tipo de dose (D1 e D2)
- composto: Chave do composto/droga utilizada
- g_0 a g_771: Expressões génicas normalizadas
- c_0 a c_99: Viabilidade celular
- nfkb_inhibitor: Variável de interesse que mostra a inibição ou não da proteina NF-kB
Modelo | Score |
---|---|
Regressao Logistica | 0.9884 |
Random Forest | 0.9947 |
XGBoost | 0.9952 |
Ao final do projeto, foi possível observar que o modelo XGBoost obteve o melhor resultado (Acurácia) na classificação de compostos que ativam a proteina NF-kB, indicando que é possível utilizar algoritmos de ML sob dados de expressões genicas de compostos para inferir se impactam ou não a proteina NF-kB. Proteina essa que segundo a revista Nature, é possui papel cruscial no combado ao cancer: "Nuclear factor-κB (NF-κB), a transcription factor that is essential for inflammatory responses, is one of the most important molecules linking chronic inflammation to cancer, and its activity is tightly regulated by several mechanisms." (Taniguchi, 2018)
Tendo em vista que possuo pouca experiência no mundo de ciência de dados e de biologia, acredito que o projeto pode ser melhorado aplicando um grid-search para optimizar os parâmetros dos modelos utilizados, pesquisar mais fatores já listados na literatura dos mecânismos de ativação da proteina NF-kB e por fim testar outros tipos de modelos, como Redes Neurais.
-
Taniguchi, K., Karin, M. NF-κB, inflammation, immunity and cancer: coming of age. Nat Rev Immunol 18, 309–324 (2018). Artigo
-
Verzella, D., Pescatore, A., Capece, D. et al. Life, death, and autophagy in cancer: NF-κB turns up everywhere. Cell Death Dis 11, 210 (2020). Artigo
-
Xia Y, Shen S, Verma IM. NF-κB, an active player in human cancers. Cancer Immunol Res. 2014;2(9):823-830. doi:10.1158/2326-6066.CIR-14-0112. Disponível em: Artigo
-
Filho, A; J. Moreira. Inibição do fator de transcrição NFkappaB como estratégia para indução de morte celular em tumores. 2012. Disponível em: Artigo