Skip to content

Latest commit

 

History

History
69 lines (46 loc) · 3.44 KB

symbolic_learning.md

File metadata and controls

69 lines (46 loc) · 3.44 KB

Symbolic Learning

back to index

Exercises Resolution steps

  1. Meter os comandos da Ti-nspire
r(x):=x.log2(x)
rr(x,y):=r(x)+r(y)
  1. Escrever a nomenclatura:
r(x) = x.log2(x)
r(x1,x2,...,xn) = sum(1,n)r(x)
  1. Definir as fórmulas (tudo em bits (exceto erro))
  • ENTROPIA: mede a pureza de um conjunto.

  • informação média: Se houver valores indefinidos, o denominador é decrementado (dá sempre o mesmo para todos os atributos a não ser que faltem valores).

Informação média para identificar Classes Ck no Conjunto C de itens (independente do Atributo)

  • informação de separação: infoS(A) - o que um dado atributo contribui para a separação da classe. Informação obtida dos resultados de um teste Tj com j=1 a n valores, independentemente de serem ou não da mesma classe. (Não confundir com info(C/Ai)). Nota: se faltar algum atributo o denominador mantém, mas a soma dos numeradores deixa de ser igual ao denominador (por causa dos que faltam).

  • ENTROPIA de atributo A em relação à classificação no conjunto de treino C:

  • ganho de informação: o que escolher um dado atributo trás de melhoria para a entropia:

se faltar conhecer algum valor de um atributo (usar freq dos conhecidos sobre conhecidos + desconhecidos):

ECO: Dá bons resultados mas sobrevaloriza testes com muitos valores possíveis.

  • razão do ganho: Normalizar o ganho.

  • razão do erro: (medida da confiança numa folha)e é o número de exemplos que não pertencem àquela folha e n é o número total de exemplos que acabam naquela folha.

ID3

Algorithm for induction learning by Ross Quinlan. Generates Decision Trees.

  • Uses Entropy as the decision variable for branching a given tree node, until it has 0 entropy.
  • Cannot handle unknown values
  • Cannot handle continue values (0.1 to 0.195), only discrete (0.1,0.2,0.3)
  • No further action taken to improve the results after the tree is ready

C4.5

Improvement on ID3, Quinlan as well.

  • Uses Gain Ratio instead of Entropy
  • Can handle unknown values by extrapolating from the others
  • Can handle discrete values, by establishing interval values
  • Prunes (through pessimistic pruning) by removing trees that do not suficiently contribute to the accuracy of the model

TP exercise

image from TP classes