Symbolic Learning

Exercises Resolution steps

r(x):=x.log2(x)
rr(x,y):=r(x)+r(y)

r(x) = x.log2(x)
r(x1,x2,...,xn) = sum(1,n)r(x)

informação média: Se houver valores indefinidos, o denominador é decrementado (dá sempre o mesmo para todos os atributos a não ser que faltem valores).

Informação média para identificar Classes Ck no Conjunto C de itens (independente do Atributo)

informação de separação: infoS(A) - o que um dado atributo contribui para a separação da classe. Informação obtida dos resultados de um teste Tj com j=1 a n valores, independentemente de serem ou não da mesma classe. (Não confundir com info(C/Ai)). Nota: se faltar algum atributo o denominador mantém, mas a soma dos numeradores deixa de ser igual ao denominador (por causa dos que faltam).

ganho de informação: o que escolher um dado atributo trás de melhoria para a entropia:

se faltar conhecer algum valor de um atributo (usar freq dos conhecidos sobre conhecidos + desconhecidos):

ECO: Dá bons resultados mas sobrevaloriza testes com muitos valores possíveis.

razão do erro: (medida da confiança numa folha)e é o número de exemplos que não pertencem àquela folha e n é o número total de exemplos que acabam naquela folha.

Algorithm for induction learning by Ross Quinlan. Generates Decision Trees.

Uses Entropy as the decision variable for branching a given tree node, until it has 0 entropy.
Cannot handle unknown values
Cannot handle continue values (0.1 to 0.195), only discrete (0.1,0.2,0.3)
No further action taken to improve the results after the tree is ready

Improvement on ID3, Quinlan as well.

Uses Gain Ratio instead of Entropy
Can handle unknown values by extrapolating from the others
Can handle discrete values, by establishing interval values
Prunes (through pessimistic pruning) by removing trees that do not suficiently contribute to the accuracy of the model