-
Notifications
You must be signed in to change notification settings - Fork 0
/
20151111.tex
406 lines (339 loc) · 29 KB
/
20151111.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
\chapter{固有値の性質}
\lectureinfo{2015年11月11日 1限}
\section{講評と復習}
\subsection{講評}
最初に、ちょこっとだけ講評です。
\begin{itemize}
\item 問2の(1), (3)や問3で、対角化可能性を上手く使えていない人が多かったように思います。ここに出てくる行列は固有値が全て異なるから、対角化可能です。どうやって対角化するかは分からなくても「対角化できる」という事実は分かっているのだから、$P^{-1} A P$が対角化になるような$P$を取って、話を進めてしまえばよいのです。これに気づけば問題が簡単に解けます。
\item 問4の「内在的性質を挙げる」という問題を完璧に正解した人はいませんでした。「基底の取り換え」の話の復習を軽く書き、その後で内在的性質の意味を説明したので、読んでみてください。抽象的な議論に限らず、行列を色々な問題に応用するときも、地味に内在的性質 (特に固有値) が結構役に立ちます。「何が内在的か」という感覚が分かっていると、将来得することがあるでしょう。
\end{itemize}
\subsection{基底の取り換えについて}
この後必要なので、A2タームの終わりの方で「基底の取り換え」の話をしたことを思い出しましょう。$(m, n)$型の正方行列$A$を$\mathbb{R}^n \rightarrow \mathbb{R}^m$という線型写像だと思います。このとき
\begin{itemize}
\item 定義域の$\mathbb{R}^n$の基底$(\bm{e}_1^{(n)}, \bm{e}_2^{(n)}, \ldots, \bm{e}_n^{(n)})$を$n$次正方行列$P$によって
\item 値域の$\mathbb{R}^m$の基底$(\bm{e}_1^{(m)}, \bm{e}_2^{(m)}, \ldots, \bm{e}_m^{(m)})$を$m$次正方行列$Q$によって
\end{itemize}
それぞれ取り換えると、元々の線型写像$A$は新しい基底で$Q^{-1} A P$と表示されるのでした。
\[
\begin{tikzcd}
\mathbb{R}^n \arrow{r}{A} \arrow{d}[swap]{P^{-1}} & \mathbb{R}^m \arrow{d}{Q^{-1}} \\
\mathbb{R}^n \arrow{r}[swap]{Q^{-1} A P} & \mathbb{R}^m
\end{tikzcd}
\]
ここで特に$m = n$の場合を考えましょう。このとき$A \colon \mathbb{R}^n \rightarrow \mathbb{R}^n$の定義域と値域はどちらも$\mathbb{R}^n$で同じです。したがって、特に理由がない限り、定義域と値域とで同じ基底を用いるのが自然でしょう。そこで今の$B = Q^{-1} A P$の式で$Q = P$とおけば、$P^{-1} A P$が新しい行列表示になります。このようにして、$P^{-1} A P$という形の行列は\textbf{基底変換によって行列の見え方がどう変わるか}を表しているのです。
この見方に基づけば、$(P^{-1} A P)(P^{-1} B P) = P^{-1} AB P$という式の意味も見えてきます。もちろんこの等式自体は、ただ$P P^{-1} = I$という事実だけを使えば導けるものです。ですが次のように図式で表してみれば「写像を合成してから基底変換をしても、基底変換をした後で写像の合成をしても、現れる行列表示は同じ」という意味だと分かります。
\[
\begin{tikzcd}
\mathbb{R}^n \arrow{r}{A} \arrow{d}[swap]{P^{-1}} & \mathbb{R}^n \arrow{d}[swap]{P^{-1}} \arrow{r}{B} & \mathbb{R}^n \ar{d}{P^{-1}} \\
\mathbb{R}^n \arrow{r}[swap]{P^{-1} A P} & \mathbb{R}^n \arrow{r}[swap]{P^{-1} B P} & \mathbb{R}^n
\end{tikzcd}
\]
\section{固有値の性質}
さて今回のテーマは「固有値の性質」です。行列の固有値は名前に「固有」と入っていることからも、何らかの意味で重要な量であることが推測されます。その意味を明らかにしましょう。
\subsection{座標の取り換えに対する不変性}
固有値や固有多項式に出てくる「固有」という言葉は、「座標に依らない」という意味を表します。つまり$n$次正方行列$A \in \Mat_n(\mathbb{R})$と、$n$次の正則行列$P \in GL_n(\mathbb{R})$に対し、$A$と$P^{-1} A P$の固有多項式は等しいのです。
この証明自体は非常に簡単です。行列式の乗法性を使えば
\begin{align*}
\varphi_{P^{-1} A P}(t)
&= \det(tI - P^{-1} A P) = \det P^{-1} (tI - A) P = \det P^{-1} \det (tI - A) \det P = (\det P)^{-1} \varphi_A(t) \det P \\
&= \varphi_A(t)
\end{align*}
となります。$A$と$P^{-1} A P$は固有多項式が等しいので、固有値も一致します。
このことを使うと、正方行列を対角化したとき、対角成分には固有値が並ぶことが分かります。
\paragraph{問5の解答}
$P^{-1} A P$が対角行列$\diag(\alpha_1, \alpha_2, \ldots, \alpha_n)$だったとする\footnote{$\diag(\alpha_1, \ldots, \alpha_n)$は、対角線に$\alpha_1, \ldots, \alpha_n$がこの順で並び、非対角成分が全て$0$であるような行列のことです。}。これの固有多項式は
\[
\varphi_{P^{-1} A P}(t)
= \det
\begin{pmatrix}
t - \alpha_1 \\
& t - \alpha_2 \\
& & \ddots \\
& & & t - \alpha_n
\end{pmatrix}
= (t - \alpha_1) (t - \alpha_2) \cdots (t - \alpha_n)
\]
なので、$P^{-1} A P$の固有値は$\alpha_1, \alpha_2, \ldots, \alpha_n$である。これらは$A$の固有値でもある。 \qed
\paragraph{問3の解答}
$3$次正方行列$A \in \Mat_3(\mathbb{R})$の固有値が$1, 2, -3$であったとする。$3$つの固有値が全て異なるので$A$は対角化可能であり、$P^{-1} A P = \diag(1, 2, -3)$となる正則行列$P \in GL_3(\mathbb{R})$が存在する。すると
\[
(P^{-1} A P)^{-1}
=
\begin{pmatrix}
1 \\
& 2 \\
& & -3
\end{pmatrix}^{-1}
=
\begin{pmatrix}
1 \\
& \frac{1}{2} \\
& & -\frac{1}{3}
\end{pmatrix}
\]
なので、$(P^{-1} A P)^{-1} = P^{-1} A^{-1} P$の固有値が$1, 1/2, -1/3$と分かる。$P^{-1} A^{-1} P$と$A^{-1}$の固有値は同じなので、これで$A^{-1}$の固有値が全て求まった。\qed
\paragraph{その他座標変換で不変なもの}
「$A$と$P^{-1} A P$の固有多項式が一致する」という事実からは、さらに色々な情報が得られます。たとえば固有多項式は$\varphi_A(t) = t^n - (\tr A) t + \cdots + (-1)^n \det A$と書けていました。したがって$\varphi_{P^{-1} A P}(t)$と$\varphi_A(t)$とで$t^{n - 1}$の係数を比較すれば$\tr P^{-1} A P = \tr A$が、定数項を比較すれば$\det P^{-1} A P = \det A$が分かります\footnote{固有多項式を持ち出さなくても、$\tr AB = \tr BA$や$\det AB = \det BA$という式さえ知ってれば、簡単な計算で直接示せます。}。トレースや行列式は、基底の取り方に依存しない量なのです。
また固有多項式以外にも座標変換で不変な性質\footnote{演習問題で\textbf{内在的性質}と呼んでいるものです。}をいくつか確認しておきましょう。これまでと同様、$A \in \Mat_n(\mathbb{R})$を$n$次正方行列、$P \in GL_n(\mathbb{R})$を$n$次正則行列とします。
まず行列が正則かどうかは基底の取り方に依存しません。なぜなら、正則であることは「全単射」と言い換えられるからです。座標を取り換えたら全射性 / 単射性が崩れるというのは、直感的に考えづらいことです。実際に式の上でも、$(P^{-1} A P)(P^{-1} A^{-1} P) = I$となるので、$A$が正則なら$P^{-1} A P$も正則だと分かります。
次に、何乗かしたら零行列になる\textbf{巾零}\index{べきぜろ@巾零}という性質も、座標に依りません。どんな基底で表示しても零行列は零行列ですから、何回か合成したら零行列になるという性質も、座標に依らなさそうですね。そして実際$A^k = O$のとき$(P^{-1} A P)^k = P^{-1} A^k P = O$なので、$P^{-1} A P$はやはり巾零です。
さらに、対角化可能という性質も座標の取り方に依りません。もし上手く$n$次正方行列$Q \in GL_n(\mathbb{R})$を取って$Q^{-1} A Q$が対角行列になるなら、$(P^{-1} Q)^{-1} (P^{-1} A P) (P^{-1} Q) = (Q^{-1} P) (P^{-1} A P) (P^{-1} Q) = Q^{-1} A Q$となるので、$P^{-1} A P$も対角化可能です。
以上のことをまとめれば、問4がほとんど解けます。
\paragraph{問4の解答}
(1) 正則、(2) 対角化可能、(3) 固有値が全て$0$、(4) 巾零、(6) $\det = 1$、(7) $\tr = 0$は全て座標の取り方に依存しない、内在的な性質である。(5) の上三角行列に関しては、内在的な性質でない。たとえば
\[
\begin{pmatrix}
0 & 1 \\
1 & 0
\end{pmatrix}^{-1}
\begin{pmatrix}
1 & 2 \\
0 & 1
\end{pmatrix}
\begin{pmatrix}
0 & 1 \\
1 & 0
\end{pmatrix}
=
\begin{pmatrix}
0 & 1 \\
1 & 0
\end{pmatrix}
\begin{pmatrix}
2 & 1 \\
1 & 0
\end{pmatrix}
=
\begin{pmatrix}
1 & 0 \\
2 & 1
\end{pmatrix}
\]
となっている。上三角行列を座標変換したものが、上三角でない行列になっている。\qed
\paragraph{おまけ: 旗について}
上三角行列について、一つ補足です。上三角行列
\[
A =
\begin{pmatrix}
a_{11} & a_{12} & \cdots & a_{1n} \\
& a_{22} & \cdots & a_{2n} \\
& & \ddots & \vdots \\
& & & a_{nn}
\end{pmatrix}
\]
を$\mathbb{R}^n$の標準基底$\bm{e}_1, \bm{e}_2, \ldots, \bm{e}_n$に当てると
\begin{align*}
A \bm{e}_1 &= a_{11} \bm{e}_1 \\
A \bm{e}_2 &= a_{12} \bm{e}_1 + a_{22} \bm{e}_2 \\
& \vdots \\
A \bm{e}_n &= a_{1n} \bm{e}_1 + a_{2n} \bm{e}_2 + \cdots + a_{nn} \bm{e}_n
\end{align*}
となります。ここで各$1 \leq i \leq n$に対し、$\mathbb{R}^n$の$i$次元部分空間$V_i$を$V_i := \mathbb{R}\bm{e}_1 + \mathbb{R} \bm{e}_2 + \cdots + \mathbb{R} \bm{e}_i$と定めると、今の式から$A V_i \subset V_i$が全ての$1 \leq i \leq n$で成り立っています。
このような、$1$次元から$n$次元まで$1$つずつ次元が上がっていく$\mathbb{R}^n$の部分空間の列$V_1 \subset V_2 \subset \cdots \subset V_n$のことを$\mathbb{R}^n$の\textbf{旗}\index{はた@旗}と呼びます。だから上三角行列は「基底から作られた旗を保つ線型写像」と言い換えることができます。ちなみに「$1$次元の直線に$2$次元の平面をくっつける」ことを考えると、こんな絵ができます。これが旗っぽいから、旗と呼んでいます。
\begin{figure}[h!tbp]
\centering
\begin{picture}(100, 100)
\put(20, 10){\line(0, 1){70}}
\put(20, 80){\line(1, 0){40}}
\put(20, 50){\line(1, 0){40}}
\put(60, 50){\line(0, 1){30}}
\put(0, 30){\vector(1, 0){18}}
\put(0, 65){\vector(1, 0){18}}
\put(-28, 27){$1$次元}
\put(-28, 62){$2$次元}
\end{picture}
\caption{「旗」の由来}
\end{figure}
こう考えると「上三角」という性質が内在的でないことが、何となく検討がつきます。上三角行列は$\mathbb{R}_n$の標準基底$(\bm{f}_1, \bm{f}_2, \ldots, \bm{f}_n)$から作った旗$V_1 \subset V_2 \subset \cdots \subset V_n$を保つわけですが、別の基底$(\bm{f}_1, \bm{f}_2, \ldots, \bm{f}_n)$から作られた旗$W_i := \mathbb{R}\bm{f}_1 + \mathbb{R} \bm{f}_2 + \cdots + \mathbb{R} \bm{f}_i$, $W_1 \subset W_2 \subset \cdots \subset W_n$を保つ保証はどこにもありません。たとえば$A$が線型空間$\mathbb{R} \bm{f}_1$を保つということは、$A \bm{f}_1$が再び$\bm{f}_1$の定数倍ということですから、$\bm{f}_1$は$A$の固有ベクトルです。だから$\bm{f}_1$として$A$の固有ベクトルでないものを取ってしまえば、その瞬間に$A$の新しい表示が上三角でなくなります。こうして、適当にやれば反例が作れると分かります。
\subsection{トレース、行列式と固有値の関係}
この節の間、\textbf{行列の成分は複素数}だとします。
$n$次正方行列$A \in \Mat_n(\mathbb{C})$の$n$個の固有値が$\lambda_1, \lambda_2, \ldots, \lambda_n$だったとしましょう ($\lambda_i$たちの中には、同じものがあっても良いとします)。このとき固有多項式$\varphi_A(t)$は、最高次の係数が$1$なので
\[
\varphi_A(t) = (t - \lambda_1) (t - \lambda_2) \cdots (t - \lambda_n)
\]
と書けます。これを展開すると
\[
\varphi_A(t) = t^n - (\lambda_1 + \lambda_2 + \cdots + \lambda_n) t^{n - 1} + \cdots + (-1)^n \lambda_1 \lambda_2 \cdots \lambda_n
\]
となります\footnote{間の省いた項についても、計算できます。$x_1, \ldots, x_n$たちの$k$次基本対称式を$e_k(x_1, \ldots, x_n)$で表せば、$\varphi_A(t)$における$t^k$の係数は$(-1)^{n - k}e_{n - k}(\lambda_1, \ldots, \lambda_n)$です。}。これを$\varphi_A(t) = t^n - (\tr A)t + \cdots + (-1)^n \det A$と比較することによって
\[
\tr A = \lambda_1 + \lambda_2 + \cdots + \lambda_n, \quad
\det A = \lambda_1 \lambda_2 \cdots \lambda_n
\]
が得られます。\textbf{トレースは固有値の和、行列式は固有値の積}です。トレースは簡単に計算でき、$2$次の場合なら行列式も簡単に求まるので、これら公式は対角化問題の検算に非常に役立ちます。ぜひ覚えておきましょう。
再度の注意になりますが、今の公式を使うときは\textbf{固有値は複素数まで考えないとダメ}です。たとえば$2$次正方行列
\[
\begin{pmatrix}
1 & -2 \\
2 & 1
\end{pmatrix}
\]
のトレースは$2$、行列式は$5$です。固有多項式は$t^2 - 2t + 5$で、固有値は$1\pm 2i$となります。そして$2 = (1 + 2i) + (1 - 2i)$, $5 = (1 + 2i)(1 - 2i)$となっています。しかし実数の範囲だけで考えてしまうと、固有値が全くないので、固有値の和は$0$、積は$1$になってしまいます\footnote{「$0$個のものの積が$1$」というのは、$n^0 = 1$や$0! = 1$と同じ理屈です。}。このように固有値とトレース、対角和を結びつけるときは、無理やりでも固有多項式の解を全部作らないといけません\footnote{先週おまけで紹介した「係数体を代数閉体まで拡大する」という操作のことです。}。間違えないでください。
\subsection{固有値のシフト}
$n$次正方行列$A \in \Mat_n(\mathbb{R})$が固有値$\lambda$を持つとします。このとき固有値$\lambda$に属する固有ベクトル$\bm{u}$を取ると、実数$\mu \in \mathbb{R}$に対し$(A + \mu I)\bm{u} = A\bm{u} + \mu \bm{u} = \lambda \bm{u} + \mu \bm{u} = (\lambda + \mu) \bm{u}$です。つまり行列$A + \mu I$は、固有値$\lambda + \mu$を持ちます。単位行列の定数倍を足し引きすると、固有値の値をずらせるのです。
これは簡単な話ではありますが、地味に役立つこともあります。たとえば対角化ができない行列の見やすい形を探す問題では、実は「全ての固有値が同じ行列」を考えれば十分だと知られています。ここで固有値をずらせば、結局「全ての固有値が$0$である行列」に全ての問題を帰着させることができるのです。こんな感じで、固有値のシフトは役立ちます。
\paragraph{問2の解答} $A \in \Mat_2(\mathbb{R})$とする。
\noindent (1) $A$の固有値が$2, -3$のとき、$A$の$2$つの固有値が異なるので$A$は対角化可能である。そこで正則な行列$P \in GL_2(\mathbb{R})$を$P^{-1} A P = \diag(2, -3)$となるように取れる。すると
\[
P^{-1} A^3 P = (P^{-1} A P)^3 =
\begin{pmatrix}
2 \\
& -3
\end{pmatrix}^3
=
\begin{pmatrix}
8 \\
& -27
\end{pmatrix}
\]
の固有値は$8, -27$である。$P^{-1} A^3 P$と$A^3$の固有値は等しいので、$A^3$の固有値も$8, -27$である。
\noindent (2) $A$の$1$つの固有値が$4$で、$\det A = -12$とする。$A$の固有値を全てかけたものが$\det A$だから、もう$1$つの固有値は$-12/4 = -3$である。
\noindent (3) $A$の固有値が$1, 2$とする。$\mu = 0$のとき$A = A + 0I$は異なる$2$個の固有値を持つので対角化可能であり、$P^{-1} A P = \diag(1, 2)$と書ける。よって$A$は正則である。そこで$\mu \neq 0$としてよい。
$\mu A + I = \mu (A + \frac{1}{\mu}I)$なので、$\mu A + I$が退化するのと$A + \frac{1}{\mu}I$が退化するのは同値である。そして行列が退化することと固有値に$0$を持つことは同値である。したがって固有値のシフトを考えれば、$\frac{1}{\mu} = -1, -2$つまり$\mu = -1, -\frac{1}{2}$のときに退化が起きると分かる。\qed
\section{Cayley--Hamiltonの定理の証明}
いかなる正方行列$A$に対しても、その固有多項式$\varphi_A(t)$に自分自身を代入すると$\varphi_A(A) = O$となることが知られています。これを\textbf{Cayley--Hamiltonの定理}\index{Cayley--Hamiltonのていり@Cayley--Hamiltonの定理}といいます。たとえば$2$次の場合、正方行列
\[
A =
\begin{pmatrix}
a & b \\
c & d
\end{pmatrix}
\]
の固有多項式は$\varphi_A(t) = t^2 - (a + d)t + (ad - bc)$でした。これに$A$を代入すると
\[
A^2 - (a + d)A + (\det A)I
=
\begin{pmatrix}
a^2 + bc & ab + bd \\
ac + cd & bc + d^2
\end{pmatrix}
- (a + d)
\begin{pmatrix}
a & b \\
c & d
\end{pmatrix}
+ (ad - bc)
\begin{pmatrix}
1 & 0 \\
0 & 1
\end{pmatrix}
= O
\]
になっていますね。
後で一般の$n$次正方行列についてJordan標準形というものを考えるとき、Cayley--Hamiltonの定理があると役立ちます。そこで今回、この定理の証明を与えておきましょう。ちょっと難しい話になるので、余力のない人は定理の結果だけを認めて証明を一旦読み飛ばしても、差支えありません。また、行列の成分は全て複素数とします。
\subsection{多項式への正方行列の代入}
言わなくても意味は通じると思いますが「多項式に行列を代入すること」の定義をしておきましょう。
$n$次正方行列$A \in \Mat_n(\mathbb{C})$が与えられているとします。このとき$A^2, A^3, \ldots$が定義されているので、多項式
\[
f(t) = a_0 + a_1 t + a_2 t^2 + \cdots + a_n t^n \in \mathbb{C}[t]
\]
に対して、$A$を代入することができます。すなわち
\[
f(A) := a_0 I + a_1 A + a_2 A^2 + \cdots + a_n A^n \in \Mat_n(\mathbb{C})
\]
と定めます。
こう定めると、任意の多項式$f(t), g(t) \in \mathbb{C}[t]$に対し$f(A)g(A) = g(A)f(A)$が成り立ちます。一般に行列の掛け算は順序を入れ替えられませんが、$f(A)$と$g(A)$にはどっちも$A$と$I$しか出てこないから、順序を入れ替えることができるわけです。当たり前のことですが、地味に役立ちます。
\subsection{Cayley--Hamitonの定理の証明}
さてCayley--Hamiltonの定理の証明を与えましょう。あろうことかCayley自身は「自分では一般の次数の場合に証明しようと思わない」と言っちゃってる\footnote{\url{https://archive.org/stream/philtrans05474612/05474612\#page/n7/mode/2up}にある Arthur Cayley, ``A Memoir on the Theory of Matrices'', \textit{Philosophical Transactions of the Royal Society of London} \textbf{148}, pp.~17-37 に書いてあります。この話は``Paul Painlev\'e''先生のブログ \url{http://paul-painleve.blogspot.jp/} で教えていただきました。}のですが、僕たちは頑張って証明 (の概略) をつけます。
ちなみにCayley--Hamiltonの定理の証明は、主に
\begin{itemize}
\item 正方行列$A$のサイズに関する帰納法
\item 単因子論
\end{itemize}
という$2$通りの方法が使われることが多いです。ですがせっかくなので、今回別のやり方をしてみたいと思います。
\begin{itemize}
\item 固有値が全て異なる場合に定理が正しいことを示す
\item ほどんどの行列は、固有値が全て異なることを示す
\item 固有値が重複する行列も、ちょっとだけずらせば固有値が全てばらけるので、結局定理が成り立つ
\end{itemize}
というステップで、証明 (の概略) を進めてみましょう。
\paragraph{固有多項式が重根を持たない場合}
まず最初に、固有多項式が重根を持たない場合にCayley--Hamiltonの定理が正しいことを示しましょう。$n$次正方行列$A \in \Mat_n(\mathbb{C})$の固有多項式$\varphi_A(t)$が
\[
\varphi_A(t) = (t - \lambda_1) (t - \lambda_2) \cdots (t - \lambda_n)
\]
と分解し、$\lambda_1, \ldots, \lambda_n$は全て異なるとします。このとき$A$は対角化可能です。そこで正則行列$P$を
\[
P^{-1} A P =
\begin{pmatrix}
\lambda_1 \\
& \lambda_2 \\
& & \ddots \\
& & & \lambda_n
\end{pmatrix}
\]
となるように取ると、
\begin{align*}
\varphi_A(A) &= P \varphi_A(P^{-1} A P ) P^{-1}
= P (P^{-1} A P - \lambda_1 I) (P^{-1} A P - \lambda_2 I) \cdots (P^{-1} A P - \lambda_n I) P^{-1} \\
&=
P
\begin{pmatrix}
0 \\
& \lambda_2 - \lambda_1 \\
& & \ddots \\
& & & \lambda_n - \lambda_1
\end{pmatrix}
\begin{pmatrix}
\lambda_1 - \lambda_2 \\
& 0 \\
& & \ddots \\
& & & \lambda_n - \lambda_2
\end{pmatrix}
\cdots
\begin{pmatrix}
\lambda_1 - \lambda_n \\
& \lambda_2 - \lambda_n \\
& & \ddots \\
& & & 0
\end{pmatrix}
P^{-1} \\
&= O
\end{align*}
となります。
\paragraph{「ほとんどの行列」が対角化可能であること}
さて、$n$次正方行列$A$に対して固有多項式$\varphi_A(t)$を対応させる写像を$\varphi\colon \Mat_n(\mathbb{C}) \rightarrow \mathbb{C}[t]$と書きます。このとき$\varphi_A(t)$が重根を持たないような$A$全体のなす集合を$\Mat_n(\mathbb{C})^{\text{rs}}$と書くことにします\footnote{rsは ``\uline{r}egular \uline{s}emisimple''\index{regular semisimple} の略です。大体``semisimple''が対角化可能性に、``regular''が固有値が異なることに相当します。線型代数だけをするときは余り使われず、代数群やLie環と呼ばれるものを扱う際に用いられる記法なのですが、他に$\Mat_n(\mathbb{R})^{\text{rs}}$を表すのに手頃な記法がなかったのでこれを使いました。}。すると実は、$\Mat_n(\mathbb{C})$の「ほとんどの元」は$\Mat_n(\mathbb{C})^{\text{rs}}$に入っていることが示せます。
たとえば$2$次の場合、
\[
A =
\begin{pmatrix}
a & b \\
c & d
\end{pmatrix}
\]
の固有多項式$\varphi_A(t) = t^2 - (a + d)t + (ad - bc)$が重根を持つ条件は、判別式を使って$(a + d)^2 - 4(ad - bc) = 0$と書けます。すなわち$\Mat_2(\mathbb{C})$における$\Mat_2(\mathbb{C})^{\text{rs}}$の補集合は
\[
\Mat_2(\mathbb{C}) \setminus \Mat_2(\mathbb{C})^{\text{rs}} =
\biggl\{
A =
\begin{pmatrix}
a & b \\
c & d
\end{pmatrix}
\in \Mat_2(\mathbb{C})
\mid
(a + d)^2 - 4(ad - bc) = 0
\biggr\}
\]
です。これは$a, b, c, d$という$4$つの変数の多項式の零点集合ですね。
ここで「多項式の零点集合」とはどんなものかを考えてみます。たとえば平面$\mathbb{R}^2$上で、$2$変数多項式$f(x, y) = y - x^2$の零点と言えば、放物線ですよね。そして放物線は平面の中で「薄っぺらい」図形です。もうちょっと正確に言えば、放物線上の点のどんな点でどんなに小さい半径の円を描いても、必ず$f(x, y) \neq 0$となる点が円の中に紛れ込みます。
正方行列に固有多項式を対応させる写像$\varphi \colon \Mat_2(\mathbb{C}) \rightarrow \mathbb{C}[t]$の場合も、これと全く同じ状況が成り立っています。$\Mat_2(\mathbb{C})$は実数を$4$個並べた行列全体の集合なので、線型空間としては$\mathbb{C}^4$と同型です。そこで$\varphi$の定義域$\Mat_2(\mathbb{C})$を$\mathbb{C}^4$と同一視すれば、$\varphi_A(t)$の判別式が$0$となる行列全体の集合は、今さっき見た通り多項式$(a + d)^2 - 4(ad - bc)$の零点集合として書けます。次元は少々高く、かつ$\mathbb{R}$ではなく$\mathbb{C}$であるものの、さっきの放物線のように「固有多項式が重根を持つ行列の集合は、空間全体の中で見れば潰れている」と言うことができます。こうして、固有多項式が重根を持つような行列の集合は「薄っぺらい」ことが分かるのです。
$n$次になっても話は全く同じです。実は$3$次以上の多項式に対しても「判別式」を作ることができます\footnote{たとえば、佐武一郎『線型代数学』(裳華房) の第I\negthinspace I章「\S 6 二,三の応用」に判別式の作り方が書いてあります。もしかしたら新装版になって章立てが変わっているかもしれませんが、その場合は頑張って自分で探してください。}。詳しいことは省きますが
\begin{itemize}
\item 固有多項式$\varphi_A(t)$の各項の係数は、行列$A$の成分の多項式である
\item 多項式の判別式は、各項の係数の多項式で書ける
\end{itemize}
という事実があります。これより$n$次正方行列に固有多項式を対応させる写像$\varphi\colon \Mat_n(\mathbb{C}) \rightarrow \mathbb{C}[t]$を考えるとき、$\varphi_A(t)$の判別式は$A$の成分の多項式で表せます。故に$\Mat_n(\mathbb{C})^{\text{rs}}$の補集合は、$\Mat_n(\mathbb{C})$における多項式の零点集合となるのです。よって$\Mat_n(\mathbb{C}) \setminus \Mat_n(\mathbb{C})^{\text{rs}}$は「薄っぺらい」集合です。固有多項式が重根を持つ行列は、ちょっとずらせば$\Mat_n(\mathbb{C})^{\text{rs}}$に入り、全ての根が異なるようにできます。
\paragraph{多項式写像の性質}
さて、これで一般の場合でCayley--Hamiltonの定理を示す準備ができました。$n$次正方行列に対し「自分の固有多項式に自分自身を代入した結果」を返す写像を$\Phi\colon \Mat_n(\mathbb{C}) \rightarrow \Mat_n(\mathbb{C})$と定めましょう。つまり$\Phi(A) := \varphi_A(A)$と定めます。今分かっていることは
\begin{itemize}
\item $A \in \Mat_n(\mathbb{C})^{\text{rs}}$なら、$\Phi(A) = O$となること
\item $\Mat_n(\mathbb{C})$のほとんどの元が$\Mat_n(\mathbb{C})^{\text{rs}}$に入っていること
\end{itemize}
でした。あとは$A \in \Mat_n(\mathbb{C}) \setminus \Mat_n(\mathbb{C})^{\text{rs}}$に対しても$\Phi(A) = O$が示せればOKです。
この証明にも多項式の性質を使います。$n$次正方行列$A$に対し、$\varphi_A(t)$の各項の係数は$A$の成分の多項式でした。また任意の自然数$k \in \mathbb{N}$に対し、$A^k$の各成分は$A$の成分の多項式です。ですから$\varphi_A(A) \in \Mat_n(\mathbb{C})$の$(i, j)$成分$\bigl(\varphi_A(A)\bigr)_{ij}$もまた、$A$の成分の多項式で書けているはずです。既に示したことから、$A \in \Mat_n(\mathbb{C})^{\text{rs}}$なら$\bigl(\varphi_A(A)\bigr)_{ij} = 0$です。
ところで、多項式の値がある点の付近でべったりと$0$だったら、多項式そのものが$0$ですよね。たとえば開区間$(0, 1)$上でずっと$0$になる$1$変数多項式$f(t) \in \mathbb{R}[t]$は、$f(t) \equiv 0$に限ります。また平面$\mathbb{C}^2$上の円盤$\{(x, y) \in \mathbb{R}^2 \mid x^2 + y^2 < 1\}$上でずっと$0$になる$2$変数多項式$f(x, y) \in \mathbb{R}[x, y]$も、$f(x, y) \equiv 0$しかありません。こんな感じで、ある開集合でべったり$0$になる多項式函数は、$0$しか存在しないのです。
そして今の$\Phi \colon \Mat_n(\mathbb{C}) \rightarrow \Mat_n(\mathbb{C})$についても、全く同じことが言えます。$\bigl(\varphi_A(A)\bigr)_{ij}$は$A$の成分の多項式で書けていて、しかも$A \in \Mat_n(\mathbb{C})^{\text{rs}}$上でべったり$0$でした。ですから$\Mat_n(\mathbb{C})^{\text{rs}}$に入らない$A$についても$\bigl(\varphi_A(A)\bigr)_{ij} = 0$となるしかありません。これで全ての$A \in \Mat_n(\mathbb{C})$についてCayley--Hamiltonの定理が成り立つことが示せました。
\paragraph{代数的集合とZariski位相}
今の証明は概略でしかなく、細かいところは所々端折りました。具体的には「$\Mat_n(\mathbb{C}) \setminus \Mat_n(\mathbb{C})^{\text{rs}}$は薄っぺらい」とか「多項式の値があるところでべったり$0$だったら、全体でも$0$である」というところです。
これらの概念を正確に述べるには\textbf{Zariski位相}\index{Zariskiいそう@Zariski位相}と呼ばれるものが必要です。Zariski位相を用いて「$\Mat_n(\mathbb{C})^{\text{rs}}$は$\Mat_n(\mathbb{C})$の中でZariski稠密である」書くと、上で誤魔化したことを正確に記述できます。これらの話は、たとえば海老原円『14日間で分かる代数幾何学事始』(日本評論社) に解説が載っています。興味がある人はぜひ読んでみてください。