WEBVTT

00:00.390 --> 00:02.720
こんにちは､ ディープラーニングの講座にようこそ｡ 

00:02.730 --> 00:06.060
今日はいよいよステップ4､ 完全接続です｡ 

00:06.060 --> 00:08.110
では､ このステップはいったい何なのでしょうか？

00:08.130 --> 00:16.920
さて､ このステップでは､ 畳み込みニューラルネットワークに､ 人工ニューラルネットワーク全体を追加します｡ 

00:16.920 --> 00:24.780
これまで行ってきたコンボリューションプーリングとフラットニングに､ さらに新たな要素を加えました｡

00:24.810 --> 00:28.920
そしてその裏側には､ どのような激しさがあるのでしょうか｡ 

00:28.920 --> 00:32.310
それはまさに､ 「何か」であり､ 「何か」であることは間違いないのです｡ 

00:32.310 --> 00:37.140
ここでは入力層と､ 完全に接続されたLAN出力層がありますね｡ 

00:37.140 --> 00:42.960
ところで､ 人工ニューラルネットワークの完全連結層ですが､ 以前は隠れ層と呼んでいましたが､

00:42.960 --> 00:47.280
ここでは隠れ層ということで完全連結層と呼んでいます｡

00:47.280 --> 00:54.060
しかし同時に､ 人工ニューラルネットワークにおける完全連結層である隠れ層の､ より特殊なタイプでもある｡

00:55.440 --> 00:59.910
隠れ層は完全接続である必要はありませんが､ 畳み込みニューラルネットワークでは完全接続の層を使用します｡

00:59.910 --> 01:05.400
そのため､ 一般に完全接続層と呼ばれています｡

01:05.490 --> 01:12.570
基本的には､ 平坦化した後の出力の列やベクトル全体を､ 入力層に渡しているわけです｡

01:12.570 --> 01:20.310
ここでは､ 説明のために非常に単純化した例を示します｡ 人工ニューラルネットワークの主な目的は､

01:20.310 --> 01:28.890
特徴を組み合わせて､ クラスをよりよく予測するための属性を増やすことです｡

01:28.890 --> 01:37.800
ですから､ 私たちはすでに､ 平坦化と平坦化された結果の出力のベクトルをもっているのです｡

01:37.800 --> 01:44.010
そのベクトル内の数値にはいくつかの特徴がコード化されており､ それが犬か猫か､ 腫瘍かそうでないかなど､

01:44.010 --> 01:53.640
見ているものがどのクラスなのかを予測するのに､ おそらくすでにかなり良い仕事ができるようになっているのです｡

01:53.640 --> 01:59.310
しかし同時に､ 人工ニューラルネットワークという構造があることもわかっています｡

01:59.310 --> 02:16.620
これは､ 属性を扱い､ 特徴を扱い､ 新しい属性を考え出し､ 属性を組み合わせて､ 予測しようとするものをさらにうまく予測することを目的として設計されたものです｡

02:16.620 --> 02:18.600
そして､ それは前編でわかっていることです｡ 

02:18.600 --> 02:20.160
では､ なぜそれを活用しないのか？

02:20.160 --> 02:22.590
そして､ それこそが､ ここでの計画なのです｡ 

02:22.590 --> 02:30.180
そこで､ その値を人工ニューラルネットワークに渡し､ さらに最適化させるというのはどうでしょう｡

02:30.390 --> 02:31.800
というわけで､ これからが本番です｡ 

02:31.800 --> 02:36.300
しかし､ これではちょっと単純すぎるので､ もっと現実的な例を見てみましょう｡ 

02:36.300 --> 02:43.920
ここでは､ 入力に5つの属性を持つ､ より見栄えのする人工ニューラルネットワークを作成しました｡ 

02:43.920 --> 02:50.970
そして､ 第1層に6つのニューロン､ 第2層（第2完全連結層）に8つのニューロン､ そして2つの出力､

02:50.970 --> 02:55.320
1つは犬､ もう1つは猫を表す出力があるのです｡

02:55.320 --> 03:02.130
ここで重要なのは､ なぜ2つの出力があるのか､ ということです｡ 

03:02.130 --> 03:06.810
私たちは､ 人工ニューラルネットワークの出力が1つしかないことに､ なんとなく慣れています｡ 

03:06.810 --> 03:15.390
1つの出力は､ 数値を予測するとき､ 回帰のような問題を実行するときに使用します｡

03:15.510 --> 03:22.680
しかし､ 分類を行う場合は､ クラスごとに出力が必要です｡ 例外は､ クラスが2つしかない場合です｡ 例えば､

03:22.680 --> 03:27.180
ここでは犬と猫の2つのクラスがありますが､ 1つの出力を行ってバイナリ出力にし､

03:27.180 --> 03:32.280
1は犬､ 0は猫というようにすればよかったのです｡

03:32.280 --> 03:33.990
それで全く問題なかったのです｡ 

03:33.990 --> 03:39.150
そして実際に､ 実践的なチュートリアルの中でその方法を見ることができ､ そのように構成されています｡

03:39.150 --> 03:49.410
しかし同時に､ 例えば犬､ 猫､ 鳥のように2つ以上のカテゴリーがある場合､ すべてのカテゴリーごとにニューロンを用意しなければならないのです｡

03:49.410 --> 03:57.780
そのため､ この例では2つのカテゴリーで練習し､ カテゴリーが2つ以上になったときのことを想定しています｡

03:58.380 --> 03:59.940
それで､ これからどうなるのでしょうか？

03:59.940 --> 04:04.590
つまり､ すでにすべての下準備を終え､ 畳み込み､ プーリング､ フラットニングを行った上で､

04:04.590 --> 04:09.480
今度は人工ニューラルネットワークを経由して情報が流れていくわけです｡

04:09.480 --> 04:11.970
では､ どのような仕組みになっているのか､ 見ていきましょう｡ 

04:12.030 --> 04:18.160
画像が処理される瞬間から情報が流れていて､ 次にカンクン､ プール､ フラット化､

04:18.160 --> 04:24.420
そして人工ニューラルネットワークを経て､ 4つのステップを経ています｡

04:24.960 --> 04:29.580
そして､ ある予測がなされるのですが､ これがどのように行われるかは､ これから見ていくことにしましょう｡ 

04:29.580 --> 04:30.660
とてもとても面白いことになりそうです｡ 

04:30.660 --> 04:32.820
でも､ とりあえず予言はしておこう｡ 

04:32.820 --> 04:40.470
例えば､ 8割は犬だと思ったのに猫だと判明して､ 誤差を計算するわけです｡ 人工ニューラルネットワークでは､

04:40.470 --> 04:47.700
以前はコスト関数と呼んでいましたが､ そこでは平均二乗誤差を使いますし､ 畳み込みニューラルネットワークでは､

04:47.700 --> 04:51.240
平均二乗誤差を使います｡

04:51.240 --> 04:59.820
損失関数と呼ばれるものですが､ これにはクロスエントロピー関数を使います｡ クロスエントロピーと平均二乗誤差について説明します｡

04:59.990 --> 05:02.660
別のチュートリアルで､ そのすべてがどのように行われるかを説明します｡ 

05:02.660 --> 05:08.240
しかし､ とりあえず､ ネットワークのパフォーマンスを教えてくれる失われたタイプの関数があり､ その関数を最適化､

05:08.240 --> 05:13.460
最適化､ 最小化することでネットワークを最適化しようとしているとしましょう｡

05:13.460 --> 05:21.500
つまり､ 誤差が計算され､ それがネットワークを通じて逆伝播されるのですが､ これは人工ニューラルネットワークでいうところの逆伝播にあたります｡

05:21.500 --> 05:27.800
そして､ パフォーマンスを最適化するために､ ネットワークで調整されるものもあります｡ 

05:27.800 --> 05:31.880
そして､ 調整されるのは､ 例によって人工ニューラルネットワーク部分のウェイトです｡ 

05:31.880 --> 05:34.790
つまり､ ここに見える青い線がシナプスです｡ 

05:35.120 --> 05:41.570
それからもうひとつ､ 特徴検出器も調整しています｡ 

05:41.570 --> 05:46.070
しかし､ もし間違った機能を探しているとしたらどうでしょう？

05:46.070 --> 05:47.960
もし､ これがうまくいかなかったら？

05:47.960 --> 05:49.370
機能が正しくないからです｡ 

05:49.370 --> 05:55.940
そして､ 特徴検出器､ つまり､ 3×3の行列がありましたが､ それを調整して､

05:55.940 --> 06:03.800
次回はもっとよくなるかもしれない､ どうなるかな､ というようなことをやっているのです｡

06:03.800 --> 06:14.480
もちろん､ 背景には多くの科学と数学があり､ すべては逆伝播法を用いた勾配降下法で行われます｡

06:14.480 --> 06:17.870
つまり､ 単なるランダムな摂動ではないのです｡ 

06:17.870 --> 06:20.780
実は､ そのやり方はとてもよく考えられているんです｡ 

06:20.990 --> 06:28.460
しかし､ それでも､ 特徴検出器を調整し､ 重みを調整し､ この一連の作業が再び行われる｡

06:28.550 --> 06:32.540
そしてまたエラーが逆伝播され､ これが延々と続くのです｡ 

06:32.540 --> 06:35.060
そして､ そうやって私たちのネットワークは最適化されているのです｡ 

06:35.060 --> 06:37.850
私たちのネットワークは､ そうやってデータをトレーニングしているのです｡ 

06:37.850 --> 06:42.200
ここで重要なのは､ データがネットワーク全体を最初から最後まで通過して､

06:42.200 --> 06:45.950
その誤差を比較することです｡

06:47.180 --> 06:49.880
そこで､ 誤差を計算し､ 逆伝播しているのです｡ 

06:49.880 --> 06:57.800
つまり､ 人工ニューラルネットワークと同じ話なのですが､ 最初の3つのステップのために､ 少し長くなっています｡

06:58.820 --> 07:02.450
さて､ ここからは面白いところ､ 本当に面白いところを見ていきましょう｡ 

07:02.450 --> 07:04.760
この2つのクラスはどのように機能するのでしょうか？

07:04.760 --> 07:07.070
なぜなら､ あるいはこの2つの出力ニューロンがどのように働いているのか？

07:07.070 --> 07:10.400
というのも､ 以前は出力ニューロンが1つしかなかったんです｡ 

07:10.400 --> 07:11.750
2人になったらどうなるんだろう？

07:11.750 --> 07:17.420
この画像の分類という状況は､ どのように展開されるのでしょうか｡ 

07:17.420 --> 07:19.460
では､ まず一番上のニューロンから見ていきましょう｡ 

07:19.460 --> 07:21.350
まずは犬から｡ 

07:21.890 --> 07:28.850
主な目的は､ まず､ 犬につながるすべてのシナプスにどのような重みを与えるかを理解し､

07:28.850 --> 07:37.760
前のニューロンのうちどれが犬にとって実際に重要であるかを知ることです｡

07:37.760 --> 07:38.840
そして､ それがどのように行われているかを見てみましょう｡ 

07:38.840 --> 07:47.870
では､ 仮に前の層､ 前の完全連結層､ 最後の完全連結層にこれらの数値があるとしましょう｡

07:47.870 --> 07:50.900
そしてまた､ この数字は絶対に何でもありなのです｡ 

07:50.900 --> 07:53.780
どんな数字でもいいというわけではありません｡ 

07:53.780 --> 08:01.730
しかし､ 議論のために､ ここでは0から1までの数字に限定して考えることにしよう｡

08:02.210 --> 08:05.090
だから､ こういうことを主張すると､ 理解しやすいんです｡ 

08:05.450 --> 08:11.360
そして､ 1というのは､ そのニューロンがある特徴を見つけたことに非常に自信があったということです｡ 

08:11.360 --> 08:15.980
そして0は､ そのニューロンが探している機能を見つけられなかったことを意味します｡ 

08:15.980 --> 08:25.280
結局のところ､ これらのニューロンは､ この左側から他のものと同じように､ 画像の特徴を見ているに過ぎないからです｡

08:25.280 --> 08:31.970
これはすでに非常に高度な処理をしていますが､ それでも画像上のある特徴､ あるいは特徴の組み合わせを検出しているのです｡

08:31.970 --> 08:36.860
コントロールステップの直前には､ プールステップの特徴的な部分がありました｡ 

08:36.860 --> 08:41.240
認識しにくくなり､ 平坦化された画像ではさらに認識しにくくなり､ そして合成され､

08:41.240 --> 08:42.410
といった具合に｡

08:42.410 --> 08:48.650
しかし､ それでも､ 私たちがここで話しているのは､ 画像に存在するある種の特徴､ あるいはその組み合わせについてです｡

08:48.650 --> 08:56.900
つまり､ 一時停止しているもの､ これが重要なのですが､ 犬と猫の両方の出力ニューロンに同時に渡されているのです｡

08:56.900 --> 09:05.030
つまり､ 私たちの議論では､ この神経細胞が発火していることを意味します｡ 

09:05.030 --> 09:08.360
その機能を高速で検知しているのです｡ 

09:08.360 --> 09:10.100
それは眉毛かもしれませんね｡ 

09:10.100 --> 09:15.080
また､ わかりやすくするために､ この眉毛を検出しているのかもしれません｡ 

09:15.080 --> 09:17.300
そして､ それを犬の神経細胞に伝えているのです｡ 

09:17.330 --> 09:20.270
猫の神経細胞が､ 眉毛が見える､ 眉毛が見えると言っているのです｡ 

09:20.270 --> 09:25.100
そして､ その意味を理解するのは､ 犬や猫のニューロン次第なのです｡ 

09:25.100 --> 09:25.640
そうですね｡ 

09:25.640 --> 09:28.370
それで､ この場合､ どの神経細胞が発火しているのか？

09:28.370 --> 09:30.530
この3つの神経細胞が眉毛を発火させているのです｡ 

09:30.530 --> 09:36.020
そして､ 鼻が言っているとしましょう､ 大きな鼻が見えて､ 耳がペタペタしているのが見えるのです｡ 

09:36.020 --> 09:40.460
だから､ 犬にも猫にも､ そして犬にも言っているんです｡ 

09:40.460 --> 09:43.280
そして､ これが犬であることがわかるのです｡ 

09:43.280 --> 09:49.880
つまり､ 犬の神経細胞は､ 答えが実際に犬であることを知っているのです｡ なぜなら､ 私たちは最後に絵と比較するか､

09:49.880 --> 09:53.570
絵のラベルと比較して､ 犬であることを知っているからです｡

09:53.570 --> 09:58.610
つまり､ 犬の神経細胞は､ 「ああ､ この場合は私が引き金になるはずだ」と言うわけです｡ 

09:58.610 --> 09:59.540
つまりこれらは

09:59.650 --> 10:00.370
私のニューロン

10:00.370 --> 10:08.920
彼らは､ 私と犬と猫の両方に送っている信号が､ 実は私にとってそれが犬であることを示しているのだと言っているのです｡

10:08.920 --> 10:13.540
そして､ このような繰り返しが何度も繰り返されると､ 犬は､ その特徴が犬のものであるときに､

10:13.540 --> 10:19.450
これらのニューロンが確かに発火することを学習するようになります｡

10:19.480 --> 10:24.100
一方､ 猫の神経細胞は､ それが猫ではないことを知っています｡ この機能が発火して､ この神経細胞が､

10:24.100 --> 10:30.970
ペラペラの耳､ ペラペラの耳､ ペラペラの耳が見えるが､ 同時に猫でもないことを私に伝えていることを知ることができるのです｡

10:30.970 --> 10:35.740
つまり､ 私にとっては､ この神経細胞は無視したほうがいいという信号なのです｡ 

10:35.740 --> 10:41.440
そして､ そうなればなるほど､ 猫の神経細胞は､ この耳が垂れているという神経細胞を無視するようになるのです｡

10:42.160 --> 10:49.000
そして､ 基本的には､ このようなことが頻繁に起こる場合は､ たくさんの反復を経てそうなるのです｡ 

10:49.000 --> 10:50.020
つまり､ これはほんの一例なのです｡ 

10:50.020 --> 10:54.370
でも､ これが頻繁に起こるなら､ 1でも0でもいいかもしれない｡  8, 0. 9､ もしかしたら発射されない時もあるかもしれない｡ 

10:54.370 --> 10:59.410
しかし､ 全体として平均すると､ この神経細胞は非常に頻繁に点灯しているのです｡ 

10:59.410 --> 11:05.830
それが本当に犬であれば､ 犬の神経細胞はこの神経細胞をより重要視するようになる｡ 

11:05.830 --> 11:06.520
そして､ こうなりました｡ 

11:06.520 --> 11:08.290
それは､ そういう意味での符号化です｡ 

11:08.320 --> 11:14.200
この3つのニューロンは､ 何度も何度もサンプルとエポックを繰り返しながら､

11:14.200 --> 11:16.810
記憶していくのです｡

11:16.810 --> 11:23.170
サンプルとはデータセットの行のことで､ エポックとはデータセット全体を何度も何度も繰り返し見ることです｡

11:23.170 --> 11:25.000
何度も何度も繰り返されます｡ 

11:25.000 --> 11:34.090
この犬の神経細胞は､ この眉毛の神経細胞､ この大きな鼻の神経細胞､ このペラペラの耳の神経細胞､ これらすべてが､

11:34.090 --> 11:43.690
探しているものが何か､ どれが犬なのかを分類するのに､ 本当によく貢献しているようだと学びました｡

11:44.320 --> 11:45.520
そういうことなんですね｡ 

11:45.520 --> 11:55.060
繰り返しますが､ これらの耳や鼻､ 眉毛は､ 非常に近似しているか､ 非常に遠い例です｡ この段階では､ この畳み込みニューラルネットワーク全体では､

11:55.060 --> 12:03.490
何を探しているのか､ まったく認識できないのですから｡

12:03.490 --> 12:08.890
しかし同時に､ 犬や猫など､ 分類しているものの特徴にあるものです｡ 

12:09.190 --> 12:11.140
そして､ そうして次に進みましょう｡ 

12:11.140 --> 12:17.830
今度は猫の神経細胞を見ますが､ これらの重みは犬を整理したものだと覚えておいてください｡

12:17.830 --> 12:21.130
つまり､ 犬は他のニューロンを無視しているようなものです｡ 

12:21.130 --> 12:22.570
1､ 2､ 3､ 4､ 5｡ 

12:22.570 --> 12:26.140
しかし､ この3つの神経細胞が何を言っているのかに､ 本当に注意を払っているのです｡ 

12:26.290 --> 12:28.240
さて､ 猫は何を聴いているのでしょう？

12:28.240 --> 12:31.480
まあ､ 実際に猫であるときはいつでも､ ですね｡ 

12:32.500 --> 12:35.500
これは......実は猫である場合の例です｡ 

12:35.500 --> 12:42.460
だから､ この3つのニューロン､ 0. 9, 0. 9と1､ 何か言ってますね｡ 

12:42.460 --> 12:44.530
犬にも猫にも何か言っている｡ 

12:44.530 --> 12:45.730
そして､ これがまた､ 重要なことなのです｡ 

12:45.730 --> 12:48.520
この出力信号が双方向になるわけです｡ 

12:48.520 --> 12:49.450
同じでしょう？

12:49.450 --> 12:54.190
しかし､ そのシグナルを考慮して学習するかどうかは､

12:54.190 --> 13:00.070
犬や猫次第なのです｡

13:00.280 --> 13:04.000
そして､ 犬にも猫にも､ これが写真であることがわかる｡ 

13:04.030 --> 13:07.000
本来ならここに猫の写真を載せるべきなのですが､ 基本的には猫の写真を想像してください｡ 

13:07.000 --> 13:09.910
犬も猫も､ これが実は猫であることがわかる｡ 

13:09.910 --> 13:18.970
だから､ 基本的に犬は､ ああ､ そうか､ このヒゲと､ このとんがった三角形の耳と､ この小さいサイズか､

13:18.970 --> 13:26.320
ああ､ このタイプか､ 猫には目にこういうのがあるよね？

13:26.320 --> 13:28.240
その目はまるで小さい｡ 

13:28.240 --> 13:32.110
円ではなく､ その線というか､ そういうものです｡ 

13:32.110 --> 13:33.280
猫の目のように｡ 

13:33.280 --> 13:37.390
基本的に､ このキャットアイ､ 私には絶対無理です｡ 

13:37.390 --> 13:43.990
この神経細胞が光るたびに､ 私が求めている予測とは違うことが起こるので､ 予測を助けてはくれないのです｡

13:44.020 --> 13:46.810
一方､ 猫は､ ふーん､ 面白いね､ という感じです｡ 

13:46.810 --> 13:51.430
これが点灯するたびに､ あるいはほとんどの場合､ 点灯するんです｡ 

13:51.430 --> 13:53.800
私の期待に応えてくれる｡ 

13:53.800 --> 13:55.210
私が求めているものと合致しています｡ 

13:55.240 --> 13:55.540
なるほど｡ 

13:55.540 --> 13:57.970
それならこの人の話をもっと聞いてみようかな｡ 

13:57.970 --> 13:58.870
こちらも同じです｡ 

13:58.870 --> 14:01.840
毎回点灯するか､ ほとんどの回数が点灯する｡ 

14:02.620 --> 14:09.040
たまたま予想が当たったから報われる｡ 

14:09.040 --> 14:09.670
それは猫です｡ 

14:09.670 --> 14:11.230
なるほど､ じゃあもっと話を聞いてみようかな｡ 

14:11.230 --> 14:16.060
あのね､ この人は私には役に立たないの､ だって彼は実際に彼とは違うんだもの｡ 

14:17.020 --> 14:17.980
点火していない

14:17.980 --> 14:19.870
猫なんだけど､ 火をつけないんだよね｡ 

14:19.870 --> 14:20.950
だから､ その逆が起きているのです｡ 

14:20.950 --> 14:22.000
そして､ こちらも同様に｡ 

14:22.000 --> 14:23.410
猫なのに､ 火がつかない｡ 

14:23.410 --> 14:24.340
だから､ 彼の話には耳を貸さないことにしている｡ 

14:24.340 --> 14:27.520
しかし､ この人は､ 彼が......これは何だ？

14:27.520 --> 14:27.940
目です｡ 

14:27.940 --> 14:29.350
猫の目が光る｡ 

14:29.590 --> 14:31.780
猫であることがわかる｡ 

14:31.780 --> 14:33.220
ほとんどの場合､ マッチします｡ 

14:33.220 --> 14:38.650
だから､ それを見習って､ この3人の話を聞くことが多くなった｡ 

14:38.650 --> 14:42.940
つまり､ 猫はこの3つの音を聞いていて､ 他の5つの音は無視しているのです｡ 

14:42.940 --> 14:53.620
そして､ この最終的なニューロンが､ 完全に接続された最終層のどのニューロンの話を聞けばいいのかを､ こうして学ぶのです｡

14:53.620 --> 14:58.330
つまり､ 出力ニューロンは､ 完全接続と最終的な完全接続のどちらを学習するかということです｡ 

14:58.640 --> 14:59.990
聞くべきは彼らの神経細胞｡ 

14:59.990 --> 15:02.360
そして､ そうやって理解するのです｡ 

15:02.720 --> 15:08.720
基本的には､ そうやって特徴をネットワークに伝搬させ､ 出力に伝えていくわけです｡ 

15:08.720 --> 15:13.820
そのため､ 耳やひげのように､ その特徴にそれほど意味がなくても､

15:13.820 --> 15:21.770
同時に､ その特定のクラスの特徴として､ 何らかの特徴があるのです｡

15:21.770 --> 15:29.660
バックプロパゲーションの過程で､ 特徴検出器を調整することもありますから｡

15:29.660 --> 15:36.410
なぜなら､ これは1日や2日で起こることではなく､ 何千回､

15:36.410 --> 15:40.790
何万回と繰り返されることだからです｡

15:40.790 --> 15:47.120
ですから､ 時間とともに､ ネットワークにとって無用な機能は無視され､ 有用な機能に置き換えられていくのです｡

15:47.120 --> 15:53.510
そして､ 最終的には､ このニューロンの最終層で､ 画像から犬と猫を代表する､ あるいは説明するような特徴､

15:53.510 --> 16:00.620
あるいは特徴の組み合わせをたくさん得ることができるのです｡

16:01.460 --> 16:06.560
そして､ ネットワークがトレーニングされると､ このように応用されるようになります｡ 

16:06.560 --> 16:08.540
だから､ これは次のステップで､ もうトレーニングしたようなものなんです｡ 

16:08.540 --> 16:12.950
それでは､ このネットワークを適用するとどうなるのか､ 見てみましょう｡ 

16:12.950 --> 16:15.170
そこで､ 犬の画像を渡すとします｡ 

16:16.280 --> 16:20.300
その値がネットワークを通じて伝播することで､ ある一定の値を得ることができます｡ 

16:20.300 --> 16:24.860
で､ 今回の犬と猫のニューロンは知らんぷり｡ 

16:24.860 --> 16:26.660
ここには犬のイメージはないそうです｡ 

16:26.660 --> 16:28.370
犬や猫であることを知らないのです｡ 

16:28.370 --> 16:35.570
彼らはそれが何であるかはわからないが､ ここで示されていることに耳を傾けることを学んだのだろう？

16:35.570 --> 16:40.670
彼らは､ 犬の神経細胞はこの3つの神経細胞の声を聞き､ 猫の神経細胞はこの3つの神経細胞の声を聞くことを学びました｡

16:40.670 --> 16:44.690
そして､ 犬の神経細胞は1から3を見て､ 「あぁ､ これはかなり高いな」と言います｡ 

16:44.690 --> 16:47.570
だから､ 犬である確率が高くなるんです｡ 

16:47.600 --> 16:52.550
猫の神経細胞はこの3つを見て､ よし､ これはかなり高いな､ でもこれはかなり低いな､

16:52.550 --> 16:53.450
と言います｡

16:53.450 --> 16:54.230
面白いですね｡ 

16:54.230 --> 16:56.870
だから､ 私の確率は0になる｡  05.

16:56.870 --> 17:00.020
そして､ そして､ そして､ そこで予想がつくのです｡ 

17:00.020 --> 17:05.600
そうすると､ このニューラルネットワークの最初の選択肢は犬､ 2番目の選択肢は猫ということになりますね｡ 

17:05.600 --> 17:06.830
といったところでしょうか｡ 

17:06.830 --> 17:08.030
だから､ 答えは犬です｡ 

17:08.150 --> 17:16.520
また､ 猫の画像を渡しても同じことが起こり､ 新しい値が得られ､ これは高いけれども､ これは低いということがわかります｡

17:16.520 --> 17:20.450
そして､ 猫の場合は､ こっちが高く､ こっちが高く､ こっちがちょっと低い｡ 

17:20.450 --> 17:23.870
ですから､ ここでの確率は以前ほど大きくないかもしれません｡ 

17:23.870 --> 17:26.720
それでも79％の猫であることはおわかりいただけると思います｡ 

17:26.720 --> 17:30.080
そのため､ ニューラルネットワークは「猫だ」と投票することになります｡ 

17:30.080 --> 17:33.140
そうすると､ 基本的にニューラルネットワークはすべて「猫だ」と結論づけることになるんです｡ 

17:33.140 --> 17:36.230
投票とはこいつらのためにあるような言葉だ｡ 

17:36.230 --> 17:42.650
つまり､ 最後の完全連結層にあるこれらのニューロンは､ 投票することができ､ これが彼らの票となるのです｡ 

17:42.650 --> 17:47.120
また､ ここでは議論のために､ 0と1の間の値を入れているだけです｡ 

17:47.120 --> 17:54.410
これはどんな価値観でもいいのですが､ 投票してもらって､ その投票の重要性を重み付けしています｡

17:54.410 --> 18:00.470
つまり､ この紫色の重みは､ 犬の神経細胞が自分の票をどう見ているかを示しているのです｡ 

18:00.470 --> 18:04.730
これらの神経細胞や投票にどれほどの重要性を持たせているのか｡ 

18:04.730 --> 18:12.650
そして､ 猫の神経細胞は､ これらへの投票をどれだけ重要視しているかということである｡ 

18:12.650 --> 18:16.580
そして､ これらのニューロンは､ 学習した重みに基づいて犬と猫に投票する｡ 

18:16.580 --> 18:20.840
聴く人を決めて､ 予想を立てて､ ホールドするのです｡ 

18:20.840 --> 18:24.350
ニューラルネットワークは､ これは､ この場合､ 猫であると結論付けている｡ 

18:24.350 --> 18:26.870
そして､ それが､ そして､ それがあなたの結論です｡ 

18:26.870 --> 18:36.740
そうすると､ このようにチーターがいて､ 高い確率でチータークラスがあるようなイメージになるわけです｡

18:36.740 --> 18:39.830
つまり､ これがネットワークが予測した確率です｡ 

18:39.830 --> 18:43.880
そしてこれらは最低ラインですが､ これらはまだ小さな可能性のようなものなので､ まだ存在しています｡ 

18:43.880 --> 18:49.220
他のニューロンも有権者の声に耳を傾けて､ ああ､ 実はヒョウなのかもしれない､ と言っている｡

18:49.220 --> 18:51.600
そして､ ここでは新幹線がとてもとても確率が高いのです｡ 

18:51.650 --> 18:57.440
ハサミの神経細胞､ ハサミの神経細胞､ 出力､

18:57.440 --> 19:03.020
この神経細胞は､ 投票者の声を聞いて､

19:03.020 --> 19:09.740
全体として優勢な票を獲得していました｡

19:09.980 --> 19:10.760
そうそう､ そうなんです｡ 

19:10.760 --> 19:14.390
それが､ フルコネクションの仕組みであり､ このあり方です｡ 

19:14.390 --> 19:16.400
これらすべてが一体となって展開されるのです｡ 

19:16.400 --> 19:18.620
本日のチュートリアルを楽しんでいただければ幸いです｡ 

19:18.620 --> 19:22.730
こちらもまとめにまとめて､ また次回お会いしましょう｡ 

19:22.730 --> 19:24.800
それまでは､ ディープラーニングを楽しんでください｡