キカベン
機械学習でより便利な世の中へ
G検定対策
お問い合わせ
   

確率・統計:ベルヌーイ分布、二項分布、カテゴリカル(マルチヌーイ)分布、多項分布

thumb image

この記事で扱う分布は全て有限の事象を扱う。

コインの裏表とかサイコロの目とかで例えることができる確率の分布になる。

値が連続ではないので離散分布とも呼ばれる。

その中でも、多項分布が最も包括的な分布。

多項分布がわかると二項分布やカテゴリカル(マルチヌーイ)分布が導き出せる。

さらに二項分布かカテゴリカル分布からベルヌーイ分布も導き出せる。

でも、これらを理解するにはベルヌーイ分布から積み上げていった方が分かりやすい。

1. ベルヌーイ分布🔝

コインを放り投げると$p$の確率で表が出るとする。普通は$p$が50%と仮定するがそれはここでは本題ではない。

コインが表になる確率$p$を以下のように表現する。表記の仕方は色々あるがこの記事ではこうしている。

$\text{Ber}(X=1) = p$

ここで、$X=1$は表、$X=0$は裏としている。それ以外の値はない。

縦に立つかもしれないとか実際にはあり得ても考えない。

裏か表しか出ない理想のコインで思考実験していると思って欲しい。

よく、$P(X=1)=p$と定義されるが$P$を使うと他の確率と紛らわしいので$\text{Ber}$として明確に区別した。

また、$\text{Ber}$では一つの確率$p$が必ず必要なので明記せずに暗黙の了解としている。表記を簡単にするため。

必要ならば、$\text{Ber}(X=1; p=0.5)$などと明示すれば良い。

もちろん、確率$p$の値は$0 \le p \le 1$の範囲内でなければならない。

なお、$X$は確率変数と呼ばれる。確率変数は大文字で書かれることが多いのでここでもそうしている。

「変数」であるが、実際には関数のような動きをする。$X$の値は$X$が従う確率分布からランダムに返される。

可能な値が表($X=1$)か裏($X=0$)しかないので、裏が出る確率は、

$\text{Ber}(X=0) = 1 – p$

となる。

1.1. 定義🔝

コイン投げで裏か表かどちらかが出る確率を一つの確率関数にまとめると、

$\text{Ber}(X=x) = p^x(1-p)^{1-x}, \quad x \in \{0, 1\}$

となる。$X=1$と$X=0$をそれぞれ代入して上述した確率になることを確認して欲しい。

申し遅れたが、この二者択一の確率分布をベルヌーイ分布(Bernoulli Distribution)と呼ぶ。

1.2. 期待値🔝

変数$X$がベルヌーイ分布に従う時の$X$の期待値は、

$\begin{align*}
E_{X \sim \text{Ber}}[X] &= \sum_{x \in \{0, 1\}} \text{Ber}(X=x) \cdot x \\
&= \text{Ber}(X=1)\cdot 1 + \text{Ber}(X=0) \cdot 0 \\
&= p
\end{align*}$

$E_{X \sim \text{Ber}}$としているのは、期待値を求める確率変数$X$がベルヌーイ分布に従うことを意味する。

期待値が$p$になるとは、コインの例でいえば、コインが表になる確率が期待値になるということ。

直感的な解釈は、「何度も繰り返しコインを投げて表($X=1$)と裏($X=0$)が出た回数から表が出る回数の平均を計算すると大体$p$ぐらいになる」といった意味。それが確率なのだから身も蓋もないが。

こうなるように裏を0と定義しているとも言える。

ちなみに、$E_{X \sim \text{Ber}}(X)$ではなくて$E_{X \sim \text{Ber}}[X]$と角括弧を使っているのは、期待値を求める関数$E$は入力される確率変数$X$が従う分布によって決まることを明示するため。

よって全ての分布に対して期待値の計算では同じ記号$E$を使える。

一般に、期待値は確率分布を$P$とすると、

$E_{X \sim P}[X] = \sum\limits_{x} P(X=x) \cdot x$

と書ける。

つまり、関数$E$は汎関数(関数の関数)になる。英語では汎関数はfunctionalと呼ばれる。

まあ、これも人によって表記の仕方が違うが、ここではそうしている。

1.3. 分散🔝

確率変数$X$が確率分布$P$に従うとすると、$X$から返される値の分散は、

$V_{X \sim P}[X] = \sum\limits_{x} P(X=x) (x-E[X])^2$

と書ける。$V$はVariance(分散)から。

$V_{X \sim P}$で$X$が$P$に従うと定義されているので、分散の定義にある$E[X]$をわざわざ$E_{X \sim P}[X]$とは書かないことにした。これも、明記が必要ならば書き足せばよい。

以上より、確率変数$X$がベルヌーイ分布に従う時の$X$の分散は、

$\begin{align*}
V_{X \sim \text{Ber}}[X] &= \sum_{x \in \{0, 1\}} \text{Ber}(X=x) (x-E[X])^2 \\
&= \text{Ber}(X=1) (1 – p)^2 + \text{Ber}(X=0) (0 – p)^2 \\
&= p(1-p)^2 + (1-p)p^2 \\
&= p(1-p)
\end{align*}$

となる。

コインの例でいうと、分散は表の確率と裏の確率の積になる。

$p=0.5$だと分散が一番大きい。$p$で分散を微分して最大値になる値を求めればわかる。

$p=1.0$か$p=0.0$だと分散は0になる。毎回同じ結果になるから。


ベルヌーイ分布は非常に簡単だがよく出てくる。後で紹介する「独立」など確率の基本概念が詰まっている。

また、二項分布の期待値や分散の計算で役に立つ。

2. 二項分布🔝

二項分布はベルヌーイ分布に従う試行を$n$回繰り返した場合に$X=1$となる回数の確率分布。

例えば、表が出る確率$p$のコインを3回放り投げて表が2回出る確率を求めたいとすると、

表表裏、表裏表、裏表表

の3パターンがある。

同じことを$X=1$と$X=0$で表現すると、

表表裏: X=1, X=1, X=0
表裏表: X=1, X=0, X=1
裏表表: X=0, X=1, X=1

となる。この3つの組合せからどれか一つが起これば良い。

よって、表が出る確率$p$のコインを3回放り投げて表が2回出る確率は、

$\begin{align*}
\text{Ber}(X=1)\,\text{Ber}(X=1)\,\text{Ber}(X=0) &\ + \\
\text{Ber}(X=1)\,\text{Ber}(X=0)\,\text{Ber}(X=1) &\ + \\
\text{Ber}(X=0)\,\text{Ber}(X=1)\,\text{Ber}(X=1) &= p^2(1-p) + p(1-p)p + (1-p)p^2 \\
&= 3p^2(1-p)
\end{align*}$

となる。

ベルヌーイ試行の独立性と同一性

あるベルヌーイ試行はその後のベルヌーイ試行に影響しない。

だからベルヌーイ試行を繰り返すことによって起こる事象の確率は、それぞれの事象が起こる確率を単純に掛け算したものになる。

このような性質を確率分布の独立性と呼ぶ。

将来、条件付き確率が出てくると独立の概念があやふやになりがちなので忘れないでほしい。

また、ベルヌーイ試行は毎回同じ分布に従う。途中で$p$が変わったりしない。この性質を同一と呼ぶ。

まとめるとベルヌーイ試行は何回行っても毎回独立で同一。

このような分布を独立同一分布(independent and identically distributed、i.i.d.)と呼ぶ。

独立同分布とも呼ばれる。

この記事に出てくる分布は全て独立同一分布。

ベルヌーイ試行が独立同一なので、表と裏がどんな順番で現れても、表が2回、裏が1回になる確率は同じ。あとは、パターンの数だけその確率を足せば良い。

2.1. 定義🔝

一般に、確率$p$のベルヌーイ試行を$n$回繰り返して$m$回の$X=1$が生じる確率は、

$\text{Bin}(n, m) = {}_n C_m p^m (1-p)^{n-m} = \binom{n}{m} p^m(1-p)^{n-m}$

となる。$\text{Bin}$はBinomial Distribution(二項分布)の略称。

2.2. 組合せと順列🔝

ちなみに、$n$から$m$選ぶ組合せ${}_nC_m$の計算は、

${}_nC_m = \binom{n}{m} = \frac{n!}{(n-m)!m!}$

そして、順列$n!$の計算は、

$n! = n \cdot (n-1) \cdot (n-2) \dots \cdot 2 \cdot 1$

例えば、3回のベルヌーイ試行で$X=1$が2回出る組み合わせは、

${}_3C_2 = \binom{3}{2} = \frac{3!}{(3-2)!2!} = \frac{6}{2} = 3$

2.3. 期待値🔝

二項分布の期待値の計算は、確率に組合せが入っており一見複雑で面倒になりそうだが、実はそうでもない。

ベルヌーイ試行を$n$回繰り返しただけなので、$n$個の確率変数$X_1, X_2, \dots, X_n$が全てベルヌーイ分布に従っているとし、確率変数$X = X_1 + X_2 + \dots + X_n$の期待値を計算する。

$\begin{align*}
E_{X \sim \text{Bin}}[X] &= E_{X_1 \sim \text{Ber},\ X_2 \sim \text{Ber},\ \dots\ ,\ X_n \sim \text{Ber}}\,[X_1 + X_2 + \dots + X_n] \\
&= E_{X_1 \sim \text{Ber}}[X_1] + E_{X_2 \sim \text{Ber}}[X_2] + \dots + E_{X_n \sim \text{Ber}}[X_n] \\
&= n \cdot E_{X \sim \text{Ber}}[X] \\
&= np
\end{align*}$

それぞれの確率変数$X_i$はベルヌーイ試行に従い独立同一なので、期待値を別々に計算して総和を取っている。

よって、二項分布の期待値はベルヌーイ分布の期待値の$n$倍になっている。

独立同一分布であるベルヌーイ試行を$n$回実行しただけなので当然でもある。

もちろん、$n=1$だとベルヌーイ分布と同じ。

2.4. 分散🔝

二項分布に従う確率変数$X$の分散は、

$\begin{align*}
V_{X \sim \text{Bin}}[X] &= V_{{X_1 \sim \text{Ber},\ X_2 \sim \text{Ber},\ \dots\ ,\ X_n \sim \text{Ber}}\,}[X_1 + X_2 + \dots + X_n] \\
&= V_{X_1 \sim \text{Ber}}[X_1] + V_{X_2 \sim \text{Ber}}[X_2] + \dots + V_{X_n \sim \text{Ber}}[X_n] \\
&= n \cdot V_{X \sim \text{Ber}}[X] \\
&= np(1-p)
\end{align*}$

ここでもベルヌーイ試行が独立同一なことが役に立っている。

よって、二項分布の分散はベルヌーイ分布の分散の$n$倍になっている。

言うまでもないが、$n=1$だとベルヌーイ分布と同じ。

3. カテゴリカル分布🔝

ベルヌーイ分布はバイナリの変数(裏表、0か1)の確率分布を扱ったが、カテゴリカル分布は変数が3つ以上のカテゴリに分かれる場合の確率分布。マルチヌーイ分布とも呼ぶ。

3.1. ジャンケン🔝

例として、ジャンケンの相手がグー・チョキ・パーのどれを出してくるかの確率を考える。

グー・チョキ・パーのそれぞれ$\frac{1}{3}$の確率と言いたいところだが、人それぞれの癖があるのでそうとも限らない。

グーが出る確率を$p_1$、パーが出る確率は$p_2$、チョキが出る確率は$p_3$とする。

ここで$1,2,3$の数値を使っているが、グー・チョキ・パーを分類しているだけで順序などの意味はない。

なお、これらの確率は固定されており、変化しないと仮定している。

現実の世界では人間は相手の出しそうな手を予測したりするので確率分布が固定されているとは限らない。

よって分布の同一性を仮定するのは理想的な想定となる。

さらに、毎回の事象は独立と仮定する。人間には色々な思惑や癖がある。相手が3回もチョキを出した後にまたチョキを出さないだろうとか。自分は常に手を変えるようにしているとか。よって独立性を仮定するのもまた理想的な想定になる。

要するに、ランダムにグー・チョキ・パーを出してくる理想のロボットで思考実験をしていることになる。

よって、ジャンケンの相手の手が従う確率分布は独立同一分布になる。

また、一度に出るのはグー・チョキ・パーのどれか一つだけ。よって確率の合計は1になる。

$\sum\limits_{k=1}^3 p_k = 1$

どれか一つだけになる性質を排他的と呼ぶ。グー・チョキ・パーやサイコロの目などは排他的事象。

言及しなかったが、もちろんコインの裏表も排他的事象。

量子力学ではないので裏と表が同時に出現するとかは言わない。

排他的な事象は、ベクトルを使って表現できる。

グー・チョキ・パーのそれぞれの事象を3次元のベクトル$\mathbf{x}_1, \mathbf{x}_2, \mathbf{x}_3$で、

\begin{align*}
\mathbf{x}_1 &=(1, 0, 0) \qquad \text{# グー} \\
\mathbf{x}_2 &=(0, 1, 0) \qquad \text{# チョキ} \\
\mathbf{x}_3 &=(0,0,1) \qquad \text{# パー}
\end{align*}

と表現することができる。

ベクトルの要素の一つだけが1で他は0にすることで事象を完全に区別している。

機械学習でよく出てくるone-hotエンコーディングと同じ考えだ。

$X = (x_1, x_2, x_3), \ x_k \in \{0, 1\} \ \text{where}\ \sum\limits_{k=1}^3 x_k = 1 \quad \text{# one-hotエンコーディングと同等}$ 

以上の表記を使って、グー・チョキ・パーの出る確率は、

$\text{Cat}(X=\mathbf{x}) = {p_1}^{x_1} \cdot {p_2}^{x_2} \cdot {p_3}^{x_3}$

と書ける。$\text{Cat}$はCategoricalの略。

ここでは確率が$p_1, p_2, p_3$と3つあるのは、確率変数の次元が3次元だから。

実際には、3つの内の1つは他の2つが決まると定まる。なぜなら、$\sum\limits_{k=1}^3 p_i = 1$だから。

それぞれのカテゴリに対して1回の事象が起こる確率が固定されていることになる。

例えば、グーが出る確率は、

$\begin{align*}
\text{Cat}(X=\mathbf{x}_1) &= {p_1}^1 \cdot {p_2}^0 \cdot {p_3}^0 \\
&= p_1
\end{align*}$

となる。

また、ベクトルの要素の数だけ確率があるので$p_1, p_2, p_3$などを$\text{Cat}$の入力値として明記しない。

必要な時に明示すれば良い。例えば、

$\begin{align*}
\text{Cat}(X=\mathbf{x}; \mathbf{p}=(0.2, 0.3, 0.5)) &= 0.2^{x_1} \cdot 0.3^{x_2} \cdot 0.5^{x_3}
\end{align*}$

3.2. サイコロ🔝

もう一例として、サイコロを取り上げる。一度の試行で1から6までの数字のどれかが出る。

通常は、サイコロの数字はそれぞれ$\frac{1}{6}$の確率で出ると想定するが、異なる確率を考えることもできる。

壊れているサイコロやイカサマのサイコロとか。

よって、それぞれの目の出る確率を$p_1, p_2, p_3, p_4, p_5, p_6$とする。

もちろん、確率の合計は1にならないとおかしいので、以下の関係を前提とする。

$\sum\limits_{k=1}^6 p_k = 1$

また、1度に出るサイコロの目は1つだけ。例えば、1と6の目が同時に出ることはない。つまり排他的。

サイコロの目を$\mathbf{x} = (x_1, x_2, x_3, x_4, x_5, x_6)$と6次元のベクトルで表現する。

ただし、$x_1$から$x_6$のどれか一つだけ1で他は0とする。つまり、one-hotエンコーディング。

サイコロでは1から6の数値が出るが、カテゴリカル分布を考えるときにはその数値的な意味(例えば順序など)は考えない。あくまでも6つに分類される各事象が起こる確率を捉えるだけ。

例えば、サイコロを振って1の目が出る事象は$\mathbf{x}_1 = (1, 0, 0, 0, 0, 0)$となる。

よって、サイコロを振って1の目が出る確率は、

$\begin{align*}
\text{Cat}(X=\mathbf{x}_1) &= {p_1}^1 \cdot {p_2}^0 \cdot {p_3}^0 \cdot {p_4}^0 \cdot {p_5}^0 \cdot {p_6}^0 \\
&= p_1
\end{align*}$

となる。

グー・チョキ・パーの時と同様に、サイコロの目のどれかが出る確率は、

$\text{Cat}(X=\mathbf{x}) = {p_1}^{x_1} \cdot {p_2}^{x_2} \cdot {p_3}^{x_3} \cdot {p_4}^{x_4} \cdot {p_5}^{x_5} \cdot {p_6}^{x_6}$

と書ける。$K=3$が$K=6$になっただけ。

でも長いので、同じことを下記のようにまとめて表記することができる。

$\text{Cat}(X=\mathbf{x}) = \prod\limits_{k=1}^6 {p_k}^{x_k}$

$\prod\limits_{k=1}^K$は$k=1$から$k=K$の項を全て掛け合わせることを意味する。

もし、ピンと来ないならサイコロで目が2の場合で計算してみて欲しい。

$\begin{align*}
\mathbf{x}_2 &=(x_1, x_2, x_3, x_4, x_5, x_6) \\
&= (0,\ \,1,\ \,0,\ \,0,\ \,0,\ \,0)
\end{align*}$

これは$x_1=0, x_2=1, x_3=0, x_4=0, x_5=0, x_6=0$ということ。

カテゴリカル分布の確率の式に当てはめると、

$\begin{align*}
\text{Cat}(X=\mathbf{x}_2) &= \prod\limits_{k=1}^6 p_k^{x_k} \\
&= {p_1}^{x_1} \cdot {p_2}^{x_2} \cdot {p_3}^{x_3} \cdot {p_4}^{x_4} \cdot {p_5}^{x_5} \cdot {p_6}^{x_6} \\
&= {p_1}^0 \cdot\ {p_2}^1 \cdot\ {p_3}^0 \cdot\ {p_4}^0 \cdot\ {p_5}^0 \cdot\ {p_6}^0 \\
&= p_2
\end{align*}$

3とか他の数字でも確認できるはず。

3.3. 定義🔝

以上をまとめると、一般にカテゴリカル分布に従う$K$次元変数$X$の確率は、

$\text{Cat}(X=\mathbf{x}) = \prod\limits_{k=1}^K {p_k}^{x_k}$

また、前述したように、カテゴリカル分布では以下の条件を満たす必要がある。

$\sum\limits_{k=1}^K p_k = 1, \quad 0 \le p_k \le 1 \\
X = (x_1, \dots, x_K), \ x_k \in \{0, 1\} \ \text{where}\ \sum\limits_{k=1}^K x_k = 1 \quad \text{# one-hotエンコーディング}$ 

「サイコロ如きに大袈裟な」と時々ふと思う。

カテゴリカル分布で$K=2$のケースは、分類する数が2つなのでベルヌーイ分布になる。

だったら2次元の変数なのでは思われた方は鋭い。確かにベルヌーイ試行は2次元の変数としても扱える。

その場合、表が$X=(1, 0)$で裏が$X=(0, 1)$となる。

$\begin{align*}
\text{Cat}(X=\mathbf{x}) &= \prod\limits_{k=1}^2 p_k^{x_k} \\
&= p_1^{x_1} p_2^{x_2} \\
\\
&p_1 + p_2 = 1, \\
&x_1, x_2 \in \{0, 1\} \ \text{where}\ x_1 + x_2 = 1
\end{align*}$

ただし、$p_2 = 1 – p_1$なので、$p_1 = p$とすると$p_2 = 1 – p$となる。また、$x_1 = x$とすると、$x_2 = 1 – x$なので、

$\begin{align*}
\text{Cat}(X=\mathbf{x}) &= p_1^{x_1} p_2^{x_2} \\
&= p^x (1-p)^{1-x} \\
&= \text{Ber}(X=x), \quad x \in \{0, 1\}
\end{align*}$

となり、ベルヌーイ分布に等しい。

確率変数$X$が返す値がスカラー($X=0$と$X=1$)になり、同じ内容をより簡単に表現できる。

だから、ベルヌーイ分布から話を始めた方が分かりやすい。

3.4. 期待値と分散🔝

カテゴリカル分布では、分類された事象のそれぞれが起こる確率を考えており、確率変数$X$のベクトル値には数値的な意味がないので、平均や分散というものを考えない。(問題の設定の仕方にもよるが)

分類された各事象が起こる確率が$p_i$なので、その他の事象が起こる確率は$1-p_i$となり、各事象ごとに確率が$p_i$のベルヌーイ分布になっている。よって、事象ごとの期待値は$p_i$で分散は$p_i(1-p_i)$になる。

4. 多項分布🔝

ついにラスボスの登場だ。こいつを打倒すれば天下り的にこれまでの分布も説明できる賢者になれる。

多項分布はカテゴリカル分布に従う試行を$n$回行なったもの。

$n=1$ならば、カテゴリカル分布と同じで、各要素は確率$p_i$のベルヌーイ分布に従う。

また、多項分布は二項分布を多項に拡張したものとも考えられる。

二項分布では$n$回の試行で$X=1$が$m$回起こる確率を考えた。

$\text{Bin}(n, m) = {}_n C_m p^m (1-p)^{n-m} = \binom{n}{m} p^m(1-p)^{n-m}$

多項分布では、$X=(x_1, x_2, \dots, x_K)$の各事象がそれぞれ$m_1$回、$m_2$回、…、$m_K$回起きる確率を考える。

4.1. サイコロ🔝

例えば、サイコロを10回振って、

1の目が1回($m_1 = 1$)
2の目が3回($m_2 = 3$)
3の目が2回($m_3 = 2$)
4の目が1回($m_4 = 1$)
5の目が2回($m_5 = 2$)
6の目が1回($m_6 = 1$)

が出る確率を計算する。

また、当然だが、

$\sum\limits_{k=1}^6 m_k = 10$

となる必要がある。

上記のパターンが出る組み合わせは、

$\frac{n!}{m_1! \, m_2! \, m_3! \, m_4! \, m_5! \, m_6!} = \frac{10!}{1! \, 3! \, 2! \, 1! \, 2! \, 1!} = 302,400$

あり、そのうちの一つが出る確率は、

$p_1^{m_1} \cdot p_2^{m_2} \cdot p_3^{m_3} \cdot p_4^{m_4} \cdot p_5^{m_5} \cdot p_6^{m_6} = {p_1}^1 \cdot {p_2}^3 \cdot {p_3}^2 \cdot {p_4}^1 \cdot {p_5}^2 \cdot {p_6}^1$

となる。

仮に、$p_1 = p_2 = p_3 = p_4 = p_5 = p_6 = \frac{1}{6}$とすると、合計の確率は、

$302,400 \times (\frac{1}{6})^{10} = 0.005001143118427$

となる。約0.5%といったところか。

4.2. 定義🔝

一般に、多項分布は次のように表記できる。

$\text{Mul}(n, \mathbf{m}) = \frac{n!}{m_1! \, \dots \, m_K!} \prod\limits_{k=1}^K p_k^{m_k}, \quad \mathbf{m} = (m_1, m_2, \dots, m_K)$

$\text{Mul}$はMultinomial distribution(多項分布)の略。

また、以下の条件が満たされる必要がある。

$\sum\limits_{k=1}^K p_k = 1 \\
\sum\limits_{k=1}^K m_k = n, \quad 0 \le m_k \le n$ 

4.3. 二項分布🔝

多項分布で$K=2$とすると、

$\begin{align*}
\text{Mul}(n, \mathbf{m}=(m_1, m_2)) &= \frac{n!}{m_1! \, m_2!} \prod\limits_{k=1}^2 p_k^{m_k} \\
&= \frac{n!}{m! (n-m)!} p_1^m \, p_2^{n-m} \qquad \text{#}\ m_1 =m,\ m_2 = n-m\\
&= {}_nC_m p^m (1-p)^{n-m} \ \ \ \qquad \text{#}\ p_1=p,\ p_2=1-p\\
&= \text{Bin}(n, m)
\end{align*}$

となり、二項分布が導かれる。

4.4. カテゴリカル分布🔝

多項分布で$n=1$とすると、一回の試行しかなく$\mathbf{m}$が$K$次元のone-hotエンコーディングと同じになる。

$\mathbf{m} = (m_1, \dots, m_K), \ \sum\limits_{k=1}^K m_k = n = 1,\ m_k \in \{0, 1\}$

よって、

$\begin{align*}
\text{Mul}(n=1, \mathbf{m}) &= \frac{n!}{m_1! \, \dots \, m_K!} \prod\limits_{k=1}^K p_k^{m_k} \\
&=\prod\limits_{k=1}^K p_k^{m_k} \\
&= \text{Cat}(X=\mathbf{m})
\end{align*}$

となり、カテゴリカル分布が導かれる。

5. 参照🔝

Deep Learning

Chapter 3: Probability and Information Theory

Iαn Goodfelow、Yoshua Bengio、Aaron Courville

深層学習 (アスキードワンゴ)(翻訳版)


徹底攻略ディープラーニングE資格エンジニア問題集 第2版

第2章 線形代数

スキルアップAI株式会社



コメントを残す

メールアドレスは公開されません。