ラビットチャレンジレポート深層学習Day３

Day3
01 RNN
02 LSTM
03 GRU
04 双方向RNN
05 Seq2Seq
06 Word2Vec
07 Attention Mechanism

01 RNN
 RNN(再帰的(Recurrent)ニューラルネットワーク)
音声データやテキストデータ年度ごとのA社の売上高、1時間ごとの東京都の降水量、地球
上で発生した地震の時刻と場所、震度などの記録などの時系列データ(時間順序を追って取得
されたデータ)に対応可能。
前の層の中間層が次の層の中間層へのインプットとなる。(この重みWが重要。確認テスト
でも問われた）
これにより、例えばx2はy2, y3, y4それぞれにインプットとして影響を与えている。
y1 = g(Wout * z1 + c) , z1 = f(Win * x1 + W * z0 + b) ← y1をx, z0, z1, Win, W, Woutで表現（確認テスト）

01 RNN
 BPTT
RNNでの誤差逆伝番法。
WinにたどりつくにはWinの関数であ
るuを最終的に微分
また、これは左の式より明らかにx＾t
uにたどりつくには、
Eはyの関数
(yはvの関数)
(vはzの関数)
zはuの関数

01 RNN
 BPTT
RNNでの誤差逆伝番法。
WoutにたどりつくにはWoutの関数であるv
を最終的に微分
また、これは左の式より明らかにz＾t
vにたどりつくには、
Eは(yの関数
yは)vの関数
しかし、前の層、前の層へと逆伝番していき
勾配が消失する問題が生じてくる。

02 LSTM
 LSTM(Long Short Term Memory)
ｘ
ht-1
Ct-1
和
積
積
σ
σ tanh
和
tanh
σ
Ct
ht
積
CEC
忘却ゲート入力ゲート出力ゲート
・Sigmoid（σ）との積で、どの情報を重要視するかを実施している
例えばゼロがかけられた要素はゼロで、１がかけられた要素は１
・tanhで一度正規化している
f
i
g
o

02 LSTM
 CEC
過去のデータを保存するためのユニット
入力データについて、時間依存度に関係なく重みが一律であり学習特性が低かったので、入力ゲ
ート・出力ゲートができた。また、過去の不要な情報を保持し続けるので、忘却ゲートができた
（確認テスト）
 入力ゲート
「前のユニット(1つ前の時間のユニット)の入力をどの程度受け取るか」を調整するためのゲート
 出力ゲート
「前のユニット(1つ前の時間のユニット)の出力をどの程度受け取るか」を調整するためのゲート
 忘却ゲート
「過去の情報が入っているCECの中身をどの程度残すか」を調整するためのゲート
※文脈上でなくなってもかまわないものは消える（確認テスト）

02 LSTM
 LSTM(Long Short Term Memory)
ｘ
ht-1
Ct-1
和
積
積
σ
σ tanh
和
tanh
σ
Ct
ht
積
CEC
忘却ゲート入力ゲート出力ゲート
覗き穴結合
過去の情報を保持するCECの
値に重み行列を介して伝番

03 GRU
 GRU(Gated Recurrent Unit)
LSTMのパラメータを減らし計算負荷を減らしたもの
ｘ
ht-1
積
積
σ
σ
tanh
ht
積
１－
和
逆に、パラメータが多く計算負
荷があるというのがLSTMの課
題（確認テスト）

04 双方向RNN
 双方向RNN
未来の情報もインプットに入れたもの

05 seq2seq
 seq2seq
Sequence-to-sequenceは深層学習で用いられるモデルの１つであり，機械翻訳や文章要約、
画像キャプションの付与などの分野で使われている
Encoder、Decoderでお互い学習済みのモデルが、Encoderからのfinal state（状態ベクト
ル）を受けて出力し、その出力をインプットに次を出力を繰り返す。
Encoder Decoder
I am Mike
私はミケ
です。
.
final state
(thought vector)

05 seq2seq
 HRED(the hierarchical recurrent encoder-decoder)およびVHRED
HREDでは、エンコーダーとデコーダーに加えて、文脈を学習するRNNを追加する。つま
り、単語の時系列を予測するRNNと、文章の時系列を予測するRNNが階層的な構造になって
いる。ただ、これだと毎回同じ返しや短い返答となるため、VAEを取り入れたVHREDがある。
VAEは潜在変数zで表現したもの（Zは確率分布を仮定）
Encoder Decoder
RNN
Encoder Decoder
RNN
・・・

06 word2vec
 word2vec
従来はone-hotベクトルと呼ばれるものでベクトル表現していた。これは配列と各単語を対
応付け、該当する単語の配列の箇所を１をたてるなどしてフラグのように使うもの。これは
本当にフラグであり、数値に意味を持たない。
そこで、word2vecは単語の意味を数値で表現することにした。
配列の１番目は高さ、２番目は幅、３番目は色などとしてそれぞれをどのくらいのものか
数値的に表す。
こうすることで、冷たい + 水 = 氷のようなこともできるようになる。
例：私はミケですという文章があったときに配列の１番目を私、２番目をは、３番目をミケ、４番目をです
とすると、配列として「ミケ」は[0, 0, 1, 0]と表現することができる。

07 Attention Mechanism
 Attention Mechanism
seq2seqでの入力と出力で、どの単語が関連しているかの関連度を学習する仕組み

02 LSTM
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Activation
from tensorflow.keras.layers import LSTM
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.callbacks import EarlyStopping
import numpy as np
import matplotlib.pyplot as plt
def sin(x, T=100):
return np.sin(2.0 * np.pi * x / T)
# sin波にノイズを付与する
def toy_problem(T=100, ampl=0.05):
x = np.arange(0, 2 * T + 1)
noise = ampl * np.random.uniform(low=-1.0, high=1.0, size=len(x))
return sin(x) + noise
f = toy_problem()
 コードを載せてあったサイトをまねて、実際に実行してみた（正弦波の予測）

def make_dataset(low_data, n_prev=100):
data, target = [], []
maxlen = 25
for i in range(len(low_data)-maxlen):
data.append(low_data[i:i + maxlen])
target.append(low_data[i + maxlen])
re_data = np.array(data).reshape(len(data), maxlen, 1)
re_target = np.array(target).reshape(len(data), 1)
return re_data, re_target
02 LSTM

#g -> 学習データ，h -> 学習ラベル
g, h = make_dataset(f)
length_of_sequence = g.shape[1]
in_out_neurons = 1
n_hidden = 300
model = Sequential()
model.add(LSTM(n_hidden, batch_input_shape=(None, length_of_sequence, in_out_neurons), return_sequences
=False))
model.add(Dense(in_out_neurons))
model.add(Activation("linear"))
optimizer = Adam(lr=0.001)
model.compile(loss="mean_squared_error", optimizer=optimizer)
early_stopping = EarlyStopping(monitor='val_loss', mode='auto', patience=20)
model.fit(g, h,
batch_size=300,
epochs=100,
validation_split=0.1,
callbacks=[early_stopping]
)
LSTMを使用
02 LSTM

# 予測
predicted = model.predict(g)
plt.figure()
plt.plot(range(25,len(predicted)+25),predicted, color="r", label="predict_data")
plt.plot(range(0, len(f)), f, color="b", label="row_data")
plt.legend()
plt.show()
02 LSTM

03 GRU
# シグモイド
def sigmoid(x):
return 1 / (1 + np.exp(-x))
# GRUモデル
# N:バッチサイズ、D:入力単語数、H:中間層の出力次元数
class GRU:
def __init__(self, wx, wh, b):
self.params = wx, wh, b # # wx[D,3H], wh[H,3H], b[3H]
def forward(self, x, h_prev):
wx, wh, b = self.params
H = wh.shape[0]
wxz, wxr, wxh = wx[:, :H], wx[:, H:2*H], wx[:, 2*H:] # 入力用重み
whz, whr, whh = wh[:, :H], wh[:, H:2*H], wh[:, 2*H:] # 前の時刻出力用重み
bz, br, bh = b[:H], b[H:2*H], b[2*H:] # バイアス
z = sigmoid(np.dot(h_prev, whz) + np.dot(x, wxz) + bz) # updateゲート
r = sigmoid(np.dot(h_prev, whr) + np.dot(x, wxr) + br) # resetゲート
h_hat = sigmoid(np.dot(r*h_prev, whh) + np.dot(x, wxh) + bh )
h_next = (1-z) * h_prev + z * h_hat
return h_next

03 GRU
import numpy as np
# 入力を適当に定義
x = np.arange(25).reshape(5,5)
h_prev = np.ones((5,10))
# 重みを初期化
wx = np.random.randn(5, 30)
wh = np.random.randn(10, 30)
b = np.zeros(30)
# モデルインスタンス
gru = GRU(wx, wh, b)
# 順伝播
gru.forward(x, h_prev)

05 seq2seq
こちらを参照してコードを実行。確かに最後には８割ほどの正答率となっている。
https://www.pytry3g.com/entry/pytorch-seq2seq#Google-
Colaboratory%E3%81%A7%E3%83%97%E3%83%AD%E3%82%B0%E3%83%A9%E3%83%A0%E3%82%92%E5%8B%95%E3%8
1%8B%E3%81%99

参考
 RNN, LSTM
https://sagantaf.hatenablog.com/entry/2019/06/04/225239
https://tips-memo.com/python-lstm
https://qiita.com/kazukiii/items/df809d6cd5d7d1f57be3
 GRU
https://konchangakita.hatenablog.com/entry/2021/01/30/210000
 word2vec
https://deepage.net/bigdata/machine_learning/2016/09/02/word2vec_power_of_word_ve
ctor.html
 VAE
https://zenn.dev/azamshato/articles/47a059783fabd1
 Seq2seq、Atention
https://tips-memo.com/translation-jayalmmar-attention

ラビットチャレンジレポート深層学習Day３

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to ラビットチャレンジレポート深層学習Day３

Similar to ラビットチャレンジレポート深層学習Day３ (20)

More from ssuserf4860b

More from ssuserf4860b (6)