6. バッチサイズと高速化
※ Extremely Large Minibatch SGD: Training ResNet-50 on ImageNet in 15 Minutes
https://www.preferred-networks.jp/docs/imagenet_in_15min.pdf
高速化のためにバッチサイズ
を増やしている
23. ニューラルネットワークでのニュートン法
Training
Loss
K-FAC
converges at
the same rate,
regardless of
batch size!
Per-Example Progress: Loss
Matthew Johnson&Daniel Duckworth - “KFAC and Natural Gradients”
NIPS 2017 Workshop: Deep Learning At Supercomputer Scale
バッチサイズ4096でも