学習後にいつまでもモデルが保存されない

仕事から帰ってきてすぐにPCを点け、学習を開始→朝に結果を確認するという生活ルーティンを取っていますが、朝に起きても学習が終わっていない(モデルが保存されていない)ことが続いていました。

ということで、困ったときの味方であるlogging君とprint君をtrain_rl_policy_with_value_hcpe_bootstrap.pyに差し込みまくることで原因を突き止めることにしました。(何でもかんでも差し込んだせいで、ログの量が膨大になって見にくくなって死んだ)

 

 

その結果、mini_batch作成のところで、4時間以上かかっていることが判明しました。

ここは学習データ量に比例して処理時間が増えていくので、例えば教師局面数が900万あると、自分のローカル環境では平気で4〜5時間はかかってしまいます。

 

ということで解決策としては、

①早く帰ってきて早めに学習させ始めるか

②日中会社に行っている間も学習をさせ続けるか

の2つですが、

個人的には後者は避けたいところなので、結局は「仕事早く終わらせて帰宅しましょう」ということになる....。

なにそれ世知辛い。