人気ポスト

これ,多分そうかなってことを実験を通じて明確にしているのだけど「training LLMs with larger batch sizes can enhance the models’ robustness to forgetting.」の部分はミニバッチサイズが学習の時間的な効率以外に影響を与えるというなら意外ですね arxiv.org/pdf/2406.11813

メニューを開く

ほかの人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ