人気ポスト

### 学習 - DeBERTaなどと比べて学習率は大きめ(1e-4〜1e-3) - freeze layerしたいときはlayers_to_transformを設定 ### 推論 - 時間がかかるのでUniform Length Batchingなどで効率化する - promptの選択肢をシャッフルすることでTTAできる

メニューを開く

みんなのコメント

メニューを開く

### その他 - おなじみのCustom Headerもできるがあまり効果なさそう - 分類のようなNot生成タスクでもPromptの影響がある - 70Bモデルも工夫次第で動かせる

ほかの人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ