ポスト

SD3でT5XXLが加わって言語画像モデルが大きくなると、画像を生成するのにそっちの役割が大きくなるので(画像の詳細までT5XXLの特徴量に含まれてる)、T5XXLがアニメイラストで学習されていない以上、アニメイラスト向けへのfine tuningはどうしても難易度が上がりそう、という理解……。

メニューを開く

Kohya Tech@kohya_tech

みんなのコメント

メニューを開く

text encoderの学習も必須ってことですかね?

人気ポスト

もっと見る
Yahoo!リアルタイム検索アプリ