We can't find the internet
Attempting to reconnect
CLIPTextEncodeSDXL
advanced/conditioning/CLIPTextEncodeSDXL
CLIPTextEncode の SDXL base model 専用版です。 CLIPTextEncode も SDXL に対応していますが、CLIPTextEncodeSDXL では更に細かい指定が可能です。
SDXL base model では、学習元画像のサイズ (original size) や、学習バッチ内の (resize & crop 済み) 画像サイズ (target size あるいは bucket size)、target size に揃えるために行なった crop 量も学習の入力になっていて、推論時のコンディショニングで指定することができます。
また、base model では 2 種類の CLIP を同時に併用しています。 このノードでは、それぞれの CLIP に別々のプロンプトテキストを送ることができます (有効な用途があるかは、まだ分かりません)。
- clip
-
CLIP のモデルを指定します。 base model に対応したモデルが必要です。
- width
- height
-
学習元画像のサイズを指定します。 公式レポート中で、original size、、、 等と表現されている値です。
たとえば、流通している画像のスタイルがサイズによって偏っている場合に、特定のスタイルを狙うために使用できます。 negative 側では、小さなサイズを指定すると結果が向上することもあります。
特に狙うところが無いのであれば、生成する画像のサイズをそのまま指定するのでも良いでしょう。
- crop_w
- crop_h
-
resize 後の crop 量 (上側または左側の捨てた幅) を指定します。 公式レポート中で、、 等と表現されている値です。
人物立像の肩から下だけ、なども狙えます。
- target_width
- target_height
-
学習バッチ内の画像のサイズを指定します。 公式レポート中で、target size、bucket size、、 等と表現されている値です。
基本的には、最終学習時の条件に近くなるように、target_width * target_height = 1024^2 を基準にすると良いでしょう。
また、positive 側は大きめ、negative 側は小さめ、にした方が、良い結果が得られることが多い気がします。
- text_l
-
CLIP ViT-L の入力となるプロンプトテキストを指定します。
- text_g
-
OpenCLIP ViT-bigG の入力となるプロンプトテキストを指定します。
関連
- モデル読み込み: DualCLIPLoader、CheckpointLoaderSimple
- 通常版も SDXL に対応: CLIPTextEncode
- SDXL refiner model 用: CLIPTextEncodeSDXLRefiner
- SDXL の公式レポート: github.com/Stability-AI/.../sdxl_report.pdf
- Dr.Lt.Data による分かりやすい解説 (韓国語): https://prompts.co.kr/articles/6344