CLIPTextEncodeSDXL

(comfyanonymous/ComfyUI)
advanced/conditioning/CLIPTextEncodeSDXL
プロンプトテキストを CLIP でエンコードする (SDXL base 用)

CLIPTextEncode の SDXL base model 専用版です。 CLIPTextEncode も SDXL に対応していますが、CLIPTextEncodeSDXL では更に細かい指定が可能です。

SDXL base model では、学習元画像のサイズ (original size) や、学習バッチ内の (resize & crop 済み) 画像サイズ (target size あるいは bucket size)、target size に揃えるために行なった crop 量も学習の入力になっていて、推論時のコンディショニングで指定することができます。

また、base model では 2 種類の CLIP を同時に併用しています。 このノードでは、それぞれの CLIP に別々のプロンプトテキストを送ることができます (有効な用途があるかは、まだ分かりません)。

clip

CLIP のモデルを指定します。 base model に対応したモデルが必要です。

width
height

学習元画像のサイズを指定します。 公式レポート中で、original size、woriginalhoriginalCSIZE 等と表現されている値です。

たとえば、流通している画像のスタイルがサイズによって偏っている場合に、特定のスタイルを狙うために使用できます。 negative 側では、小さなサイズを指定すると結果が向上することもあります。

特に狙うところが無いのであれば、生成する画像のサイズをそのまま指定するのでも良いでしょう。

crop_w
crop_h

resize 後の crop 量 (上側または左側の捨てた幅) を指定します。 公式レポート中で、ctopcleft 等と表現されている値です。

人物立像の肩から下だけ、なども狙えます。

target_width
target_height

学習バッチ内の画像のサイズを指定します。 公式レポート中で、target size、bucket size、wtgthtgt 等と表現されている値です。

基本的には、最終学習時の条件に近くなるように、target_width * target_height = 1024^2 を基準にすると良いでしょう。

また、positive 側は大きめ、negative 側は小さめ、にした方が、良い結果が得られることが多い気がします。

text_l

CLIP ViT-L の入力となるプロンプトテキストを指定します。

text_g

OpenCLIP ViT-bigG の入力となるプロンプトテキストを指定します。

関連

使用例

まだ