CLIPTextEncodeSDXLRefiner

(comfyanonymous/ComfyUI)
advanced/conditioning/CLIPTextEncodeSDXLRefiner
プロンプトテキストを CLIP でエンコードする (SDXL refiner 用)

CLIPTextEncode の SDXL refiner model 専用版です。 CLIPTextEncode も SDXL に対応していますが、CLIPTextEncodeSDXLRefiner では更に細かい指定が可能です。

SDXL refiner model では、学習元画像のサイズ (original size) も学習の入力になっていて、推論時のコンディショニングで指定することができます。 利用している CLIP は、(base model とは違い) OpenCLIP ViT-bigG の一つのみです。

パラメータについては、小さな denoise で refiner model を文字通り refiner 用途で利用するか、大きな denoise で『画像生成』するかによって、影響度合いが違うようです。

clip

CLIP のモデルを指定します。 refiner model に対応したモデルが必要です。

width
height

学習元画像のサイズを指定します。 公式レポート中で、original size、woriginalhoriginalCSIZE 等と表現されている値です。

refiner 用途ではあまり大きな影響はありません。

画像生成用途では、たとえば、流通している画像のスタイルがサイズによって偏っている場合に、特定のスタイルを狙うために使用できます。 negative 側では、小さなサイズを指定すると結果が向上することもあります。

特に狙うところが無いのであれば、生成する画像のサイズをそのまま指定するのでも良いでしょう。

text

OpenCLIP ViT-bigG の入力となるプロンプトテキストを指定します。

refiner 用途では、positive、negative 共に空のプロンプトにした方が良い結果が得られることもあります。

ascore

詳細は不明です (公式レポートにも記述が無いような?)。 コード中では、aesthetic_score という名前で呼ばれています。

refiner 用途ではあまり大きな影響はありません。

画像生成用途では、negative 側の値は positive 側より小さくした方が良いようです。 逆にすると不気味な絵が生成されます。

関連

使用例

まだ