記事一覧へ戻るComfyUI

画像生成AIのモデルとは?SD1.5・SDXLの違いと選び方

画像生成AIで使うモデルの基本と、SD1.5系・SDXL系の違いを整理します。

はじめに

前回の記事では、ComfyUI Portable版を導入して、最初の1枚を生成するところまで確認しました。

今回はその続きとして、画像生成で使うモデルの基本を整理していきます。

同じプロンプトを書いても、使うモデルが変わると、絵柄・質感・構図・プロンプトの効き方が変わることがあります。

この記事では、SD1.5系とSDXL系の違いを、画像サイズ・軽さ・得意な表現・ワークフローの違いから見ていきます。

この記事でわかること

1. 画像生成AIの「モデル」とは

画像生成AIにおけるモデルは、画像を作るための土台になるファイルです。

ComfyUIでは、モデルは checkpoint や チェックポイント と呼ばれることもあります。ワークフローの中では、Load Checkpointなどのノードから使用するモデルを選びます。

モデルによって変わるものは、たとえば次のような部分です。

  • 絵柄
  • 色味
  • 質感
  • 背景の描き込み
  • 人物の雰囲気
  • 構図の出方
  • プロンプトの効き方
  • 得意な表現、苦手な表現

つまり、プロンプトだけで画像の結果が決まるわけではありません。同じプロンプトでも、使うモデルが変わると、出てくる画像の雰囲気は大きく変わることがあります。

ComfyUIのLoad Checkpointノードでモデルを選ぶ画面
ComfyUIでは、Load Checkpointノードなどで使用するモデルを選びます。ここで選ぶモデルによって、生成される画像の雰囲気やプロンプトの効き方が変わります。

2. まずはモデルの系統をざっくり整理

モデルには、SD1.5系やSDXL系のような大きな系統があります。

ここで少し注意したいのは、SD1.5やSDXLは、アニメ系・リアル系といった絵柄ジャンルそのものの名前ではないという点です。

モデルという言葉は、絵柄や雰囲気の違いとして語られることもあります。ただし、この記事で扱うSD1.5系・SDXL系の違いは、「アニメ系かリアル系か」という分類ではありません。

SD1.5系やSDXL系は、モデルの大きな世代・土台のようなものです。その中に、アニメ寄り、リアル寄り、イラスト寄りなど、さまざまな方向に調整された派生モデルがあります。

この記事では、個別の派生モデルの違いではなく、まずSD1.5系とSDXL系という大きな分け方を整理していきます。

SD1.5やSDXLは、絵柄ジャンル名ではなく、大きな系統として考えると分かりやすいです。その中に、さまざまな方向に調整された派生モデルがあります。

3. SD1.5系とSDXL系は何が違う?

SD1.5系とSDXL系の違いは、単に「古い・新しい」だけではありません。

また、先ほど触れたように、「SD1.5系だからアニメ向き」「SDXL系だからリアル向き」というような絵柄ジャンルの違いでもありません。

ここでは、モデルの大きな系統として、どんな部分に違いが出やすいのかを見ていきます。

大きく見ると、違いが出やすいのは次のような部分です。

  • よく使われる画像サイズ
  • PCへの負荷
  • 得意な表現の傾向
  • 必要になるワークフロー

画像サイズの違い

SD1.5系は、512×512px前後の画像サイズで使われることが多い系統です。一方で、SDXL系は1024×1024px前後の大きめの画像サイズで使われることが多い系統です。

ここでいう px は、画像の一辺の長さを表す単位です。たとえば、512×512pxは小さめの正方形画像、1024×1024pxはそれより大きめの正方形画像として考えると分かりやすいです。

もちろん、必ずそのサイズでしか使えないという意味ではありません。ただ、最初は「SD1.5系は512px前後」「SDXL系は1024px前後」がよく使われる目安、と覚えておくと理解しやすいです。

PCへの負荷の違い

SD1.5系は、比較的軽く扱いやすい系統です。PCへの負荷を抑えながら試しやすく、古くから使われている分、情報や作例も多く見つけやすいです。

SDXL系は、SD1.5系より重くなりやすいです。大きめの画像サイズで生成することが多く、モデル自体も重めになるため、PCの性能によっては生成に時間がかかる場合があります。

得意な表現の違い

SD1.5系は、派生モデルや作例が多く、既存の情報を参考にしやすいのが強みです。軽く試したり、作例を見ながら調整したりする用途では、今でも使いやすい場面があります。

SDXL系は、大きめの画像サイズや、背景込みのまとまり、全体の質感を出したい場面で使われることが多いです。人物だけでなく、背景や光の雰囲気も含めて見たい場合は、SDXL系が合うこともあります。

ただし、「SDXL系なら必ずきれい」「SD1.5系は古いから使えない」という話ではありません。実際の結果は、使うモデルの調整内容、プロンプト、ワークフローによって大きく変わります。

ワークフローの違い

SD1.5系とSDXL系では、ComfyUIで使うワークフローが変わることがあります。

たとえば、画像サイズの目安やノード構成が違うため、モデルだけを差し替えればいつでも同じように動く、とは限りません。

最初は、使うモデルに合ったワークフローを使うと覚えておくと安心です。

4. SD1.5系とSDXL系のざっくり比較

ここまでの内容を、表にまとめると次のようになります。

比較するところSD1.5系SDXL系
大きな位置づけ古くから使われている定番系SD1.5より新しい世代
画像サイズの目安512×512px前後で使われることが多い1024×1024px前後で使われることが多い
PCへの負荷比較的軽めSD1.5系より重め
得意な方向軽く試す、既存情報を参考にする、作例を見ながら調整する大きめの画像、背景込みの表現、全体の質感
情報量・素材古くから使われていて情報や作例が多い新しめだが、情報や作例も増えている
ワークフローSD1.5向けの構成を使うSDXL向けの構成を使う
最初の選び方軽さや作例の多さを重視したい場合新しめの環境や大きめの画像を試したい場合

この表は、あくまで大まかな整理です。同じSD1.5系・SDXL系でも、モデルごとに得意な絵柄や使い方は変わります。

5. 前回のワークフローで使ったモデルを確認してみる

前回の記事では、ComfyUI Portable版を起動して、シンプルなワークフローで最初の1枚を生成する流れを確認しました。

関連記事ComfyUIの始め方|Portable版の導入から画像生成まで

Portable版の導入から、ComfyUIを起動して最初の1枚を生成するまでをまとめています。

今回は、そのワークフローの中で、どのモデルが読み込まれていたのかを確認していきます。

前回使ったワークフローでは、Load Checkpointノードから v1-5-pruned-emaonly-fp16.safetensors を選んでいました。

これは、SD1.5 v1.5系のベースモデルを扱いやすくしたFP16版です。この記事では、SD1.5系の例として、この v1-5-pruned-emaonly-fp16.safetensors を使って見ていきます。

ここで大事なのは、モデルはワークフローの中で選ばれているという点です。ComfyUIでは、プロンプトを書く場所とは別に、モデルを読み込む場所があります。

前回のComfyUIワークフローでLoad Checkpointノードを確認する画面
前回使用したワークフローのモデル部分です。Load Checkpointノードで、使用するモデルを選んでいます。

ただし、SDXL系では推奨される画像サイズやワークフロー構成が変わることがあります。そのため、SDXL baseを見るときは、SDXL向けのワークフローを使って確認する方が分かりやすいです。

6. SD1.5とSDXLではワークフローも違うことがある

ComfyUIでは、モデルだけでなくワークフローも大事です。

SD1.5系とSDXL系では、推奨される画像サイズやノード構成が違うことがあります。そのため、モデルだけを差し替えれば必ず同じように動く、とは限りません。

今回の記事では、SD1.5側は前回の記事で使ったシンプルなtext-to-imageワークフローをベースにします。一方で、SDXL側はSDXL向けのワークフローを使って確認する想定です。

ComfyUI ExamplesのSDXL Examplesページ
ComfyUI ExamplesのSDXL Examplesページです。SDXL baseを使う場合の画像サイズの目安や、base/refinerを使うワークフロー例が紹介されています。

SDXL向けのサンプルワークフローでは、baseモデルに加えてrefinerモデルを使う構成が出てくることがあります。

refinerは仕上げ用のモデルですが、SDXL baseは単体でも使えます。この記事ではrefinerの詳しい使い方までは扱わず、SDXLではSD1.5と比べてワークフロー構成が変わることがある、という点だけ確認します。

SDXL向けワークフロー全体の例
SDXL向けワークフローの例です。SD1.5向けのシンプルなワークフローと比べると、画像サイズやノード構成が変わることがあります。
SDXLワークフロー内のbaseモデルとrefinerモデル周辺
SDXL向けのサンプルワークフローでは、baseモデルに加えてrefinerモデルを使う構成が出てくることがあります。この記事ではrefinerの詳しい使い方までは扱わず、ワークフロー構成の違いとして確認します。

7. 同じようなプロンプトでも結果は変わる

ここでは、近い内容のプロンプトを使って、SD1.5系の例とSDXL系の例で生成結果を見比べます。

比較に使ったプロンプトの例は、次のような内容です。

Positive:
1girl, short brown hair, gentle smile, white blouse, flower garden, soft natural light, upper body, looking at viewer, soft colors, detailed background, digital illustration, anime-style, soft shading

Negative:
photorealistic, realistic, photo, photography, low quality, bad anatomy, bad hands, extra fingers, missing fingers, blurry, deformed, distorted face, low resolution, text, watermark, logo

この記事では、細かいプロンプトの書き方までは深く扱いません。ここで見たいのは、「近い内容を指定しても、モデルやワークフローが変わると結果の雰囲気が変わる」という点です。

SD1.5系で生成した花畑の人物イラスト
SD1.5系の例です。512×512pxで生成しています。比較的シンプルで、淡い雰囲気の出力になっています。
SDXL系で生成した花畑の人物イラスト
SDXL系の例です。1024×1024pxで生成しています。背景や光の表現、画面全体のまとまりに違いが出ています。
近い内容のプロンプトを使い、SD1.5系の例とSDXL系の例で生成した比較画像です。使用するワークフロー、画像サイズ、seed、設定によって結果は変わるため、あくまで傾向を見るための一例です。

比較するときは、次のような部分を見ると分かりやすいです。

  • 顔立ち
  • 線の出方
  • 色味
  • 背景の描き込み
  • 服や小物の質感
  • 光の雰囲気
  • プロンプトの反映され方

SDXL系の方が新しいから必ず良い、という単純な話ではありません。軽く試したい場合はSD1.5系が扱いやすいこともありますし、目的によってはSD1.5系の方が合う場面もあります。

8. 最初はどちらを使えばいい?

最初に使うモデルを選ぶときは、「どちらが絶対に正解か」よりも、自分の目的に合っているかで考えると分かりやすいです。

軽さや情報の多さを重視するなら、SD1.5系から試すのもよいと思います。古くから使われている分、解説や作例が見つけやすく、PCへの負荷も比較的軽めです。

一方で、今から新しめの環境で覚えていくなら、SDXL系も候補になります。1024×1024px前後の生成や、背景込みのまとまりを見たい場合は、SDXL系の方が合う場面もあります。

使いたいモデルがすでに決まっている場合は、まずそのモデル向けの説明や推奨設定を確認しておくと安心です。まだ迷う場合は、最初からたくさん入れず、まずは1つに絞って試すのがおすすめです。

9. モデルとプロンプトの関係

画像生成では、モデルとプロンプトの両方が結果に関わります。

プロンプトは、作りたい画像の内容を伝えるためのメモのようなものです。ただし、そのプロンプトをどう受け取るかは、モデルによって変わります。

たとえば、同じ「white blouse」や「flower garden」という指定でも、モデルによって服の雰囲気や背景の描き方が変わることがあります。同じ単語を書いたからといって、すべてのモデルで同じように出るわけではありません。

そのため、プロンプト辞書を見るときも、「この単語を書けば必ず同じ絵になる」と考えるより、表現を探しやすくするためのメモとして使う方が自然です。

ComfyUIでモデルを選ぶノードとプロンプトを書くノード
ComfyUIでは、モデルを選ぶノードとプロンプトを書くノードが分かれています。同じプロンプトでも、読み込むモデルが変わると生成結果も変わります。

プロンプトの詳しい考え方や書き方は、次の記事で整理していきます。今回はまず、「モデルが変わると、同じプロンプトでも結果が変わることがある」と押さえておけば大丈夫です。

10. モデルを使うときの注意

モデルを使うときは、配布ページに書かれているライセンスや利用条件も確認しておきましょう。

特に、商用利用・再配布・マージモデルの公開・生成画像の販売などを考えている場合は、使うモデルごとの条件を確認してから進めるのが安全です。

11. まとめ

今回は、画像生成AIで使う「モデル」の基本と、SD1.5系・SDXL系の違いを整理しました。

モデルは、画像生成の土台になるものです。同じプロンプトを書いても、使うモデルが変わると、絵柄や質感、構図、背景の描き込み、プロンプトの効き方が変わることがあります。

SD1.5系とSDXL系は、アニメ系・リアル系といった絵柄ジャンルの名前ではなく、モデルの大きな系統として考えると分かりやすいです。その中に、アニメ寄り、リアル寄り、イラスト寄りなど、さまざまな方向に調整された派生モデルがあります。

SD1.5系は、比較的軽く、情報や作例が多い定番の系統です。SDXL系は、それより新しい世代で、1024×1024px前後の画像サイズや、背景込みの表現で使われることが多い系統です。

また、SD1.5とSDXLでは、モデルだけでなくワークフローも合わせて考える必要があります。最初は、使いたいモデルに合ったワークフローを使い、1つずつ違いを確認していくのがおすすめです。

12. 参考リンク