記事一覧へ戻るModel

Animaとは?ComfyUIで試して感じた特徴と注意点

AnimaをComfyUIで試した所感をもとに、タグ形式・自然文形式の違い、生成速度、使う前に知っておきたい注意点を整理します。

はじめに

画像生成AIのモデルには、SD1.5系、SDXL系、NovelAI系など、さまざまな系統があります。

その中で、最近気になったモデルのひとつが Anima です。

Animaはアニメ・イラスト系の画像生成を目的としたモデルで、ComfyUI向けの公式ワークフローも用意されています。

この記事ではAnimaを実際にComfyUIで試してみて、タグ形式と自然文形式の違いや生成速度、使う前に知っておきたい注意点を整理します。

この記事でわかること

1. Animaとは?

Animaは、CircleStone LabsとComfy Orgの協力によって作られた、アニメ・イラスト向けの画像生成モデルです。

公式では、アニメ系のキャラクターやスタイル、非写実的な表現を目的としたモデルとして説明されています。
リアルな写真風の画像を狙うというより、キャラクターイラストやアート寄りの画像を作るためのモデルと考えると分かりやすいです。

Animaの公式ページでは、モデルの概要、ComfyUIでの使い方、プロンプトの書き方、ライセンスなどがまとめられています。

参考リンク:Anima公式ページ(Hugging Face)

Animaで生成したキャラクターイラスト例
Animaで生成したイラスト例。アニメ・イラスト向けモデルとして、キャラクターイラストを作りやすい印象があります。

2. ComfyUIで使うときの大まかな構成

AnimaはComfyUIで使うことを想定したモデルです。
公式ページにはComfyUI用のワークフロー画像も掲載されており、その画像をComfyUIにドラッグ&ドロップすることでワークフローを読み込めます。

ComfyUI自体の導入がまだの場合は、先に以下の記事でPortable版の導入から最初の画像生成まで確認しておくと進めやすいです。

関連記事ComfyUIの始め方|Portable版の導入から画像生成まで

ComfyUI Portable版の導入から、公式Text to Imageワークフローで最初の1枚を生成するまでを整理しています。

今回の記事では、公式ページで案内されているワークフローを使用します。

通常のチェックポイントを1つ読み込むだけの構成とは少し違い、Anima本体のモデルファイル、テキストエンコーダー、VAEをそれぞれ読み込む形になっています。

ここでいうテキストエンコーダーは、ざっくり言えばプロンプトを読み取るための部分です。
SD系やNovelAI系などのタグ中心のモデルに慣れている人から見ると、Animaはプロンプトの扱い方や読み取り方が少し違うモデルとして見た方が分かりやすいと思います。

細かい仕組みを最初から理解する必要はありませんが、必要なファイルが複数あるため、最初は公式ページの案内に沿って配置するのが安全です。

使用ファイルの確認先:

  • Anima公式ページ
  • Anima本体のモデルファイル
  • テキストエンコーダー
  • VAE

公式ページでは、Anima本体のモデルファイルを models/diffusion_models、テキストエンコーダーを models/text_encoders、VAEを models/vae に置くよう案内されています。

Anima用ワークフローのモデル読み込み部分
今回使用したAnima用ワークフローのモデル読み込み部分。Anima本体のモデルファイル、テキストエンコーダー、VAEをそれぞれ読み込む構成になっています。

3. タグ形式と自然文形式、どちらで書く?

Animaの特徴として、タグ形式と自然文形式の両方を使える点があります。

SD系やNovelAI系のイラスト生成では、1girl, long hair, smile のように短いタグを並べる書き方に慣れている人も多いと思います。

一方でAnimaではタグだけでなく、文章で場面やキャラクター同士の関係性を説明する書き方も想定されています。
公式READMEでも、Danbooru風タグ、自然文キャプション、タグと自然文を組み合わせた形式で学習されていると説明されています。

たとえば、単に

2girls, blue hair, red hair

と並べるだけでなく、

Two girls are standing side by side. The girl on the left has long blue hair and wears a white dress. The girl on the right has short red hair and wears a black dress.

のように文章で補足すると、どの要素をどちらのキャラクターに対応させたいのかを伝えやすくなります。

ただし、自然文にすれば必ず意図通りになるというわけではありません。
公式でも、自然文だけで使う場合は具体的に書くことが推奨されており、極端に短いプロンプトでは予想外の結果になることがあると説明されています。

Animaでタグ形式と自然文を組み合わせたプロンプト例
タグ形式の指定に加えて、自然文で2人の髪色・服装・位置関係を補足した例。Animaでは、タグと文章を組み合わせた指定も試せます。

4. 実際にプロンプト形式を変えて試してみた

タグのみで生成した人物と白背景の比較画像
タグのみ
自然文のみで生成した人物と白背景の比較画像
自然文のみ
タグと自然文で生成した人物と白背景の比較画像
タグ+自然文
タグのみで生成した人物とポーズと背景の比較画像
タグのみ
自然文のみで生成した人物とポーズと背景の比較画像
自然文のみ
タグと自然文で生成した人物とポーズと背景の比較画像
タグ+自然文
タグのみで生成した髪型と背景とライティングの比較画像
タグのみ
自然文のみで生成した髪型と背景とライティングの比較画像
自然文のみ
タグと自然文で生成した髪型と背景とライティングの比較画像
タグ+自然文
タグのみで生成した2人のキャラクターの比較画像
タグのみ
自然文のみで生成した2人のキャラクターの比較画像
自然文のみ
タグと自然文で生成した2人のキャラクターの比較画像
タグ+自然文
同じテーマを、左からタグのみ・自然文のみ・タグ+自然文で生成した比較例です。

この画像は、プロンプトの書き方による出力の違いを見るために作成した比較です。

細かいプロンプトは割愛しますが、共通部分として

masterpiece, best quality, score_7, safe, anime screenshot

を固定し、上から順に「人物+白背景」「人物+ポーズ+背景」「人物+髪型+背景+ライティング」「2人+それぞれの容姿+背景」というテーマで生成しました。

試した範囲では「タグのみ」「自然文のみ」「タグ+自然文」のどの書き方でも一定のクオリティのイラストは生成できています。

ただ、自然文が絡む生成では文章の書き方によって、結果のまとまり方や要素の伝わり方が変わりそうな印象もありました。

なお、Animaはベースモデルのため、共通のスタイル指定を入れても絵柄や塗りにはある程度のブレがあります。
ここでは絵柄の違いというより、タグや自然文の書き方によってどこまで要素が反映されるかを見る比較として扱っています。

5. スタイル指定はどこまで効く?

Animaはベースモデルなので、スタイル指定を入れない場合は絵柄や塗りの方向がモデル側の補完に寄りやすい印象がありました。

スタイル指定なしでも画像は生成できますが、仕上がりの方向が毎回きれいに揃うわけではありません。

一方で、プロンプトに絵柄や塗りの方向を入れると、線の整理感や塗りの簡潔さなど、ある程度は方向を調整できます。

公式ページでも、Animaのベース版は美的調整されたモデルではなく、artist tagやquality tagを使わない場合はデフォルトのスタイルがかなり平坦で中立的になりやすいと説明されています。

スタイル指定なしで生成したAnimaのイラスト
スタイル指定なし
絵柄と塗りの方向を指定して生成したAnimaのイラスト
スタイル指定あり
スタイル指定なしと、絵柄・塗りの方向を指定した場合の比較例です。指定を入れることで仕上がりの方向は寄せられますが、ベースモデルのため完全に同じ絵柄へ固定されるわけではありません。

今回の比較でも、スタイル指定を入れることで線や塗りの印象はかなり変わりました。

Animaは幅広い表現を含むベースモデルなので、目的の雰囲気に寄せたい場合はキャラクターや構図だけでなく、絵柄・塗り・画面の方向性も一緒に指定した方が扱いやすそうです。

6. 生成速度はやや重め

Animaを試していて分かりやすく差を感じたのが生成速度です。

同じ1024×1024px・batch 1・step 40・CFG 5・Eulerで比較したところ、AnimaはIllustrious系SDXLモデルより生成時間が長くなりました。

初回生成では約2倍、モデル読み込み後の2回目以降では約2〜3倍ほど時間がかかる結果でした。

もちろん、生成時間はPCスペック、ComfyUI環境、使用モデル、ワークフロー、解像度、サンプラーによって変わります。

それでも、プロンプトを何度も調整しながら生成する用途ではテンポの差を感じやすいと思います。

7. ライセンスと商用利用の注意

Animaを使うときは、ライセンスも確認しておきたいポイントです。

AnimaはHugging Face上では CircleStone Labs Non-Commercial License として公開されています。
公式ページでも、モデル本体や派生モデルの利用は非商用目的に限られると説明されています。

一方でライセンス本文では、生成された画像については商用目的を含めて利用できる内容も書かれています。
ただし、生成画像を競合モデルの学習・ファインチューニング・蒸留に使うことは禁止されています。

つまりAnimaでは「モデル本体の利用」と「生成画像の利用」を分けて確認する必要があります。

販売物や商用利用を考えている場合は、必ず公式ページのライセンス本文を確認してから使うようにしてください。

8. Animaに感じた可能性と今後への期待

Animaを試してみて新鮮に感じたのは、タグ形式と自然文形式の両方を使える点です。

これまでのSD系ローカルモデルでは、1girl, long hair, smile のようにタグを積み重ねていく使い方に慣れている人も多いと思います。
Animaでもタグ形式の指定は使えるため、タグで生成してきた人でもいきなり大きく書き方を変えなくてよい安心感があります。

実際に試した範囲でも、「タグのみ」「自然文のみ」「タグ+自然文」のどの書き方でも一定のクオリティの画像は生成できましたが、自然文のみでプロンプトを組もうとすると、人物の容姿・服装・背景・行動などの情報を文章としてどうまとめるかに迷う場面もありました。

タグ形式であれば、髪型、服装、背景、行動を要素ごとに分けて並べられますが、自然文ではそれらを英文として自然につなげる必要があります。

特に日本語で考えてから英語に直す場合、「どこまでを1文に入れるか?」「要素を分けて書いた方が伝わりやすいのか?」で悩む場面もありました。

そのため、人物まわりの基本要素はタグで指定し、シーンや関係性、複数人の位置関係は自然文で補足する形が扱いやすいのかなと感じました。

LULINAworksでも、髪型・表情・ポーズなどのタグ指定を整理して、制作中に見返しやすいプロンプト辞書を少しずつ制作しています。

プロンプト辞書AIイラスト制作に使えるプロンプト辞書

AIイラスト制作で使いやすいプロンプトを、カテゴリごとにサンプル付きで整理しています。

そのほかに特筆する点といえば、やはり複数人の描き分けです。
従来のSD系ローカルモデルでは、2人以上のキャラクターを出したときに髪色や服装、特徴が混ざってしまうことがありましたが、Animaでは自然文を使って人物ごとの特徴や関係性を補足することで、複数人の容姿を指定しやすい印象がありました。

Animaで複数人を自然文で指定して生成した例
複数人を自然文で指定して生成した例。人物ごとの髪色や服装、位置関係を文章で補足する使い方を試しています。

今後、派生モデルやワークフロー、作例、プロンプトの知見が増えてくれば、Animaはさらに扱いやすいモデルになっていく可能性があります。

9. まとめ

Animaは、アニメ・イラスト向けのモデルとしてタグ形式と自然文形式の両方を試せるのが特徴です。

ComfyUIで試した範囲ではタグのみでも一定のイラストは生成でき、そこに自然文を組み合わせることで、複数人の容姿や位置関係、シーン全体の説明を加えやすくなる印象がありました。

生成速度はやや重く、ベースモデルらしく絵柄や塗りにもある程度のブレがあるため、使う場面によってはスタイル指定やプロンプト調整を前提にしておくとよさそうです。

ライセンス面では非商用ライセンスである点にも注意が必要で、販売物や商用利用を考える場合は、公式ページのライセンス本文まで目を通しておくと安心です。

Animaはいつものタグ指定に自然文での説明を加えられるモデルです。
新しい指定方法を試せる選択肢として、今後の展開も含めて見ておきたいモデルだと感じました。