記事詳細
(続き)
この記事から、実際にAIを動作させてみる。
1.環境の準備 (Nvidiaと共通)
まずは動作させるAIモデルを決定しなければならない。
ぱっと思いつくのは、StableDiffusion WebUI Automatic1111版に適当な新しいモデルをぶち込んで使用する方法だが、それだと3年前に初めてAIを触ったときから環境がほとんど進化していないように感じる。
せっかくなので、もっと新しいものを導入してみたいと感じた。
そこで、一時期画像生成AI界隈で大きなニュースになった「FLUX.1」というものを導入してみることにした。
調べて行くと、どうやら、FLUX.1はStablediffusion A1111では動作しないらしい。
動作させる為には、「ComfyUI」が必要らしい。
ComfyUIに必要な物を入れる
ComfyUIの動作要件は、以下の通りである。
・Python 3.10.11
本来は3.10.6だが、今回は複数のシステム(Stablediffusion A1111、ComfyUI)を共存させるため、3.10.11にする。
Microsoft Storeバージョンは使用してはならない。
Microsoft Storeバージョンは使用してはならない。
Microsoft Storeバージョンは使用してはならない。
(大事なので3回言いました)
インストール時に「Add PATH」にチェックを入れる。(超重要)
※追記
すべてのユーザーにインストールする。そうしなければ「Python無いで」って言われて動かない。
動作させたいAIで指定されたバージョン以外での動作は保証されないので、バージョンの最後の数字までしっかり合わせてダウンロードするように。とりあえず最新にしておけば動くというものではない。
・git
GitHubとかの元になったGitと言うシステム。モデルやシステムのダウンロードに必須。
・Visual C++ Runtime
すでに入ってることも多いらしいが、再インストールやPCのセットアップ直後は入ってない場合があるので、必ずインストールする。
・GPUのドライバ
Nvidia、AMD、Intel問わず、これは必ず必要。
これらを入れたことを確認したら、次のステップに進む。
2.AMDのAI用開発キット HIP の導入(AMD Radeon限定)
私の環境はRadeonなので、追加でこの操作が必要になる。
NvidiaのユーザーやIntelGPUのユーザーには不要なので、スキップしてもらってもかまわない。
バージョンについてだが、使用するAIの動作要件をよく読んで、そこに書いてあるバージョンの物を入れると良い。
今回の場合、HIP 5.7.1がそれだ。
だが、最新のHIP 6.2.4でもComfyUI-ZLUDAを動かす方法はあるらしい。
なので、HIP6.2.4を入れることにした。
インストーラーの項目に「PROドライバ」(多分、開発などに特化したドライバ)があるが、私はゲームでもRadeonを使いたいので、PROドライバは入れなかった。
それ以外は全部入れた。
2.1 動作環境の選定
本来、AIモデルに合わせてAIを動作させる環境を選ぶのだが、今回はComfyUIを使うことにした。
候補として、「StableDiffusion WebUI A1111」「StableDiffusion WebUI Forge」「ComfyUI」があったのだが、過去に自分が使ったことがあるのが「StableDiffusion WebUI」の古いバージョンであるため、せっかくなら全く違う新しいものを使ってみたいと考えた。
ちょっと前までの環境は、「StableDiffusion A1111」がトップだったらしいが、FLUX.1(後述)などのAIモデルはA1111では動作しないようだ。
代わりに、「StableDiffusion WebUI Forge」で動作するらしい。
ただ、StableDiffusion WebUI Forgeは、系列がStableDiffusion WebUIなので、過去に使ったものとほとんど同じ見た目をしており(だからこそ使いやすいのだが)、面白味に欠けるな~と思ったので、消去法でComfyUIになった。
ComfyUIは、StableDiffusionからマイナーなものまで、いろんな種類のAIモデルに対応しているらしい。
一方で、ComfyUIは「StableDiffusion WebUI」のように、画面にボタンが配置されていて、それを押すだけで勝手にやってくれる簡潔なUIではない。
ユーザー自身がノードを駆使して適切な「ワークフロー」を作る必要があるとのこと。
わかりやすく言うと、Switchのゲームの「ナビつき! つくってわかる はじめてゲームプログラミング」見たいな見た目。
こんな感じ(イメージ)
それに対するStableDiffusion WebUIの見た目のシンプルさといったら。
というわけで、私は勉強の意味も込めてComfyUIを使おうと思います。
2.2 AIモデルの選定
2022年10月に自分が初めて画像生成AIを使ったときは、StableDiffusion 1.1~1.4(詳しいバージョンは覚えていないが、年代的にこれ)を使った。
現在もStableDiffusion(AIモデル)は有名だが、昔と何が変わったのか、他の最新のAIモデルはないのか調べる必要がある。
いろいろ調べた結果、以下のAIモデルが新しいAIモデルらしい。
StableDiffusion 3.5
FLUX.1
CogView4-6B
StableDiffusion(AIモデルの方)
StableDiffusionは画像生成AIの代名詞と呼んでも差し支えないレベルで有名だ。
混乱しないために説明すると、「StableDiffusion」はAIモデル、「StableDiffusion WebUI」は、「StableDiffusion」を動作させる為に必要な「動作環境」である。
Stable Diffusionは、2024年10月23日にバージョン3.5が発表された。
トップクラスの出力の美しさ(上から2番目ぐらい)を持ち、同時に汎用性が特に高く、カスタマイズがやりやすいことが特徴。
コミュニティからの人気も高いため、チュートリアルやワークフロー(プリセットのようなもの)がいっぱいある。
FLUX.1
「StableDiffusionを超える画像生成AI」として、一時期ニュースなどで取り上げられた。
性能は2024年10月の時点で一番らしく、コミュニティの中では2番目ぐらいに人気。
人気No.1環境である「Stable Diffusion WebUI A1111」では動作しないので、環境を整えるのに苦労するかも。
※追記
実際に触ってみましたが、情報が少ない上に、人気がStableDiffusionに劣るので、ComfyUIのワークフローを探すのが非常に大変でした。
image to imageのワークフローが特に乏しく、今回の目標である「手軽に女装をしてみよう」というコンセプトに当てはまるものではないなと思いました。
しっかり学習して使いこなせば、性能を引き出せるんだと思いますが、AI全然やってない自分からしたら難しすぎたので断念……
CogView4-6B
最新の論文に基づいた、最も理想的な手法を採用した画像生成AI。
ベンチマークのほとんどの項目でFLUX.1を上回っているらしい。
(ただ、画像生成AIのベンチマークって大本営発表みがあるので、あまり参考になるかというとそうでは無い)
あと、最新すぎて、日本語の記事が6つぐらいしか無い(2025年4月現在)
情報が少なすぎるよ……
※追記
ComfyUIのワークフローが何一つとして存在しないので、採用を見送りました。
あまりにも使い方が分からないので、ChatGPTにしっかり調べてもらったところ、「ComfyUIにはまだ対応してないし、image to image(画像を元にして新しい画像を作ること)はできないよ」って言われました。
用途によっては強いんだろうなと思いますが、今回の目的には適合しないので採用を見送りました(採用したくてもできない)。
※追記2
この記事は、当初「最新で最強のモデルFLUX.1を使って無双した件」みたいな内容の記事にするつもりだったのですが、あまりにも結果が微妙だったので、StableDiffusion 3.5を使おうみたいな記事に修正しています。
「Part4を書いてからPart3を書き直す」みたいなことをやってるので、時系列がごちゃごちゃかもしれません。
追記終わり
というわけで、今回は「StableDiffusion 3.5」を使います(歴史修正)。
3.ComfyUI ZLUDA対応Fork版(AMD Radeonのみ)とStableDiffusion 3.5のダウンロード
今回は、動作させる環境として「ComfyUI ZLUDA対応Fork版」、AIモデルとして「StableDiffusion 3.5」を使用する。
まずは、ComfyUIのZLUDA Fork版を入手する。
最初に、インストールしたいフォルダを手動で作成する。
例:「C:\ComfyUI」(Cドライブ直下にComfyUIというフォルダを作った)
ファイル名に全角文字(日本語やデカい英数字など)を使うとまともに動作しなくなる可能性があるのでやめておこう。
次に、先ほど作ったフォルダでコマンドプロンプトを実行する。
エクスプローラーで先ほどフォルダを開き、赤丸のところに「cmd」と入力してエンターを押す。
すると、そのディレクトリでコマンドプロンプトが立ち上がる。
そして、以下のコマンドを実行して、ComfyUI(Zluda)のリポジトリからGit Cloneする。
ライドリの仕様により、URLを含むGitコマンドが正常に記述できないので、文字列の画像を貼り付ける。
これをWindows搭載のSnipping Toolで読み取り、AI機能(Windows11限定)である「テキストアクション」を実行することによって、画像から文字列を抽出できる。
このコマンドをコマンドプロンプトにそのまま貼り付けて実行すると、同フォルダにComfyUIのファイル群がダウンロードされる。
完成イメージ
これで、ComfyUIのZluda Fork版が入手できた。
次は、モデルの入手である。
今回使うモデルは、「StableDiffusion 3.5」である。
その中でもいくつかバリエーションがあって、
クソデカスペック要求だけど一番出来が良いLarge
Largeを高速化して、短い時間で生成出来るようにしたLarge_Turbo
必要なスペックがそこまで高くなく、ゲーミングPCであれば問題なく扱えるMidium
の3つがある。
ここは一番良いLargeを!と言いたいところだが、PCのキャパシティを超えるモデルを使うと、大抵生成が上手くいかないか、ものすごく時間がかかるかのどちらかである。
今回は、背伸びせずにMidiumを使う。
そうと決まれば早速ダウンロード。
Hugging Faceからダウンロードできる。
登録とか同意とかあるけど、良い感じにするとダウンロード出来るようになる。
ここでは、SD3.5モデルファイルとして、
一番上のディレクトリにある「sd3.5_medium.safetensors」をダウンロードする。
CLIPファイル(テキストエンコーダー)として、
「text_encoders(sがある方)」のフォルダにある
「clip_g.safetensors」
「clip_l.safetensors」
「t5xxl_fp8_e4m3fn.safetensors」
をダウンロード。
VAEファイルとして、
「vae」フォルダの中にある
「diffusion_pytorch_model.safetensors」
をダウンロード。
これで、モデル類のダウンロードは完了だ。
先ほどダウンロードした「sd3.5_medium.safetensors」は、
ComfyUI-Zkuda/models/checkpointsの中に放り込む。
CLIPファイルは
ComfyUI-Zkuda/models/clipの中にまとめて放り込む。
VAEファイルは、
ComfyUI-Zkuda/models/vaeの中に放り込む。
ここを忘れると、モデルの読み込みが出来ないので、忘れずにやろう。
3.5 Loraファイルの入手(※オプション、上級者向け)
Loraファイルとは、ファインチューニングの一種で、これを使うと、狙った生成物を作りやすくなる。無くても動作するが、あった方が作りたいものを作りやすくなる。
具体的に言うと、アジア人を学習したLoraを使うと、アジア人の顔が出やすくなる、みたいな。
ComfyUIでは、Loraを入れるかどうかでまたワークフローが変化するので、自分でノードを調整できないと言う人は避けた方が良い。
Loraファイルはどこから拾ってくるのかというと、このようなサイトに沢山落ちている。
フィルター機能を駆使して、自分のモデルや用途に適合するLoraファイルを入手しよう。
探した感じ、あんまりよさげなのが無かったので、今回は使わない。
Loraファイルをダウンロードしたら、
ComfyUI-Zkuda/models\loras
の中に放り込もう。
4.初回起動
まずは、ComfyUIの中にあるinstall.batでインストールを行うのだが、今回はHIPのバージョンが新しいので、細工が必要だ。
このページを参考にして、ファイルの書き換えを行う。
install.batとpatchzluda.batをコピーして書き換えた後、ComfyUI.batもコピーして書き換える。
その後、install6.batを実行する。
実行後、patchzluda6.batを実行する
その後、書き換えたComfyUI.bat(今回私は「ComfyUI-run.bat」と言う名前にした)を走らせると、正常に起動するはずだ。
ブラウザでこんな画面が出てくるはず。
正常に起動したなら、初回起動は完了になる。正常に起動しなかったなら、自分がやったことが正しいかどうか、もう一度最初から読み直して、ひとつひとつやり直して欲しい。多分どこかが間違っているはず。
次回は実際に生成をしてみようと思う。
コメントするには、
ログイン が必要です