バーチャル女装をするために、自分のゲーミングPCの中にAIを構築した話 Part4 生成編

記事詳細

月ノ和リン🌕⭕️@Vtuber準備中

@Tsukinowa_Rin

ファンクラブ

全体公開

バーチャル女装をするために、自分のゲーミングPCの中にAIを構築した話 Part4 生成編

前回(Part3)で正常に初回起動が行えたので、これからは画像生成AIによる画像生成を行いたいと思う。

StableDiffusion WebUIとは違い、ComfyUIはUIがノード形式になっているので、ワークフローの読み込みが必要だ(ユーザーがワークフローを配布しているので、それを読み込めば1から作らずに済む)。

まずは、ここから、StableDiffusion 3.5用のワークフローをダウンロードする。

これをComfyUIの制御画面にドラッグアンドドロップすると、このようになる。

これは、テキストを入力して、そこから画像を生成するワークフローである。
これを改造してimg2imgのワークフローにしていきたいところであるが、まずはテストとして一枚生成してみよう。
このままでは使えないので、初期設定が必要である。

まずは、ここに注目。

ここは、モデルやテキストローダーなどを読み込むセクションである。
上から順番に設定をしておこう。

ここで、ブロックが正常に読み込みできていない場合や、エラー(必要なノードが存在しません等の内容)が出た場合、右上のManagerボタン(パズルピースのマークが目印)をクリックして、その中の「Install Custom Missing Node」をクリック、そして、左下のInstallをクリックする。そうすると、足りないものを勝手に集めてきてくれる。
インストールが終わったら、同じくManager内の「Restart」を押してComfyUIを終了させよう。終了したら、また起動しておこう。これで、足りないノードが読み込まれる。

「チェックポイントを読み込む」ノードから、「ckpt名」をクリックして、「sd3.5_midium.safetensors」を読み込む。
これは、AIモデルを選択するという意味である。

次に、「TripleCLIPLoader(GGUF)」から、前回CLIPフォルダに入れた3つのテキストローダー「clip_g.safetensors」「clip_l.safetensors」「t5xxl_fp16.safetensors」を選択する。
これらは、AIが命令文を理解するのに必要なモデルである。

最後に、「VAEを読み込む」ノードから、「diffusion_pytorch_model.safetensors」を読み込む。

これで、モデルの読み込みは完了だ。

ノードに選択肢が出てこない場合は、ファイルの配置が上手くいってない可能性があるので、前回の部分からやり直そう。

Force/Set CLIP Deviceノードは、自分はCPUにした方が早く処理が終わった。
CUDAにすると、オーバーフローが発生したのか最適過不足なのか、処理がものすごく遅くなった。

そうしたら、このワークフローで生成をしてみよう。
プロンプトの欄(Positive Promptノード)には以下の文章が書かれている。
A stunning close-up studio portrait of a dark-skinned Asian girl with deep brown eyes and natural, textured hair styled in soft waves. She is looking directly into the camera with a calm yet confident expression. The lighting is soft and diffused, highlighting the smooth texture of her skin while casting gentle shadows around her cheekbones for depth. Her background is a clean, seamless light gray, allowing full focus on her face. Shot with a 50mm lens at f/2.0 for a slight background blur, emphasizing her eyes and facial features. The overall mood is elegant and poised, with natural color tones enhancing her warm skin and expressive gaze.
日本語訳すると、
深いブラウンの瞳を持ち、ナチュラルな質感の髪を柔らかいウェーブにスタイリングした、浅黒い肌のアジア人女性の見事なクローズアップ・スタジオ・ポートレート。彼女は落ち着いていながらも自信に満ちた表情でカメラを直視している。ライティングはソフトで拡散しており、彼女の肌の滑らかな質感を際立たせながら、頬骨のあたりに緩やかな影を落として奥行きを出している。背景はクリーンでシームレスなライトグレーで、彼女の顔に完全にピントを合わせている。50mmレンズでF2.0で撮影し、背景をわずかにぼかして、彼女の目と顔の特徴を強調している。全体的な雰囲気はエレガントで落ち着きがあり、自然な色調が彼女の温かみのある肌と表情豊かなまなざしを引き立てている。
となる。
ネガティブプロンプト(Negative Prompt)の欄は何も書かれていない。
ネガティブプロンプトに書いたものは、「生成から除外されるもの」として扱われる。
例えば、昔の生成AIはよく指が破綻していたため、ネガティブプロンプトに「破綻した指」とか書いておけば、指が描かれない構図になったり、指が破綻しなくなったりする。
StableDiffusionは、英語のプロンプトのほうが理解度がぐんと上がるので、英語のままプロンプトを書く。日本語で書いたものを翻訳して英語にしても良い。

生成してみよう

生成するには、ComfyUIの制御画面(ブラウザ)の下の方にある、「実行する」ボタンをクリックするだけで良い。
クリックすると、処理が始まる。現在処理しているノードが緑色の枠線で強調表示される。PCが非力で処理が遅い人は、この時間にトイレにでも行っておこう。

生成されたものがこちらである。

おお。すごい。(記事を何度も最初から書き直しているストレスでこれ以上の感想が出てこない)
AIでここまできれいなものが出たのは自分史上初めてかもしれない。

だが、このままでは女装には使えないので、このtxt2imgワークフローを改造して、img2imgワークフローにする。

結果がこちら。

このPNGファイルをダウンロードして、お使いのComfyUIの制御画面にドラッグアンドドロップすれば、ワークフローが読み込まれる。PNGにワークフローの情報が埋め込まれているのだ。素敵だね。

さて。
今回は、AIによる女装が目的なので、リアルの自分の写真を入力し、女装後の自分の写真を出力することになる。
「画像を読み込む」ノードに自分の写真を読み込む。
アップロードと書かれているが、外部サーバーには送信されず、ComfyUIが走っているあなたのPCの、ComfyUI-Zludaの中に画像が移動される。

そして、プロンプト欄に女装させるようなプロンプトを入れて実行すれば、女装姿が出力されるはずである。
早速やってみよう。

プロンプト決め

プロンプトとは、「この写真をこういう感じに変換してください」っていう指示文のような物である。
さっきは、デフォルトで高品質なプロンプトが書かれてあったため、綺麗な絵が出力できたが、女装となると、自分でプロンプトを考える必要がある。あれだけの文章量を考えてまとめるのはめんどくさいため、ここはChatGPTに手伝ってもらう。
自分の顔を読み込ませてできた生成結果は載せたくないので、今回はフリー素材のおじさんをAIにぶちこんで、女装させる。

そうして出来たプロンプトがこちらである。

ポジティブプロンプト
realistic portrait photo of an androgynous Asian person with a masculine facial structure, wearing the same clothes as the input image, medium-long dark hair, soft and natural feminine makeup, smooth skin, delicate and expressive eyes, no facial hair, slight smile, plain grey background, gender-bending, crossdressing style, DSLR photo quality

ネガティブプロンプト
beard, mustache, facial hair, distorted face, extra limbs, extra fingers, ugly, blurry, bad anatomy, unrealistic lighting, cartoonish, exaggerated makeup, incorrect clothing, non-Asian features

結果

おお、それっぽい。

生成結果が微妙だったときは、ChatGPTに画像を投げてプロンプトを修正してもらうと良い。

画像生成(img2img)の原理

画像生成をしていると、「なんか変化しすぎだな」とか、「変わらなさすぎだな」って思うことがあるだろう。
そういうときは、「Kサンプラー」ノードの「ノイズ除去」の数値を上げたり下げたりすると良い。わかりやすく言えば、変化の具合である。

なぜ変化の具合がノイズ除去なのかというと、画像生成AIは真っ白な紙に色をつけて絵を描いているのではなく、ノイズを除去して、除去した結果が美少女になっているのである。
わかりやすく言うと、木のブロック(ノイズ)があって、それを彫刻すると仏像(美少女の画像)が出てくる、みたいな。彫刻をすると、都合良く仏像が出てくるのが画像生成AIである。

img2imgでは、まさにこの画像のようなプロセスを実行している。
よって、画像が変化する、という訳だ。

まとめ

今回は、最新のAIモデルと最新の環境を使ってAI女装をさせてみた。
最近のAIは質が高く、一見、普通の写真と見分けがつかない場面も多いと感じた。
AIを動かす環境を作り上げるのが非常に大変で、反AI派の意見である「ワンクリックで簡単に生成できる」イメージとはほど遠いと感じた。現実はプロンプトやパラメータの修正と再生成の無限ループである。
ChatGPTにやらせたほうが、環境を作らなくて良い分楽だと言うことが分かった。
おわり。

この配信者のその他の記事

全体公開

バーチャル女装をするために、自分のゲーミングPCの中にAIを構築した話 Part3 準備編

(続き)この記事から、実際にAIを動作させてみる。まずは動作させるAIモデルを決定しなければならない⋯

全体公開

バーチャル女装をするために、自分のゲーミングPCの中にAIを構築した話 Part2 要件とこれからの流れ編

(続き)私の2025年4月現在のPCの構成は、以下の通りである。CPU： Intel Core i9⋯

全体公開

バーチャル女装をするために、自分のゲーミングPCの中にAIを構築した話 Part1 はじめに編

ふと、「自分が女装をしたらどんな見た目になるのか」が気になった。実際に女装するのも大変なので、画像生⋯

推し登録中のファンに公開

花見をしてきました

推し登録中のファンに公開

ディープステート＝うんこ説