Dream Studioと同等の設定で画像出力する方法～Stable Diffusion＋Google Colab

前回の記事で「Google Colaboratery」を使ってStable Diffusionを無料かつ無制限で利用する方法をご紹介しました。

AI画像出力サービスを無料＆無制限で使う方法～Stable Diffusionをオンライン上で動かす

8月の下旬頃から話題沸騰のAI画像出力サービス「Midjourney」や「Dream Studio」ですが、むやみやたらに出力を連発するとあっという間に無料チケットを使い切ってしまいます。まだ今は実験中のため様子見ということで、極力無料かつ無制限で試行錯誤したい。「Stable Diffusion」を使った無料＆無制限でAI画像を出力する方法をご紹介します。

Stable Diffusion のオンラインデモ版でもっと簡単にAIを使ってみよう

前回の記事で、長々とGoogle Colaboratoryを使ってStable Diffusionを動かす方法をご紹介しましたが、実はもっと簡単に試せる方法があります。AI開発者向けコミュニティサイト「Huggin Face」で公開されているオンラインデモ版です。

上記の方法では、「画像解像度512×512、ステップ数50」が基準で画像サイズの変更はできなかったのですが、この記事ではDream Studioと同等の設定で画像出力する方法をご紹介します。

Google Colaboratery で Stable Diffusion を使う準備をする
サンプル画像
Dream Studioのコストを検討する

Google Colaboratery で Stable Diffusion を使う準備をする

「Google Colaboratery」でStable Diffusionを使う準備をします。

この準備は以前紹介した方法の途中まで同じなため、前回の記事を参照してください。

AI画像出力サービスを無料＆無制限で使う方法～Stable Diffusionをオンライン上で動かす

「【3】Google Colaboratory でコマンドを入力する」の項目の最後、

pipe.to("cuda")

を入力する段階まで整えておいてください。

Dream Studioと同等の設定ができるコマンド

import torch

prompt = "metropolis at night"
image = pipe(prompt,                     # プロンプト
             height=512,                 # 画像の幅
             width=512,                  # 画像の高さ
             guidance_scale=7.5,         # 画像とプロンプトの近似度 (0〜20)
             num_inference_steps=50,     # ステップ数
             generator=torch.Generator("cuda").manual_seed(0), # シード値
             )["sample"][0]
image.save("metropolis_at_night.png")

このコードのうち、値を変更するのは赤いマーカーの部分です。

import torch

prompt = "metropolis at night"
image = pipe(prompt,                     # プロンプト
             height=512,                 # 画像の幅
             width=512,                  # 画像の高さ
             guidance_scale=7.5,         # 画像とプロンプトの近似度 (0〜20)
             num_inference_steps=50,     # ステップ数
             generator=torch.Generator("cuda").manual_seed(0), # シード値
             )["sample"][0]
image.save("metropolis_at_night.png")

項目	解説
height	画像の幅：512,　576,　640,　704,　768,　832,　896,　960,　1024, いずれかの値で入力
width	画像の高さ：512,　576,　640,　704,　768,　832,　896,　960,　1024, いずれかの値で入力
guidance_scale	画像とプロンプトの近似度。数値が高いほど、入力した文字列の内容に沿った画像が出力されますが、高すぎるとかえっていびつになります。「7～12」あたりが適当でしょう。
num_inference_steps	数値が高いほど高精細になりますが、高すぎると時間がかかる上に処理能力不足になってエラーが起こる可能性があります。「100～120」あたりが試しやすいでしょう。
seed	シード値。AIがランダムに出力した画像に割り振られている通し番号のようなものです。この値がわかると、同じ画像を繰り返し生成して画像の完成度を高めていく作業ができますが、Google Colaboratoryで一枚ずつ出力する場合にはあまり使えない値です。