txt2imgの画面説明

2025.02.122025.02.13

txt2imgの画面説明

3,機能・用語説明

2023.06.262024.06.27

txt2img（テキストから画像へ）は、テキストの記述から画像を生成する手法やシステムを指します。この手法では、自然言語処理と画像生成の技術を組み合わせて、与えられたテキストの説明に基づいてリアルな画像を生成します。

txt2imgの基本的な仕組みは、ディープラーニングの生成モデルを使用して、テキストの意味や特徴を理解し、それに基づいて画像を生成することです。一般的には、GAN（Generative Adversarial Network）やVAE（Variational Autoencoder）などのモデルが使用されます。

目次

①Prompt（提示文）
②Negative prompt（否定的提示文）
③Sampling method（サンプリング方法）
④Sampling steps（サンプリングステップ数）
⑤Restore faces（顔の修復）
⑥Tiling（タイリング）
⑦Hires fix（高解像度の修正）
⑧Width（幅）、Height（高さ）
⑨Batch count（バッチ数）
⑩Batch size（バッチサイズ）
⑪CFG Scale（CFGスケール）
⑫Seed（シード）

①Prompt（提示文）

Promptは、モデルに対して生成する画像の方向性やスタイルを指示するためのテキストです。
具体的には、画像の説明や指示、キーワードなどを含めることができます。モデルはこのPromptを解釈し、その意味に基づいて画像を生成します。
例えば、「青い空と雲のある風景を生成してください」といったPromptを与えることで、モデルは青い空と雲のある風景画像を生成するように働きます。

プロンプトに入れる内容としては下記にまとめてあります。

②Negative prompt（否定的提示文）

Negative promptは、生成モデルに対して避けるべき画像の特徴やスタイルを指示するテキストです。Negative promptは、意図的に望ましくない画像の生成を防ぐために使用されます。
例えば、「暗い色合いの画像は避けてください」といったNegative promptを与えることで、モデルは暗い色合いの画像を生成しないように制約を受けます。

ネガティブプロンプトとして良く使われる物は下記にまとめてあります。

③Sampling method（サンプリング方法）

画像のレンダリングに使用するプログラムです。
一般的にはDPM++ SDE KarrasまたはDPM++ 2M Karrasを使用します。
その他はほぼ使用しません。

DPM++ SDE Karras

DPM++ 2M Karras

④Sampling steps（サンプリングステップ数）

画像のレンダリングにおけるステップ数です。
ステップ数が多ければ多いほど、生成される画像はより精細になります。
通常16～30ステップ程度で十分ですが、前項のサンプリング方法によって
低ステップ数では画像に崩れが発生する事がありますので綺麗に生成できない場合はこのステップ数を調整しましょう。

ステップ数　10

ステップ数　20

ステップ数　30

ただステップ数を上げると画像生成に時間がかかるようになります。
ある程度からは出力結果にあまり影響がなくなってくるので、挙げすぎず適度なステップ数で生成しましょう。

⑤Restore faces（顔の修復）

画像生成時に顔の崩れを修復する機能ですが、使用するモデルは顔の崩れがほとんど発生しないため、通常は使用する必要はありません。

もし顔の崩れが起きやすいモデルを使用する場合はチェックを入れて試してみてください。

⑥Tiling（タイリング）

主に模様などを作成する際に使用される機能ですが、個別に使用した経験はありません。
女性を生成する際にこの項目にチェックを入れるとホラー画像のような物が生成されることが多いです。

⑦Hires fix（高解像度の修正）

画像をより高解像度にするための機能です。
大きい画像を作成したい場合などで使用します。
詳しい解説は別記事で用意しているのでこちらを御覧くださいね。

⑧Width（幅）、Height（高さ）

生成される画像の縦と横の寸法を指定します。
仕上げで大きい画像を生成したい際には変更しますが、基本的に初期設定の512から変更しません。

⑨Batch count（バッチ数）

一度に生成する画像の数を指定します。通常は1枚ずつ生成する直列の方式を使用します。
簡単に説明すると、一枚の画像を生成し終えてから次の画像を生成するという回数ですね。

⑩Batch size（バッチサイズ）

一度に生成する画像の数を指定します。同時に複数の画像を生成する並列の方式を使用します。
バッチ数とちがってこちらは、同時に何枚の画像を生成するかの数値です。
並行して生成を行っているイメージですね。

結果的に生成される画像の枚数は、バッチ数×バッチサイズなので
最大でバッチ数100×バッチサイズ8なので800枚生成されます。

この枚数にすると膨大な時間がかかりますので
プロンプトの調整が終わりあとはひたすら生成したい時に
多い生成数にして放置するのが効率的ですね。

⑪CFG Scale（CFGスケール）

最も重要な設定で、プロンプトにどれだけ忠実に従うかを決定するパラメータです。
7以上に設定すると画像の品質が低下する場合があるため、通常は3〜7程度が推奨されます。
低い数値や高い数値に設定すると画像に崩れが生じる事が多いです。

スケール　1

スケール　3

スケール　7

⑫Seed（シード）

生成する画像を固定するために使用するシード値です。
同じシード値を使用すれば、完全に同じ画像を再現することができます。
通常は-1に設定しておくことが一般的です。
ただシード値を設定していても、バッチ数やバッチサイズを１以上にすると
２枚目からは別の画像が生成されます。

タイトルとURLをコピーしました