AIはどのように画像を生成するのでしょうか?

AIはどのように画像を生成するのでしょうか?

The Conversation | 2025/05/20 {分}分読んだ コメント2件
 

人工知能は、単純なテキストの説明から非常にリアルな画像を生成できるようになりました。これは、何百万もの画像を使ったトレーニングと、ノイズを徐々に画像に変換するプロセスのおかげで可能になりました。

例えば、人間の最強の囲碁プレイヤーに対する勝利から、さらに最近では前例のない精度の天気予報まで、AI の進歩は人々を驚かせ続けています。さらに当惑させる結果は、驚くほどリアルな画像が生成され、真実と虚偽の間の混乱を招いていることです。しかし、これらの画像はどのように自動的に生成されるのでしょうか?

画像生成モデルは、数十億のパラメータに達する可能性のある非常に大規模なニューラル ネットワークであるディープラーニングに依存しています。ニューラル ネットワークは、入力データと出力予測を関連付ける関数と考えることができます。この関数は、最初はランダムであり、ネットワークが学習によって修正することを学習する一連のパラメータ (数値) で構成されます。

規模を大にして言うと、リアルな画像を生成できる安定拡散モデルは 80 億のパラメータで構成されており、そのトレーニングには 60 万ドルのコストがかかります。

これらのパラメータを学習する必要があります。彼らの学習を説明するために、画像から物体を検出するというより単純なケースを見てみましょう。画像がネットワークへの入力として提示され、ネットワークは出力として可能性のあるオブジェクト ラベル (車、人、猫など) を予測する必要があります。

学習は、画像内に存在するオブジェクトを可能な限り正確に予測できる適切なパラメータの組み合わせを見つけることから構成されます。学習の品質は、主にラベル付けされたデータの量、モデルのサイズ、利用可能な計算能力によって決まります。

画像生成の場合、私たちがやりたいのは、ある意味では逆のプロセスです。つまり、シーンを説明するテキストから、モデルの出力によってこの説明に対応する画像を作成することが期待されますが、これはラベルを予測するよりもかなり複雑です。

破壊して創造する

まず、テキストを忘れて画像だけに注目しましょう。画像を生成することは人間にとっても複雑なプロセスですが、画像を破棄すること(逆の問題)は簡単な問題です。具体的には、ピクセルで構成された画像から、特定のピクセルの色をランダムに変更することが、単純な改変方法となります。

わずかに変更された画像を入力としてニューラル ネットワークに提示し、出力として元の画像を予測するように要求できます。次に、モデルをトレーニングして画像のノイズ除去方法を学習させます。これは画像生成に向けた第一歩です。したがって、ノイズの多い画像から始めてモデルの呼び出しを順番に繰り返すと、完全にノイズが除去された画像が得られるまで、呼び出しごとにノイズがだんだん少なくなる画像が得られます。

このプロセスを誇張すると、完全にノイズで構成された画像(ランダムなピクセルの集まり)つまり何も含まれていない画像から始めて、「ノイズ除去」モデルへの呼び出しを繰り返し、最終的に以下に示すような画像を得ることができます。

すると、ランダム ノイズに応じて、数回の反復後に出力画像として何でも生成される可能性があるため、画像を生成できるプロセスが得られますが、その興味範囲は限られます。したがって、ノイズ除去プロセスをガイドする方法が必要であり、このタスクにはテキストが使用されます。

ノイズからイメージへ

ノイズ除去プロセスには画像が必要です。これらの画像はインターネットから取得され、トレーニング データセットを構成することができます。ノイズ除去をガイドするために必要なテキストについては、インターネットで見つかった画像のキャプションをそのまま使用します。画像のノイズ除去の学習とともに、テキストを表すネットワークが関連付けられます。したがって、モデルが画像のノイズ除去を学習すると、そのノイズ除去が関連付けられている単語も学習します。トレーニングが完了すると、説明文と全体のノイズから、連続した反復によってノイズを除去し、テキストの説明に一致する画像に収束するモデルが得られます。

このプロセスにより、特定の手動ラベル付けが不要になります。ウェブ上にすでに存在するキャプションに関連付けられた何百万もの画像を活用します。最後に、一枚の写真は千の言葉に値します。例として、上記の画像は安定拡散モデルによって「ベーコンガーデンの目玉焼きの花」というテキストから生成されました。 会話

Christophe Rodrigues 、コンピューター サイエンスの講師兼研究者、 ポール レオナルド ダ ヴィンチ

この記事はクリエイティブ・コモンズ・ライセンスに基づきThe Conversationから転載されました。 元の記事を読む。

記事をもっと見る
 

ArtMajeur

アート愛好家やコレクター向けのニュースレターを受け取る