生成AIを使った画像生成について

生成AIを使った画像生成について

Yuki
Yuki

このブログ記事では、最近仕事で取り扱う機会があった生成AIを使った画像生成についてエンジニア視点でまとめていきたいと思います。また、APIを活用しプロジェクトに組み込む際の参考になれば嬉しいです。

生成AIのモデルの種類

まず、画像を生成してくれる生成AIのモデルにはいくつかの種類があります。有名なところで検索すると出てくるモデルとして、以下のものがあります。

他にも多くの生成AIモデルが存在しますが、今回は私が使うならどのモデルを使うか!また、用途やその人によって変わってくると思うので特徴を紹介使用と思います。 是非自分に合ったモデルで画像生成を試してみてください。

おすすめの生成AIモデル

DALL-E 3 (OpenAI)

DALL-E 3

DALL-E 3は、OpenAIが開発した画像生成モデルで、テキストから高品質な画像を生成することができます。特に、細かいディテールや複雑なシーンの生成に優れています。こちらはChatGPTと同じく、OpenAIのAPIを使用して画像を生成します。また、DALL-E 3は、DALL-E 2と比較して、より高品質な画像を生成できるようになっています。おなじみのChatGPTのチャット欄で画像生成をお願いするときも、このDALL-E 3を使用しています。ChatGPTの有料プランを使っているならチャットで生成できますが、APIを利用して柔軟に画像を生成したい場合は、APIを利用することをおすすめします。

APIを利用する場合は、使った分だけお金がかかります。 また、APIを利用する場合は、APIキーを取得する必要があります。

MidJourney

MidJourney

MidJourneyは、アーティスティックな画像生成に特化したモデルで、独自のスタイルを持つ画像を生成することができます。クリエイティブなプロジェクトに最適です。ただし、MidJourneyは残念ながら公式のAPIを提供していないため、アプリケーションにMidJourneyの機能を統合するには、サードパーティのAPIを利用する必要があります。ただし、セキュリティと安定性の面で懸念があります。代わりに、OpenAIが提供するDALL-E 3 APIを利用することをお勧めします。DALL-E 3 APIは、優れた画像生成機能を持ち簡単に実装が可能です。 MidJouruneyの使い方はこのサイトが丁寧に解説していたのでこちらをご覧ください。→ MidJourneyの使い方

Stable Diffusion (Stability AI)

Stable Diffusion

Stable Diffusionは、オープンソースの画像生成モデルで、カスタマイズ性が高く、さまざまな用途に対応できます。コミュニティによるサポートも充実しているみたいですし、無料で利用できる点が魅力です。

個人的な感想

DALL-E 3 (OpenAI)は、ChatGPTで使えるので手軽に画像を生成できるし、APIを使えば柔軟に画像を生成できるので、万人におすすめです。

MidJourneyは、クオリティーが一番高い印象です。お金を払っても良いと思います。

Stable Diffusionは、ガチ勢のイメージ。オープンソースの画像生成モデルで、カスタマイズ性が高く、さまざまな用途に対応できます。また、検索すると一覧に出てくる数が圧倒的に多いのも魅力です。

APIを使った画像生成の方法

ここでは、google colabを使ってDALL-E 3とStable Diffusionで画像生成をしてみようと思います。 下記のリンクから私が作成したノートを開いてDALL-E 3の場合はOpenAiのAPIキーを取得いないといけないですが、画像を生成する方法を紹介します。 経験したことが無い方は1度試してみてください。 工夫したら何枚も生成出来たり、生成した画像をgoogle driveに保存したり,スプレッドシートを活用して管理したりと、色々なことができます。

生成体験ノート

まとめ

生成AIを使った画像生成は、クリエイティブなプロジェクトにおいて非常に強力なツールです。DALL-E 3、MidJourney、Stable Diffusionなどのモデルを活用し、APIを通じて簡単に画像を生成することができます。ぜひ、これらのツールを使って新しいアイデアを形にしてみてください。