Stability Matrixを使ってFLUX.1を試してみた（その後）

UM790 ProでFLUX.1を動かしている。こちらのサイトにUltraReal Fine-Tuneのモデルを使って描かれたウルトラリアルな映像が多数公開されている。プロンプトも公開されているのでおもしろそうな映像を試してみた。

CPUでFLUX.1を動かす

上記サイトにあるこちらの画像のプロンプトを使用した。プロンプトをGoogle翻訳にかけると以下のようになった。

夕暮れ時の高速道路を走る車内からの眺め。センターとロゴが鮮やかなブルーのカスタム Sparco ステアリングホイール、赤いステッチが入ったブラックのスエードグリップ、200 km/h 以上を示すスピードメーター付きの照明付きダッシュボード、レッドゾーンのタコメーター、6 速を示す赤く光るデジタルディスプレイ、エンジンメトリックを表示するダッシュボードに取り付けられた複数の青色に点灯するアフターマーケットゲージ、右車線を走る黒い車と遠くに赤い車がある前方の道路、滑らかな高速道路の路面、ぼやけた車両の動き、暖色オレンジと寒色ブルーの柔らかいグラデーションの夕焼け空、道路沿いの木々、フロントガラスに反射する街灯のかすかな光、ステアリングホイールとゲージの鮮明なディテールによる車内フォーカス、夜間の運転の雰囲気を高めるアンビエント照明。

先日掲載した映画やドラマの脚本のような記述というよりも、キーワードの羅列といった感じか。作成された映像はこちら。（作成時間約67分）

CPUで動かしているのでかなり時間はかかる。しかしCPU使用率は50％程度なので映像を作成しながら別の作業はできる。「どんな映像ができるかな～」と思いながら、ネットで調べごとをしたり、ブログの記事などを書きながら映像ができるのを待つのは、苦痛ではなく、むしろ楽しい。

それはUltraReal Fine-Tuneモデルが毎回これだけ質の高い映像を作ってくれるからでもある。プロンプトでは「200 km/h 以上を示すスピードメーター」となっているが、できあがった映像はそのようにはならなかった。これはAIが自主規制してくれているのだろうか。安全面が配慮されているのであれば良いことだ。

上記サイトではプロンプト以外にもSEED値など掲載されている。同じSEED値を使うとどうなるか試してみた。画像サイズは1280×720とした。（作成時間約60分）

同じSEED値で同じプロンプトにしても、同じ映像が再現されるわけではないようだ。

GPUで画像生成IAを動かす場合の選択肢

それでもやはりもっと早く画像・映像を作成できる環境が欲しいとなった時、どのような選択肢があるだろうか。私が今思いつく選択肢は以下ものだ。（デスクトップPCは置きたくないので選択肢から除外している）

外付けGPUBOXと16GB以上のVRAMのGPUボード
M4 Mac
Google Colab Pro　（Googleのクラウドサービス）
Jetson Orin Nano　（NvidiaのエッジAI用デバイス）

メリットとデメリット

外付けGPUBOX
- デメリット
  - Thunderboltは安定動作するか不明（Oculinkはそれなりに安定？）
  - 転送速度の上限あり（Thunderboltは40GB/S、Oculinkは64GB/S）
  - 電力消費が多い
  - それなりにスペースを使う
- メリット
  - 高性能（RTX4080 16GBで48.74TFLOPS）
M4 Mac
- デメリット
  - GPUボードに比べるとGPU性能は低い(M4 10 Coreで4.26TFLOPS）
- メリット
  - ユニファイドメモリで16GB以上のメモリを低コストで選べる
  - 省電力、省スペース
Google Colab Pro
- デメリット
  - 動作環境を準備したり保存したりする手間が発生する
- メリット
  - 省電力、省コスト、省スペース
Jetson Orin Nano
- デメリット
  - VRAMが8GB
  - GPUボードに比べるとGPU性能は低い(Nanoで1.28TFLOPS）
- メリット
  - 省電力、省スペース