東大松尾・岩澤研のTanuki-8x8Bオリジナル版が動く環境

Tanuki-8x8Bのオリジナル版のモデルサイズは94～95GBくらいある。このサイズになると通常のPCクラスでは動かすことができない。そこでColab ProのようなクラウドのGPUを借りることになる。しかしワークステーションと呼ばれるクラスのマシンを購入すればローカルな環境でも95GBサイズのモデルを動かせることを最近知った。

Tanuki-8x8Bオリジナル版の動かし方

以下のサイトに解説記事がある。

使用マシンにはNVIDIA RTX A6000というGPUが２枚使われている。１枚でVRAMが48GBあるので96GBのVRAMになる。

Tanuki-8x8Bオリジナル版を動作させるには以下の要件がある。

GPUメモリ（VRAM）が95GB以上あること
pipでインストールするパッケージのバージョンを整えること

私はColab Proなら動くだろうと何も考えずに、T4 GPU（VRAM 16GB）を使い、パッケージバージョンを指定せずインストールしたため、動作させることができなかった。

改めて上記記事を読み返したところ、NVIDIA RTX A6000というGPUの存在を知った。

NVIDIA RTX 6000 Ada

NVIDIA RTX A6000は後継機があり、2024年時点ではNVIDIA RTX 6000 Adaが最新機種となる。NVIDIA RTX 6000 Adaについて調べてみた。

NVIDIA RTX 6000 Adaを２枚搭載したマシンがこちら。ツクモのBTOモデルで、価格は税込 ¥3,999,800 である。（ただし「完売御礼」つまり売り切れとなっている）

性能値はNVIDIAのサイトに記載があった。

単精度演算性能　91.1 TFLOPS
RT コアパフォーマンス　210.6 TFLOPS
Tensor パフォーマンス　1457.0 TFLOPS

Colab ProのTPU V2の性能値と比較してみる。

BFLOAT16: 180 TFLOPS (per core)
TPU V2 Pod (64 cores): 11.5 petaFLOPS

BFLOAT16は単精度演算性能に対応するのでTPU V2の方が２倍の性能、RTX 6000が２枚で同性能となる。RTコアはRay Tracing（レイトレーシング）の性能値でTPUに比較対象がないので無視。Tensor パフォーマンスは多次元配列の演算性能で単位を合わせるとRTX 6000は1.5petaFLOPSで２枚で3petaFLOPSとなり、TPU V2の方が約４倍の性能となる。

合理的に考えれば、Colab Proの方が性能的に上で私のようにちょっと動かすだけならColab Proがお得となる。しかしローカルマシンでいつでも使いたい時にすぐに使いたいとなれば、マシンを購入することも選択肢となる。自家用車を購入するのか、シェアカーを利用するのかという話と似ている。

感想

カーツワイル氏は「シンギュラリティは近い」の中で、人間の脳をシミュレートするのに必要な演算装置の性能を $10^{16}$ CPSと予測した。つまり１秒間に１京回の演算性能であり、これは10petaFLOPSに相当する。NVIDIA RTX 6000 Adaを４枚搭載すればTensor パフォーマンスでこの性能をほぼ満たすことになる。200万円くらい追加出費が必要になるが・・。

Tanuki-8x8Bは、Apache License 2.0 のライセンスに基づき、研究および商業目的での自由な利用が可能となっている。400～600万円出せば、今なら高性能なAIをローカルマシンで使い放題使えることになる。400万円となると良いクラスの車が一台購入できる値段で、個人での購入は難しい。しかし機械学習の研究などを本業とする法人とか、これがあれば法人ビジネスに活かせるとなれば十分購入できる価格だと思う。なにしろ社員一人分の年間人件費程度の投資で購入できるし、やろうと思えば追加で機械学習させることも可能なのだ。世の中の法人の優秀な経営者の方達は、自社専用のAIの導入を真剣に考え初めているのかな～、とまたそんなことを妄想した。