田原悠西の日記(2025-08-23)

2025-08-23

_ [雑談]

gfx1151 を搭載した Strix Halo Ryzen AI Max+ 395 マシンで ubuntu 24 を使い、ComfyUI で WAN2.1 を使って動画生成もできた。わーい。

これで今読んでいる「画像・動画生成AI　ComfyUI マスターガイド (Ｇｅｎｅｒａｔｉｖｅ　ＡＩ　イラストレーション)」に書いてあることが一通り試せるんではないかな？

rocm 6.4.3 を普通にインストールして、python3.12 を使い、ComfyIU 用に rocm 6.4.3 用の pytorch もインストールする。

で、僕の場合は以下のコマンドで ComfyUI を動かしている。試行錯誤した結果、これでまあ動くし安定している。

 PYTORCH_CUDA_ALLOC_CONF=expandable_segments:True HSA_ENABLE_SDMA=0 PYTHONPATH=/opt/rocm/lib:$PYTHONPATH HSA_OVERRIDE_GFX_VERSION=11.0.1 uv run ./main.py --highvram --use-pytorch-cross-attention --cpu-vae

これで、flux_dev_full_text_to_image も flux_schnell_full_text_to_image も動いている。軽量のflux schnell fp8 も動いた。

しかし、ComfyUI の基本のテンプレートたちは動かない。まぁそれは構わない。高機能のテンプレートたちが使えるんだから、それで十分なのだ。

とは言っても、たまにクラッシュするので、勝手にComfyUI を再起動する Pythonスクリプトでラッピングして使っている。そのスクリプトは Gemma3 に書かせた、まあたいしたもんじゃないけど。

 #!/usr/bin/python3

 import subprocess
 import time

 while True:
   process = subprocess.Popen('/home/yusei/draw2', shell=True) # draw2 は bash で comfyui を起動する
   process.wait()
   print("ComfyUI crashed. Restarting...")
   time.sleep(3)

rocm 7 が出て、もっと動作が安定してくれたらいいけど、どうなるかな。

WAN2.2 を動かそうとするとメモリが足りなくてエラーになる。VRAMと普通のメモリの両方を共有する方法が紹介されていたので、それを使って128GBのメモリをVRAMと普通のメインメモリのどっちにでも動的に使えるようにしてみたのだが、VRAMの容量がが動的に変わることにソフトウェアが対応していなくて、VRAM96GBに設定していたときよりも上手く動かない。

grub の設定をこうして

 GRUB_CMDLINE_LINUX_DEFAULT="quiet splash amd_iommu=off ttm.pages_limit=27648000 ttm.page_pool_size=27648000

comfyuiをこれで起動して

 HSA_XNACK=1 PYTORCH_HIP_ALLOC_CONF=garbage_collection_threshold:0.6,expandable_segments:True,max_split_size_mb:4096 PYTORCH_NO_HIP_MEMORY_CACHING=1 HSA_ENABLE_SDMA=0 PYTHONPATH=/opt/rocm/lib:$PYTHONPATH HSA_OVERRIDE_GFX_VERSION=11.0.1 uv  run ./main.py --lowvram --use-split-cross-attention --cpu-vae --reserve-vram 2

これでWAN2.2を動かし始めたら、とりあえずメモリ不足ですぐ止まることはなくなり、ただまあGPUあんまり使われていないので遅そう(watch rocm-smiでみている)だが、処理は続いている。さてどうなるか。明日の朝のお楽しみ。

5秒の動画に3004秒もかかったけどWAN2.2の14Bのtext2videoも動かせた、やったね。もう少し早く処理できるように引数を調整したいな。

その後、WAN2.2の14Bモデルを GGUF 版に変えて ComfyUI の loder もそれができるものに変えることでメモリ足りない問題は解決し、今はこんなコマンドで動かしている。画像生成したものをWAN2.2のI2Vで5秒の小さい動画生成に10分くらいかかっているのでもうちょい早くしたい。TeaCache的なやつがもうすぐ2.2対応してくれそうな感じなので期待して待とう。

 HSA_XNACK=1 PYTORCH_HIP_ALLOC_CONF=garbage_collection_threshold:0.6,expandable_segments:True,max_split_size_mb:4096 PYTORCH_NO_HIP_MEMORY_CACHING=0 HSA_ENABLE_SDMA=0 PYTHONPATH=/opt/rocm/lib:$PYTHONPATH HSA_OVERRIDE_GFX_VERSION=11.0.1 uv run ./main.py --use-split-cross-attention --cpu-vae --normalvram

«前の日記(2025-08-20) 最新