rocm 7.2でllama-serverがスタックし、7.1.1だとめっちゃ早く動くという罠にハマった。
rocm 7.2でllama-serverがスタックし、7.1.1だとめっちゃ早く動くという罠にハマった。
やっとX軸回転の妥当性を理解。
GLM4.7、たまに再起動必要だけどいい感じだ。
12ビットじゃなくて、11ビットだった。
12ビットだとcpuではもはや有意な時間では返ってこない。
gpuだと10-12秒くらい。
スペック的にはcpu ryzen9 7950x、メモリ64GB、gpu rtx 4070tisです。
アダマールゲートで量子ビット12個を変換し、同時測定するシミュレーションをcpuとgpuでやったときのスピード、こんなに差が出る。。。
$ time PQENGINE_USE_GPU=1 python examples/random_generator.py
random value in [0,2047]: 884
real 0m2.144s
$ time PQENGINE_USE_GPU="" python examples/random_generator.py
random value in [0,2047]: 1789
real 0m26.356s
こうする必要があった。
--kv-cache-dtype fp8_e5m2
kv cache dtype = fp8だと推論が動かねぇ。。。
KV CacheがFP16だったみたいで、--kv-cache-dtype fp8指定したら120kくらいまで拡張できそう。
あと、久しぶりにopencode触ったけど、glmとは結構相性いいな。
こうなるとタスク分割はこちらでやってかないといけないな。
結構ちゃんと見てくれるな。あとやはりコンテキストウィンドウがちょっと物足りない。
ただ、VRAM 256GBでやっと40kコンテキストウィンドウを確保できるぐらい、メモリバク食いモンスターではある。ComfyUIは手元で起動するしかないな。。。
ふむ、GLM 4.7はとりあえずよく動きそうな感触。
データ転送帯域が狭いからしょうがないんだけど。
glm4.7の4bit量子化モデル試してるんだけど、モデルロードだけでとんでもないことになってる。
くそ寒
明日天キーか。
HDR有効化したから、ダークモードのありがたさがわかった。
懲りずにgigacrystaにした。
gigacrystaのモニターが急に電源落ちて上がるという動作を不定期で繰り返すようになったので、もうおしまいです。
notion、最近遅くない?
光造形プリンタユーザーとか、、、?
1月終わったってま?
codex & gpt-oss:120bで開発してる。
うーん、ウィンドウショッピングしてたんだけど、特に興味が何かに惹かれることもなく終了。
満たされているってこと?
ひさびさにゆしゃこぼ。
きょうはAIの威力を感じた1日だった