(詩經を読んでて、父方の祖母の名前の出典が采蘋であることに気づく。ひいおじいちゃんは国漢の先生だったからか)
(詩經を読んでて、父方の祖母の名前の出典が采蘋であることに気づく。ひいおじいちゃんは国漢の先生だったからか)
(墨俣一夜城のあたり
gitlab.nijl.ac.jp/Kokusho/2000...
kokusho.nijl.ac.jp/api/iiif/200... )
(mlx-community/Qwen3.5-27B-4bit が出たので MacBook Pro (2023) メモリー 36GB で試したら動いた。ただ漢籍用 OCR としてはなかなか癖強で、推論モード切ってるはずなのに謎の推論過程を出してきてなかなか JSON で座標位置と文字列を吐いてくれない。試行錯誤の末、呂覽の本文行を JSON で出すことに成功した。試しに1枚やった結果を見たら Qwen3-VL-32B と比べて結果が良かった。まあ、Qwen3-VL-32B-8bit 相当がメモリー 36GB 環境で動くのは良い)
(それはさておき、これで
gitlab.nijl.ac.jp/Kotenseki/it...
にも国書 WID:4440598 kokusho.nijl.ac.jp/work/4440598 が記載できるようになった)
( doi.org/10.20730/300... と kokusho.nijl.ac.jp/biblio/10031... の著作IDがともに「段/玉裁註」の「説文解字」(WID 4420014) という謎なものになってたので担当者に連絡したところ、「徐/鉉 訂」の「説文解字」 kokusho.nijl.ac.jp/work/4440598 (大徐本相当)が新設され、
kokusho.nijl.ac.jp/work/4420014 の統一書名も「説文解字注」に変わった。他にも漢籍関係微妙な箇所がいくつかあるような気がするので気づいたら連絡すべきか?(みなかったことにしがちだが))
(改正音訓 詩經用に NDL古典籍OCRv3 と Qwen3-VL 32B を使ったハイブリッド OCR スクリプトを作ったので、改正音訓の残りの4つにも試そうと思ったら版面構造が違ってて使えなさそう。残念)
(はじめてシラバスというものを書いてるが、多分、受講者集まらなくて開講されないと思うので、俺が考えた最強の人文情報学入門みたいなのを適当に書けば良いはず)
(commit のタイムスタンプから察するに、時々ハルシネーション起こして数時間止まってて、そういうケースでは結果も良くないので、ハルシネーション起こし出したら処理を自動で止めたいんだけど、やっぱタイマーで検出するしかないかな?なんというか、VLM 制御用 OS みたいなものが欲しいのかも)
s/校正/構成/
(1台分の枠が空いたので、金曜日ごろから BID:200020682 改正音訓 詩經 を始めたが、ぱっと見簡単そうなのに、なぜか Qwen3-VL 32B でテキストボックス抽出も失敗して、如何にもこうにも座標がうまく取れないので、結局、NDL 古典籍 OCR v3 で行座標抽出したものの中身を Qwen3-VL 32B で文字認識するというハイブリッド校正が良さそうということに:
gitlab.nijl.ac.jp/Kotenseki/it...
に自動 commit & push したタイムスタンプを見るとやはり時々ハルシネーション起こして数時間止まってる)
(Qwen-3.5 試したいと思いつつ手持ちの機械では動かないので Qwen3-VL 32B を3台のマシンで動かす今日この頃)
現在、www.chise.org のサーバーが立ち上がらない状態になっています。CHISE IDS 漢字検索は
chise.nijl.ac.jp/ids-find
も利用できますのでお急ぎの方はこちらをどうぞ。
デジタルアーカイブ学会学会賞授与式が昨日開催されました。
今回は以下の17件に授与されました。みなさま、本当におめでとうございます!
awards.digitalarchivejapan.org/awards/7thaw...
(AMD APU の最大搭載メモリーが 256GB になったらすごいと思うが、現状のメモリー価格高騰を考えると安くはないだろうな。なんやかんやで Mac のコスパが良くなってきたが、Mac では NVIDIA GPU 使えないのでやれることは限られる。爆盛り MacBook Pro を端末に Ryzen AI Max+ 395 のミニ PC に NVIDIA GPU 繋げるのが便利?)
(AMD の ROCm もやり方が分かれば、今日では結構実用的だと分かったが、現状、やっぱ遅い。とはいえ、高速化も進展中なので今後に期待。40万円台で GPU メモリー 96GB 超確保できるのは現状 Ryzen AI Max+ 395 しかないがメモリーの転送速度は遅い。DGX Spark は苦労少なさそうだがメモリーは遅くて高い。メモリー爆盛り Mac はメモリーがちょっと速めで、現状、LLM だけなら実用的? あと、AMD APU は GPU メモリー割り当てを UEFI でしなきゃだけど、Mac は OS 内で制御できるのが便利?)
(ハルシネーション等の問題はあるものの、漢字文献読ませるなら VLM OCR は良いと言って良いだろう。ただ、現在進展中のものだから、色々並行して実験したいし、また、タスクによって重点化すべきポイントが結構違い、結局、ユニファイドメモリー系で高速な Mac と GPU は低速だけど CPU は早めな AMD, 低予算だと GPU メモリーが少なくなるが計算は早い NVIDIA の全部揃えてないと効率が悪いようだ。また、vLLM でクラスター組む技術もいるっぽい)
(一方、Qwen3-VL-8B を使って「松島夜話」にかけた OCR 結果はできてた:
gitlab.nijl.ac.jp/Kotenseki/it...
ページ毎に形式が違うのと座標が謎なのがアレだが); 座標に関しては、なんとかしようとプロンプト工夫すると途端に超遅くなる(し、それでもうまくいかない)ので諦めた
(昨晩動かした Qwen3-VL-30B-A3B を使ったスクリプトだが、一晩経ってもまだモデルのダウンロードが終わらない)
(Qwen3-VL と戦ってるが、出力の座標系がうまく制御できないし、qwenvl html や qwenvl markdown じゃ座標出してくれない。ただ、割注を理解してくれるっぽいので割と最強かも知れない。でも、プロンプトの黒魔術の世界になってきてちょっといやん)
(Qwen3-VL-8B って翻刻テキストをコピペしてるだけなんじゃないかと疑っていたが、ネットに転がってない気がする松島夜話も読めちゃったのでどうも本当に読んでるっぽい)
(プロンプトを工夫してみたところ、漢文読んでくれた。が、読ませた画像にない句読点が出てくる。白文画像読ませたら標点本が出てくる仕様?それとも、標点本覚えてて、近い標点本(の一部)が出てくる?)
(結局、ちゃんとした結果は出なかった。ちゃんと推論できてるんだろうか?)
(今度は Qwen3-VL-8B の環境を作って動かしてみたんだが、超遅い。なんかやってるっぽいが、これちゃんと動いてるんだろうか?)
(とはいえ、Large モデルが動くのは良い)
(試行錯誤の末、なんとか MINISFORUM MS-S1 Max に載せた Debian trixie 上で DeepSeek-OCR を動かすことに成功した。ただ、やっぱちょっと遅い)
(結局、
community.frame.work/t/compiling-...
を参考にやったらうまくいったっぽい。ソースから入れるのはまたの機会に)
(というか、69並列でコンパイルしてるんだけど、これが原因?)
(CPU のメモリーを 96GB にして、swap 64GB 追加して、メモリー使用量を見てると、今のところ、最大 82GB ぐらいか)
(Out of memory が出てた。CPU のメモリー 64GB じゃ足りないのか)