tomo.'s Avatar

tomo.

@tomo.chise.org

CHISE project https://www.chise.org の中の人。 https://gitlab.chise.org/tomo https://github.com/chise https://twitter.com/CHISE_ja

30
Followers
37
Following
363
Posts
07.02.2024
Joined
Posts Following

Latest posts by tomo. @tomo.chise.org

(詩經を読んでて、父方の祖母の名前の出典が采蘋であることに気づく。ひいおじいちゃんは国漢の先生だったからか)

11.03.2026 01:36 👍 0 🔁 0 💬 0 📌 0
Post image

(墨俣一夜城のあたり
gitlab.nijl.ac.jp/Kokusho/2000...

kokusho.nijl.ac.jp/api/iiif/200... )

01.03.2026 12:12 👍 0 🔁 0 💬 0 📌 0

(mlx-community/Qwen3.5-27B-4bit が出たので MacBook Pro (2023) メモリー 36GB で試したら動いた。ただ漢籍用 OCR としてはなかなか癖強で、推論モード切ってるはずなのに謎の推論過程を出してきてなかなか JSON で座標位置と文字列を吐いてくれない。試行錯誤の末、呂覽の本文行を JSON で出すことに成功した。試しに1枚やった結果を見たら Qwen3-VL-32B と比べて結果が良かった。まあ、Qwen3-VL-32B-8bit 相当がメモリー 36GB 環境で動くのは良い)

25.02.2026 09:08 👍 0 🔁 0 💬 0 📌 0
Preview
Kotenseki / item / Zinbun-Toho-A024 淮南書局4次様本説文解字 · GitLab GitLab Community Edition

(それはさておき、これで
gitlab.nijl.ac.jp/Kotenseki/it...
にも国書 WID:4440598 kokusho.nijl.ac.jp/work/4440598 が記載できるようになった)

24.02.2026 12:49 👍 0 🔁 0 💬 0 📌 0
国書データベース:国文学研究資料館

( doi.org/10.20730/300... と kokusho.nijl.ac.jp/biblio/10031... の著作IDがともに「段/玉裁註」の「説文解字」(WID 4420014) という謎なものになってたので担当者に連絡したところ、「徐/鉉 訂」の「説文解字」 kokusho.nijl.ac.jp/work/4440598 (大徐本相当)が新設され、
kokusho.nijl.ac.jp/work/4420014 の統一書名も「説文解字注」に変わった。他にも漢籍関係微妙な箇所がいくつかあるような気がするので気づいたら連絡すべきか?(みなかったことにしがちだが))

24.02.2026 12:47 👍 0 🔁 0 💬 0 📌 0

(改正音訓 詩經用に NDL古典籍OCRv3 と Qwen3-VL 32B を使ったハイブリッド OCR スクリプトを作ったので、改正音訓の残りの4つにも試そうと思ったら版面構造が違ってて使えなさそう。残念)

24.02.2026 12:36 👍 0 🔁 0 💬 0 📌 0

(はじめてシラバスというものを書いてるが、多分、受講者集まらなくて開講されないと思うので、俺が考えた最強の人文情報学入門みたいなのを適当に書けば良いはず)

24.02.2026 12:06 👍 0 🔁 0 💬 0 📌 0

(commit のタイムスタンプから察するに、時々ハルシネーション起こして数時間止まってて、そういうケースでは結果も良くないので、ハルシネーション起こし出したら処理を自動で止めたいんだけど、やっぱタイマーで検出するしかないかな?なんというか、VLM 制御用 OS みたいなものが欲しいのかも)

24.02.2026 11:36 👍 0 🔁 0 💬 0 📌 0

s/校正/構成/

24.02.2026 11:33 👍 0 🔁 0 💬 1 📌 0
Preview
nk3-segment_Qwen3-VL-32B/QmP8K7N4JZg8V4oeoSjaB3eceGg3JrCBHppJ21WR7N9ewg/markdown_line_pct100 · main · Kotenseki / item / 200020682 改正音訓 詩經 · GitLab GitLab Community Edition

(1台分の枠が空いたので、金曜日ごろから BID:200020682 改正音訓 詩經 を始めたが、ぱっと見簡単そうなのに、なぜか Qwen3-VL 32B でテキストボックス抽出も失敗して、如何にもこうにも座標がうまく取れないので、結局、NDL 古典籍 OCR v3 で行座標抽出したものの中身を Qwen3-VL 32B で文字認識するというハイブリッド校正が良さそうということに:
gitlab.nijl.ac.jp/Kotenseki/it...
に自動 commit & push したタイムスタンプを見るとやはり時々ハルシネーション起こして数時間止まってる)

24.02.2026 11:33 👍 0 🔁 0 💬 1 📌 0

(Qwen-3.5 試したいと思いつつ手持ちの機械では動かないので Qwen3-VL 32B を3台のマシンで動かす今日この頃)

24.02.2026 11:22 👍 0 🔁 0 💬 1 📌 0
CHISE IDS Find

現在、www.chise.org のサーバーが立ち上がらない状態になっています。CHISE IDS 漢字検索は
chise.nijl.ac.jp/ids-find
も利用できますのでお急ぎの方はこちらをどうぞ。

31.01.2026 12:51 👍 1 🔁 0 💬 0 📌 0
Post image

デジタルアーカイブ学会学会賞授与式が昨日開催されました。
今回は以下の17件に授与されました。みなさま、本当におめでとうございます!
awards.digitalarchivejapan.org/awards/7thaw...

10.01.2026 01:24 👍 1 🔁 2 💬 0 📌 0
Preview
飯間浩明 on X: "「旦」の古い形は、篆文では地平線から日が出る形ですが、さらに古い文字では別の形です。では、「日」の下側は本来何だったのかというと、「雲」(白川静)とも、「水分が落ちる形/黄塵など」(水上静夫)とも言う。要はよく分からんので、今の字典では篆文を基に「地平線」とする説明が一般的です。 https://t.co/1uyKbeYsyi" / X 「旦」の古い形は、篆文では地平線から日が出る形ですが、さらに古い文字では別の形です。では、「日」の下側は本来何だったのかというと、「雲」(白川静)とも、「水分が落ちる形/黄塵など」(水上静夫)とも言う。要はよく分からんので、今の字典では篆文を基に「地平線」とする説明が一般的です。 https://t.co/1uyKbeYsyi

漢字のデフォは形声(漢字は音節文字)って感覚が辞書屋さんにないのがやばいって話?
x.com/IIMA_Hiroaki...

03.01.2026 07:58 👍 1 🔁 0 💬 0 📌 0

(AMD APU の最大搭載メモリーが 256GB になったらすごいと思うが、現状のメモリー価格高騰を考えると安くはないだろうな。なんやかんやで Mac のコスパが良くなってきたが、Mac では NVIDIA GPU 使えないのでやれることは限られる。爆盛り MacBook Pro を端末に Ryzen AI Max+ 395 のミニ PC に NVIDIA GPU 繋げるのが便利?)

10.12.2025 09:57 👍 1 🔁 0 💬 0 📌 0

(AMD の ROCm もやり方が分かれば、今日では結構実用的だと分かったが、現状、やっぱ遅い。とはいえ、高速化も進展中なので今後に期待。40万円台で GPU メモリー 96GB 超確保できるのは現状 Ryzen AI Max+ 395 しかないがメモリーの転送速度は遅い。DGX Spark は苦労少なさそうだがメモリーは遅くて高い。メモリー爆盛り Mac はメモリーがちょっと速めで、現状、LLM だけなら実用的? あと、AMD APU は GPU メモリー割り当てを UEFI でしなきゃだけど、Mac は OS 内で制御できるのが便利?)

10.12.2025 09:52 👍 0 🔁 0 💬 1 📌 0

(ハルシネーション等の問題はあるものの、漢字文献読ませるなら VLM OCR は良いと言って良いだろう。ただ、現在進展中のものだから、色々並行して実験したいし、また、タスクによって重点化すべきポイントが結構違い、結局、ユニファイドメモリー系で高速な Mac と GPU は低速だけど CPU は早めな AMD, 低予算だと GPU メモリーが少なくなるが計算は早い NVIDIA の全部揃えてないと効率が悪いようだ。また、vLLM でクラスター組む技術もいるっぽい)

10.12.2025 09:42 👍 0 🔁 0 💬 1 📌 0
Preview
Qwen3-VL-8B/text-md · master · Kotenseki / item / Matsushima-Yawa · GitLab GitLab Community Edition

(一方、Qwen3-VL-8B を使って「松島夜話」にかけた OCR 結果はできてた:
gitlab.nijl.ac.jp/Kotenseki/it...
ページ毎に形式が違うのと座標が謎なのがアレだが); 座標に関しては、なんとかしようとプロンプト工夫すると途端に超遅くなる(し、それでもうまくいかない)ので諦めた

09.12.2025 23:30 👍 0 🔁 0 💬 0 📌 0

(昨晩動かした Qwen3-VL-30B-A3B を使ったスクリプトだが、一晩経ってもまだモデルのダウンロードが終わらない)

09.12.2025 23:26 👍 0 🔁 0 💬 0 📌 0

(Qwen3-VL と戦ってるが、出力の座標系がうまく制御できないし、qwenvl html や qwenvl markdown じゃ座標出してくれない。ただ、割注を理解してくれるっぽいので割と最強かも知れない。でも、プロンプトの黒魔術の世界になってきてちょっといやん)

09.12.2025 09:07 👍 0 🔁 0 💬 0 📌 0

(Qwen3-VL-8B って翻刻テキストをコピペしてるだけなんじゃないかと疑っていたが、ネットに転がってない気がする松島夜話も読めちゃったのでどうも本当に読んでるっぽい)

09.12.2025 06:36 👍 1 🔁 0 💬 1 📌 0

(プロンプトを工夫してみたところ、漢文読んでくれた。が、読ませた画像にない句読点が出てくる。白文画像読ませたら標点本が出てくる仕様?それとも、標点本覚えてて、近い標点本(の一部)が出てくる?)

09.12.2025 03:58 👍 0 🔁 0 💬 0 📌 0

(結局、ちゃんとした結果は出なかった。ちゃんと推論できてるんだろうか?)

09.12.2025 03:14 👍 0 🔁 0 💬 1 📌 0

(今度は Qwen3-VL-8B の環境を作って動かしてみたんだが、超遅い。なんかやってるっぽいが、これちゃんと動いてるんだろうか?)

09.12.2025 03:10 👍 0 🔁 0 💬 1 📌 0

(とはいえ、Large モデルが動くのは良い)

08.12.2025 14:30 👍 0 🔁 0 💬 0 📌 0

(試行錯誤の末、なんとか MINISFORUM MS-S1 Max に載せた Debian trixie 上で DeepSeek-OCR を動かすことに成功した。ただ、やっぱちょっと遅い)

08.12.2025 13:55 👍 0 🔁 0 💬 1 📌 0
Preview
Compiling VLLM from source on Strix Halo Finally put together a recipe for compiling VLLM from source on Strix Halo. Please note that while it worked yesterday, it may stop working tomorrow if they introduce any breaking changes. Please let ...

(結局、
community.frame.work/t/compiling-...
を参考にやったらうまくいったっぽい。ソースから入れるのはまたの機会に)

08.12.2025 12:09 👍 0 🔁 0 💬 0 📌 0

(というか、69並列でコンパイルしてるんだけど、これが原因?)

08.12.2025 04:06 👍 0 🔁 0 💬 1 📌 0

(CPU のメモリーを 96GB にして、swap 64GB 追加して、メモリー使用量を見てると、今のところ、最大 82GB ぐらいか)

08.12.2025 04:05 👍 0 🔁 0 💬 1 📌 0

(Out of memory が出てた。CPU のメモリー 64GB じゃ足りないのか)

08.12.2025 02:58 👍 0 🔁 0 💬 1 📌 0