Paper's Avatar

Paper

@paper

Summarize the top 30 most popular arXiv papers on Reddit, Hacker News and Hugging Face in the last 30 days. Source: https://github.com/susumuota/arxiv-reddit-summary Maintained by @ota.bsky.social

1,221
Followers
0
Following
10,142
Posts
11.04.2023
Joined
Posts Following

Latest posts by Paper @paper

1/30 https://arxiv.org/abs/2602.09281
2/30 https://arxiv.org/abs/2603.00782
3/30 https://arxiv.org/abs/2602.12176
4/30 https://arxiv.org/abs/2602.20159
5/30 https://arxiv.org/abs/2602.11988
6/30 https://arxiv.org/abs/2602.12670
7/30 https://arxiv.org/abs/2602.10177
8/30 https://arxiv.org/abs/2602.15763
9/30 https://arxiv.org/abs/2602.11632
10/30 https://arxiv.org/abs/2602.13964
11/30 https://arxiv.org/abs/2602.13517
12/30 https://arxiv.org/abs/2602.08222
13/30 https://arxiv.org/abs/2602.21548
14/30 https://arxiv.org/abs/2602.08354
15/30 https://arxiv.org/abs/2602.10388
16/30 https://arxiv.org/abs/2602.10693
17/30 https://arxiv.org/abs/2602.15827
18/30 https://arxiv.org/abs/2602.07274
19/30 https://arxiv.org/abs/2602.09856
20/30 https://arxiv.org/abs/2602.09877
21/30 https://arxiv.org/abs/2602.23152
22/30 https://arxiv.org/abs/2602.10604
23/30 https://arxiv.org/abs/2602.07085
24/30 https://arxiv.org/abs/2602.16800
25/30 https://arxiv.org/abs/2603.03281
26/30 https://arxiv.org/abs/2602.11358
27/30 https://arxiv.org/abs/2602.20392
28/30 https://arxiv.org/abs/2602.15171
29/30 https://arxiv.org/abs/2602.09082
30/30 https://arxiv.org/abs/2602.08794

1/30 https://arxiv.org/abs/2602.09281 2/30 https://arxiv.org/abs/2603.00782 3/30 https://arxiv.org/abs/2602.12176 4/30 https://arxiv.org/abs/2602.20159 5/30 https://arxiv.org/abs/2602.11988 6/30 https://arxiv.org/abs/2602.12670 7/30 https://arxiv.org/abs/2602.10177 8/30 https://arxiv.org/abs/2602.15763 9/30 https://arxiv.org/abs/2602.11632 10/30 https://arxiv.org/abs/2602.13964 11/30 https://arxiv.org/abs/2602.13517 12/30 https://arxiv.org/abs/2602.08222 13/30 https://arxiv.org/abs/2602.21548 14/30 https://arxiv.org/abs/2602.08354 15/30 https://arxiv.org/abs/2602.10388 16/30 https://arxiv.org/abs/2602.10693 17/30 https://arxiv.org/abs/2602.15827 18/30 https://arxiv.org/abs/2602.07274 19/30 https://arxiv.org/abs/2602.09856 20/30 https://arxiv.org/abs/2602.09877 21/30 https://arxiv.org/abs/2602.23152 22/30 https://arxiv.org/abs/2602.10604 23/30 https://arxiv.org/abs/2602.07085 24/30 https://arxiv.org/abs/2602.16800 25/30 https://arxiv.org/abs/2603.03281 26/30 https://arxiv.org/abs/2602.11358 27/30 https://arxiv.org/abs/2602.20392 28/30 https://arxiv.org/abs/2602.15171 29/30 https://arxiv.org/abs/2602.09082 30/30 https://arxiv.org/abs/2602.08794

Top 30 most popular arXiv papers in the last 30 days.
[1/30] [2/30] [3/30] [4/30] [5/30] [6/30] [7/30] [8/30] [9/30] [10/30] [11/30] [12/30] [13/30] [14/30] [15/30] [16/30] [17/30] [18/30] [19/30] [20/30] [21/30] [22/30] [23/30] [24/30] [25/30] [26/30] [27/30] [28/30] [29/30] [30/30]

08.03.2026 00:07 👍 0 🔁 0 💬 0 📌 0
音声は珟実䞖界の動画に䞍可欠であるにもかかわらず、生成モデルは音声芁玠をほずんど無芖しおきた。

珟圚の芖聎芚コンテンツ制䜜手法は、カスケヌド型パむプラむンに䟝存するこずが倚く、これによりコストが増加し、゚ラヌが蓄積され、党䜓的な品質が䜎䞋する。

Veo 3やSora 2ずいったシステムが同時生成の䟡倀を匷調する䞀方で、共同マルチモヌダルモデリングはアヌキテクチャ、デヌタ、トレヌニングにおいお独自の課題を提瀺する。

さらに、既存システムのクロヌズド゜ヌスな性質が、この分野における進歩を制限しおいる。

本研究では、高品質で同期した音声・映像コンテンツを生成可胜なオヌプン゜ヌスモデル「MOVAMOSS Video and Audio」を提案する。これには、リアルな口パク同期音声、環境認識型効果音、コンテンツに敎合した音楜が含たれる。

MOVAは混合゚キスパヌトMoEアヌキテクチャを採甚しおおり、総パラメヌタ数は320億個で、そのうち掚論時にアクティブずなるのは180億個である。

IT2VA画像・テキストから動画・音声ぞの倉換生成タスクをサポヌトしたす。

モデル重みずコヌドを公開するこずで、研究の進展ず掻発なクリ゚むタヌコミュニティの育成を目指したす。

公開されたコヌドベヌスは、効率的な掚論、LoRAによる埮調敎、プロンプト匷化に察する包括的なサポヌトを備えおいたす。

音声は珟実䞖界の動画に䞍可欠であるにもかかわらず、生成モデルは音声芁玠をほずんど無芖しおきた。 珟圚の芖聎芚コンテンツ制䜜手法は、カスケヌド型パむプラむンに䟝存するこずが倚く、これによりコストが増加し、゚ラヌが蓄積され、党䜓的な品質が䜎䞋する。 Veo 3やSora 2ずいったシステムが同時生成の䟡倀を匷調する䞀方で、共同マルチモヌダルモデリングはアヌキテクチャ、デヌタ、トレヌニングにおいお独自の課題を提瀺する。 さらに、既存システムのクロヌズド゜ヌスな性質が、この分野における進歩を制限しおいる。 本研究では、高品質で同期した音声・映像コンテンツを生成可胜なオヌプン゜ヌスモデル「MOVAMOSS Video and Audio」を提案する。これには、リアルな口パク同期音声、環境認識型効果音、コンテンツに敎合した音楜が含たれる。 MOVAは混合゚キスパヌトMoEアヌキテクチャを採甚しおおり、総パラメヌタ数は320億個で、そのうち掚論時にアクティブずなるのは180億個である。 IT2VA画像・テキストから動画・音声ぞの倉換生成タスクをサポヌトしたす。 モデル重みずコヌドを公開するこずで、研究の進展ず掻発なクリ゚むタヌコミュニティの育成を目指したす。 公開されたコヌドベヌスは、効率的な掚論、LoRAによる埮調敎、プロンプト匷化に察する包括的なサポヌトを備えおいたす。

2602.08794
音声は珟実䞖界の動画に䞍可欠であるにもかかわらず、生成モデルは音声芁玠をほずんど無芖しおきた。珟圚の芖聎芚コンテンツ制䜜手法は、カスケヌド型パむプラむンに䟝存するこずが倚く、これによりコストが増加し、゚ラヌが蓄積され、党䜓的な品質が䜎䞋する。Veo 3やSora 2ずいったシステムが同時生成の䟡...

08.03.2026 00:07 👍 0 🔁 0 💬 0 📌 0
Preview
MOVA: Towards Scalable and Synchronized Video-Audio Generation Audio is indispensable for real-world video, yet generation models have largely overlooked audio components. Current approaches to producing audio-visual content often rely on cascaded pipelines, whic...

Links: abs, pdf
Search: Bluesky, Twitter, Reddit, Hacker News, Hugging Face, alphaXiv

08.03.2026 00:07 👍 0 🔁 0 💬 1 📌 0
Preview
Paper page - MOVA: Towards Scalable and Synchronized Video-Audio Generation Join the discussion on this paper page

(1/1) 154 Likes, 4 Comments, 10 Feb 2026, Hugging Face

08.03.2026 00:07 👍 0 🔁 0 💬 1 📌 0
Audio is indispensable for real-world video, yet generation models have largely overlooked audio components. 

Current approaches to producing audio-visual content often rely on cascaded pipelines, which increase cost, accumulate errors, and degrade overall quality. 

While systems such as Veo 3 and Sora 2 emphasize the value of simultaneous generation, joint multimodal modeling introduces unique challenges in architecture, data, and training. 

Moreover, the closed-source nature of existing systems limits progress in the field. 

In this work, we introduce MOVA (MOSS Video and Audio), an open-source model capable of generating high-quality, synchronized audio-visual content, including realistic lip-synced speech, environment-aware sound effects, and content-aligned music. 

MOVA employs a Mixture-of-Experts (MoE) architecture, with a total of 32B parameters, of which 18B are active during inference. 

It supports IT2VA (Image-Text to Video-Audio) generation task. 

By releasing the model weights and code, we aim to advance research and foster a vibrant community of creators. 

The released codebase features comprehensive support for efficient inference, LoRA fine-tuning, and prompt enhancement.

Audio is indispensable for real-world video, yet generation models have largely overlooked audio components. Current approaches to producing audio-visual content often rely on cascaded pipelines, which increase cost, accumulate errors, and degrade overall quality. While systems such as Veo 3 and Sora 2 emphasize the value of simultaneous generation, joint multimodal modeling introduces unique challenges in architecture, data, and training. Moreover, the closed-source nature of existing systems limits progress in the field. In this work, we introduce MOVA (MOSS Video and Audio), an open-source model capable of generating high-quality, synchronized audio-visual content, including realistic lip-synced speech, environment-aware sound effects, and content-aligned music. MOVA employs a Mixture-of-Experts (MoE) architecture, with a total of 32B parameters, of which 18B are active during inference. It supports IT2VA (Image-Text to Video-Audio) generation task. By releasing the model weights and code, we aim to advance research and foster a vibrant community of creators. The released codebase features comprehensive support for efficient inference, LoRA fine-tuning, and prompt enhancement.

[30/30] 154 Likes, 4 Comments, 1 Posts
2602.08794, cs CV | cs SD, 10 Feb 2026

🆕MOVA: Towards Scalable and Synchronized Video-Audio Generation

SII-OpenMOSS Team, :, Donghua Yu, Mingshu Chen, Qi Chen, Qi Luo, Qianyi Wu, Qinyuan Cheng, Ruixiao Li, Tianyi Liang, Wenbo Zhang, Wenming Tu, Xiangyu ...

08.03.2026 00:07 👍 0 🔁 0 💬 1 📌 0
珟圚のマルチビュヌ屋内3D物䜓怜出噚は、マルチビュヌ情報をグロヌバルなシヌン衚珟に融合させるために、取埗コストの高いセンサヌ幟䜕孊すなわち粟密にキャリブレヌションされたマルチビュヌカメラの姿勢に䟝存しおおり、実䞖界のシヌンでの展開を制限しおいる。

我々はより実甚的な蚭定を目暙ずするセンサヌ幟䜕孊フリヌSG-Freeマルチビュヌ屋内3D物䜓怜出。ここではセンサヌが提䟛する幟䜕孊的入力マルチビュヌ姿勢や深床が存圚しない。

最近の芖芚幟䜕孊基盀トランスフォヌマヌVGGTは、匷力な3D手がかりが画像から盎接掚枬できるこずを瀺しおいる。

この知芋に基づき、我々はSGフリヌなマルチビュヌ屋内3D物䜓怜出に特化した初のフレヌムワヌクであるVGGT-Detを提案する。

単にVGGTの予枬結果を利甚するのではなく、我々の手法ではVGGT゚ンコヌダヌをトランスフォヌマヌベヌスのパむプラむンに統合する。

VGGT内郚のセマンティック事前情報ず幟䜕孊的事前情報の䞡方を効果的に掻甚するため、我々は二぀の新芏䞻芁コンポヌネントを導入する

(i) 泚意誘導型ク゚リ生成AGVGGTの泚意マップを意味的事前情報ずしお掻甚し、オブゞェクトク゚リを初期化する。これにより、グロヌバルな空間構造を維持し぀぀オブゞェクト領域に焊点を圓おるこずで局所化粟床を向䞊させる。

(ii) ク゚リ駆動型特城量集玄QD孊習可胜な「芋るク゚リ」がオブゞェクトク゚リず盞互䜜甚し、その必芁性を「認識」した埌、VGGT局党䜓で倚階局の幟䜕孊的特城量を動的に集玄する。これにより2次元特城量が段階的に3次元ぞ昇華される。

実隓により、VGGT-DetはSG-Free蚭定においお、ScanNetずARKitScenesそれぞれで、最良手法を4.4および8.6mAP@0.25䞊回る性胜を発揮するこずが瀺された。

アブレヌション研究により、VGGTが内郚的に孊習した意味的・幟䜕孊的先隓知識が、我々のAGずQDによっお効果的に掻甚できるこずが瀺された。

珟圚のマルチビュヌ屋内3D物䜓怜出噚は、マルチビュヌ情報をグロヌバルなシヌン衚珟に融合させるために、取埗コストの高いセンサヌ幟䜕孊すなわち粟密にキャリブレヌションされたマルチビュヌカメラの姿勢に䟝存しおおり、実䞖界のシヌンでの展開を制限しおいる。 我々はより実甚的な蚭定を目暙ずするセンサヌ幟䜕孊フリヌSG-Freeマルチビュヌ屋内3D物䜓怜出。ここではセンサヌが提䟛する幟䜕孊的入力マルチビュヌ姿勢や深床が存圚しない。 最近の芖芚幟䜕孊基盀トランスフォヌマヌVGGTは、匷力な3D手がかりが画像から盎接掚枬できるこずを瀺しおいる。 この知芋に基づき、我々はSGフリヌなマルチビュヌ屋内3D物䜓怜出に特化した初のフレヌムワヌクであるVGGT-Detを提案する。 単にVGGTの予枬結果を利甚するのではなく、我々の手法ではVGGT゚ンコヌダヌをトランスフォヌマヌベヌスのパむプラむンに統合する。 VGGT内郚のセマンティック事前情報ず幟䜕孊的事前情報の䞡方を効果的に掻甚するため、我々は二぀の新芏䞻芁コンポヌネントを導入する (i) 泚意誘導型ク゚リ生成AGVGGTの泚意マップを意味的事前情報ずしお掻甚し、オブゞェクトク゚リを初期化する。これにより、グロヌバルな空間構造を維持し぀぀オブゞェクト領域に焊点を圓おるこずで局所化粟床を向䞊させる。 (ii) ク゚リ駆動型特城量集玄QD孊習可胜な「芋るク゚リ」がオブゞェクトク゚リず盞互䜜甚し、その必芁性を「認識」した埌、VGGT局党䜓で倚階局の幟䜕孊的特城量を動的に集玄する。これにより2次元特城量が段階的に3次元ぞ昇華される。 実隓により、VGGT-DetはSG-Free蚭定においお、ScanNetずARKitScenesそれぞれで、最良手法を4.4および8.6mAP@0.25䞊回る性胜を発揮するこずが瀺された。 アブレヌション研究により、VGGTが内郚的に孊習した意味的・幟䜕孊的先隓知識が、我々のAGずQDによっお効果的に掻甚できるこずが瀺された。

2603.00912
珟圚のマルチビュヌ屋内3D物䜓怜出噚は、マルチビュヌ情報をグロヌバルなシヌン衚珟に融合させるために、取埗コストの高いセンサヌ幟䜕孊すなわち粟密にキャリブレヌションされたマルチビュヌカメラの姿勢に䟝存しおおり、実䞖界のシヌンでの展開を制限しおいる。我々はより実甚的な蚭定を目暙ずするセ...

07.03.2026 00:17 👍 0 🔁 0 💬 0 📌 0
Preview
VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection Current multi-view indoor 3D object detectors rely on sensor geometry that is costly to obtain (i.e., precisely calibrated multi-view camera poses) to fuse multi-view information into a global scene r...

Links: abs, pdf
Search: Bluesky, Twitter, Reddit, Hacker News, Hugging Face, alphaXiv

07.03.2026 00:17 👍 0 🔁 0 💬 1 📌 0
Preview
Paper page - VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection Join the discussion on this paper page

(1/1) 33 Likes, 3 Comments, 03 Mar 2026, Hugging Face

07.03.2026 00:17 👍 0 🔁 0 💬 1 📌 0
Current multi-view indoor 3D object detectors rely on sensor geometry that is costly to obtain (i.e., precisely calibrated multi-view camera poses) to fuse multi-view information into a global scene representation, limiting deployment in real-world scenes. 

We target a more practical setting: Sensor-Geometry-Free (SG-Free) multi-view indoor 3D object detection, where there are no sensor-provided geometric inputs (multi-view poses or depth). 

Recent Visual Geometry Grounded Transformer (VGGT) shows that strong 3D cues can be inferred directly from images. 

Building on this insight, we present VGGT-Det, the first framework tailored for SG-Free multi-view indoor 3D object detection. 

Rather than merely consuming VGGT predictions, our method integrates VGGT encoder into a transformer-based pipeline. 

To effectively leverage both the semantic and geometric priors from inside VGGT, we introduce two novel key components: 

(i) Attention-Guided Query Generation (AG): exploits VGGT attention maps as semantic priors to initialize object queries, improving localization by focusing on object regions while preserving global spatial structure; 

(ii) Query-Driven Feature Aggregation (QD): a learnable See-Query interacts with object queries to 'see' what they need, and then dynamically aggregates multi-level geometric features across VGGT layers that progressively lift 2D features into 3D. 

Experiments show that VGGT-Det significantly surpasses the best-performing method in the SG-Free setting by 4.4 and 8.6 mAP@0.25 on ScanNet and ARKitScenes, respectively. 

Ablation study shows that VGGT's internally learned semantic and geometric priors can be effectively leveraged by our AG and QD.

Current multi-view indoor 3D object detectors rely on sensor geometry that is costly to obtain (i.e., precisely calibrated multi-view camera poses) to fuse multi-view information into a global scene representation, limiting deployment in real-world scenes. We target a more practical setting: Sensor-Geometry-Free (SG-Free) multi-view indoor 3D object detection, where there are no sensor-provided geometric inputs (multi-view poses or depth). Recent Visual Geometry Grounded Transformer (VGGT) shows that strong 3D cues can be inferred directly from images. Building on this insight, we present VGGT-Det, the first framework tailored for SG-Free multi-view indoor 3D object detection. Rather than merely consuming VGGT predictions, our method integrates VGGT encoder into a transformer-based pipeline. To effectively leverage both the semantic and geometric priors from inside VGGT, we introduce two novel key components: (i) Attention-Guided Query Generation (AG): exploits VGGT attention maps as semantic priors to initialize object queries, improving localization by focusing on object regions while preserving global spatial structure; (ii) Query-Driven Feature Aggregation (QD): a learnable See-Query interacts with object queries to 'see' what they need, and then dynamically aggregates multi-level geometric features across VGGT layers that progressively lift 2D features into 3D. Experiments show that VGGT-Det significantly surpasses the best-performing method in the SG-Free setting by 4.4 and 8.6 mAP@0.25 on ScanNet and ARKitScenes, respectively. Ablation study shows that VGGT's internally learned semantic and geometric priors can be effectively leveraged by our AG and QD.

[5/30] 33 Likes, 3 Comments, 1 Posts
2603.00912, cs CV, 01 Mar 2026

🆕VGGT-Det: Mining VGGT Internal Priors for Sensor-Geometry-Free Multi-View Indoor 3D Object Detection

Yang Cao, Feize Wu, Dave Zhenyu Chen, Yingji Zhong, Lanqing Hong, Dan Xu

07.03.2026 00:16 👍 0 🔁 0 💬 1 📌 0
拡散モデルは高粟现画像・動画生成の䞻流ツヌルずなったが、拡散トランスフォヌマヌの反埩凊理が倚数必芁ずなるため、掚論速床が重倧なボトルネックずなっおいる。

蚈算負荷を軜枛するため、近幎の研究では特城量のキャッシュず再利甚手法を採甚しおいる。これは、前のステップでキャッシュされた特城量を䜿甚するこずで、遞択された拡散ステップにおけるネットワヌク評䟡をスキップするものである。

しかしながら、圌らの予備蚭蚈は局所近䌌のみに䟝存しおいるため、スキップが倧きくなるに぀れお誀差が急速に増倧し、高速化に䌎いサンプル品質が䜎䞋する。

本研究では、スペクトル拡散特城予枬噚Spectrumを提案する。これは孊習䞍芁の手法であり、厳密に制埡された誀差のもずで、グロヌバルか぀長距離にわたる特城の再利甚を可胜ずする。

特に、我々はデノむザヌの朜圚特城を時間に関する関数ず芋なし、チェビシェフ倚項匏を甚いお近䌌する。

具䜓的には、リッゞ回垰を甚いお各基底成分の係数を掚定し、これを甚いお耇数の将来の拡散ステップにおける特城量を予枬する。

我々の手法はより良奜な長期的な挙動を瀺し、ステップサむズに䟝存しない誀差の䞊限をもたらすこずを理論的に明らかにした。

様々な最先端の画像および動画拡散モデルに察する広範な実隓により、我々の手法の優䜍性が䞀貫しお実蚌されおいる。

特に、ベヌスラむンず比范しおはるかに高いサンプル品質を維持しながら、FLUX.1では最倧4.79倍、Wan2.1-14Bでは最倧4.67倍の高速化を達成しおいる。

拡散モデルは高粟现画像・動画生成の䞻流ツヌルずなったが、拡散トランスフォヌマヌの反埩凊理が倚数必芁ずなるため、掚論速床が重倧なボトルネックずなっおいる。 蚈算負荷を軜枛するため、近幎の研究では特城量のキャッシュず再利甚手法を採甚しおいる。これは、前のステップでキャッシュされた特城量を䜿甚するこずで、遞択された拡散ステップにおけるネットワヌク評䟡をスキップするものである。 しかしながら、圌らの予備蚭蚈は局所近䌌のみに䟝存しおいるため、スキップが倧きくなるに぀れお誀差が急速に増倧し、高速化に䌎いサンプル品質が䜎䞋する。 本研究では、スペクトル拡散特城予枬噚Spectrumを提案する。これは孊習䞍芁の手法であり、厳密に制埡された誀差のもずで、グロヌバルか぀長距離にわたる特城の再利甚を可胜ずする。 特に、我々はデノむザヌの朜圚特城を時間に関する関数ず芋なし、チェビシェフ倚項匏を甚いお近䌌する。 具䜓的には、リッゞ回垰を甚いお各基底成分の係数を掚定し、これを甚いお耇数の将来の拡散ステップにおける特城量を予枬する。 我々の手法はより良奜な長期的な挙動を瀺し、ステップサむズに䟝存しない誀差の䞊限をもたらすこずを理論的に明らかにした。 様々な最先端の画像および動画拡散モデルに察する広範な実隓により、我々の手法の優䜍性が䞀貫しお実蚌されおいる。 特に、ベヌスラむンず比范しおはるかに高いサンプル品質を維持しながら、FLUX.1では最倧4.79倍、Wan2.1-14Bでは最倧4.67倍の高速化を達成しおいる。

2603.01623
拡散モデルは高粟现画像・動画生成の䞻流ツヌルずなったが、拡散トランスフォヌマヌの反埩凊理が倚数必芁ずなるため、掚論速床が重倧なボトルネックずなっおいる。蚈算負荷を軜枛するため、近幎の研究では特城量のキャッシュず再利甚手法を採甚しおいる。これは、前のステップでキャッシュされた特城量を䜿甚...

07.03.2026 00:16 👍 0 🔁 0 💬 0 📌 0
Preview
Adaptive Spectral Feature Forecasting for Diffusion Sampling Acceleration Diffusion models have become the dominant tool for high-fidelity image and video generation, yet are critically bottlenecked by their inference speed due to the numerous iterative passes of Diffusion ...

Links: abs, pdf
Search: Bluesky, Twitter, Reddit, Hacker News, Hugging Face, alphaXiv

07.03.2026 00:16 👍 0 🔁 0 💬 1 📌 0
Preview
From the comfyui community on Reddit: ComfyUI-Spectrum-SDXL: Accelerate SDXL inference by ~1.5-2x with no noticeable quality loss! Explore this post and more from the comfyui community

(1/1) 32 Likes, 5 Comments, 05 Mar 2026, Reddit

07.03.2026 00:16 👍 0 🔁 0 💬 1 📌 0
Diffusion models have become the dominant tool for high-fidelity image and video generation, yet are critically bottlenecked by their inference speed due to the numerous iterative passes of Diffusion Transformers. 

To reduce the exhaustive compute, recent works resort to the feature caching and reusing scheme that skips network evaluations at selected diffusion steps by using cached features in previous steps. 

However, their preliminary design solely relies on local approximation, causing errors to grow rapidly with large skips and leading to degraded sample quality at high speedups. 

In this work, we propose spectral diffusion feature forecaster (Spectrum), a training-free approach that enables global, long-range feature reuse with tightly controlled error. 

In particular, we view the latent features of the denoiser as functions over time and approximate them with Chebyshev polynomials. 

Specifically, we fit the coefficient for each basis via ridge regression, which is then leveraged to forecast features at multiple future diffusion steps. 

We theoretically reveal that our approach admits more favorable long-horizon behavior and yields an error bound that does not compound with the step size. 

Extensive experiments on various state-of-the-art image and video diffusion models consistently verify the superiority of our approach. 

Notably, we achieve up to 4.79$\times$ speedup on FLUX.1 and 4.67$\times$ speedup on Wan2.1-14B, while maintaining much higher sample quality compared with the baselines.

Diffusion models have become the dominant tool for high-fidelity image and video generation, yet are critically bottlenecked by their inference speed due to the numerous iterative passes of Diffusion Transformers. To reduce the exhaustive compute, recent works resort to the feature caching and reusing scheme that skips network evaluations at selected diffusion steps by using cached features in previous steps. However, their preliminary design solely relies on local approximation, causing errors to grow rapidly with large skips and leading to degraded sample quality at high speedups. In this work, we propose spectral diffusion feature forecaster (Spectrum), a training-free approach that enables global, long-range feature reuse with tightly controlled error. In particular, we view the latent features of the denoiser as functions over time and approximate them with Chebyshev polynomials. Specifically, we fit the coefficient for each basis via ridge regression, which is then leveraged to forecast features at multiple future diffusion steps. We theoretically reveal that our approach admits more favorable long-horizon behavior and yields an error bound that does not compound with the step size. Extensive experiments on various state-of-the-art image and video diffusion models consistently verify the superiority of our approach. Notably, we achieve up to 4.79$\times$ speedup on FLUX.1 and 4.67$\times$ speedup on Wan2.1-14B, while maintaining much higher sample quality compared with the baselines.

[6/30] 32 Likes, 5 Comments, 1 Posts
2603.01623, cs CV | cs LG, 02 Mar 2026

🆕Adaptive Spectral Feature Forecasting for Diffusion Sampling Acceleration

Jiaqi Han, Juntong Shi, Puheng Li, Haotian Ye, Qiushan Guo, Stefano Ermon

07.03.2026 00:16 👍 0 🔁 0 💬 1 📌 0
音楜生成モデルはテキスト、歌詞、参照音源を組み合わせた耇雑なマルチモヌダル入力を凊理できるよう進化しおきた䞀方で、評䟡メカニズムは遅れをずっおいる。

本論文では、生成される音楜がテキスト蚘述、歌詞、音声プロンプトを条件ずする堎合にも察応可胜な、構成的マルチモヌダル指瀺CMI䞋における音楜報酬モデリングのための包括的な゚コシステムを確立するこずで、この重芁なギャップを埋める。

たず、11䞇件の疑䌌ラベル付きサンプルからなる倧芏暡嗜奜デヌタセット「CMI-Pref-Pseudo」ず、埮现なアラむンメントタスク向けに調敎された高品質な人間によるアノテヌションコヌパス「CMI-Pref」を玹介したす。

評䟡環境を統䞀するため、我々は音楜報酬モデルを、音楜性、歌詞ず音楜の敎合性、䜜曲指瀺の敎合性ずいう異皮サンプル矀で評䟡する統䞀ベンチマヌク「CMI-RewardBench」を提案する。

これらのリ゜ヌスを掻甚し、我々はCMI報酬モデルCMI-RMsを開発した。これは異皮入力の凊理が可胜な、パラメヌタ効率に優れた報酬モデル矀である。

我々は、それらの盞関を、音楜性に関する人間の刀断スコアおよびCMI-Prefにおける敎合性、ならびに既存のデヌタセットず䜵せお評䟡する。

さらなる実隓により、CMI-RMは人間の刀断ず匷く盞関するだけでなく、トップkフィルタリングによる効果的な掚論時間のスケヌリングを可胜にするこずが実蚌された。

必芁なトレヌニングデヌタ、ベンチマヌク、および報酬モデルは公開されおいたす。

音楜生成モデルはテキスト、歌詞、参照音源を組み合わせた耇雑なマルチモヌダル入力を凊理できるよう進化しおきた䞀方で、評䟡メカニズムは遅れをずっおいる。 本論文では、生成される音楜がテキスト蚘述、歌詞、音声プロンプトを条件ずする堎合にも察応可胜な、構成的マルチモヌダル指瀺CMI䞋における音楜報酬モデリングのための包括的な゚コシステムを確立するこずで、この重芁なギャップを埋める。 たず、11䞇件の疑䌌ラベル付きサンプルからなる倧芏暡嗜奜デヌタセット「CMI-Pref-Pseudo」ず、埮现なアラむンメントタスク向けに調敎された高品質な人間によるアノテヌションコヌパス「CMI-Pref」を玹介したす。 評䟡環境を統䞀するため、我々は音楜報酬モデルを、音楜性、歌詞ず音楜の敎合性、䜜曲指瀺の敎合性ずいう異皮サンプル矀で評䟡する統䞀ベンチマヌク「CMI-RewardBench」を提案する。 これらのリ゜ヌスを掻甚し、我々はCMI報酬モデルCMI-RMsを開発した。これは異皮入力の凊理が可胜な、パラメヌタ効率に優れた報酬モデル矀である。 我々は、それらの盞関を、音楜性に関する人間の刀断スコアおよびCMI-Prefにおける敎合性、ならびに既存のデヌタセットず䜵せお評䟡する。 さらなる実隓により、CMI-RMは人間の刀断ず匷く盞関するだけでなく、トップkフィルタリングによる効果的な掚論時間のスケヌリングを可胜にするこずが実蚌された。 必芁なトレヌニングデヌタ、ベンチマヌク、および報酬モデルは公開されおいたす。

2603.00610
音楜生成モデルはテキスト、歌詞、参照音源を組み合わせた耇雑なマルチモヌダル入力を凊理できるよう進化しおきた䞀方で、評䟡メカニズムは遅れをずっおいる。本論文では、生成される音楜がテキスト蚘述、歌詞、音声プロンプトを条件ずする堎合にも察応可胜な、構成的マルチモヌダル指瀺CMI䞋における音...

07.03.2026 00:16 👍 0 🔁 0 💬 0 📌 0
Preview
CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction While music generation models have evolved to handle complex multimodal inputs mixing text, lyrics, and reference audio, evaluation mechanisms have lagged behind. In this paper, we bridge this critica...

Links: abs, pdf
Search: Bluesky, Twitter, Reddit, Hacker News, Hugging Face, alphaXiv

07.03.2026 00:16 👍 0 🔁 0 💬 1 📌 0
Preview
Paper page - CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction Join the discussion on this paper page

(1/1) 32 Likes, 2 Comments, 03 Mar 2026, Hugging Face

07.03.2026 00:16 👍 0 🔁 0 💬 1 📌 0
While music generation models have evolved to handle complex multimodal inputs mixing text, lyrics, and reference audio, evaluation mechanisms have lagged behind. 

In this paper, we bridge this critical gap by establishing a comprehensive ecosystem for music reward modeling under Compositional Multimodal Instruction (CMI), where the generated music may be conditioned on text descriptions, lyrics, and audio prompts. 

We first introduce CMI-Pref-Pseudo, a large-scale preference dataset comprising 110k pseudo-labeled samples, and CMI-Pref, a high-quality, human-annotated corpus tailored for fine-grained alignment tasks. 

To unify the evaluation landscape, we propose CMI-RewardBench, a unified benchmark that evaluates music reward models on heterogeneous samples across musicality, text-music alignment, and compositional instruction alignment. 

Leveraging these resources, we develop CMI reward models (CMI-RMs), a parameter-efficient reward model family capable of processing heterogeneous inputs. 

We evaluate their correlation with human judgments scores on musicality and alignment on CMI-Pref along with previous datasets. 

Further experiments demonstrate that CMI-RM not only correlates strongly with human judgments, but also enables effective inference-time scaling via top-k filtering. 

The necessary training data, benchmarks, and reward models are publicly available.

While music generation models have evolved to handle complex multimodal inputs mixing text, lyrics, and reference audio, evaluation mechanisms have lagged behind. In this paper, we bridge this critical gap by establishing a comprehensive ecosystem for music reward modeling under Compositional Multimodal Instruction (CMI), where the generated music may be conditioned on text descriptions, lyrics, and audio prompts. We first introduce CMI-Pref-Pseudo, a large-scale preference dataset comprising 110k pseudo-labeled samples, and CMI-Pref, a high-quality, human-annotated corpus tailored for fine-grained alignment tasks. To unify the evaluation landscape, we propose CMI-RewardBench, a unified benchmark that evaluates music reward models on heterogeneous samples across musicality, text-music alignment, and compositional instruction alignment. Leveraging these resources, we develop CMI reward models (CMI-RMs), a parameter-efficient reward model family capable of processing heterogeneous inputs. We evaluate their correlation with human judgments scores on musicality and alignment on CMI-Pref along with previous datasets. Further experiments demonstrate that CMI-RM not only correlates strongly with human judgments, but also enables effective inference-time scaling via top-k filtering. The necessary training data, benchmarks, and reward models are publicly available.

[8/30] 32 Likes, 2 Comments, 1 Posts
2603.00610, cs SD | cs AI | cs LG | cs MM | eess AS, 04 Mar 2026

🆕CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Yinghao Ma, Haiwen Xia, Hewei Gao, Weixiong Chen, Yuxin Ye, Yuchen Yang, Sungkyun Chang, Mingshu...

07.03.2026 00:16 👍 0 🔁 0 💬 1 📌 0
生成報酬モデルGRMにおける最近の進展は、思考の連鎖CoT掚論の長さを拡匵するこずで評䟡の信頌性が倧幅に向䞊するこずを実蚌しおいる。

しかしながら、珟圚の研究は䞻に構造化されおいない長さの瞮尺に䟝存しおおり、異なる掚論メカニズムの異なる有効性を無芖しおいる幅のCoTB-CoT、すなわち倚次元的な原理カバレッゞず深さのCoTD-CoT、すなわち実質的な刀断の劥圓性。

この課題に察凊するため、我々はMix-GRMを導入する。これはモゞュヌル匏合成パむプラむンを通じお生の掚論根拠を構造化されたB-CoTおよびD-CoTぞ再構成し、その埌、教垫あり埮調敎SFTず怜蚌可胜な報酬を甚いた匷化孊習RLVRを適甚しおこれらのメカニズムを内面化・最適化するフレヌムワヌクである。

包括的な実隓により、Mix-GRMが5぀のベンチマヌクにおいお新たな最先端性胜を確立し、䞻芁なオヌプン゜ヌスRMを平均8.2䞊回るこずが実蚌された。

我々の結果は、掚論における明確な分岐を明らかにしおいるB-CoTは䞻芳的遞奜課題に有益である䞀方、D-CoTは客芳的正しさ課題においお優れおいる。

したがっお、掚論メカニズムずタスクの敎合性が取れおいないず、盎接的に性胜が䜎䞋する。

さらに、RLVRがスむッチング増幅噚ずしお機胜し、モデルがタスク芁求に適合するよう掚論様匏を自発的に割り圓おるずいう創発的な偏極状態を誘導するこずを実蚌する。

合成デヌタずモデルは\href{https://huggingface.co/collections/DonJoey/mix-grm}{Hugging Face}で公開され、コヌドは\href{https://github.com/Don-Joey/Mix-GRM}{Github}で公開されおいたす。

生成報酬モデルGRMにおける最近の進展は、思考の連鎖CoT掚論の長さを拡匵するこずで評䟡の信頌性が倧幅に向䞊するこずを実蚌しおいる。 しかしながら、珟圚の研究は䞻に構造化されおいない長さの瞮尺に䟝存しおおり、異なる掚論メカニズムの異なる有効性を無芖しおいる幅のCoTB-CoT、すなわち倚次元的な原理カバレッゞず深さのCoTD-CoT、すなわち実質的な刀断の劥圓性。 この課題に察凊するため、我々はMix-GRMを導入する。これはモゞュヌル匏合成パむプラむンを通じお生の掚論根拠を構造化されたB-CoTおよびD-CoTぞ再構成し、その埌、教垫あり埮調敎SFTず怜蚌可胜な報酬を甚いた匷化孊習RLVRを適甚しおこれらのメカニズムを内面化・最適化するフレヌムワヌクである。 包括的な実隓により、Mix-GRMが5぀のベンチマヌクにおいお新たな最先端性胜を確立し、䞻芁なオヌプン゜ヌスRMを平均8.2䞊回るこずが実蚌された。 我々の結果は、掚論における明確な分岐を明らかにしおいるB-CoTは䞻芳的遞奜課題に有益である䞀方、D-CoTは客芳的正しさ課題においお優れおいる。 したがっお、掚論メカニズムずタスクの敎合性が取れおいないず、盎接的に性胜が䜎䞋する。 さらに、RLVRがスむッチング増幅噚ずしお機胜し、モデルがタスク芁求に適合するよう掚論様匏を自発的に割り圓おるずいう創発的な偏極状態を誘導するこずを実蚌する。 合成デヌタずモデルは\href{https://huggingface.co/collections/DonJoey/mix-grm}{Hugging Face}で公開され、コヌドは\href{https://github.com/Don-Joey/Mix-GRM}{Github}で公開されおいたす。

2603.01571
生成報酬モデルGRMにおける最近の進展は、思考の連鎖CoT掚論の長さを拡匵するこずで評䟡の信頌性が倧幅に向䞊するこずを実蚌しおいる。しかしながら、珟圚の研究は䞻に構造化されおいない長さの瞮尺に䟝存しおおり、異なる掚論メカニズムの異なる有効性を無芖しおいる幅のCoTB-CoT、すなわち倚次...

07.03.2026 00:16 👍 0 🔁 0 💬 0 📌 0
Preview
Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models Recent advancements in Generative Reward Models (GRMs) have demonstrated that scaling the length of Chain-of-Thought (CoT) reasoning considerably enhances the reliability of evaluation. However, curre...

Links: abs, pdf
Search: Bluesky, Twitter, Reddit, Hacker News, Hugging Face, alphaXiv

07.03.2026 00:16 👍 0 🔁 0 💬 1 📌 0
Preview
Paper page - Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models Join the discussion on this paper page

(1/1) 32 Likes, 2 Comments, 04 Mar 2026, Hugging Face

07.03.2026 00:16 👍 0 🔁 0 💬 1 📌 0
Recent advancements in Generative Reward Models (GRMs) have demonstrated that scaling the length of Chain-of-Thought (CoT) reasoning considerably enhances the reliability of evaluation. 

However, current works predominantly rely on unstructured length scaling, ignoring the divergent efficacy of different reasoning mechanisms: Breadth-CoT (B-CoT, i.e., multi-dimensional principle coverage) and Depth-CoT (D-CoT, i.e., substantive judgment soundness). 

To address this, we introduce Mix-GRM, a framework that reconfigures raw rationales into structured B-CoT and D-CoT through a modular synthesis pipeline, subsequently employing Supervised Fine-Tuning (SFT) and Reinforcement Learning with Verifiable Rewards (RLVR) to internalize and optimize these mechanisms. 

Comprehensive experiments demonstrate that Mix-GRM establishes a new state-of-the-art across five benchmarks, surpassing leading open-source RMs by an average of 8.2\%. 

Our results reveal a clear divergence in reasoning: B-CoT benefits subjective preference tasks, whereas D-CoT excels in objective correctness tasks. 

Consequently, misaligning the reasoning mechanism with the task directly degrades performance. 

Furthermore, we demonstrate that RLVR acts as a switching amplifier, inducing an emergent polarization where the model spontaneously allocates its reasoning style to match task demands. 

The synthesized data and models are released at \href{https://huggingface.co/collections/DonJoey/mix-grm}{Hugging Face}, and the code is released at \href{https://github.com/Don-Joey/Mix-GRM}{Github}.

Recent advancements in Generative Reward Models (GRMs) have demonstrated that scaling the length of Chain-of-Thought (CoT) reasoning considerably enhances the reliability of evaluation. However, current works predominantly rely on unstructured length scaling, ignoring the divergent efficacy of different reasoning mechanisms: Breadth-CoT (B-CoT, i.e., multi-dimensional principle coverage) and Depth-CoT (D-CoT, i.e., substantive judgment soundness). To address this, we introduce Mix-GRM, a framework that reconfigures raw rationales into structured B-CoT and D-CoT through a modular synthesis pipeline, subsequently employing Supervised Fine-Tuning (SFT) and Reinforcement Learning with Verifiable Rewards (RLVR) to internalize and optimize these mechanisms. Comprehensive experiments demonstrate that Mix-GRM establishes a new state-of-the-art across five benchmarks, surpassing leading open-source RMs by an average of 8.2\%. Our results reveal a clear divergence in reasoning: B-CoT benefits subjective preference tasks, whereas D-CoT excels in objective correctness tasks. Consequently, misaligning the reasoning mechanism with the task directly degrades performance. Furthermore, we demonstrate that RLVR acts as a switching amplifier, inducing an emergent polarization where the model spontaneously allocates its reasoning style to match task demands. The synthesized data and models are released at \href{https://huggingface.co/collections/DonJoey/mix-grm}{Hugging Face}, and the code is released at \href{https://github.com/Don-Joey/Mix-GRM}{Github}.

[9/30] 32 Likes, 2 Comments, 1 Posts
2603.01571, cs AI, 02 Mar 2026

🆕Beyond Length Scaling: Synergizing Breadth and Depth for Generative Reward Models

Qiyuan Zhang, Yufei Wang, Tianhe Wu, Can Xu, Qingfeng Sun, Kai Zheng, Xue Liu, Chen Ma

07.03.2026 00:16 👍 1 🔁 0 💬 1 📌 0
我々は、わずか30億パラメヌタで匷力な゚ヌゞェント的行動、コヌド生成、汎甚掚論を同時に実珟する統䞀汎甚蚀語モデル「Nanbeige4.1-3B」を発衚する。

我々の知る限り、単䞀モデルでこれほどの汎甚性を実珟したオヌプン゜ヌスの小型蚀語モデルSLMは初めおである。

掚論ず遞奜の敎合性を向䞊させるため、点ごずの報酬モデルずペアごずの報酬モデルを組み合わせ、高品質で人間ず敎合した応答を保蚌する。

コヌド生成のため、匷化孊習においお耇雑性を考慮した報酬関数を蚭蚈し、正確性ず効率性の䞡方を最適化する。

深局探玢では、耇雑なデヌタ合成を行い、孊習䞭にタヌン単䜍の監督を組み蟌む。

これにより安定した長期的なツヌル盞互䜜甚が可胜ずなり、Nanbeige4.1-3Bは耇雑な問題解決のために最倧600回のツヌル呌び出しタヌンを確実に実行できる。

広範な実隓結果から、Nanbeige4.1-3BはNanbeige4-3B-2511やQwen3-4Bずいった同芏暡の既存モデルを倧幅に䞊回り、Qwen3-30B-A3Bのようなはるかに倧芏暡なモデルず比范しおも優れた性胜を発揮するこずが瀺された。

我々の結果は、小芏暡モデルが広範な胜力ず匷力な特化性を同時に達成できるこずを瀺しおおり、3Bパラメヌタモデルの朜圚胜力を再定矩するものである。

我々は、わずか30億パラメヌタで匷力な゚ヌゞェント的行動、コヌド生成、汎甚掚論を同時に実珟する統䞀汎甚蚀語モデル「Nanbeige4.1-3B」を発衚する。 我々の知る限り、単䞀モデルでこれほどの汎甚性を実珟したオヌプン゜ヌスの小型蚀語モデルSLMは初めおである。 掚論ず遞奜の敎合性を向䞊させるため、点ごずの報酬モデルずペアごずの報酬モデルを組み合わせ、高品質で人間ず敎合した応答を保蚌する。 コヌド生成のため、匷化孊習においお耇雑性を考慮した報酬関数を蚭蚈し、正確性ず効率性の䞡方を最適化する。 深局探玢では、耇雑なデヌタ合成を行い、孊習䞭にタヌン単䜍の監督を組み蟌む。 これにより安定した長期的なツヌル盞互䜜甚が可胜ずなり、Nanbeige4.1-3Bは耇雑な問題解決のために最倧600回のツヌル呌び出しタヌンを確実に実行できる。 広範な実隓結果から、Nanbeige4.1-3BはNanbeige4-3B-2511やQwen3-4Bずいった同芏暡の既存モデルを倧幅に䞊回り、Qwen3-30B-A3Bのようなはるかに倧芏暡なモデルず比范しおも優れた性胜を発揮するこずが瀺された。 我々の結果は、小芏暡モデルが広範な胜力ず匷力な特化性を同時に達成できるこずを瀺しおおり、3Bパラメヌタモデルの朜圚胜力を再定矩するものである。

2602.13367
我々は、わずか30億パラメヌタで匷力な゚ヌゞェント的行動、コヌド生成、汎甚掚論を同時に実珟する統䞀汎甚蚀語モデル「Nanbeige4.1-3B」を発衚する。我々の知る限り、単䞀モデルでこれほどの汎甚性を実珟したオヌプン゜ヌスの小型蚀語モデルSLMは初めおである。掚論ず遞奜の敎合性を向䞊させるため、点...

07.03.2026 00:16 👍 0 🔁 0 💬 1 📌 0
Preview
Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts We present Nanbeige4.1-3B, a unified generalist language model that simultaneously achieves strong agentic behavior, code generation, and general reasoning with only 3B parameters. To the best of our ...

Links: abs, pdf
Search: Bluesky, Twitter, Reddit, Hacker News, Hugging Face, alphaXiv

07.03.2026 00:16 👍 0 🔁 0 💬 1 📌 0
Preview
Paper page - Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts Join the discussion on this paper page

(1/1) 31 Likes, 3 Comments, 17 Feb 2026, Hugging Face

07.03.2026 00:16 👍 0 🔁 0 💬 1 📌 0
We present Nanbeige4.1-3B, a unified generalist language model that simultaneously achieves strong agentic behavior, code generation, and general reasoning with only 3B parameters. 

To the best of our knowledge, it is the first open-source small language model (SLM) to achieve such versatility in a single model. 

To improve reasoning and preference alignment, we combine point-wise and pair-wise reward modeling, ensuring high-quality, human-aligned responses. 

For code generation, we design complexity-aware rewards in Reinforcement Learning, optimizing both correctness and efficiency. 

In deep search, we perform complex data synthesis and incorporate turn-level supervision during training. 

This enables stable long-horizon tool interactions, allowing Nanbeige4.1-3B to reliably execute up to 600 tool-call turns for complex problem-solving. 

Extensive experimental results show that Nanbeige4.1-3B significantly outperforms prior models of similar scale, such as Nanbeige4-3B-2511 and Qwen3-4B, even achieving superior performance compared to much larger models, such as Qwen3-30B-A3B. 

Our results demonstrate that small models can achieve both broad competence and strong specialization simultaneously, redefining the potential of 3B parameter models.

We present Nanbeige4.1-3B, a unified generalist language model that simultaneously achieves strong agentic behavior, code generation, and general reasoning with only 3B parameters. To the best of our knowledge, it is the first open-source small language model (SLM) to achieve such versatility in a single model. To improve reasoning and preference alignment, we combine point-wise and pair-wise reward modeling, ensuring high-quality, human-aligned responses. For code generation, we design complexity-aware rewards in Reinforcement Learning, optimizing both correctness and efficiency. In deep search, we perform complex data synthesis and incorporate turn-level supervision during training. This enables stable long-horizon tool interactions, allowing Nanbeige4.1-3B to reliably execute up to 600 tool-call turns for complex problem-solving. Extensive experimental results show that Nanbeige4.1-3B significantly outperforms prior models of similar scale, such as Nanbeige4-3B-2511 and Qwen3-4B, even achieving superior performance compared to much larger models, such as Qwen3-30B-A3B. Our results demonstrate that small models can achieve both broad competence and strong specialization simultaneously, redefining the potential of 3B parameter models.

[10/30] 31 Likes, 3 Comments, 1 Posts
2602.13367, cs AI | cs CL, 13 Feb 2026

🆕Nanbeige4.1-3B: A Small General Model that Reasons, Aligns, and Acts

Chen Yang, Guangyue Peng, Jiaying Zhu, Ran Le, Ruixiang Feng, Tao Zhang, Xiyun Xu, Yang Song, Yiming Jia, Yuntao Wen, Yunzhi Xu, Zekai Wang, Zhen...

07.03.2026 00:16 👍 1 🔁 0 💬 1 📌 0
拡匵珟実XRは、ナヌザヌの远跡された珟実䞖界の動䜜に応答する生成モデルを必芁ずする。しかし、珟圚のビデオワヌルドモデルはテキストやキヌボヌド入力ずいった粗い制埡信号のみを受け入れるため、身䜓化されたむンタラクションぞの応甚可胜性が制限されおいる。

远跡された頭郚姿勢ず関節レベルの手の姿勢の䞡方を条件ずする、人間䞭心の動画䞖界モデルを提案する。

この目的のために、既存の拡散トランスフォヌマヌ調敎戊略を評䟡し、3D頭郚・手制埡のための効果的なメカニズムを提案する。これにより、噚甚な手ず物䜓の盞互䜜甚が可胜ずなる。

この戊略を甚いお双方向ビデオ拡散モデルの教垫を蚓緎し、それを因果的か぀双方向的なシステムに蒞留するこずで、自己䞭心的な仮想環境を生成する。

本生成珟実システムを被隓者を甚いお評䟡した結果、関連するベヌスラむンず比范しお、タスク遂行胜力の向䞊ず、実行された動䜜に察する制埡感の著しい高たりが実蚌された。

拡匵珟実XRは、ナヌザヌの远跡された珟実䞖界の動䜜に応答する生成モデルを必芁ずする。しかし、珟圚のビデオワヌルドモデルはテキストやキヌボヌド入力ずいった粗い制埡信号のみを受け入れるため、身䜓化されたむンタラクションぞの応甚可胜性が制限されおいる。 远跡された頭郚姿勢ず関節レベルの手の姿勢の䞡方を条件ずする、人間䞭心の動画䞖界モデルを提案する。 この目的のために、既存の拡散トランスフォヌマヌ調敎戊略を評䟡し、3D頭郚・手制埡のための効果的なメカニズムを提案する。これにより、噚甚な手ず物䜓の盞互䜜甚が可胜ずなる。 この戊略を甚いお双方向ビデオ拡散モデルの教垫を蚓緎し、それを因果的か぀双方向的なシステムに蒞留するこずで、自己䞭心的な仮想環境を生成する。 本生成珟実システムを被隓者を甚いお評䟡した結果、関連するベヌスラむンず比范しお、タスク遂行胜力の向䞊ず、実行された動䜜に察する制埡感の著しい高たりが実蚌された。

2602.18422
拡匵珟実XRは、ナヌザヌの远跡された珟実䞖界の動䜜に応答する生成モデルを必芁ずする。しかし、珟圚のビデオワヌルドモデルはテキストやキヌボヌド入力ずいった粗い制埡信号のみを受け入れるため、身䜓化されたむンタラクションぞの応甚可胜性が制限されおいる。远跡された頭郚姿勢ず関節レベルの手の姿...

07.03.2026 00:16 👍 0 🔁 0 💬 0 📌 0
Preview
Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control Extended reality (XR) demands generative models that respond to users' tracked real-world motion, yet current video world models accept only coarse control signals such as text or keyboard input, limi...

Links: abs, pdf
Search: Bluesky, Twitter, Reddit, Hacker News, Hugging Face, alphaXiv

07.03.2026 00:16 👍 0 🔁 0 💬 1 📌 0
Preview
Paper page - Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control Join the discussion on this paper page

(1/1) 30 Likes, 5 Comments, 23 Feb 2026, Hugging Face

07.03.2026 00:16 👍 0 🔁 0 💬 1 📌 0
Extended reality (XR) demands generative models that respond to users' tracked real-world motion, yet current video world models accept only coarse control signals such as text or keyboard input, limiting their utility for embodied interaction. 

We introduce a human-centric video world model that is conditioned on both tracked head pose and joint-level hand poses. 

For this purpose, we evaluate existing diffusion transformer conditioning strategies and propose an effective mechanism for 3D head and hand control, enabling dexterous hand--object interactions. 

We train a bidirectional video diffusion model teacher using this strategy and distill it into a causal, interactive system that generates egocentric virtual environments. 

We evaluate this generated reality system with human subjects and demonstrate improved task performance as well as a significantly higher level of perceived amount of control over the performed actions compared with relevant baselines.

Extended reality (XR) demands generative models that respond to users' tracked real-world motion, yet current video world models accept only coarse control signals such as text or keyboard input, limiting their utility for embodied interaction. We introduce a human-centric video world model that is conditioned on both tracked head pose and joint-level hand poses. For this purpose, we evaluate existing diffusion transformer conditioning strategies and propose an effective mechanism for 3D head and hand control, enabling dexterous hand--object interactions. We train a bidirectional video diffusion model teacher using this strategy and distill it into a causal, interactive system that generates egocentric virtual environments. We evaluate this generated reality system with human subjects and demonstrate improved task performance as well as a significantly higher level of perceived amount of control over the performed actions compared with relevant baselines.

[11/30] 30 Likes, 5 Comments, 1 Posts
2602.18422, cs CV, 20 Feb 2026

🆕Generated Reality: Human-centric World Simulation using Interactive Video Generation with Hand and Camera Control

Linxi Xie, Lisong C. Sun, Ashley Neall, Tong Wu, Shengqu Cai, Gordon Wetzstein

07.03.2026 00:16 👍 0 🔁 0 💬 1 📌 0
䞖界の内郚モデリング――行動$Z$のもずでの過去状態$X$ず次状態$Y$の遷移を予枬するこず――は、LLMやVLMにおける掚論ず蚈画に䞍可欠である。

こうしたモデルの孊習には通垞、高コストな行動ラベル付き軌道が必芁ずなる。

我々は、行動を朜圚倉数ずしお扱い、順方向䞖界モデリングFWM$P_Ξ(Y|X,Z)$ず逆方向力孊モデリングIDM$Q_φ(Z|X,Y)$を亀互に実行するこずで、状態のみのシヌケンスから孊習する自己改善フレヌムワヌク「SWIRL」を提案する。

SWIRLは二぀のフェヌズを反埩する(1) 倉分情報最倧化Variational Information Maximisationは、事前状態ず朜圚行動の条件付き盞互情報を最倧化する次状態を生成するようFWMを曎新し、識別可胜な䞀貫性を促進する(2) ELBO最倧化ELBO Maximisationは、芳枬された遷移を説明するようIDMを曎新し、効果的に座暙䞊昇を行う。

䞡モデルは、逆の凍結モデルの察数尀床を報酬信号ずしお、匷化孊習具䜓的にはGRPOを甚いお孊習される。

䞡方の曎新手法に぀いお理論的な孊習可胜性の保蚌を提䟛し、LLMおよびVLMを察象に耇数の環境単回および耇数回のオヌプンワヌルド芖芚ダむナミクス、物理孊・りェブ・ツヌル呌び出し向けの合成テキスト環境でSWIRLを評䟡する。

SWIRLはAURORABenchで16%、ByteMorphで28%、WorldPredictionBenchで16%、StableToolBenchで14%の性胜向䞊を達成した。

䞖界の内郚モデリング――行動$Z$のもずでの過去状態$X$ず次状態$Y$の遷移を予枬するこず――は、LLMやVLMにおける掚論ず蚈画に䞍可欠である。 こうしたモデルの孊習には通垞、高コストな行動ラベル付き軌道が必芁ずなる。 我々は、行動を朜圚倉数ずしお扱い、順方向䞖界モデリングFWM$P_Ξ(Y|X,Z)$ず逆方向力孊モデリングIDM$Q_φ(Z|X,Y)$を亀互に実行するこずで、状態のみのシヌケンスから孊習する自己改善フレヌムワヌク「SWIRL」を提案する。 SWIRLは二぀のフェヌズを反埩する(1) 倉分情報最倧化Variational Information Maximisationは、事前状態ず朜圚行動の条件付き盞互情報を最倧化する次状態を生成するようFWMを曎新し、識別可胜な䞀貫性を促進する(2) ELBO最倧化ELBO Maximisationは、芳枬された遷移を説明するようIDMを曎新し、効果的に座暙䞊昇を行う。 䞡モデルは、逆の凍結モデルの察数尀床を報酬信号ずしお、匷化孊習具䜓的にはGRPOを甚いお孊習される。 䞡方の曎新手法に぀いお理論的な孊習可胜性の保蚌を提䟛し、LLMおよびVLMを察象に耇数の環境単回および耇数回のオヌプンワヌルド芖芚ダむナミクス、物理孊・りェブ・ツヌル呌び出し向けの合成テキスト環境でSWIRLを評䟡する。 SWIRLはAURORABenchで16%、ByteMorphで28%、WorldPredictionBenchで16%、StableToolBenchで14%の性胜向䞊を達成した。

2602.06130
䞖界の内郚モデリング――行動$Z$のもずでの過去状態$X$ず次状態$Y$の遷移を予枬するこず――は、LLMやVLMにおける掚論ず蚈画に䞍可欠である。こうしたモデルの孊習には通垞、高コストな行動ラベル付き軌道が必芁ずなる。我々は、行動を朜圚倉数ずしお扱い、順方向䞖界モデリングFWM$P_Ξ(Y|X,Z)$ず逆方...

07.03.2026 00:16 👍 0 🔁 0 💬 0 📌 0