Paperium |

Binarized Neural Networks

DeepWideSearch: Benchmarking Depth and Width in Agentic Information Seeking

Text or Pixels? It Takes Half: On the Token Efficiency of Visual Text Inputs inMultimodal LLMs

From Charts to Code: A Hierarchical Benchmark for Multimodal Models

ColorAgent: Building A Robust, Personalized, and Interactive OS Agent

OmniNWM: Omniscient Driving Navigation World Models

OmniNWM: Omniscient Driving Navigation World Models

FinSight: Towards Real-World Financial Deep Research

olmOCR 2: Unit Test Rewards for Document OCR

When Correct Is Not Safe: Can We Trust Functionally Correct Patches Generatedby Code Agents?

PokeeResearch: Effective Deep Research via Reinforcement Learning from AIFeedback and Robust Reasoning Scaffold

Predicting the Unpredictable: Reproducible BiLSTM Forecasting of Incident Countsin the Global Terrorism Database (GTD)

Unimedvl: Unifying Medical Multimodal Understanding And Generation ThroughObservation-Knowledge-Analysis

Chem-R: Learning to Reason as a Chemist

On Non-interactive Evaluation of Animal Communication Translators

Foundational Automatic Evaluators: Scaling Multi-Task Generative EvaluatorTraining for Reasoning-Centric Domains

Knowledge-based Visual Question Answer with Multimodal Processing, Retrieval andFiltering

Embody 3D: A Large-scale Multimodal Motion and Behavior Dataset

Distractor Injection Attacks on Large Reasoning Models: Characterization andDefense

Constantly Improving Image Models Need Constantly Improving Benchmarks

Beyond Pipelines: A Survey of the Paradigm Shift toward Model-Native Agentic AI

ConsistEdit: Highly Consistent and Precise Training-free Visual Editing

When to Ensemble: Identifying Token-Level Points for Stable and Fast LLMEnsembling

Paper2Web: Let’s Make Your Paper Alive!

Rewiring Experts on the Fly:Continuous Rerouting for Better Online Adaptation inMixture-of-Expert models

DLER: Doing Length pEnalty Right – Incentivizing More Intelligence per Token viaReinforcement Learning

MorphoBench: A Benchmark with Difficulty Adaptive to Model Reasoning

Unlocking Out-of-Distribution Generalization in Transformers via RecursiveLatent Space Reasoning

LLMs as Scalable, General-Purpose Simulators For Evolving Digital Agent Training

Agentic Design of Compositional Machines

LiveResearchBench: A Live Benchmark for User-Centric Deep Research in the Wild

Beyond Correctness: Evaluating Subjective Writing Preferences Across Cultures

RefusalBench: Generative Evaluation of Selective Refusal in Grounded LanguageModels

Attention Is All You Need for KV Cache in Diffusion LLMs

Information Gain-based Policy Optimization: A Simple and Effective Approach forMulti-Turn LLM Agents

AI for Service: Proactive Assistance with AI Glasses

MTSQL-R1: Towards Long-Horizon Multi-Turn Text-to-SQL via Agentic Training

Bee: A High-Quality Corpus and Full-Stack Suite to Unlock Advanced Fully OpenMLLMs

FlashWorld: High-quality 3D Scene Generation within Seconds

MultiCOIN: Multi-Modal COntrollable Video INbetweening

AndesVL Technical Report: An Efficient Mobile-side Multimodal Large LanguageModel

IVEBench: Modern Benchmark Suite for Instruction-Guided Video Editing Assessment

VER: Vision Expert Transformer for Robot Learning via Foundation Distillationand Dynamic Routing

Graph Diffusion Transformers are In-Context Molecular Designers

ReLook: Vision-Grounded RL with a Multimodal LLM Critic for Agentic Web Coding

High-Fidelity Simulated Data Generation for Real-World Zero-Shot RoboticManipulation Learning with Gaussian Splatting

GIR-Bench: Versatile Benchmark for Generating Images with Reasoning

FinAuditing: A Financial Taxonomy-Structured Multi-Document Benchmark forEvaluating LLMs

Demystifying Reinforcement Learning in Agentic Reasoning

Demystifying Reinforcement Learning in Agentic Reasoning

Instant4D: 4D Gaussian Splatting in Minutes

Formalizing Style in Personal Narratives

GTAlign: Game-Theoretic Alignment of LLM Assistants for Mutual Welfare

OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modelingand LLM Alignment

Learning on the Job: An Experience-Driven Self-Evolving Agent for Long-HorizonTasks

LongRM: Revealing and Unlocking the Context Boundary of Reward Modeling

CoMAS: Co-Evolving Multi-Agent Systems via Interaction Rewards

NaViL: Rethinking Scaling Properties of Native Multimodal Large Language Modelsunder Data Constraints

UniMMVSR: A Unified Multi-Modal Framework for Cascaded Video Super-Resolution

VideoCanvas: Unified Video Completion from Arbitrary Spatiotemporal Patches viaIn-Context Conditioning