Homepage - Wentao Hu

Warning

Problem: The current name of your GitHub Pages repository ("") does not match the recommended repository name for your site ("").
Solution: Please consider renaming the repository to "", so that your site can be accessed directly at "http://". However, if the current repository name is intended, you can ignore this message by removing "{% include widgets/debug_repo_name.html %}" in index.html.

Action required

Problem: The current root path of this site is "", which does not match the baseurl ("") configured in _config.yml.
Solution: Please set the baseurl in _config.yml to "".

Publications

Vinci: Deep Thinking in Text-to-Image Generation using Unified Model with Reinforcement Learning

Wang Lin*, Wentao Hu*, Liyu Jia, Kaihang Pan, Zhang Majun, Zhou Zhao, Fei Wu, Jingyuan Chen, Hanwang Zhang (* co-first authors)

NeurIPS 2025(Poster),

[arXiv]

Vinci: Deep Thinking in Text-to-Image Generation using Unified Model with Reinforcement Learning

Wang Lin*, Wentao Hu*, Liyu Jia, Kaihang Pan, Zhang Majun, Zhou Zhao, Fei Wu, Jingyuan Chen, Hanwang Zhang (* co-first authors)

NeurIPS 2025(Poster),

[arXiv]

Selftok: Discrete Visual Tokens of Autoregression, by Diffusion, and for Reasoning

Bohan Wang, Zhongqi Yue, Fengda Zhang, Shuo Chen, Li'an Bi, Junzhe Zhang, Kennard Yanting Chan, Jiachun Pan, Weijia Wu, Mingze Zhou, Wang Lin, Kaihang Pan, Saining Zhang, Liyu Jia, Wentao Hu, Wei Zhao, Hanwang Zhang

NeurIPS 2025(Poster),

[arXiv] [Project Page] [机器之心]

Selftok: Discrete Visual Tokens of Autoregression, by Diffusion, and for Reasoning

NeurIPS 2025(Poster),

[arXiv] [Project Page] [机器之心]

On Path to Multimodal Generalist: Levels and Benchmarks

Hao Fei, Yuan Zhou, Juncheng Li, Xiangtai Li, Qingshan Xu, Bobo Li, Shengqiong Wu, Yaoting Wang, Junbao Zhou, Jiahao Meng, Qingyu Shi, Zhiyuan Zhou, Liangtao Shi, Minghe Gao, Daoan Zhang, Zhiqi Ge, Siliang Tang, Kaihang Pan, Yaobo Ye, Haobo Yuan, Tao Zhang, Weiming Wu, Tianjie Ju, Zixiang Meng, Shilin Xu, Liyu Jia, Wentao Hu, Meng Luo, Jiebo Luo, Tat-Seng Chua, Hanwang Zhang, Shuicheng Yan

ICML 2025(Oral),

[arXiv] [Project Page] [新智元] [机器之心]

On Path to Multimodal Generalist: Levels and Benchmarks

ICML 2025(Oral),

[arXiv] [Project Page] [新智元] [机器之心]

Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning

Wang Lin*, Liyu Jia*, Wentao Hu*, Kaihang Pan, Zhongqi Yue, Jingyuan Chen, Fei Wu, Hanwang Zhang (* co-first authors)

arXiv Preprint,Under Review 2025

[arXiv]

Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning

Wang Lin*, Liyu Jia*, Wentao Hu*, Kaihang Pan, Zhongqi Yue, Jingyuan Chen, Fei Wu, Hanwang Zhang (* co-first authors)

arXiv Preprint,Under Review 2025

[arXiv]

Warning

Action required

Education

Experience

Publications

Vinci: Deep Thinking in Text-to-Image Generation using Unified Model with Reinforcement Learning

Vinci: Deep Thinking in Text-to-Image Generation using Unified Model with Reinforcement Learning

Selftok: Discrete Visual Tokens of Autoregression, by Diffusion, and for Reasoning

Selftok: Discrete Visual Tokens of Autoregression, by Diffusion, and for Reasoning

On Path to Multimodal Generalist: Levels and Benchmarks

On Path to Multimodal Generalist: Levels and Benchmarks

Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning

Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning