Homepage - Wentao Hu

Wentao Hu 胡文韬

Hi, I am Wentao Hu, an incoming Ph.D. student at the AML Lab, City University of Hong Kong, under the supervision of Prof. Xiangyu Zhao, starting in Fall 2026. I also work closely with Prof. Qingsong Wen.

I am currently a Master’s student in the College of Computing and Data Science (CCDS) at Nanyang Technological University (NTU), advised by Prof. Hanwang Zhang in MReaL Lab. Before that, I earned my Bachelor’s degree in Statistics from Hunan University (HNU).

Curriculum Vitae

wentao002(at)e.ntu.edu.sg GitHub

Education

City Univercity of Hong Kong

Ph.D Student in Data Science

Aug. 2026 - Jun. 2030
Nanyang Technological University

M.Eng. in Computer Science

Aug. 2023 - Jan. 2026
Hunan University

B.S. in Statistics

Sep. 2019 - Jun. 2023

Experience

Squirrel AI Learning

AI Research Intern

Bellevue, Mar. 2025 – Now
Huawei Research Center

AI Research Intern

Singapore, Aug. 2024 – May 2025
Kuaishou Technology

Intern

Beijing, Dec. 2022 - Feb. 2023

Publications

SkillBrew: Multi-Objective Curation of Skill Banks for LLM Agents

Wentao Hu*, Zhendong Chu*, Yiming Zhang, Junda Wu, Ming Jin, Xiangyu Zhao, Yilei Shao, Yanfeng Wang, Qingsong Wen (* co-first authors)

arXiv Preprint,Under Review

[arXiv]

SkillBrew: Multi-Objective Curation of Skill Banks for LLM Agents

Wentao Hu*, Zhendong Chu*, Yiming Zhang, Junda Wu, Ming Jin, Xiangyu Zhao, Yilei Shao, Yanfeng Wang, Qingsong Wen (* co-first authors)

arXiv Preprint,Under Review

[arXiv]

Vinci: Deep Thinking in Text-to-Image Generation using Unified Model with Reinforcement Learning

Wentao Hu*, Wang Lin*, Liyu Jia, Kaihang Pan, Zhang Majun, Zhou Zhao, Fei Wu, Jingyuan Chen, Hanwang Zhang (* co-first authors)

NeurIPS 2025(Poster),

[arXiv]

Vinci: Deep Thinking in Text-to-Image Generation using Unified Model with Reinforcement Learning

Wentao Hu*, Wang Lin*, Liyu Jia, Kaihang Pan, Zhang Majun, Zhou Zhao, Fei Wu, Jingyuan Chen, Hanwang Zhang (* co-first authors)

NeurIPS 2025(Poster),

[arXiv]

WorldEdit: Towards Open-World Image Editing with a Knowledge-Informed Benchmark

Wang Lin, Feng Wang, Majun Zhang, Wentao Hu, Tao Jin, Zhou Zhao, Fei Wu, Jingyuan Chen, Sucheng Ren, Alan Yuille

ICLR 2026(Poster),

[arXiv]

WorldEdit: Towards Open-World Image Editing with a Knowledge-Informed Benchmark

Wang Lin, Feng Wang, Majun Zhang, Wentao Hu, Tao Jin, Zhou Zhao, Fei Wu, Jingyuan Chen, Sucheng Ren, Alan Yuille

ICLR 2026(Poster),

[arXiv]

Selftok: Discrete Visual Tokens of Autoregression, by Diffusion, and for Reasoning

Bohan Wang, Zhongqi Yue, Fengda Zhang, Shuo Chen, Li'an Bi, Junzhe Zhang, Kennard Yanting Chan, Jiachun Pan, Weijia Wu, Mingze Zhou, Wang Lin, Kaihang Pan, Saining Zhang, Liyu Jia, Wentao Hu, Wei Zhao, Hanwang Zhang

NeurIPS 2025(Poster),

[arXiv] [Project Page] [机器之心]

Selftok: Discrete Visual Tokens of Autoregression, by Diffusion, and for Reasoning

NeurIPS 2025(Poster),

[arXiv] [Project Page] [机器之心]

On Path to Multimodal Generalist: Levels and Benchmarks

Hao Fei, Yuan Zhou, Juncheng Li, Xiangtai Li, Qingshan Xu, Bobo Li, Shengqiong Wu, Yaoting Wang, Junbao Zhou, Jiahao Meng, Qingyu Shi, Zhiyuan Zhou, Liangtao Shi, Minghe Gao, Daoan Zhang, Zhiqi Ge, Siliang Tang, Kaihang Pan, Yaobo Ye, Haobo Yuan, Tao Zhang, Weiming Wu, Tianjie Ju, Zixiang Meng, Shilin Xu, Liyu Jia, Wentao Hu, Meng Luo, Jiebo Luo, Tat-Seng Chua, Hanwang Zhang, Shuicheng Yan

ICML 2025(Oral),

[arXiv] [Project Page] [新智元] [机器之心]

On Path to Multimodal Generalist: Levels and Benchmarks

ICML 2025(Oral),

[arXiv] [Project Page] [新智元] [机器之心]

Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning

Wang Lin*, Liyu Jia*, Wentao Hu*, Kaihang Pan, Zhongqi Yue, Jingyuan Chen, Fei Wu, Hanwang Zhang (* co-first authors)

CVPR 2026(Findings),

[arXiv]

Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning

Wang Lin*, Liyu Jia*, Wentao Hu*, Kaihang Pan, Zhongqi Yue, Jingyuan Chen, Fei Wu, Hanwang Zhang (* co-first authors)

CVPR 2026(Findings),

[arXiv]

Warning

Action required

Education

Experience

Publications

SkillBrew: Multi-Objective Curation of Skill Banks for LLM Agents

SkillBrew: Multi-Objective Curation of Skill Banks for LLM Agents

Vinci: Deep Thinking in Text-to-Image Generation using Unified Model with Reinforcement Learning

Vinci: Deep Thinking in Text-to-Image Generation using Unified Model with Reinforcement Learning

WorldEdit: Towards Open-World Image Editing with a Knowledge-Informed Benchmark

WorldEdit: Towards Open-World Image Editing with a Knowledge-Informed Benchmark

Selftok: Discrete Visual Tokens of Autoregression, by Diffusion, and for Reasoning

Selftok: Discrete Visual Tokens of Autoregression, by Diffusion, and for Reasoning

On Path to Multimodal Generalist: Levels and Benchmarks

On Path to Multimodal Generalist: Levels and Benchmarks

Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning

Reasoning Physical Video Generation with Diffusion Timestep Tokens via Reinforcement Learning