Qi, Zhongang (祁仲昂)

I am currently the Chief Scientist at the Imaging Department of vivo, leading an effort on multimodal large language models (MLLMs) and controllable visual content generation, with applications in visual perception, understanding, editing, and creation on mobile devices, including smartphones, AI glasses, etc.

Previously, I was a Principal Researcher at Huawei, where I led an effort on foundation MLLMs and reasoning MLLMs. Before joining Huawei, I was a Principal Researcher (T13) in ARC Lab, Tencent PCG .

I received the B.S. and Ph.D degrees in information science and electronic engineering from Zhejiang University, supervised by Prof. Zhongfei (Mark) Zhang. I was a Postdoctoral Researcher with the School of Electrical Engineering and Computer Science, Oregon State University, supervised by Prof. Fuxin Li.

We are seeking research interns and full-time researchers to work on cutting-edge research of MLLMs (Agent, RAG) and controllable visual content generation (image/video editing, image-to-video). If you're interested, please contact me at zhongangqi[at]gmail.com.

News:

[06/2025] Four papers (SimpAgent, VisionMath, DOGE, Mamba-3VL) are accepted to ICCV 25.

[05/2025] One paper (RF-Solver-Edit) is accepted to ICML 25.

[02/2025] One paper (Mono2Stereo) is accepted to CVPR 25.

[12/2024] One paper (CustomCrafter) is accepted to AAAI 25.

Selected Publications

Multimodal LLMs & Multimodal/Cross-modal Learning

Yinan Zhou, Yuxin Chen, Haokun Lin, Shuyu Yang, Li Zhu, Zhongang Qi*, Chen Ma, Ying Shan, "DOGE: Towards Versatile Visual Document Grounding and Referring", in ICCV 2025. (*Corresponding author) [pdf]
Tao Zhang, Ziqi Zhang, Zongyang Ma, Yuxin Chen, Zhongang Qi, Chunfeng Yuan, Bing Li, Junfu Pu, Yuxuan Zhao, Zehua Xie, Jin Ma, Ying Shan, Weiming Hu, "mR²AG: Multimodal Retrieval-Reflection-Augmented Generation for Knowledge-Based VQA", in arXiv:2411.15041. [pdf]
Ye Liu, Zongyang Ma, Zhongang Qi*, Yang Wu, Ying Shan, Chang Wen Chen, "E.T. Bench: Towards Open-Ended Event-Level Video-Language Understanding", in NeurIPS 2024. (*Corresponding author) [pdf]
Tao Yang, Yingmin Luo, Zhongang Qi*, Yang Wu, Ying Shan, Chang Wen Chen, "PosterLLaVa: Constructing a Unified Multi-modal Layout Generator with LLM", in arXiv:2406.02884. (*Corresponding author) [pdf]
Chaolei Tan, Zihang Lin, Junfu Pu, Zhongang Qi, Wei-Yi Pei, Zhi Qu, Yexin Wang, Ying Shan, Wei-Shi Zheng, Jian-Fang Hu, “SynopGround: A Large-Scale Dataset for Multi-Paragraph Video Grounding from TV Dramas and Synopses'', in ACM MM 2024.
Zongyang Ma, Ziqi Zhang, Yuxin Chen, Zhongang Qi, Chunfeng Yuan, Bing Li, Yingmin Luo, Xu Li, Xiaojuan Qi, Ying Shan, Weiming Hu, “EA-VTR: Event-Aware Video-Text Retrieval'', in ECCV 2024.
Yuxin Chen, Zongyang Ma, Ziqi Zhang, Zhongang Qi, Chunfeng Yuan, Bing Li, Junfu Pu, Ying Shan, Xiaojuan Qi, Weiming Hu, “How to Make Cross Encoder a Good Teacher for Efficient Image-Text Retrieval?'', in CVPR 2024.
Ziqi Zhang, Zongyang Ma, Chunfeng Yuan, Yuxin Chen, Peijin Wang, Zhongang Qi, Chenglei Hao, Bing Li, Ying Shan, Weiming Hu, Stephen Maybank, “Chinese Title Generation for Short Videos: Dataset, Metric and Algorithm'', in TPAMI 2024.
Zongyang Ma, Ziqi Zhang, Yuxin Chen, Zhongang Qi, Yingmin Luo, Zekun Li, Chunfeng Yuan, Bing Li, Xiaohu Qie, Ying Shan, Weiming Hu, “Order-Prompted Tag Sequence Generation for Video Tagging'', in ICCV 2023.
Yuxuan Zhao, Jin Ma, Zhongang Qi, Zehua Xie, Yu Luo, Qiusheng Kang, Ying Shan, “VTLayout: A Multi-Modal Approach for Video Text Layout'', in ACM MM 2023.
Yuxin Chen, Zongyang Ma, Ziqi Zhang, Zhongang Qi, Chunfeng Yuan, Ying Shan, Bing Li, Weiming Hu, Xiaohu Qie, Jianping Wu, “ViLEM: Visual-Language Error Modeling for Image-Text Retrieval'', in CVPR 2023.
Yizhen Chen, Jie Wang, Lijian Lin, Zhongang Qi*, Jin Ma, Ying Shan, “Tagging before Alignment: Integrating Multi-Modal Tags for Video-Text Retrieval'', in AAAI 2023. (*Corresponding author)
Yuxin Chen, Ziqi Zhang, Zhongang Qi, Chunfeng Yuan, Jie Wang, Ying Shan, Bing Li, Weiming Hu, Xiaohu Qie, Jianping Wu, “DARTScore: DuAl-Reconstruction Transformer for Video Captioning Evaluation'', in IEEE Transactions on Circuits and Systems for Video Technology, 2023.
Tao Yang, Fan Wang, Junfan Lin, Zhongang Qi, Yang Wu, Jing Xu, Ying Shan, Changwen Chen, “Toward Human Perception-Centric Video Thumbnail Generation'', in ACM MM 2023.
Di Jin, Zhongang Qi, Yingmin Luo, Ying Shan, “TransFusion: Multi-Modal Fusion for Video Tag Inference via Translation-based Knowledge Embedding'', in ACM MM 2021.
Xiao Wang*, Weirong Ye*, Zhongang Qi, Xun Zhao, Guangge Wang, Ying Shan, Hanzi Wang, “Semantic-Guided Relation Propagation Network for Few-shot Action Recognition'', in ACM MM 2021.
Ziqi Zhang, Zhongang Qi, Chunfeng Yuan, Ying Shan, Bing Li, Ying Deng, Weiming Hu, “Open-book Video Captioning with Retrieve-Copy-Generate Network'', in CVPR 2021.

Controllable Visual Content Generation

Jiangshan Wang, Junfu Pu, Zhongang Qi*, Jiayi Guo, Yue Ma, Nisha Huang, Yuxin Chen, Xiu Li, Ying Shan, "Taming Rectified Flow for Inversion and Editing", in ICML 2025. (*Corresponding author) [pdf]
Songsong Yu, Yuxin Chen, Zhongang Qi*, Zeke Xie, Yifan Wang, Lijun Wang, Ying Shan, Huchuan Lu, "Mono2Stereo: A Benchmark and Empirical Study for Stereo Conversion", in CVPR 2025. (*Corresponding author)
Tao Wu, Yong Zhang, Xiaodong Cun, Zhongang Qi*, Junfu Pu, Huanzhang Dou, Guangcong Zheng, Ying Shan, Xi Li, "VideoMaker: Zero-shot Customized Video Generation with the Inherent Force of Video Diffusion Models", in arXiv:2412.19645. (*Corresponding author) [pdf]
Tao Wu, Yong Zhang, Xintao Wang, Xianpan Zhou, Guangcong Zheng, Zhongang Qi, Ying Shan, Xi Li, “CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities'', in AAAI 2025. [pdf]
Ziyang Yuan, Mingdeng Cao, Xintao Wang, Zhongang Qi, Chun Yuan, Ying Shan, "CustomNet: Object Customization with Variable-Viewpoints in Text-to-Image Diffusion Models", in ACM MM 2024. [pdf]
Zhouxia Wang, Xintao Wang, Liangbin Xie, Zhongang Qi, Ying Shan, Wenping Wang, Ping Luo, "StyleAdapter: A Unified Stylized Image Generation Model", in International Journal of Computer Vision 2024.
Zhen Li, Mingdeng Cao, Xintao Wang, Zhongang Qi, Ming-Ming Cheng, Ying Shan, “PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding'', in CVPR 2024.
Tao Wu, Xuewei Li, Zhongang Qi*, Di Hu, Xintao Wang, Ying Shan, Xi Li, “SphereDiffusion: Spherical Geometry-aware Distortion Resilient Diffusion Model'', in AAAI 2024. (*Corresponding author)
Chong Mou, Xintao Wang, Liangbin Xie, Jian Zhang, Zhongang Qi, Ying Shan, Xiaohu Qie, “T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for Text-to-Image Diffusion Models'', in AAAI 2024.
Mingdeng Cao, Xintao Wang, Zhongang Qi, Ying Shan, Xiaohu Qie, Yinqiang Zheng, “MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image Synthesis and Editing'', in ICCV 2023.
Guangcong Zheng, Xianpan Zhou, Xuewei Li, Zhongang Qi, Ying Shan, Xi Li, “LayoutDiffusion: Controllable Diffusion Model for Layout-to-image Generation'', in CVPR 2023.

Explainable AI

Li Fuxin, Zhongang Qi, Saeed Khorram, Vivswan Shitole, Prasad Tadepalli, Minsuk Kahng, Alan Fern, “From Heatmaps to Structured Explanations of Image Classifiers'', in Applied AI Letters, 2021.
Liangbin Xie, Xintao Wang, Chao Dong, Zhongang Qi, Ying Shan, “Finding Discriminative Filters for Specific Degradations in Blind Super-Resolution'', in NeurIPS 2021.
Mandana Hamidi-Haines, Zhongang Qi, Alan Fern, Li Fuxin, Prasad Tadepalli, “User-Guided Global Explanations for Deep Image Recognition: A User Study'', in Applied AI Letters, 2021.
Zhongang Qi, Saeed Khorram, Fuxin Li, “Embedding Deep Networks into Visual Explanations'', in Artificial Intelligence (AIJ), Volume 292, March 2021.
Zhongang Qi, Saeed Khorram, Fuxin Li, “Visualizing Deep Networks by Optimizing with Integrated Gradients'', in AAAI 2020.
Ziwen Chen, Wenxuan Wu, Zhongang Qi, Fuxin Li, “Visualizing Point Cloud Classifiers by Curvature Smoothing”, in BMVC 2020.
Mandana Hamidi-Haines, Zhongang Qi, Alan Fern, Fuxin Li, Prasad Tadepalli, “Interactive Naming for Explaining Deep Neural Networks: A Formative Study'', in Joint Proceedings of the ACM IUI 2019 Workshops.
Zhongang Qi, Fuxin Li, “Learning Explainable Embeddings for Deep Networks'', in NeurIPS 2017 workshop: Interpreting, Explaining and Visualizing Deep Learning - now what ?.

Other Vision Tasks

Li Yang, Chunfeng Yuan, Ziqi Zhang, Zhongang Qi, Yan Xu, Wei Liu, Ying Shan, Bing Li, Weiping Yang, Peng Li, Yan Wang, Weiming Hu, “Exploiting Contextual Objects and Relations for 3D Visual Grounding'', in NeurIPS 2023.
Xuewei Li, Tao Wu, Zhongang Qi, Gaoang Wang, Ying Shan, Xi Li, “SGAT4PASS: Spherical Geometry Aware Transformer for PAnoramic Semantic Segmentation'', in IJCAI 2023.
Lijian Lin, Xintao Wang, Zhongang Qi, Ying Shan, “Accelerating the Training of Video Super-Resolution'', in AAAI 2023.
Xixi Xu, Zhongang Qi*, Jianqi Ma, Honglun Zhang, Ying Shan, Xiaohu Qie, “BTS: A Bi-lingual Benchmark for Text Segmentation in the Wild'', in CVPR 2022. (*Corresponding author)
Xingyi Li, Zhongang Qi, Xiaoli Fern, Fuxin Li, “ScaleNet - Improve CNNs through Recursively Rescaling Objects”, in AAAI 2020.
Wenxuan Wu, Zhongang Qi, Fuxin Li, “PointConv: Deep Convolutional Networks on 3D Point Clouds'', in CVPR 2019.

Multimodal & Relational Data Mining

Dan Zhang, Yangliao Geng, Wenwen Gong, Zhongang Qi, Zhiyu Chen, Xing Tang, Ying Shan, Yuxiao Dong, Jie Tang, “RecDCL: Dual Contrastive Learning for Recommendation'', in WWW 2024.
Dan Zhang, Wenzheng Feng, Yuandong Wang, Zhongang Qi, Ying Shan, Jie Tang, “Dropconn: Dropout connection based random gnns for molecular property prediction'', in IEEE Transactions on Knowledge and Data Engineering (TKDE), 2023.
Zhongang Qi, Tianchun Wang, Guojie Song, Weisong Hu, Xi Li, Zhongfei (Mark) Zhang, “Deep Air Learning: Interpolation, Prediction, and Feature Analysis of Fine-grained Air Quality'', in IEEE Transactions on Knowledge and Data Engineering (TKDE), 2018.
Yi Luo, Guojie Song, Pengyu Li, Zhongang Qi, “Multi-Task Medical Concept Normalization Using Multi-View Convolutional Neural Network'', in AAAI 2018.
Yingming Li, Ming Yang, Zhongang Qi, Zhongfei (Mark) Zhang, “Bayesian Multi-task Relationship Learning with Link Structure'', in IEEE Transactions on Knowledge and Data Engineering (TKDE), 2016.
Chengli Mei, Min Zhang, Zhongang Qi, Qi Bi, “Characterizing and Comparing User Location Preference in an Urban Mobile Network'', in Trustworthy Computing and Services, series Communications in Computer and Information Science, Springer Berlin Heidelberg, 2014.
Yingming Li, Ming Yang, Zhongang Qi, Zhongfei (Mark) Zhang, “Bayesian Multi-task Relationship Learning with Link Structure'', in ICDM 2013.
Yingming Li*, Zhongang Qi*, Zhongfei (Mark) Zhang, Ming Yang, “Learning with Limited and Noisy Tagging'', in ACM MM 2013. (*Contributed equally to this paper)
Zhongang Qi, Ming Yang, Zhongfei (Mark) Zhang, Zhengyou Zhang, “Multi-View Learning from Imperfect Tagging'', in ACM MM 2012.
Zhongang Qi, Ming Yang, Zhongfei (Mark) Zhang, Zhengyou Zhang, “Mining Noisy Tagging from Multi-label Space'', in CIKM 2012.
Zhongang Qi, Ming Yang, Zhongfei (Mark) Zhang, Zhengyou Zhang, “Mining Partially Annotated Images'', in KDD 2011.