pzzhang | publications

2026

2025

2024

The llama 3 herd of models

Dubey, Abhimanyu, Jauhri, Abhinav, Pandey, Abhinav, Kadian, Abhishek, Al-Dahle, Ahmad, Letman, Aiesha, Mathur, Akhil, Schelten, Alan, Yang, Amy, Fan, Angela, and others,

arXiv e-prints 2024
Evaluating text-to-visual generation with image-to-text generation

Lin, Zhiqiu, Pathak, Deepak, Li, Baiqi, Li, Jiayao, Xia, Xide, Neubig, Graham, Zhang, Pengchuan, and Ramanan, Deva

In European Conference on Computer Vision 2024

2023

Egovlpv2: Egocentric video-language pre-training with fusion in the backbone

Pramanick, Shraman, Song, Yale, Nag, Sayan, Lin, Kevin Qinghong, Shah, Hardik, Shou, Mike Zheng, Chellappa, Rama, and Zhang, Pengchuan

In Proceedings of the IEEE/CVF International Conference on Computer Vision 2023
Univtg: Towards unified video-language temporal grounding

Lin, Kevin Qinghong, Zhang, Pengchuan, Chen, Joya, Pramanick, Shraman, Gao, Difei, Wang, Alex Jinpeng, Yan, Rui, and Shou, Mike Zheng

In Proceedings of the IEEE/CVF International Conference on Computer Vision 2023
Minigpt-v2: large language model as a unified interface for vision-language multi-task learning

Chen, Jun, Zhu, Deyao, Shen, Xiaoqian, Li, Xiang, Liu, Zechun, Zhang, Pengchuan, Krishnamoorthi, Raghuraman, Chandra, Vikas, Xiong, Yunyang, and Elhoseiny, Mohamed

arXiv preprint arXiv:2310.09478 2023

2022

2021

Vinvl: Revisiting visual representations in vision-language models

Zhang, Pengchuan, Li, Xiujun, Hu, Xiaowei, Yang, Jianwei, Zhang, Lei, Wang, Lijuan, Choi, Yejin, and Gao, Jianfeng

In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 2021
Out-of-distribution prediction with invariant risk minimization: The limitation and an effective fix

Guo, Ruocheng, Zhang, Pengchuan, Liu, Hao, and Kiciman, Emre

arXiv preprint arXiv:2101.07732 2021
Multi-scale vision longformer: A new vision transformer for high-resolution image encoding

Zhang, Pengchuan, Dai, Xiyang, Yang, Jianwei, Xiao, Bin, Yuan, Lu, Zhang, Lei, and Gao, Jianfeng

arXiv preprint arXiv:2103.15358 2021
Multiscale Invertible Generative Networks for High-Dimensional Bayesian Inference

Zhang, Shumao, Zhang, Pengchuan, and Hou, Thomas Y

arXiv preprint arXiv:2105.05489 2021
3DB: A Framework for Debugging Computer Vision Models

Leclerc, Guillaume, Salman, Hadi, Ilyas, Andrew, Vemprala, Sai, Engstrom, Logan, Vineet, Vibhav, Xiao, Kai, Zhang, Pengchuan, Santurkar, Shibani, Yang, Greg, and others,

arXiv preprint arXiv:2106.03805 2021
Efficient Self-supervised Vision Transformers for Representation Learning

Li, Chunyuan, Yang, Jianwei, Zhang, Pengchuan, Gao, Mei, Xiao, Bin, Dai, Xiyang, Yuan, Lu, and Gao, Jianfeng

arXiv preprint arXiv:2106.09785 2021
Image scene graph generation (sgg) benchmark

Han, Xiaotian, Yang, Jianwei, Hu, Houdong, Zhang, Lei, Gao, Jianfeng, and Zhang, Pengchuan

arXiv preprint arXiv:2107.12604 2021
Dynamic detr: End-to-end object detection with dynamic attention

Dai, Xiyang, Chen, Yinpeng, Yang, Jianwei, Zhang, Pengchuan, Yuan, Lu, and Zhang, Lei

In Proceedings of the IEEE/CVF International Conference on Computer Vision 2021
Focal Attention for Long-Range Interactions in Vision Transformers

Yang, Jianwei, Li, Chunyuan, Zhang, Pengchuan, Dai, Xiyang, Xiao, Bin, Yuan, Lu, and Gao, Jianfeng

Advances in Neural Information Processing Systems 2021
Florence: A New Foundation Model for Computer Vision

Yuan, Lu, Chen, Dongdong, Chen, Yi-Ling, Codella, Noel, Dai, Xiyang, Gao, Jianfeng, Hu, Houdong, Huang, Xuedong, Li, Boxin, Li, Chunyuan, and others,

arXiv preprint arXiv:2111.11432 2021
Grounded Language-Image Pre-training

Li, Liunian Harold, Zhang, Pengchuan, Zhang, Haotian, Yang, Jianwei, Li, Chunyuan, Zhong, Yiwu, Wang, Lijuan, Yuan, Lu, Zhang, Lei, Hwang, Jenq-Neng, and others,

arXiv preprint arXiv:2112.03857 2021
RegionCLIP: Region-based Language-Image Pretraining

Zhong, Yiwu, Yang, Jianwei, Zhang, Pengchuan, Li, Chunyuan, Codella, Noel, Li, Liunian Harold, Zhou, Luowei, Dai, Xiyang, Yuan, Lu, Li, Yin, and others,

arXiv preprint arXiv:2112.09106 2021

2020

Statistical adaptive stochastic gradient methods

Zhang, Pengchuan, Lang, Hunter, Liu, Qiang, and Xiao, Lin

arXiv preprint arXiv:2002.10597 2020
Oscar: Object-semantics aligned pre-training for vision-language tasks

Li, Xiujun, Yin, Xi, Li, Chunyuan, Zhang, Pengchuan, Hu, Xiaowei, Zhang, Lei, Wang, Lijuan, Hu, Houdong, Dong, Li, Wei, Furu, and others,

In European Conference on Computer Vision 2020
Object-centric image generation from layouts

Sylvain, Tristan, Zhang, Pengchuan, Bengio, Yoshua, Hjelm, R Devon, and Sharma, Shikhar

arXiv preprint arXiv:2003.07449 2020
Novel human-object interaction detection via adversarial domain generalization

Song, Yuhang, Li, Wenbo, Zhang, Lei, Yang, Jianwei, Kiciman, Emre, Palangi, Hamid, Gao, Jianfeng, Kuo, C-C Jay, and Zhang, Pengchuan

arXiv preprint arXiv:2005.11406 2020
Maggan: High-resolution face attribute editing with mask-guided generative adversarial network

Wei, Yi, Gan, Zhe, Li, Wenbo, Lyu, Siwei, Chang, Ming-Ching, Zhang, Lei, Gao, Jianfeng, and Zhang, Pengchuan

In Proceedings of the Asian Conference on Computer Vision 2020
Minivlm: A smaller and faster vision-language model

Wang, Jianfeng, Hu, Xiaowei, Zhang, Pengchuan, Li, Xiujun, Wang, Lijuan, Zhang, Lei, Gao, Jianfeng, and Liu, Zicheng

arXiv preprint arXiv:2012.06946 2020

2019

Using statistics to automate stochastic optimization

Lang, Hunter, Xiao, Lin, and Zhang, Pengchuan

Advances in Neural Information Processing Systems 2019
Solving Bayesian inverse problems from the perspective of deep generative networks

Hou, Thomas Y, Lam, Ka Chun, Zhang, Pengchuan, and Zhang, Shumao

Computational Mechanics 2019
Recurjac: An efficient recursive algorithm for bounding jacobian matrix of neural networks and its applications

Zhang, Huan, Zhang, Pengchuan, and Hsieh, Cho-Jui

In Proceedings of the AAAI Conference on Artificial Intelligence 2019
TIGEr: text-to-image grounding for image caption evaluation

Jiang, Ming, Huang, Qiuyuan, Zhang, Lei, Wang, Xin, Zhang, Pengchuan, Gan, Zhe, Diesner, Jana, and Gao, Jianfeng

arXiv preprint arXiv:1909.02050 2019
A convex relaxation barrier to tight robustness verification of neural networks

Salman, Hadi, Yang, Greg, Zhang, Huan, Hsieh, Cho-Jui, and Zhang, Pengchuan

arXiv preprint arXiv:1902.08722 2019
Statistical Adaptive Stochastic Optimization

Zhang, Pengchuan, Lang, Hunter, Liu, Qiang, and Xiao, Lin

2019
Object-driven text-to-image synthesis via adversarial training

Li, Wenbo, Zhang, Pengchuan, Zhang, Lei, Huang, Qiuyuan, He, Xiaodong, Lyu, Siwei, and Gao, Jianfeng

In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition 2019
Provably robust deep learning via adversarially trained smoothed classifiers

Salman, Hadi, Yang, Greg, Li, Jerry, Zhang, Pengchuan, Zhang, Huan, Razenshteyn, Ilya, and Bubeck, Sebastien

arXiv preprint arXiv:1906.04584 2019
Understanding the role of momentum in stochastic gradient methods

Gitman, Igor, Lang, Hunter, Zhang, Pengchuan, and Xiao, Lin

arXiv preprint arXiv:1910.13962 2019
A convex relaxation barrier to tight robust verification of neural networks

Salman, Hadi, Yang, Greg, Zhang, Huan, Hsieh, Cho-Jui, and Zhang, Pengchuan

arXiv preprint arXiv:1902.08722 2019

2018

Turbo learning for captionbot and drawingbot

Huang, Qiuyuan, Zhang, Pengchuan, Wu, Dapeng, and Zhang, Lei

arXiv preprint arXiv:1805.08170 2018
An adaptive fast solver for a general class of positive definite matrices via energy decomposition

Hou, Thomas Y, Huang, De, Lam, Ka Chun, and Zhang, Pengchuan

Multiscale Modeling & Simulation 2018
Attngan: Fine-grained text to image generation with attentional generative adversarial networks

Xu, Tao, Zhang, Pengchuan, Huang, Qiuyuan, Zhang, Han, Gan, Zhe, Huang, Xiaolei, and He, Xiaodong

In Proceedings of the IEEE conference on computer vision and pattern recognition 2018
A bird’s eye view on coherence, and a worm’s eye view on cohesion

Cho, Woon Sang, Zhang, Pengchuan, Zhang, Yizhe, Li, Xiujun, Wang, Mengdi, and Gao, Jianfeng

2018
Towards coherent and cohesive long-form text generation

Cho, Woon Sang, Zhang, Pengchuan, Zhang, Yizhe, Li, Xiujun, Galley, Michel, Brockett, Chris, Wang, Mengdi, and Gao, Jianfeng

arXiv preprint arXiv:1811.00511 2018
On the Discrimination-Generalization Tradeoff in GANs

Zhou, Denny, Zhang, Pengchuan, Liu, Qiang, Xu, Tao, and He, Xiaodong

2018

2017

Exploring the locally low dimensional structure in solving random elliptic PDEs

Hou, Thomas Y, Li, Qin, and Zhang, Pengchuan

Multiscale Modeling & Simulation 2017
On the discrimination-generalization tradeoff in GANs

Zhang, Pengchuan, Liu, Qiang, Zhou, Dengyong, Xu, Tao, and He, Xiaodong

arXiv preprint arXiv:1711.02771 2017
Compressing Positive Semidefinite Operators with Sparse/Localized Bases

Zhang, Pengchuan

arXiv preprint arXiv:1711.02771 2017
A sparse decomposition of low rank symmetric positive semidefinite matrices

Hou, Thomas Y, Li, Qin, and Zhang, Pengchuan

Multiscale Modeling & Simulation 2017
Sparse operator compression of higher-order elliptic operators with rough coefficients

Hou, Thomas Y, and Zhang, Pengchuan

Research in the Mathematical Sciences 2017

2016

Concise summarization of heterogeneous treatment effect using total variation regularized regression

Deng, Alex, Zhang, Pengchuan, Chen, Shouyuan, Kim, Dong Woo, and Lu, Jiannan

arXiv preprint arXiv:1610.03917 2016