Tong Wu - Homepage

Tong Wu

(765)-720-4989 tongwu@princeton.edu

I am a PhD candidate at Princeton University, advised by Prof. Prateek Mittal. During my PhD, I have worked at Zoom, Microsoft, and NEC Labs as a research intern. Previously, I earned my Bachelor's and Master's degrees from Washington University in St. Louis, advised by Prof. Yevgeniy Vorobeychik.

My research focuses on the safety challenges posed by increasingly powerful and intelligent large language models (LLMs). I am particularly interested in developing simple, scalable methods grounded in rigorous theoretical principles. Specifically, my work spans across:

Reasoning Control: I am particularly interested in reasoning LLMs. My recent research develops scalable methods to enhance their reliability and safety, including Thinking Intervention, a novel approach for steering reasoning trajectories within models. I also investigate the implications of the Inverse Scaling Law on robustness in safety tasks.
Robust and Private RAG: I have developed certifiably robust retrieval-augmented generation systems (RobustRAG), where the generated responses are provably robust against misinformation in the retrieved documents. I have also designed differential private in-context learning (DP-ICL) that applies similar insights to ensure privacy guarantees.
Instruction Hierarchy: I have worked on enhancing instruction hierarchy through architectural innovations (ISE) and robust verification mechanisms (Task Shield) that correctly prioritize critical instructions in LLM agents.

Latest Updates:

Job Search: I am actively seeking full-time research positions starting December 2025. If you’re interested in my work, please feel free to reach out via email. You can also check my CV.
Summer 2025: I am starting my internship at Google, working on Instruction Hierarchy for Gemini models!

Selected Publications

* Equal contribution

Does More Inference-Time Compute Really Help Robustness?
Tong Wu, Chong Xiang, Jiachen T. Wang, Weichen Yu, Chawin Sitawarin, Vikash Sehwag, Prateek Mittal
Preprint Paper
Effectively Controlling Reasoning Models through Thinking Intervention
Tong Wu, Chong Xiang, Jiachen T. Wang, G. Edward Suh, Prateek Mittal
Preprint Paper
Instructional Segment Embedding: Improving LLM Safety with Instruction Hierarchy
Tong Wu, Shujian Zhang, Kaiqiang Song, Silei Xu, Sanqiang Zhao, Ravi Agrawal, Sathish Indurthi, Chong Xiang, Prateek Mittal, Wenxuan Zhou
ICLR 2025 Paper Code
Certifiably Robust RAG against Retrieval Corruption
Chong Xiang*, Tong Wu*, Zexuan Zhong, David Wagner, Danqi Chen, Prateek Mittal
Preprint Paper Code
Privacy-Preserving In-Context Learning for Large Language Models
Tong Wu*, Ashwinee Panda*, Jiachen T. Wang*, Prateek Mittal
ICLR 2024 Paper Code Poster
The Task Shield: Enforcing Task Alignment to Defend Against Indirect Prompt Injection in LLM Agents
Feiran Jia, Tong Wu, Xin Qin, Anna Squicciarini
ACL 2025 Main Paper
Uncovering Adversarial Risks of Test-Time Adaptation
Tong Wu, Feiran Jia, Xiangyu Qi, Jiachen T. Wang, Vikash Sehwag, Saeed Mahloujifar, Prateek Mittal
ICML 2023 Paper Project Code
Defending against Physically Realizable Attacks on Image Classification
Tong Wu, Liang Tong, Yevgeniy Vorobeychik
ICLR 2020 Spotlight Presentation Paper Code Video Slides

Other Publications

GREATS: Online Selection of High-Quality Data for LLM Training in Every Iteration
Jiachen T. Wang, Tong Wu, Dawn Song, Prateek Mittal, Ruoxi Jia
NeurIPS 2024 Spotlight Presentation Paper Code
Position Paper: Beyond Robustness Against Single Attack Types
Sihui Dai, Chong Xiang, Tong Wu, Prateek Mittal
Preprint Paper
PatchCURE: Improving Certifiable Robustness, Model Utility, and Computation Efficiency of Adversarial Patch Defenses
Chong Xiang, Tong Wu, Sihui Dai, Jonathan Petit, Suman Jana, Prateek Mittal
USENIX 2024 Paper
A Randomized Approach for Tight Privacy Accounting
Jiachen T. Wang, Saeed Mahloujifar, Tong Wu, Ruoxi Jia, Prateek Mittal
NeurIPS 2023 Paper
Towards A Proactive ML Approach for Detecting Backdoor Poison Samples
Xiangyu Qi, Tinghao Xie, Jiachen T. Wang, Tong Wu, Saeed Mahloujifar, Prateek Mittal
USENIX 2023 Paper Code
Short: Certifiably Robust Perception Against Adversarial Patch Attacks: A Survey
Chong Xiang, Chawin Sitawarin, Tong Wu, Prateek Mittal
VehicleSec2023 Paper Video Slides Poster Leaderboard
Best Short/WIP Paper Award Runner-Up
Just Rotate it: Deploying Backdoor Attacks via Rotation Transformation
Tong Wu, Jiachen T. Wang, Vikash Sehwag, Saeed Mahloujifar, Prateek Mittal
AISEC 2022 Paper Code Demo
Adversarial Robustness of Deep Sensor Fusion Models
Shaojie Wang, Tong Wu, Ayan Chakrabarti, Yevgeniy Vorobeychik
WACV 2022 Paper Code
Systems and methods for defending against physical attacks on image classification
Yevgeniy Vorobeychik, Tong Wu, Liang Tong
US Patent Patent
Can Optical Trojans Assist Adversarial Perturbations?
Adith Boloor, Tong Wu, Patrick Naughton, Ayan Chakrabarti, Xuan Zhang, Yevgeniy Vorobeychik
AROW (ICCV'21) Paper

Miscellaneous

REVIEWING:
- ICLR'22,24,25; NeurIPS'22,23,24; ICML'23,24,25; CVPR'25; ECCV'24; WCAV'22,24,25; KDD'22; AAAI'21; S&P'21; IJCV.
TEACHING EXPERIENCE:
- Information Security (Spring 2024), Princeton University.
- Teaching Assistant of Introduction to Machine Learning (Spring 2019, Fall 2019, Spring 2020, Spring 2021), Washington University in St. Louis.
HONORS & AWARDS:
- Princeton First Year Fellowship, 2021
- Research Excellence Award at Washington University, 2021
- AAMAS 2021 Student Scholarship, 2021
- Washington University Undergraduate Research Conference Travel Award, 2020
- Member of Tau Beta Pi Association, 2019, 2020, 2021