AAAI'25: MIA-Tuner: Adapting Large Language Models as Pre-training Text Detector

Wenjie Fu¹, Huandong Wang², Chen Gao², Guanghua Liu¹, Yong Li², Tao Jiang¹*

¹ Huazhong University of Science and Technology ² Tsinghua University

AAAI'25: MIA-Tuner: Adapting Large Language Models as Pre-training Text Detector

This is the official implementation of the paper "MIA-Tuner: Adapting Large Language Models as Pre-training Text Detector". The proposed MIA-Tuner is implemented as follows.

Overview

Instructing aligned and unaligned LLMs themselves to detect texts that have been seen during the pre-training phase.

A Quick Glance on ChatGLM*

MIA-Tuner.mp4

*Please refer ./inference_on_zhipuai for reproducing.

Requirements

torch>=2.2.0
accelerate==0.32.1
transformers==4.42.4
huggingface_hub==0.23.4
datasets==2.20.0
deepeval==0.21.73
langchain==0.2.14
Wikipedia_API==0.6.0
numpy>=1.24.4
scikit-learn>=1.1.3
pyyaml>=6.0
tqdm>=4.64.1

Dependency can be installed with the following command:

pip install -r requirements.txt

WikiMIA-24 Dataset

We provide a collection of related datasets in 🤗 Huggingface.

Running all baselines

In this repo, we provide an all-in-one script run_baselines.py for running all exiting baselines in one commond.

python run_baselines.py --model ${model} --dataset ${DATASET_NAME} --block_size ${BLOCK_SIZE}

Running MIA-Tuner

Aligned LLMs

accelerate launch mia_hybrid.py -m ${model} --unaligned_model -d ${DATASET_NAME} \
--block_size ${BLOCK_SIZE} --epochs ${EPOCHS} --batch_size ${BATCH_SIZE} --learning_rate ${LEARNING_RATE} \
--gradient_accumulation_steps ${GRADIENT_ACCUMULATION_STEPS}

Unligned LLMs

accelerate launch mia_hybrid.py -m ${model} --unaligned_model -d ${DATASET_NAME} \
--block_size ${BLOCK_SIZE} --epochs ${EPOCHS} --batch_size ${BATCH_SIZE} --learning_rate ${LEARNING_RATE} \
--gradient_accumulation_steps ${GRADIENT_ACCUMULATION_STEPS}

Reproducing All Experiment in Our Paper

All scripts for reproducing results in our paper can be found in ./exp_scripts

Citation

Please consider to cite our paper if you find MIA-Tuner helpful in your research

@inproceedings{fu2024membership,
    title={{MIA}-Tuner: Adapting Large Language Models as Pre-training Text Detector},
    booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},
    author = {Fu, Wenjie and Wang, Huandong and Gao, Chen and Liu, Guanghua and Li, Yong and Jiang, Tao},
    year = {2025},
    address = {Philadelphia, Pennsylvania, USA}
}

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
.github/workflows		.github/workflows
WikiMIA-24		WikiMIA-24
chat_templates		chat_templates
exp_scripts		exp_scripts
inference_on_zhipuai		inference_on_zhipuai
mmlu_results		mmlu_results
.gitignore		.gitignore
Framework.png		Framework.png
MIA-Tuner.mov		MIA-Tuner.mov
README.md		README.md
data_utils.py		data_utils.py
dataset_perturb.py		dataset_perturb.py
eval_llm.py		eval_llm.py
mia_defender_baselines.py		mia_defender_baselines.py
mia_hybrid.py		mia_hybrid.py
mmlu_results.py		mmlu_results.py
my_utils.py		my_utils.py
requirements.txt		requirements.txt
run_baselines.py		run_baselines.py
update_wikimia.py		update_wikimia.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

AAAI'25: MIA-Tuner: Adapting Large Language Models as Pre-training Text Detector

Overview

A Quick Glance on ChatGLM*

Requirements

WikiMIA-24 Dataset

Running all baselines

Running MIA-Tuner

Reproducing All Experiment in Our Paper

Citation

About

Releases

Packages

Languages

tsinghua-fib-lab/AAAI2025_MIA-Tuner

Folders and files

Latest commit

History

Repository files navigation

AAAI'25: MIA-Tuner: Adapting Large Language Models as Pre-training Text Detector

Overview

A Quick Glance on ChatGLM*

Requirements

WikiMIA-24 Dataset

Running all baselines

Running MIA-Tuner

Reproducing All Experiment in Our Paper

Citation

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages