Replication of Hierarchical Video-Moment Retrieval and Step-Captioning

My implementation of the code for the joint baseline model for the 4 hierarchical tasks for HiREST[1], can be found in main.ipynb.

Install Packages

# Requires python 3.10.12
# Requires torch<1.13.0
# You need this only for step captioning evaluation (evaluate.py)
pip install allennlp_models

pip install -r requirements.txt
python -c "import language_evaluation; language_evaluation.download('coco')"

Download Data

Download feature files from hugging face library extract them into the ./data/ directory. Afterwards the ./data/ directory should look like:

data/
    ASR/
    ASR_feats_all-MiniLM-L6-v2/
    eva_clip_features/
    eva_clip_features_32_frame/
    evaluation/
    splits/

You also need to download Clip4Caption and EVA-CLIP weights, and extract them into the ./pretrained_weights/ directory.

Run Training

bash scripts/run.sh --train

Inference & Evaluation

Video Retrieval

# Inference
python inference_video_retrieval.py \
    --data_dir './data/splits' \
    --video_feature_dir './data/eva_clip_features_32_frame' \
    --optim adamw \
    --n_model_frames 20 \
    --num_workers 4 \
    --eval_batch_size 10 \
    --device 'cuda' \
    --video_retrieval_model 'clip_g' \
    --run_name clip_g_VR_20frames_avgpool

# Evaluation
python evaluate.py \
    --task video_retrieval \
    --pred_data VR_results/clip_g_VR_20frames_avgpool.json

Moment Retrieval / Moment Segmentation / Step Captioning

# Inference
bash scripts/run.sh

# Evaluation
bash scripts/score.sh

References

[1] Abhay Zala and Jaemin Cho and Satwik Kottur and Xilun Chen and Barlas Oğuz and Yashar Mehdad and Mohit Bansal. Hierarchical Video-Moment Retrieval and Step-Captioning. CVPR, 2023.

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
EVA_clip		EVA_clip
assets		assets
clip4caption		clip4caption
data		data
extraction		extraction
scripts		scripts
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
args.py		args.py
custom_video_pipeline.ipynb		custom_video_pipeline.ipynb
dist_utils.py		dist_utils.py
evaluate.py		evaluate.py
hirest_dataset.py		hirest_dataset.py
inference_video_retrieval.py		inference_video_retrieval.py
main.ipynb		main.ipynb
modeling.py		modeling.py
requirements.txt		requirements.txt
run.py		run.py
trainer_base.py		trainer_base.py
utils.py		utils.py
val_inference_and_evaluation.ipynb		val_inference_and_evaluation.ipynb
video_retrieval_inference_and_evaluation.ipynb		video_retrieval_inference_and_evaluation.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Replication of Hierarchical Video-Moment Retrieval and Step-Captioning

Install Packages

Download Data

Run Training

Inference & Evaluation

Video Retrieval

Moment Retrieval / Moment Segmentation / Step Captioning

References

About

Releases

Packages

Contributors 3

Languages

License

khushipatni/CSE597-Course_Project

Folders and files

Latest commit

History

Repository files navigation

Replication of Hierarchical Video-Moment Retrieval and Step-Captioning

Install Packages

Download Data

Run Training

Inference & Evaluation

Video Retrieval

Moment Retrieval / Moment Segmentation / Step Captioning

References

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Contributors 3

Languages

Packages