ericphann / eCFR-title12_NER Public

Notifications You must be signed in to change notification settings
Fork 0
Star 0

Fine-tuned NER models for banking and regulation texts, trained on eCFR Title 12 using manual and few-shot (GPT 3.5 v3) annotations.

0 stars 0 forks Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 39 Commits
corpuses		corpuses
data		data
milestone2		milestone2
milestone3		milestone3
models		models
spacy-llm		spacy-llm
README.md		README.md
ecfr_ner_models.ipynb		ecfr_ner_models.ipynb
requirements.txt		requirements.txt
write-up.pdf		write-up.pdf

Repository files navigation

⚖️ NER Models - eCFR Title 12 🏦

Fine-tuned NER models for banking and regulation texts, trained on eCFR Title 12 using manual and few-shot (GPT 3.5 v3) annotations.

Please see the executive write-up for metrics and process details.

Team

Eric Phann (data, programming, modeling)
Kristen Zhang (annotation, reporting, documentation)
Yaxin Zhao (annotation, research, procedure)
Sydney Kelly (annotation, future considerations)
Jake Stallard (annotation, future considerations)

Contents

corpuses folder (configs, .spaCy, etc. for each pipeline)
data folder (few-shot, manual, and unlabeled data)
models folder (best/last model for each type)
milestones 2 & 3 folder (prior deliverables)
spacy-llm folder (stuff to make few-shot annotations)
ecfr_ner_models.ipynb (step-by-step Colab notebook)
write-up.pdf (executive summary; conclusions)
requirements.txt (for reproducibility)

Dataset

Domain: Banking compliance and risk
Possible applications: NER, text mining, classification, policy, regulations
eCFR Title 12 (https://github.com/ericphann/dsba6188-group6-project/tree/main/data)

Processing

Generate Entity Labels, Definitions, and Few-shot Data
Train/Test a Model Using ecfr-few-shot.jsonl
Compile Metrics and Review
Label 100 examples from ecfr-unlabeled.jsonl
Review Labels and Refine Annotation Guidelines
Create a Final Test Dataset (ecfr-manual.jsonl)
Model Development

Models

few-shot-model
manual-model
mixed-model

Future Work

Refine Annotation Guidelines
Expand Dataset
Fine-tuning with Prodigy and SpaCy
Chunking Data
Data Privacy and Security

About

Fine-tuned NER models for banking and regulation texts, trained on eCFR Title 12 using manual and few-shot (GPT 3.5 v3) annotations.

nlp machine-learning natural-language-processing annotations spacy banking ner cfr few-shot spacy-nlp name-entity-recognition large-language-models llm spacy-llm

Report repository

Releases

No releases published

Packages

No packages published

Contributors 3

Languages

Jupyter Notebook 100.0%