Data

We use Vector Space Model(VSM) and Latent Semantic Indexing(LSI) Model to calculate documents similarity based on one part of People's Daily corpora, which contains about 3,000 documents.

Data

There are two files under data directory.

199801_clear_1.txt is the People's Daily corpora.
small_data_for_test.txt is a small dataset just for testing codes.

Data Preprocessing

See dictionary_builder.py

Model

VSM

See doc_similarity_VSM.py

LSI Model

See doc_similarity_LSI.py

Name		Name	Last commit message	Last commit date
Latest commit History 19 Commits
Introduction-Document		Introduction-Document
data		data
README.md		README.md
dictionary_builder.py		dictionary_builder.py
doc_similarity_LSI.py		doc_similarity_LSI.py
doc_similarity_VSM.py		doc_similarity_VSM.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Data

Data Preprocessing

Model

VSM

LSI Model

About

Releases

Packages

Languages

Shengqiang-Zhang/documents-similarity

Folders and files

Latest commit

History

Repository files navigation

Data

Data Preprocessing

Model

VSM

LSI Model

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages