Этот скрипт предназначен для извлечения email-адресов из текстовых файлов и папок.
Использовался для работы с выкачанными .eml файлами и другой текстовой информацией
- Обработка файлов:
- Извлекает email-адреса из текстовых файлов.
- Поддерживает различные кодировки (utf-8, latin-1, koi8-r, windows-1251, ascii, cp1251, utf-16, utf-32, iso-8859-1).
- Очищает найденные email-адреса от нежелательных символов.
- Обработка папок:
- Рекурсивно сканирует папки и обрабатывает все файлы в них.
- Многопоточность:
- Использует многопоточность для ускорения обработки.
- Логирование:
- Записывает найденные email-адреса и информацию об обработке в файл логов.
- Вывод:
- Выводит найденные email-адреса в отдельный текстовый файл.
- Фильтрация по расширению:
- Поддерживает фильтрацию файлов по расширению.
- Перетащите интересующую папку или файл на main.py
- Либо запустите скрипт из командной строки (в конце можно проставить интересубщие вас расширения файлов)
python extract_emails.py path/to/file_or_directory [extension1 extension2 ...]