Skip to content

Latest commit

 

History

History
46 lines (41 loc) · 2.69 KB

datajuicer_op.md

File metadata and controls

46 lines (41 loc) · 2.69 KB
  • 文本处理使用的data juicer算子
算子 描述
chinese_convert_mapper 用于在繁体中文、简体中文和日文汉字之间进行转换(借助 opencc)
clean_email_mapper 删除邮箱信息
clean_html_mapper 删除 HTML 标签并返回所有节点的纯文本
clean_ip_mapper 删除 IP 地址
clean_links_mapper 删除链接,例如以 http 或 ftp 开头的
clean_copyright_mapper 删除代码文件开头的版权声明 (:warning: 必须包含单词 copyright)
expand_macro_mapper 扩展通常在 TeX 文档顶部定义的宏
fix_unicode_mapper 修复损坏的 Unicode(借助 ftfy)
punctuation_normalization_mapper 将各种 Unicode 标点符号标准化为其 ASCII 等效项
remove_repeat_sentences_mapper 删除样本中的重复句子
remove_specific_chars_mapper 删除样本中的特殊字符(用户自定义)
whitespace_normalization_mapper 将各类空格归一转换为英语空格
alphanumeric_filter 保留字母数字比例在指定范围内的样本
average_line_length_filter 保留平均行长度在指定范围内的样本
character_repetition_filter 保留 char-level n-gram 重复比率在指定范围内的样本
maximum_line_length_filter 保留最大行长度在指定范围内的样本
perplexity_filter 保留困惑度低于指定阈值的样本
special_characters_filter 保留 special-char 比率的在指定范围内的样本
text_length_filter 保留总文本长度在指定范围内的样本
word_repetition_filter 保留 word-level n-gram 重复比率在指定范围内的样本
document_simhash_deduplicator 使用 SimHash 在文档级别对样本去重



  • 代码处理使用的data juicer算子
算子 描述
clean_copyright_mapper 删除代码文件开头的版权声明 (:warning: 必须包含单词 copyright)
clean_email_mapper 删除邮箱信息
clean_links_mapper 删除链接,例如以 http 或 ftp 开头的
fix_unicode_mapper 修复损坏的 Unicode(借助 ftfy)
punctuation_normalization_mapper 将各种 Unicode 标点符号标准化为其 ASCII 等效项
alphanumeric_filter 保留字母数字比例在指定范围内的样本
average_line_length_filter 保留平均行长度在指定范围内的样本
character_repetition_filter 保留 char-level n-gram 重复比率在指定范围内的样本
maximum_line_length_filter 保留最大行长度在指定范围内的样本
text_length_filter 保留总文本长度在指定范围内的样本
word_num_filter 保留字数在指定范围内的样本
word_repetition_filter 保留 word-level n-gram 重复比率在指定范围内的样本
document_simhash_deduplicator 使用 SimHash 在文档级别对样本去重