【nlp】1.5 文本数据增强（回译法）

时间： 2023-11-14 admin 维修知识

【nlp】1.5 文本数据增强（回译法）推荐度：
相关推荐

文本数据增强

回译数据增强法

回译数据增强法

回译数据增强目前是文本数据增强方面效果较好的增强方法，一般基于google翻译接口，将文本数据翻译成另外一种语言(一般选择小语种)，之后再翻译回原语言,，即可认为得到与与原语料同标签的新语料，新语料加入到原数据集中即可认为是对原数据集数据增强。

回译数据增强优势：

操作简便，获得新语料质量高

回译数据增强存在的问题:

在短文本回译过程中，新语料与原语料可能存在很高的重复率，并不能有效增大样本的特征空间

高重复率解决办法:

进行连续的多语言翻译，如: 中文→韩文→日语→英文→中文，根据经验，最多只采用3次连续翻译, 更多的翻译次数将产生效率低下, 语义失真等问题.

回译数据增强实现：

# 思路分析
# 1 实例化翻译对象  google_translator()
# 2 translate(text,  lang_src='zh-cn', lang_tgt='ko') 中文翻译成韩语
# 3 translate(ko_res, lang_src='ko', lang_tgt='zh-cn