【nlp】1.5 文本数据增强(回译法)
【nlp】1.5 文本数据增强(回译法)
文本数据增强
- 回译数据增强法
回译数据增强法
回译数据增强目前是文本数据增强方面效果较好的增强方法, 一般基于google翻译接口,将文本数据翻译成另外一种语言(一般选择小语种),之后再翻译回原语言,,即可认为得到与与原语料同标签的新语料,新语料加入到原数据集中即可认为是对原数据集数据增强。
回译数据增强优势:
- 操作简便, 获得新语料质量高
回译数据增强存在的问题:
- 在短文本回译过程中,新语料与原语料可能存在很高的重复率, 并不能有效增大样本的特征空间
高重复率解决办法:
- 进行连续的多语言翻译,如: 中文→韩文→日语→英文→中文,根据经验,最多只采用3次连续翻译, 更多的翻译次数将产生效率低下, 语义失真等问题.
回译数据增强实现:
# 思路分析
# 1 实例化翻译对象 google_translator()
# 2 translate(text, lang_src='zh-cn', lang_tgt='ko') 中文翻译成韩语
# 3 translate(ko_res, lang_src='ko', lang_tgt='zh-cn
最新文章
- SQL练习01
- uniapp中input框聚焦
- 原生JS实现视频截图
- hivesql连续日期统计最大逾期未逾期案例
- FusionDiff:第一个基于扩散模型实现的多聚焦图像融合的论文
- 海外ASO优化之谷歌商店的评论优化
- 【开题报告】基于uni
- 判断json是否为空
- 【CPTA——8.数组2(课外实践)】
- 【Linux】Linux基础IO(上)
- Apache Airflow (六) :DAG catchup 参数设置
- iText v1.8.1(OCR截图文字识别工具)
- PLC开发环境下载,安装方法
- 【SpringBoot篇】使用Spring Cache高效处理缓存数据
- Maven 插件统一修改聚合工程项目版本号
- android studio新版本gradle Tasks找不到assemble
- 面试被问答3