
合理创建机器学习训练数据
在机器学习中,构建用于训练模型的学习数据至关重要。然而,有时我们面临数据量不足的情况,需要尽可能合理地增加数据。
重采样和过采样
对于数据量不足的情况,有两种常用的处理方式:
重采样:直接复制现有数据,增加数据量。
过采样:除了重采样之外,还创造新的数据,例如:
SMOTE算法数据扩充(data augmentation)
特殊情况下的处理
您提到了具有重复特征的数据(例如 NUM1 中的三个 A)。可以考虑以下处理方式:
如果您要修改特征值:需要确保标签值不会改变,否则可能会损害模型的准确性。如果您处理的是两组不同的数据(NUM1 和 NUM2):删除其中一个重复的特征值并创建新数据是没有必要的,因为重采样也会产生相同的结果。
要特别注意:
切勿对测试数据进行数据生成,因为测试集需要包含真实的数据。对于处理不平衡数据集,可以参考外部资源,例如您提到的博客。
以上就是如何合理创建机器学习训练数据?的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1351228.html
微信扫一扫
支付宝扫一扫