
本文旨在解决keras二分类模型在平衡数据集上始终预测单一类别的问题。文章深入分析了数据中可能缺乏底层相关性、特征复杂性以及模型选择不当等潜在原因。我们提供了一套全面的解决策略,包括强化探索性数据分析(eda)、优先尝试传统统计模型以验证特征有效性、精细化特征工程,以及在数据理解基础上优化深度学习模型的实用建议,旨在帮助开发者构建更鲁棒、准确的分类器。
当Keras构建的二分类模型在训练后始终预测单一类别时,这是一个常见的、令人困扰的问题,即使数据集本身是平衡的。这种现象表明模型未能从数据中学习到有效的区分模式,而是采取了最保守的策略——总是输出训练集中损失最小的那个类别。
问题复现与初步分析
开发者遇到的问题是,一个用于预测“销售额”(sales)的Keras神经网络模型,在经过训练后,其混淆矩阵显示所有预测都集中在“Negative”(或类别0)上,即True Positives (TP) 和 False Positives (FP) 均为零。这意味着模型完全无法识别正类别。
开发者采取了以下典型步骤:
数据准备:
将sales列二值化(False或True),并使用LabelEncoder对类别和布尔类型特征进行编码。将accessed_date时间戳转换为浮点数。分离特征(X)和目标(Y),并对X进行Normalizer标准化处理。
import numpy as npimport pandas as pdfrom sklearn.preprocessing import LabelEncoder, Normalizerfrom sklearn.model_selection import train_test_splitimport tensorflow as tffrom tensorflow.keras.models import Sequentialfrom tensorflow.keras.layers import Dense, Dropoutfrom tensorflow.keras.initializers import he_normal
假设 purchase_data 已加载
data = purchase_data.copy()labelencoder = LabelEncoder()target_sum = 120data.loc[data[‘sales’] target_sum, ‘sales’] = True
编码类别和布尔特征
for col in data.columns.values.tolist():if data[col].dtype == “object” or data[col].dtype == “bool”:data[col] = labelencoder.fit_transform(data[col])
转换日期时间
data[‘accessed_date’] = data[‘accessed_date’].apply(lambda x: x.timestamp())
分离特征和目标
array = data.valuesclass_column = ‘sales’X = np.delete(array, data.columns.get_loc(class_column), axis=1)Y = array[:,data.columns.get_loc(class_column)]Y = Y[:, np.newaxis] # 调整Y的形状以适应Keras
标准化输入特征
scaler = Normalizer().fit(X)X = scaler.transform(X)
数据集划分:
使用train_test_split将数据划分为训练集和测试集,并设置stratify=Y以确保训练集和测试集中的类别分布与原始数据保持一致。
seed = 1X_train, X_test, Y_train, Y_
以上就是Keras二分类模型预测单一类别问题分析与解决策略的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1381727.html
微信扫一扫
支付宝扫一扫