飞桨常规赛：点击反欺诈预测-10月第2名方案

程序猿 • 2025年11月7日 20:35:48 • 科技 • 阅读 1

本文围绕广告欺诈预测这一二分类任务展开，流程涵盖数据分析、特征工程等。对类别特征用Embedding处理，连续特征标准化；模型维持baseline结构，含embedding、concat等层，采用RMSProp优化器与交叉熵损失。还指出可从特征工程、模型结构等方面改进。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

1 赛题背景

广告欺诈是数字营销需要面临的重要挑战之一，点击会欺诈浪费广告主大量金钱，同时对点击数据会产生误导作用。本次比赛提供了约50万次点击数据。特别注意：我们对数据进行了模拟生成，对某些特征含义进行了隐藏，并进行了脱敏处理。

请预测用户的点击行为是否为正常点击，还是作弊行为。点击欺诈预测适用于各种信息流广告投放，banner广告投放，以及百度网盟平台，帮助商家鉴别点击欺诈，锁定精准真实用户。

2 任务分析

根据赛题设置，本任务为二分类任务；根据数据挖掘与机器学习的一般任务流程，将按照下述流程完成该任务：

数据分析特征工程模型构建模型训练模型调优模型推理

其中，模型调优部分同时涉及数据的再处理（比如选用新的特征工程方案）以及模型结构、优化方法、损失函数等方面的优化

3 解决方案

基于比赛提供的baseline实现，按照以下思路进行：

对于结构化数据中的各字段，进行稠密向量嵌入式表示；并将嵌入维度作为超参数进行调优；维持baseline模型的基本结构不变，调整优化器及其学习率等训练超参数；

4 数据分析

在本赛题中，由于数据形式为结构化数据，为了对数据进行更好的表示以便神经网络模型能够充分挖掘数据背后的模式与规律，参照自然语言处理（NLP）中的字词方法，对数据的各字段进行稠密向量的嵌入式表示，即embedding方法。

简单而言，Embedding方法就是用一个低维的向量表示一个物体，可以是一个词，一个商品，或是一部电影等。这个向量能使距离相近的向量对应的物体有相近的含义，比如“复仇者联盟”对应的向量和“钢铁侠”对应的向量之间的距离（欧几里得距离，汉明距离等）就会很小，但 “复仇者联盟”对应的向量和“乱世佳人”对应的向量之间的距离就会大一些。此外，Embedding形式的表示使得其背后所代表的“物体”具有数学运算关系，比如：Embedding（马德里）-Embedding（西班牙）+Embedding(法国)≈Embedding(巴黎)。

Embedding能够用低维向量对物体进行编码还能保留其含义的特点非常适合深度学习。在传统机器学习模型构建过程中，经常使用onehot编码对离散特征、特别是id类特征进行编码，但由于onehot编码的维度等于物体的类别总数，这样的编码方式对于类别型变量来说是极端稀疏的，而深度学习的特点使其不利于对稀疏特征向量的处理。

因此，在本任务中，先对数据集中的类别型变量进行嵌入式表示（连续性变量进行标准化），将处理之后的字段输入到神经网络模型中用以分类。

5 模型分析

本任务中，模型结构维持baseline提供的模型结构基本不变，其主要由embedding层、concat层以及dense层组成，embedding层用于获取每个输入字段值的嵌入式表示向量，concat层用于拼接所有字段的表示向量成为一个总的样本特征向量，dense层用于转换数据大小，其中模型最后一层的输出维度为2（类别数目），激活函数使用softmax函数。

关于模型的优化器与损失函数，优化器使用RMSProp，损失函数使用分类任务常设的交叉熵损失函数。

6 总结改进

根据赛题重点，合理有效地处理数据集的各类特征是完成分类任务的关键之处。本项目只是使用较为初级的多层感知机网络执行分类任务，项目可改进的地方包含但不限于：

进一步细化特征处理办法，深化特征工程有关工作，Embedding处理只是其中一个方法；改进或换用预测模型结构，可以尝试使用现代深度学习框架内更为先进的神经网络模型；更换任务思路，采用传统机器学习项目中的相关思路与模型解决该问题，如适用于结构化数据的TabNet网络。

7 飞桨使用

在使用paddlepaddle进行深度学习时，注重理论课程与实践应用的合理结合；一方面，强调通过资料与视频课程领会框架的基本使用；另一方面，需要结合具体应用（如参加飞桨的各类竞赛）熟练掌握数据预处理、模型构建、模型训练、模型调优与应用等深度学习各阶段操作

8 参考资料

本次竞赛的baseline代码深入浅出Word2Vec原理解析Embedding从入门到专家必读的十篇论文

feature_process

In [ ]

import osimport pandas as pdimport numpy as npfrom paddle.io import Datasetfrom baseline_tools import *DATA_RATIO = 0.9  # 训练集和验证集比例TAGS = {'android_id': None,        'apptype': "emb",        'carrier': "emb",        'dev_height': "emb",        'dev_ppi': "emb",        'dev_width': "emb",        'lan': "emb",        'media_id': "emb",        'ntt': "emb",        'os': "emb",        'osv': None,        'package': "emb",        'sid': None,        'timestamp': "norm",        'version': "emb",        'fea_hash': None,        'location': "emb",        'fea1_hash': None,        'cus_type': None}# 归一化权重设置NORM_WEIGHT = {'timestamp': 6.40986e-12}

In [ ]

TRAIN_PATH = "train.csv"SAVE_PATH = "emb_dicts"df = pd.read_csv(TRAIN_PATH, index_col=0)pack = dict()for tag, tag_method in TAGS.items():    if tag_method != "emb":        continue    data = df.loc[:, tag]    dict_size = make_dict_file(data, SAVE_PATH, dict_name=tag)    pack[tag] = dict_size + 1  # +1是为了增加字典中不存在的情况，提供一个默认值with open(os.path.join(SAVE_PATH, "size.dict"), "w", encoding="utf-8") as f:    f.write(str(pack))print("全部生成完毕")

data_loading

In [ ]

def get_size_dict(dict_path="./emb_dicts/size.dict"):    """    获取Embedding推荐大小    :param dict_path: 由run_make_emb_dict.py生成的size.dict    :return: 推荐大小字典{key: num}    """    with open(dict_path, "r", encoding="utf-8") as f:        try:            size_dict = eval(f.read())        except Exception as e:            print("size_dict打开失败，请检查", dict_path, "文件是否正常，报错信息如下:n", e)        return size_dictclass Reader(Dataset):    def __init__(self,                 is_infer: bool = False,                 is_val: bool = False,                 use_mini_train: bool = False,                 emb_dict_path="./emb_dicts"):        """        数据读取类        :param is_infer: 是否为预测Reader        :param is_val: 是否为验证Reader        :param use_mini_train：使用Mini数据集        :param emb_dict_path: emb字典路径        """        super().__init__()        # 选择文件名        train_name = "mini_train" if use_mini_train else "train"        file_name = "test" if is_infer else train_name        # 根据文件名读取对应csv文件        df = pd.read_csv(file_name + ".csv")        # 划分数据集        if is_infer:            self.df = df.reset_index()        else:            start_index = 0 if not is_val else int(len(df) * DATA_RATIO)            end_index = int(len(df) * DATA_RATIO) if not is_val else len(df)            self.df = df.loc[start_index:end_index].reset_index()        # 数据预处理        self.cols = [tag for tag, tag_method in TAGS.items() if tag_method is not None]        self.methods = dict()        for col in self.cols:            # ===== 预处理方法注册 =====            if TAGS[col] == "emb":                self.methods[col] = Data2IdEmb(dict_path=emb_dict_path, dict_name=col).get_method()            elif TAGS[col] == "norm":                self.methods[col] = Data2IdNorm(norm_weight=NORM_WEIGHT[col]).get_method()            else:                raise Exception(str(TAGS) + "是未知的预处理方案，请选手在此位置使用elif注册")        # 设置FLAG负责控制__getitem__的pack是否包含label        self.add_label = not is_infer        # 设置FLAG负责控制数据集划分情况        self.is_val = is_val    def __getitem__(self, index):        """        获取sample        :param index: sample_id        :return: sample        """        # 因为本次数据集的字段非常多，这里就使用一个列表来"收纳"这些数据        pack = []        # 遍历指定数量的字段        for col in self.cols:            sample = self.df.loc[index, col]            sample = self.methods[col](sample)            pack.append(sample)        # 如果不是预测，则添加标签数据        if self.add_label:            tag_data = self.df.loc[index, "label"]            tag_data = np.array(tag_data).astype("int64")            pack.append(tag_data)            return pack        else:            return pack    def __len__(self):        return len(self.df)# 获取训练集和测试集数据读取器USE_MINI_DATA = Falsetrain_reader = Reader(use_mini_train=USE_MINI_DATA)val_reader = Reader(use_mini_train=USE_MINI_DATA, is_val=True)

model_define

In [ ]

import osimport numpy as npimport pandas as pdimport paddleimport paddle.nn as nnimport paddle.tensor as tensorfrom paddle.static import InputSpecfrom paddle.metric import Accuracy# 模型保存与加载文件夹SAVE_DIR = "./output/"# 部分训练超参数EMB_SIZE = 256  # Embedding特征大小EMB_LINEAR_SIZE = 32  # Embedding后接Linear层神经元数量LINEAR_LAYERS_NUM = 2  # 归一化方案的Linear层数量# 组网class SampleNet(paddle.nn.Layer):    def __init__(self, tag_dict: dict, size_dict: dict):        super().__init__()        # 新建一个隐藏层列表，用于存储各字段隐藏层对象        self.hidden_layers_list = []        # 定义一个用于记录输出层的输入大小变量，经过一个emb的网络结构就增加该结构的output_dim，以此类推        out_layer_input_size = 0        # 遍历每个字段以及其处理方式        for tag, tag_method in tag_dict.items():            # Embedding方法注册            if tag_method == "emb":                hidden_layer = nn.LayerList([nn.Embedding(num_embeddings=size_dict[tag],                                                          embedding_dim=EMB_SIZE),                                             nn.Linear(in_features=EMB_SIZE, out_features=EMB_LINEAR_SIZE)])                out_layer_input_size += EMB_LINEAR_SIZE            # 归一化方法注册            elif tag_method == "norm":                hidden_layer = nn.LayerList(                    [nn.Linear(in_features=1, out_features=1) for _ in range(LINEAR_LAYERS_NUM)])                out_layer_input_size += 1            # 如果对应方法为None，那么跳过该字段            elif tag_method is None:                continue            # 若出现没有注册的方法，提示报错            else:                raise Exception(str(tag_method) + "为未知的处理方案，请在SampleNet类中用elif注册处理流程")            self.hidden_layers_list.append(hidden_layer)                self.out_layers = nn.Linear(in_features=out_layer_input_size,out_features=2)    # 前向推理部分 `*input_data`的`*`表示传入任一数量的变量    def forward(self, *input_data):        layer_list = []  # 用于存储各字段特征结果        for sample_data, hidden_layers in zip(input_data, self.hidden_layers_list):            tmp = sample_data            for hidden_layer in hidden_layers:                tmp = hidden_layer(tmp)            layer_list.append(tensor.flatten(tmp, start_axis=1))  # flatten是因为原始shape为[batch size, 1 , *n], 需要变换为[bs, n]        # 对所有字段的特征合并        layers = tensor.concat(layer_list, axis=1)        # 把特征放入用于输出层的网络        result = self.out_layers(layers)        result = paddle.nn.functional.softmax(result)                # 返回分类结果        return result

In [ ]

# 定义网络输入inputs = []for tag_name, tag_m in TAGS.items():    d_type = "float32"    if tag_m == "emb":        d_type = "int64"    if tag_m is None:        continue    inputs.append(InputSpec(shape=[-1, 1], dtype=d_type, name=tag_name))# 定义Labellabels = [InputSpec([-1, 1], 'int64', name='label')]# 实例化SampleNetmodel = paddle.Model(SampleNet(TAGS, get_size_dict()), inputs=inputs, labels=labels)

model_config

In [ ]

from paddle.optimizer import RMSProp# 定义优化器optimizer = RMSProp(learning_rate=0.01, parameters=model.parameters())# 模型训练配置model.prepare(optimizer, paddle.nn.loss.CrossEntropyLoss(), Accuracy())

model_training

In [7]

# 开始训练model.fit(train_data=train_reader,  # 训练集数据            eval_data=val_reader,  # 验证集数据            batch_size=128,  # Batch size大小            epochs=10,  # 训练轮数            log_freq=1000,  # 日志打印间隔            save_dir=SAVE_DIR)  # checkpoint保存路径

model_reasoning

In [ ]

# 推理部分CHECK_POINT_ID = "final"  TEST_BATCH_SIZE = 128  # 实例化SampleNetmodel = paddle.Model(SampleNet(TAGS, get_size_dict()), inputs=inputs)# 获取推理Reader并读取参数进行推理infer_reader = Reader(is_infer=True)model.load(os.path.join(SAVE_DIR, CHECK_POINT_ID))

In [ ]

# 开始推理model.prepare()infer_output = model.predict(infer_reader, TEST_BATCH_SIZE)# 获取原始表中的字段并添加推理结果result_df = infer_reader.df.loc[:, "sid"]pack = []for batch_out in infer_output[0]:    for sample in batch_out:        pack.append(np.argmax(sample))# 保存csv文件RESULT_FILE = "./result1.csv"  result_df = pd.DataFrame({"sid": np.array(result_df, dtype="int64"), "label": pack})result_df.to_csv(RESULT_FILE, index=False)print("结果文件保存至：", RESULT_FILE)

In [ ]

以上就是飞桨常规赛：点击反欺诈预测-10月第2名方案的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/46863.html

ai csv文件 fig latte red type 百度

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

2024年ICASSP｜字节跳动流媒体音频团队创新解方案：解决丢包补偿和通用音质修复问题

上一篇 2025年11月7日 20:34:01

WPS 365迎接AI，引领数字办公未来

下一篇 2025年11月7日 20:37:47

好文分享

Uniapp 中如何不拉伸不裁剪地展示图片？

灵活展示图片：如何不拉伸不裁剪在界面设计中，常常需要以原尺寸展示用户上传的图片。本文将介绍一种在 uniapp 框架中实现该功能的简单方法。对于不同尺寸的图片，可以采用以下处理方式：极端宽高比：撑满屏幕宽度或高度，再等比缩放居中。非极端宽高比：居中显示，若能撑满则撑满。然而，如果需要不拉伸不…

程序猿
2025年12月24日
4000
好文分享

如何让小说网站控制台显示乱码，同时网页内容正常显示？

如何在不影响用户界面的情况下实现控制台乱码？当在小说网站上下载小说时，大家可能会遇到一个问题：网站上的文本在网页内正常显示，但是在控制台中却是乱码。如何实现此类操作，从而在不影响用户界面（UI）的情况下保持控制台乱码呢？答案在于使用自定义字体。网站可以通过在服务器端配置自定义字体，并通过在客户端…

程序猿
2025年12月24日
8000
好文分享

如何在地图上轻松创建气泡信息框？

地图上气泡信息框的巧妙生成地图上气泡信息框是一种常用的交互功能，它简便易用，能够为用户提供额外信息。本文将探讨如何借助地图库的功能轻松创建这一功能。利用地图库的原生功能大多数地图库，如高德地图，都提供了现成的信息窗体和右键菜单功能。这些功能可以通过以下途径实现：高德地图 JS API 参考文…

程序猿
2025年12月24日
4000
好文分享

如何使用 scroll-behavior 属性实现元素scrollLeft变化时的平滑动画？

如何实现元素scrollleft变化时的平滑动画效果？在许多网页应用中，滚动容器的水平滚动条（scrollleft）需要频繁使用。为了让滚动动作更加自然，你希望给scrollleft的变化添加动画效果。解决方案：scroll-behavior 属性要实现scrollleft变化时的平滑动画效果…

程序猿
2025年12月24日
0000
好文分享

如何为滚动元素添加平滑过渡，使滚动条滑动时更自然流畅？

给滚动元素平滑过渡如何在滚动条属性（scrollleft）发生改变时为元素添加平滑的过渡效果？解决方案：scroll-behavior 属性为滚动容器设置 scroll-behavior 属性可以实现平滑滚动。 html 代码： click the button to slide right!…

程序猿
2025年12月24日
5000
好文分享

如何选择元素个数不固定的指定类名子元素？

灵活选择元素个数不固定的指定类名子元素在网页布局中，有时需要选择特定类名的子元素，但这些元素的数量并不固定。例如，下面这段 html 代码中，activebar 和 item 元素的数量均不固定： *n *n 如果需要选择第一个 item元素，可以使用 css 选择器 :nth-child()。该…

程序猿
2025年12月24日
2000
好文分享

使用 SVG 如何实现自定义宽度、间距和半径的虚线边框？

使用 svg 实现自定义虚线边框如何实现一个具有自定义宽度、间距和半径的虚线边框是一个常见的前端开发问题。传统的解决方案通常涉及使用 border-image 引入切片图片，但是这种方法存在引入外部资源、性能低下的缺点。为了避免上述问题，可以使用 svg（可缩放矢量图形）来创建纯代码实现。一种方…

程序猿
2025年12月24日
1000
好文分享

如何让“元素跟随文本高度，而不是撑高父容器？

如何让元素跟随文本高度，而不是撑高父容器在页面布局中，经常遇到父容器高度被子元素撑开的问题。在图例所示的案例中，父容器被较高的图片撑开，而文本的高度没有被考虑。本问答将提供纯css解决方案，让图片跟随文本高度，确保父容器的高度不会被图片影响。解决方法为了解决这个问题，需要将图片从文档流中脱离…

程序猿
2025年12月24日
0000
好文分享

为什么 CSS mask 属性未请求指定图片？

解决 css mask 属性未请求图片的问题在使用 css mask 属性时，指定了图片地址，但网络面板显示未请求获取该图片，这可能是由于浏览器兼容性问题造成的。问题如下代码所示：立即学习“前端免费学习笔记（深入）”； icon [data-icon=”cloud”] { –icon-cl…

程序猿
2025年12月24日
2000
好文分享

如何利用 CSS 选中激活标签并影响相邻元素的样式？

如何利用 css 选中激活标签并影响相邻元素？为了实现激活标签影响相邻元素的样式需求，可以通过 :has 选择器来实现。以下是如何具体操作：对于激活标签相邻后的元素，可以在 css 中使用以下代码进行设置： li:has(+li.active) { border-radius: 0 0 10px…

程序猿
2025年12月24日
1000
好文分享

如何模拟Windows 10 设置界面中的鼠标悬浮放大效果？

win10设置界面的鼠标移动显示周边的样式（探照灯效果）的实现方式在windows设置界面的鼠标悬浮效果中，光标周围会显示一个放大区域。在前端开发中，可以通过多种方式实现类似的效果。使用css 使用css的transform和box-shadow属性。通过将transform: scale(1.…

程序猿
2025年12月24日
2000
好文分享

为什么我的 Safari 自定义样式表在百度页面上失效了？

为什么在 Safari 中自定义样式表未能正常工作？在 Safari 的偏好设置中设置自定义样式表后，您对其进行测试却发现效果不同。在您自己的网页中，样式有效，而在百度页面中却失效。造成这种情况的原因是，第一个访问的项目使用了文件协议，可以访问本地目录中的图片文件。而第二个访问的百度使用了 ht…

程序猿
2025年12月24日
0000
好文分享

如何用前端实现 Windows 10 设置界面的鼠标移动探照灯效果？

如何在前端实现 Windows 10 设置界面中的鼠标移动探照灯效果想要在前端开发中实现 Windows 10 设置界面中类似的鼠标移动探照灯效果，可以通过以下途径： CSS 解决方案 DEMO 1: Windows 10 网格悬停效果：https://codepen.io/tr4553r7/pe…

程序猿
2025年12月24日
0000
好文分享

使用CSS mask属性指定图片URL时，为什么浏览器无法加载图片？

css mask属性未能加载图片的解决方法使用css mask属性指定图片url时，如示例中所示： mask: url(“https://api.iconify.design/mdi:apple-icloud.svg”) center / contain no-repeat; 但是，在网络面板中却…

程序猿
2025年12月24日
0000
好文分享

如何用CSS Paint API为网页元素添加时尚的斑马线边框？

为元素添加时尚的斑马线边框在网页设计中，有时我们需要添加时尚的边框来提升元素的视觉效果。其中，斑马线边框是一种既醒目又别致的设计元素。实现斜向斑马线边框要实现斜向斑马线间隔圆环，我们可以使用css paint api。该api提供了强大的功能，可以让我们在元素上绘制复杂的图形。立即学习“前端…

程序猿
2025年12月24日
0000
好文分享

为什么自定义样式表在 Safari 中访问百度时无效？

自定义样式表在 Safari 中无效的问题你在 Safari 偏好设置中自定义的样式表无法在某些网站（例如百度）上生效，这是为什么呢？原因在于，你创建的样式表应用于本地文件路径，而百度是一个远程网站，位于互联网上。在访问本地项目时，文件协议（file://）会允许你访问本地计算机上的文件。所以…

程序猿
2025年12月24日
3000
好文分享

图片如何不撑高父容器？

如何让图片不撑高父容器？当父容器包含不同高度的子元素时，父容器的高度通常会被最高元素撑开。如果你希望父容器的高度由文本内容撑开，避免图片对其产生影响，可以通过以下 css 解决方法：绝对定位元素： .child-image { position: absolute; top: 0; left: …

程序猿
2025年12月24日
0000
好文分享

为什么自定义样式表在 Safari 中访问百度页面时无法生效？

自定义样式表在 safari 中失效的原因用户尝试在 safari 偏好设置中添加自定义样式表，代码如下： body { background-image: url(“/users/luxury/desktop/wallhaven-o5762l.png”) !important;} 测试后发现，在…

程序猿
2025年12月24日
0000
好文分享

为什么在Safari中，自定义样式表只对自定义网页生效，而无法应用于外部网站？

Safari中自定义样式表工作异常的根本原因在Safari浏览器偏好设置中设置了自定义样式表，但发现仅在自定义网页中生效，而无法应用于外部网站页面。初学者往往困惑不解，探究问题的根本原因后，发现涉及协议限制与本地文件引用的问题。协议差异带来的影响自己写的网页：使用file协议访问，可以应用本地…

程序猿
2025年12月24日
0000
CSS 帮助

我正在尝试将文本附加到棕色框的左侧。我不能。我不知道代码有什么问题。请帮助我。 css .hero { position: relative; bottom: 80px; display: flex; justify-content: left; align-items: start; color:…

程序猿
2025年12月24日 • 好文分享
2000