使用 FastAPI 和机器学习构建实时信用卡欺诈检测系统

使用 fastapi 和机器学习构建实时信用卡欺诈检测系统

介绍

信用卡欺诈对金融业构成重大威胁,每年造成数十亿美元的损失。为了解决这个问题,人们开发了机器学习模型来实时检测和防止欺诈交易。在本文中,我们将逐步介绍使用 fastapi(python 的现代 web 框架)以及在 kaggle 流行的信用卡欺诈检测数据集上训练的随机森林分类器构建实时信用卡欺诈检测系统的过程。

项目概况

该项目的目标是创建一个 web 服务来预测信用卡交易欺诈的可能性。该服务接受交易数据,对其进行预处理,然后返回预测以及欺诈概率。该系统设计快速、可扩展且易于集成到现有的金融系统中。

关键部件

机器学习模型:经过训练以区分欺诈交易和合法交易的随机森林分类器。数据预处理:交易特征标准化,确保模型达到最佳性能。api:使用 fastapi 构建的 restful api,用于实时处理预测请求。

第 1 步:准备数据集

本项目使用的数据集是来自 kaggle 的信用卡欺诈检测数据集,其中包含 284,807 笔交易,其中只有 492 笔是欺诈交易。这种类别不平衡带来了挑战,但可以通过对少数类别进行过采样来解决。

数据预处理

首先使用 scikit-learn 的 standardscaler 对这些功能进行标准化。然后将数据集分为训练集和测试集。鉴于不平衡,在训练模型之前应用 randomoversampler 技术来平衡类别。

from sklearn.preprocessing import standardscalerfrom imblearn.over_sampling import randomoversampler# standardize featuresscaler = standardscaler()x_scaled = scaler.fit_transform(x)# balance the datasetros = randomoversampler(random_state=42)x_resampled, y_resampled = ros.fit_resample(x_scaled, y)

第 2 步:训练机器学习模型

我们训练了一个随机森林分类器,它非常适合处理不平衡的数据集并提供可靠的预测。该模型在过采样数据上进行训练,并使用准确度、精确度、召回率和 auc-roc 曲线来评估其性能。

from sklearn.ensemble import randomforestclassifierfrom sklearn.metrics import classification_report, roc_auc_score# train the modelmodel = randomforestclassifier(n_estimators=100, random_state=42)model.fit(x_resampled, y_resampled)# evaluate the modely_pred = model.predict(x_test_scaled)print(classification_report(y_test, y_pred))print("auc-roc:", roc_auc_score(y_test, model.predict_proba(x_test_scaled)[:, 1]))

第 3 步:构建 fastapi 应用程序

使用 joblib 保存训练好的模型和缩放器后,我们继续构建 fastapi 应用程序。选择 fastapi 是因为它的速度和易用性,使其成为实时应用程序的理想选择。

创建 api

fastapi 应用程序定义了一个 post 端点 /predict/,它接受交易数据、处理数据并返回模型的预测和概率。

from fastapi import fastapi, httpexceptionfrom pydantic import basemodelimport joblibimport pandas as pd# load the trained model and scalermodel = joblib.load("random_forest_model.pkl")scaler = joblib.load("scaler.pkl")app = fastapi()class transaction(basemodel):    v1: float    v2: float    # include all other features used in your model    amount: float@app.post("/predict/")def predict(transaction: transaction):    try:        data = pd.dataframe([transaction.dict()])        scaled_data = scaler.transform(data)        prediction = model.predict(scaled_data)        prediction_proba = model.predict_proba(scaled_data)        return {"fraud_prediction": int(prediction[0]), "probability": float(prediction_proba[0][1])}    except exception as e:        raise httpexception(status_code=400, detail=str(e))

第 4 步:部署应用程序

要在本地测试应用程序,您可以使用 uvicorn 运行 fastapi 服务器并向 /predict/ 端点发送 post 请求。该服务将处理传入的请求,扩展数据,并返回交易是否存在欺诈。

本地运行 api

uvicorn main:app --reload

然后您可以使用curl或postman等工具测试api:

curl -X POST http://127.0.0.1:8000/predict/ -H "Content-Type: application/json" -d '{"V1": -1.359807134, "V2": -0.072781173, ..., "Amount": 149.62}'

api 将返回一个 json 对象,其中包含欺诈预测和相关概率。

结论

在本文中,我们构建了一个实时信用卡欺诈检测系统,该系统将机器学习与现代 web 框架相结合。 github 链接在这里。该系统旨在处理实时交易数据并提供即时预测,使其成为金融机构打击欺诈的宝贵工具。

通过使用 fastapi 部署此模型,我们确保服务不仅快速而且可扩展,能够同时处理多个请求。该项目可以通过更复杂的模型、改进的特征工程或与生产环境的集成来进一步扩展。

下一步

要进一步增强系统,请考虑以下事项:

模型改进:尝试更高级的模型,如 xgboost 或神经网络。特征工程:探索可能提高模型准确性的其他功能。真实世界部署:将应用程序部署在 aws 或 gcp 等云平台上以供生产使用。

以上就是使用 FastAPI 和机器学习构建实时信用卡欺诈检测系统的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1348912.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月13日 12:25:58
下一篇 2025年12月13日 12:26:16

相关推荐

  • 精通编码之路初学者指南

    您已经掌握了编码的基础知识。循环、函数,甚至简单的网站都在你的掌握之中。 但是从休闲程序员转变为专业程序员需要什么? 好吧,我在这里帮助正在寻找相同东西的初学者。 让我们潜入吧。 专业心态:不仅仅是代码 解决问题 编码既是关于编写代码,也是关于解决问题。将复杂的问题分解为更小的、可管理的步骤至关重要…

    好文分享 2025年12月13日
    000
  • Jupyter Notebooks 作为端到端分析解决方案

    介绍 你醒了。您查看待办事项列表,发现团队成员有一项任务。他们希望您进行某种分析并生成报告。请求本身相对复杂,这意味着您可能需要使用问题陈述对其进行分解,从数据源中提取数据,进行探索,收集您的见解,然后向团队成员讲述您的发现故事。 解决这个问题的方法如下: 在任务跟踪平台(例如 Trello、Jir…

    2025年12月13日
    000
  • python程序语言运算符

    python 将运算符分为以下几组运营商类型算术运算符赋值运算符比较运算符 逻辑运算符按位运算符会员经营者 节目 算术运算符 算术运算符是数值是数学运算符1.添加2.减法3.乘法4.划分5.模块6.楼层划分 添加 a=3b=2打印(a + b)欧/普5 减法 a=6b=5打印(a-b)欧/普1 乘法…

    2025年12月13日
    000
  • 在 AWS 中转换文件更快、更便宜:Polar 或 Pandas?

    两者都提供了广泛的工具和优势,这可能会让我们在某些时候怀疑选择两者中的哪一个。这并不是要改变公司的所有流程,以便他们开始使用 polars 或 pandas“死亡”(这不会在不久的将来发生)。这是关于了解其他可以帮助我们降低流程成本和时间、获得相同或更好结果的工具。 当我们使用云服务时,我们会优先考…

    2025年12月13日
    000
  • 从 Javascript 过渡到 Python:初学者之旅

    我的全栈开发之路 作为成为全栈开发人员的旅程的一部分,我从 javascript 和 react 开始。在成功完成这些技术的项目后,我开始学习 python、sql 并创建自己的 cli 菜单。这个变化既令人兴奋又充满挑战,因为 python 的简单性最初让我怀疑它是否真的那么容易。 拥抱 pyth…

    2025年12月13日
    000
  • DevOps 中脚本语言的力量:日复一日的 DevOps 工具系列

    欢迎来到“50 天 50 个 DevOps 工具”系列的第 26 天!今天,我们将把重点从特定工具转移到 DevOps 和 IT 自动化的基本方面——脚本语言。脚本编写是 DevOps 中自动化、编排和配置管理的支柱。了解如何有效地使用脚本语言可以显着提高 DevOps 工程师的效率和生产力。 什么…

    2025年12月13日
    000
  • 利用 AI 促进内容创作:引入 AI 博客文章生成器

    在当今快节奏的数字世界中,内容为王。无论您是博主、营销人员还是企业主,创建高质量、引人入胜的内容对于增加流量和扩大在线影响力至关重要。但让我们面对现实吧,写作可能既耗时又具有挑战性,尤其是当您同时处理多项任务时。这就是人工智能博客文章生成器的用武之地! ? 什么是人工智能博客文章生成器? AI 博客…

    2025年12月13日 好文分享
    000
  • 关于棋盘的一个

    每周挑战 281 很抱歉在过去的几周里我没能做到。我搬了家,换了新工作,所以这段时间没有机会参与挑战。 穆罕默德·s·安瓦尔 (mohammad s. anwar) 每周都会发出“每周挑战”,让我们所有人都有机会为两周的任务提出解决方案。我的解决方案首先用python编写,然后转换为perl。这对我…

    2025年12月13日
    000
  • 人口统计数据集分析

    你好, 由于我最近沉浸在 Python 数据分析中,今天我成功地使用了我的第一个 Jupyter 笔记本。它的灵感来自于 freeCodeCamp 的练习。 ? 它看起来像什么? 笔记本本身怎么样? 基于简单的方法,该笔记本具有练习目的,专为想要掌握 Python 数据分析的初学者而设计。 我邀请大…

    2025年12月13日
    000
  • 如何为初学者使用 Python 创建“猜数字”游戏

    什么是“猜数字”游戏? 在这个游戏中,计算机随机选择一个数字,你必须猜测它是什么。每次猜测后,计算机都会告诉您您的猜测是否太高、太低或恰到好处。当您猜对数字时游戏结束,并且它还会告诉您尝试了多少次。 让我们开始吧! 第1步:导入随机模块首先,我们需要导入随机模块。该模块帮助我们生成一个随机数,您将尝…

    2025年12月13日
    000
  • 使用 pytest-mask-secrets 保护测试机密

    保持敏感数据的安全和私密是软件开发的首要任务。应用程序日志是常见的泄漏媒介之一,受到仔细保护,以防止出现秘密。同样的担忧和风险也适用于测试日志,它可能会泄露密码或访问令牌。运行 ci 工作流程的工具通常提供一种机制,可以轻松屏蔽日志中的敏感数据。虽然这非常方便、高效且易于使用,但在某些情况下,这可能…

    2025年12月13日
    000
  • BiRefNet 最先进的最新最好的背景批量删除应用程序

    birefnet 最先进的最新最好的背景批量删除应用程序。 birefnet 是最新发布的最先进的背景去除开源模型。它比我们所知道的最好的 bria mbg v1.4 好得多。 官方仓库:https://github.com/ZhengPeng7/BiRefNet 从以下网址下载APP和安装程序:h…

    2025年12月13日
    000
  • MyPy简介

    介绍 mypyc++0b24f9d990aea8bfc2101d73a0>1 是 python 的静态类型检查器。与 c++ 或 java 等静态类型语言不同,python 是动态类型的。这意味着在 python 中,您不必显式声明变量的类型;它是在运行时推断的。例如: python(动态类型…

    2025年12月13日
    000
  • 不可变数据类型的真正含义是什么?

    为什么数据类型要么是可变的,要么是不可变的?让我们以 python 为例, Python中的数据类型基本上都是对象或类,int是类,浮点数,列表等 因此,写入 x=6 会创建一个值为 6 的新整数对象,并将一个名为 x 的引用指向该对象。 现在我们需要研究类,类基本上将数据和函数组合在一起,这些函数…

    2025年12月13日
    000
  • 什么是Python?

    Python 是一种流行的编程语言。它由 Guido van Rossum 创建,并于 1991 年发布。 Guido van Rossum(荷兰语:Guido van Rossum)是一位荷兰计算机程序员,最著名的是 Python 编程语言的作者。 Python 是一种功能强大、用途广泛且简单的编…

    2025年12月13日
    000
  • AutoDocument – 开源邮件合并替代方案

    AutoDocument – 开源邮件合并替代方案 您好,这篇文章将介绍 AutoDocument,这是一个免费的开源文档生成 Web 应用程序,可将电子表格、数据库和用户表单连接到 Microsoft Word 和 PDF 等文档中。它基于出色的开源库,例如 python-docx-t…

    2025年12月13日
    000
  • timeitrepeat – 通过重复来理解模式

    1.问题 在您的软件工程职业生涯中,您可能会遇到一段性能不佳的代码,花费的时间超出了可接受的范围。更糟糕的是,多次执行时性能不一致且变化很大。 此时,您必须接受这样的事实:在软件性能方面,存在很多不确定性。数据可以分布在一个窗口内,有时遵循正态分布。其他时候,它可能会不稳定,没有明显的模式。 2. …

    2025年12月13日
    000
  • 为什么 Python 开发人员失业?服务技巧

    科技世界是动态的,工作保障不再是理所当然的,即使对于像 Python 开发这样的急需技能来说也是如此。虽然 Python 仍然是一种流行的语言,但最近的经济衰退和行业转变引发了人们对 Python 开发人员工作稳定性的担忧。让我们找出这些挑战背后的原因,并探索让您的职业生涯面向未来的策略。 Pyth…

    2025年12月13日
    000
  • Pygame开发游戏实用指南—Pygame简介

    在本文中,我们将学习如何下载和安装游戏开发库 pygame,并且我们将运行一个简单的示例项目来熟悉 pygame。 项目代码下载链接:https://github.com/la-vie-est-belle/pygame_codes 安装 pygame 在 windows 上安装 pygame打开命令…

    2025年12月13日 好文分享
    000
  • 使用 Scrapy 和 Playwright 无限滚动抓取页面

    使用 scrapy 抓取网站时,您很快就会遇到各种需要发挥创意或与要抓取的页面进行交互的场景。其中一种场景是当您需要抓取无限滚动页面时。当您向下滚动页面时,这种类型的网站页面会加载更多内容,就像社交媒体源一样。 抓取这些类型的页面的方法肯定不止一种。我最近解决这个问题的一种方法是继续滚动,直到页面长…

    2025年12月13日
    000

发表回复

登录后才能评论
关注微信