计算Pandas数据框间Cohen’s Kappa一致性系数教程

计算Pandas数据框间Cohen's Kappa一致性系数教程

本教程详细介绍了如何在python中计算两个pandas数据框中列表数据的cohen’s kappa一致性系数。我们将探讨多种方法,包括使用列表推导式、`itertuples()`以及`merge(how=’cross’)`结合`np.vectorize`,最终目标是构建一个包含所有受试者(跨数据框)的完整 pairwise kappa 矩阵,并为后续的数据分析和可视化(如热图)奠定基础。

引言:Cohen’s Kappa 与一致性评估

Cohen’s Kappa 系数是一种统计量,用于衡量两个评估者之间对分类数据的协议(一致性)程度,它会纠正随机偶然性造成的一致性。在数据分析中,当我们需要比较不同来源(例如两个数据框)中同类型观测值(例如列表中的分类评分)之间的一致性时,Cohen’s Kappa 是一个非常有用的工具。本教程将指导您如何在Pandas数据框中,针对每个受试者列表计算与其他受试者列表的Cohen’s Kappa分数,并最终将这些分数组织成一个易于分析的矩阵。

数据准备

首先,我们创建两个示例Pandas数据框,每个数据框包含受试者ID、分组信息以及一个代表分类评分的列表。

import pandas as pdimport numpy as npfrom sklearn.metrics import cohen_kappa_score# 示例数据框1data1 = {'subject': ['A', 'B', 'C', 'D'],         'group': ['red', 'red', 'blue', 'blue'],         'lists': [[0, 1, 1], [0, 0, 0], [1, 1, 1], [0, 1, 0]]}df1 = pd.DataFrame(data1)# 示例数据框2data2 = {'subject': ['a', 'b', 'c', 'd'],         'group': ['red', 'red', 'blue', 'blue'],         'lists': [[0, 1, 0], [1, 1, 0], [1, 0, 1], [1, 1, 0]]}df2 = pd.DataFrame(data2)print("DataFrame 1:")print(df1)print("nDataFrame 2:")print(df2)

计算数据框间的 Pairwise Kappa 分数

我们的目标是计算 df1 中每个受试者列表与 df2 中每个受试者列表之间的 Cohen’s Kappa 分数。sklearn.metrics.cohen_kappa_score 函数接受两个一维数组或列表作为输入。

方法一:使用列表推导式(简洁直接)

这是最直接的方法,通过嵌套的列表推导式遍历 df1 和 df2 中的所有 lists,并计算它们之间的 Kappa 值。

# 计算 df1 中所有列表与 df2 中所有列表的 pairwise kappakappa_scores_flat = [cohen_kappa_score(i, j) for i in df1['lists'] for j in df2['lists']]print("nPairwise Kappa Scores (df1 vs df2, flat list):")print(kappa_scores_flat)

这种方法返回一个扁平的列表,其中包含了所有组合的 Kappa 分数。虽然简单,但它没有明确的结构来指示哪个分数对应哪个受试者对。

方法二:使用 itertuples() 构建结构化 DataFrame

为了更好地组织结果,我们可以使用 itertuples() 迭代数据框的行,并直接构建一个 Pandas DataFrame,其中行索引和列名对应于受试者ID。

# 使用 itertuples() 构建 df1 (行) vs df2 (列) 的 Kappa 矩阵kappa_matrix_df1_vs_df2 = pd.DataFrame(    {df2_row.subject: {df1_row.subject: cohen_kappa_score(df1_row.lists, df2_row.lists)                       for df1_row in df1.itertuples()}     for df2_row in df2.itertuples()}).T # 转置以使 df1 subjects 为行,df2 subjects 为列print("nPairwise Kappa Matrix (df1 subjects as rows, df2 subjects as columns):")print(kappa_matrix_df1_vs_df2)

这个方法生成了一个清晰的矩阵,其中 df1 的受试者作为行索引,df2 的受试者作为列名,每个单元格都是对应的 Kappa 分数。

方法三:利用 merge(how=’cross’) 和 np.vectorize(高效且简洁)

对于大型数据框,merge(how=’cross’) 可以生成所有可能的行组合,然后结合 np.vectorize 可以高效地对这些组合应用 cohen_kappa_score 函数。

# 创建 df1 和 df2 的笛卡尔积cross_merged_df = df1.merge(df2, how='cross', suffixes=('_df1', '_df2'))# 提取 'lists' 列,并使用 np.vectorize 计算 kappa# 注意:cohen_kappa_score 期望一维数组,所以需要先转换为 numpy 数组再转置kappa_scores_vectorized = np.vectorize(cohen_kappa_score)(    *cross_merged_df[['lists_df1', 'lists_df2']].to_numpy().T)# 将结果添加到交叉合并的 DataFrame 中cross_merged_df['kappa_score'] = kappa_scores_vectorizedprint("nCross-merged DataFrame with Kappa Scores:")print(cross_merged_df[['subject_df1', 'subject_df2', 'kappa_score']])

这种方法在生成中间的交叉合并数据框时可能会消耗较多内存,但对于计算本身来说效率较高。您可以通过进一步处理 cross_merged_df 来构建所需的矩阵。

怪兽AI数字人 怪兽AI数字人

数字人短视频创作,数字人直播,实时驱动数字人

怪兽AI数字人 44 查看详情 怪兽AI数字人

构建完整的综合一致性矩阵

用户通常希望看到一个包含所有受试者(来自所有数据框)的单一矩阵,以便同时比较数据框内部和数据框之间的 Kappa 值。

为了实现这一点,我们可以将所有受试者及其列表合并到一个临时数据框中,然后对这个合并后的数据框进行自比较。

# 1. 合并所有受试者及其数据到一个数据框# 添加一个 'source' 列以区分来源,如果需要的话df_combined = pd.concat([    df1.assign(source='df1'),    df2.assign(source='df2')]).reset_index(drop=True)# 2. 构建完整的 pairwise Kappa 矩阵# 行和列都包含 df_combined 中的所有受试者kappa_matrix_full = pd.DataFrame(    {row_i.subject: {row_j.subject: cohen_kappa_score(row_i.lists, row_j.lists)                     for row_j in df_combined.itertuples()}     for row_i in df_combined.itertuples()})print("nComprehensive Pairwise Kappa Matrix (all subjects):")print(kappa_matrix_full)

这个 kappa_matrix_full DataFrame 的行和列都包含了来自 df1 和 df2 的所有受试者。通过观察这个矩阵,您可以清晰地看到:

对角线元素: 通常为1,表示受试者自身与自身的一致性。左上角子矩阵: df1 内部受试者之间的一致性(例如 A vs B)。右下角子矩阵: df2 内部受试者之间的一致性(例如 a vs b)。右上角和左下角子矩阵: df1 受试者与 df2 受试者之间的一致性(例如 A vs a)。

Cohen’s Kappa 分数解读

Cohen’s Kappa 的值通常在 -1 到 1 之间:

1: 完美一致。0: 一致性完全由偶然性造成。负值: 一致性比偶然性更差(非常罕见)。

一般来说,对 Kappa 值的解释:

< 0:0.01 – 0.20: 略微0.21 – 0.40: 一般0.41 – 0.60: 中等0.61 – 0.80: 良好0.81 – 0.99: 极好1.00: 完美

可视化:使用热图

生成的 Kappa 矩阵非常适合使用 seaborn 库进行热图可视化,以直观地展示受试者之间的一致性模式。您可以使用 group 列来组织热图,例如,先按 group 对矩阵的行和列进行排序。

import seaborn as snsimport matplotlib.pyplot as plt# 为了更好的可视化,可以根据 'group' 列对矩阵进行排序# 首先,创建一个包含所有subject及其group的Seriessubject_groups = pd.concat([df1.set_index('subject')['group'], df2.set_index('subject')['group']])sorted_subjects = subject_groups.sort_values().index.tolist()# 重新排序 kappa_matrix_fullkappa_matrix_sorted = kappa_matrix_full.loc[sorted_subjects, sorted_subjects]plt.figure(figsize=(10, 8))sns.heatmap(kappa_matrix_sorted, annot=True, cmap='viridis', fmt=".2f", linewidths=.5)plt.title("Pairwise Cohen's Kappa Agreement Heatmap (Sorted by Group)")plt.xlabel("Subject 2")plt.ylabel("Subject 1")plt.show()

通过热图,您可以快速识别哪些受试者对之间具有高一致性(亮色),哪些具有低一致性(暗色),以及是否存在组内或组间的一致性模式。

注意事项

数据类型: cohen_kappa_score 函数期望输入为一维数组或列表,且元素应为类别型数据(例如整数或字符串)。列表长度: 参与比较的两个列表必须具有相同的长度。性能: 对于非常大的数据框,merge(how=’cross’) 会生成一个巨大的中间数据框,可能导致内存问题。在这种情况下,迭代方法(如 itertuples())可能更具内存效率,但计算时间可能更长。选择最适合您数据规模和性能需求的方法。解释: Cohen’s Kappa 假定类别是相互排斥且穷尽的。在解释结果时,应结合领域知识。

总结

本教程详细介绍了如何在Python中计算Pandas数据框中列表数据的 pairwise Cohen’s Kappa 一致性系数。我们探讨了多种实现方法,从简单的列表推导式到构建结构化数据框,并最终展示了如何生成一个全面的 Kappa 矩阵,该矩阵可以有效地用于分析和可视化不同数据源中受试者之间的一致性。掌握这些技术将有助于您在数据分析工作中更深入地评估分类数据的一致性。

以上就是计算Pandas数据框间Cohen’s Kappa一致性系数教程的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/580261.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月10日 10:36:02
下一篇 2025年11月10日 10:37:34

相关推荐

  • 以太坊交易所app下载教程

    随着以太坊(eth)等加密货币的普及,越来越多的人希望参与其中,进行交易、投资或持有。要进行这些操作,一个可靠的加密货币交易平台是必不可少的。以下是一些全球知名的、提供以太坊交易服务的交易平台,并提供了它们的简要介绍和如何获取其移动应用程序的指引。 全球以太坊交易所App下载指引 选择一个合适的以太…

    2025年12月8日 好文分享
    000
  • 衍生品交易所排行榜:Binance、Bitget等平台优劣势分析

    在数字资产交易的浪潮中,衍生品交易以其独特的魅力和潜力,吸引了全球无数参与者的目光。它不仅仅是简单地买卖一种资产,更是对市场趋势、风险管理和资金效率的深刻理解与应用。从套期保值到投机盈利,衍生品提供了多元化的策略工具,让交易者能够更灵活地应对市场波动。然而,复杂的结构和潜在的高杠杆也意味着更高的风险…

    2025年12月8日
    000
  • 稳定币排行榜_七月最新稳定币排行

    一键直达|2025主流加密资产交易所平台 Binance币安 Huobi火币 欧易OKX 2025年七月最新稳定币排行榜,稳定币在加密市场中扮演着关键角色,以下是当前市值与流通量排名靠前的稳定币,供您参考选择。 1. Tether (USDT) 市值领先:全球最大稳定币,市值超过700亿美元。多链发…

    2025年12月8日
    000
  • 2025年最受欢迎的稳定币是哪些_2025稳定币热门排行榜

    一键直达|2025主流加密资产交易所平台 Binance币安 Huobi火币 欧易OKX 2025年最受欢迎的稳定币有哪些?稳定币作为加密市场的重要组成部分,因其价格稳定、交易便捷,受到广大用户和机构青睐。以下是2025年最热门的稳定币排行榜,展现其市场份额和应用场景。 1. Tether (USD…

    2025年12月8日
    000
  • 稳定币和其他加密货币的区别是什么_稳定币和其他加密货币有哪些不同

    一键直达|2025主流加密资产交易所平台 Binance币安 Huobi火币 欧易OKX 稳定币与其他加密货币的主要区别体现于价格稳定性、用途定位及背后机制等方面。理解这些差异,有助于合理配置数字资产组合。 价格波动性 稳定币:通常锚定法定货币(如美元),价格相对固定,波动极小。其他加密货币:如比特…

    2025年12月8日
    000
  • 狗狗币便捷交易所推荐_狗狗币快速交易平台推荐

    一键直达|2025主流加密资产交易所平台 Binance币安 Huobi火币 欧易OKX 狗狗币便捷交易所推荐,本文将介绍几家支持狗狗币(DOGE)交易的高流动性平台,便于用户实现快速买卖、法币充值及资产管理。 推荐标准说明 以下平台根据以下维度进行筛选:交易深度、操作便捷性、充值通道支持、安全机制…

    2025年12月8日
    000
  • BTC交易平台APP下载_BTC交易所APK一键下载

    一键直达|2025主流加密资产交易所平台 Binance币安 Huobi火币 欧易OKX BTC交易平台APP下载指南,本文为您整理主流比特币(BTC)交易所的安卓APK一键下载信息,帮助用户快速找到对应平台的APP入口。 主流BTC交易所APP推荐 1. Binance(币安) 全球交易量最大的B…

    2025年12月8日
    000
  • ETH最多持有人是谁_ETH最大钱 包是谁拥有

    一键直达|2025主流加密资产交易所平台 Binance币安 Huobi火币 欧易OKX ETH最多持有人是谁?截至2025年7月,以太坊(ETH)最大持有人并非某个个人,而是网络中的重要合约地址。 ETH最大钱 包持有者排名 1. 以太坊2.0质押合约(Beacon Deposit Contrac…

    2025年12月8日
    000
  • 2025永续合约暴利攻略:5倍收益的3大杠杆技巧,小白秒变大神!

    要实现加密永续合约交易的高收益需理性选择杠杆、执行策略并管理资金。1. 杠杆倍数应匹配风险承受能力,避免爆仓;2. 构建明确交易策略并严格执行止损止盈;3. 单笔风险控制在总资金的1%-5%,分散投资避免重仓;4. 保持冷静心态,不因情绪影响决策,长期坚持计划。掌握这些要点,方能在波动市场中稳健获利…

    2025年12月8日
    000
  • 2025年山寨币埋伏指南:10个百倍潜力币名单泄露

    2025年,加密货币市场仿佛一块等待开肯的沃土,充满了无限的可能性。每一位探索者都在寻找那颗能带来丰厚回报的种子。这不仅仅是关于数字资产的波动,更是一场对前沿科技、社区共识和未来金融范式的深刻理解。当全球经济的脉搏与区块链的律动交织,新的机遇便会悄然浮现。我们所谈论的,并非一夜暴富的神话,而是基于对…

    2025年12月8日
    000
  • ​​AI+区块链爆发前夜!这3个代币或将颠覆行业​​​​

    AI与区块链的融合正在催生全新的智能生态系统。1. 区块链为AI提供安全透明的数据基础,确保训练数据可信;2. AI提升区块链效率与智能化水平,优化网络性能;3. 二者共同驱动去中心化智能应用发展,如AI模型交易平台。三类关键数字资产在其中发挥核心作用:1. 激励型数据资产鼓励用户分享高质量数据;2…

    2025年12月8日
    000
  • 全球十大支持NFT交易的加密货币平台地址汇总(2025最新排名)

    以下是全球支持NFT交易且具备一定影响力的加密货币平台排名及特点:1.Binance,作为全球领先平台,提供广泛NFT市场,支持多链,界面友好、交易量庞大,玩法多样;2.OKX,支持多种区块链网络的NFT,提供丰富交易工具和优质项目;3.gate.io,支持新兴项目,费用低,NFT种类多样;4.Hu…

    2025年12月8日 好文分享
    000
  • OKX官方网页版注册 OKX官网注册链接

    欧易OKX是全球领先的数字资产交易平台之一,致力于为全球用户提供安全、便捷、专业的数字资产交易体验。平台支持多种主流数字货币的交易,并提供衍生品交易、矿池、钱苞等服务。无论您是新手还是经验丰富的交易者,OKX都提供了丰富的产品和工具来满足您的需求。 欧易OKX官网: 网页注册步骤 以下是在欧易OKX…

    2025年12月8日
    000
  • 2025年币圈社交交易功能最佳的交易所排名TOP10盘点

    2025年币圈社交交易功能最佳的交易所包括OKX、Binance、Huobi等十大平台。1. OKX具备丰富的交易员选择和透明数据展示,操作人性化;2. Binance拥有庞大的交易员社区和完善的风险控制工具;3. Huobi注重社区氛围营造,提供多语言支持;4. Bybit专注于衍生品跟单,具备低…

    2025年12月8日 好文分享
    000
  • 欧易交易平台网址 欧易交易所官网地址

    欧易OKX是知名的数字资产交易平台之一,在全球范围内提供多种加密货币的交易服务。平台支持现货、合约、期权等多种交易类型,并提供丰富的金融衍生品工具。本文将为您详细介绍如何在欧易OKX平台完成注册流程。为了确保您访问的是官方网站,本文提供了直接跳转至欧易OKX官方首页的链接,建议您点击本文提供的链接进…

    2025年12月8日 好文分享
    000
  • 歐易安卓版app获取地址 歐易官方App安装教程

    欧易OKX作为全球知名的数字资产交易平台之一,致力于为用户提供安全、便捷、高效的交易服务。平台支持多种加密货币的交易,并提供丰富的金融工具和功能,满足不同用户的需求。为了帮助用户顺利获取并安装官方应用,本文特此提供官方应用下载链接。 欧易OKX官网: 获取官方应用 获取欧易OKX的官方应用是安全交易…

    2025年12月8日
    000
  • 安全正规的比特币交易所排名top10

    在全球%ignore_a_1%市场中,选择一个安全正规的比特币交易所至关重要。用户在进行交易时,资金安全和平台合规性是首要考量因素。以下将介绍当前市场上排名靠前的十家安全正规的比特币交易所,希望能为用户提供参考。 1. Binance 全球领先的加密货币交易所,提供广泛的交易对和衍生品。拥有强大的技…

    2025年12月8日 好文分享
    000
  • 歐易v6.127.0安卓版app获取地址 歐易最新版App安装入口

    欧易OKX,作为全球领先的数字资产交易平台之一,致力于为用户提供安全、稳定、高效的交易服务。平台拥有丰富的加密货币交易对,涵盖主流币种及各类新兴项目,满足不同投资者的交易需求。除了现货交易,欧易OKX还提供期货、期权、永续合约等多样化的衍生品工具,以及质押、借贷、DApp探索等金融服务。其App设计…

    2025年12月8日
    000
  • 欧意v6.127.0安卓版app获取地址 欧意最新版安卓App链接地址

    欧易(OKX)是一款全球知名的数字资产交易平台,致力于为用户提供安全、便捷、专业的加密货币交易服务。平台支持多种数字资产的买卖、存储和管理,拥有丰富的交易对和多种交易工具。本文将为您详细介绍如何获取欧意v6.127.0安卓版app,并提供官方app下载链接 欧易官网: 欧易最新版APP下载步骤 以下…

    2025年12月8日
    000
  • 2025年哪些虚拟币值得买?十大潜力币排名榜单

    在瞬息万变的加密货币市场,寻找有潜力的虚拟币,如同大海捞针。2025年,哪些虚拟币有望崭露头角,实现价值腾飞?这不仅仅是技术进步的较量,更是生态建设、社区活跃度、市场应用等多维度的综合考量。本文将深入剖析当前市场格局,为您揭示备受瞩目的十大潜力币,并提供详细的购买指引,助您把握投资先机。 2025年…

    2025年12月8日 好文分享
    000

发表回复

登录后才能评论
关注微信