Python数据划分策略:在指定子集大小下实现均值均衡

python数据划分策略:在指定子集大小下实现均值均衡

本文探讨如何在给定超集和预设子集大小的情况下,将超集元素无重复地划分到多个子集中,以使每个子集的均值尽可能接近超集的均值。文章将介绍如何将此问题建模为集合划分问题,并提供基于线性规划(使用PuLP库)的精确求解方案,同时探讨启发式算法如Karmarkar-Karp的适用性及性能考量,旨在为高效、公平的数据子集划分提供专业指导。

在数据分析和机器学习领域,我们经常需要将一个大型数据集(超集)划分为多个小型数据集(子集),以便进行交叉验证、并行处理或分组实验。一个常见的需求是确保这些子集在统计特性上与原始超集尽可能一致,特别是它们的均值。本文将深入探讨如何在满足子集大小预设要求的同时,实现子集均值与超集均值的最大程度接近。

问题定义与数学建模

假设我们有一个包含 M 个元素的超集 S,其中的元素是实数(通常是正浮点数)。我们的目标是将 S 无重复地划分为 N 个子集 S_0, S_1, …, S_{N-1},每个子集 S_i 包含 x_i 个元素,且 sum(x_0, …, x_{N-1}) == M。核心约束是使每个子集 S_i 的均值 mean(S_i) 尽可能接近超集的均值 mean(S)。

为了量化“接近程度”,我们可以定义一个误差函数。一个直观且“公平”的方法是最小化所有子集均值与超集均值之间绝对差值的总和。由于子集大小 x_i 是固定的,最小化均值差的绝对值之和等价于最小化子集元素和与目标和的绝对差值之和。具体来说,如果超集均值为 μ_S,则子集 S_i 的目标和为 x_i * μ_S。

这个优化问题可以归类为集合划分问题(Set Partitioning Problem)的一个变种,通常通过整数线性规划(ILP)来解决。

立即学习“Python免费学习笔记(深入)”;

解决方案一:基于线性规划的精确求解 (使用 PuLP)

线性规划(Linear Programming, LP)是一种强大的优化工具,可以用来找到满足一系列线性约束的线性目标函数的最佳值。对于我们的问题,我们可以将其建模为一个整数线性规划问题。

核心思路

决策变量: 为超集中的每个元素 j 和每个子集 i 定义一个二进制决策变量 v_{ij}。如果元素 j 被分配到子集 i,则 v_{ij} = 1;否则 v_{ij} = 0。目标函数: 最小化所有子集均值与超集均值绝对差值的总和。为了在线性规划中处理绝对值,我们引入辅助变量 abs_err_i,并通过两个不等式约束来表示 abs_err_i >= err_i 和 abs_err_i >= -err_i。约束条件:子集大小约束: 每个子集 S_i 必须包含预设的 x_i 个元素。即 sum(v_{ij} for all j) = x_i。元素唯一性约束: 超集中的每个元素 j 只能被分配到一个且仅一个子集。即 sum(v_{ij} for all i) = 1。

PuLP 实现示例

PuLP 是一个 Python 库,用于建模和解决线性规划问题。以下代码展示了如何使用 PuLP 解决上述问题。

from statistics import meanimport pulpdef solve_subset_partitioning(superset_data, set_sizes):    """    使用PuLP解决子集划分问题,使各子集均值尽可能接近超集均值。    Args:        superset_data (list): 包含所有元素的超集列表。        set_sizes (list): 包含每个子集所需元素数量的列表。    Returns:        tuple: (list of lists) 划分后的子集, (float) 超集均值    """    # 计算超集均值和总和    superset_mean = mean(superset_data)    target_total_sum = sum(superset_data) # 实际上我们关心的是均值,但PuLP更方便处理总和    N = len(set_sizes)    if sum(set_sizes) != len(superset_data):        raise ValueError("所有子集大小之和必须等于超集元素总数。")    # 初始化PuLP问题    set_partitioning_model = pulp.LpProblem("Set_Partitioning_Model", pulp.LpMinimize)    # 决策变量:covering[s][i] = 1 如果超集中的第i个元素被分配给子集s    covering = {}    for s_idx in range(N):        vals = []        for i, v in enumerate(superset_data):            vals.append(                pulp.LpVariable(                    f"covering_set_{s_idx}_value_idx_{i:>02}_val_{v}",                    lowBound=0,                    upBound=1,                    cat=pulp.LpInteger, # 0或1的整数变量                )            )        covering[s_idx] = vals    # 辅助变量:用于处理绝对误差    abs_sum_errs = []    for s_idx in range(N):        set_sum_err_abs = pulp.LpVariable(f"set_{s_idx}_sum_error_abs", lowBound=0)        abs_sum_errs.append(set_sum_err_abs)    # 目标函数:最小化所有子集与超集目标和的绝对误差之和    # 注意:这里我们最小化的是子集总和与超集总和的误差,因为超集总和是固定的。    # 实际上,更直接的应该是最小化子集和与 (子集大小 * 超集均值) 的误差。    # 为了简化,我们可以最小化子集和与一个“理想”总和的误差。    # 或者,如原问题所述,最小化子集总和与 target_sum 的误差,这在某些情况下可能不够精确反映均值目标。    # 让我们调整为最小化子集总和与 (子集大小 * 超集均值) 的误差。    set_partitioning_model += pulp.lpSum(abs_sum_errs), "Total_Absolute_Error"    for s_idx, st_vars in covering.items():        # 计算当前子集s的元素总和        current_set_sum = pulp.lpSum([p * superset_data[i] for i, p in enumerate(st_vars)])        # 计算子集s的目标总和(基于超集均值和子集大小)        target_set_sum = set_sizes[s_idx] * superset_mean        # 计算子集s的总和误差        set_sum_err = pulp.LpVariable(f"set_{s_idx}_sum_error")        set_partitioning_model += set_sum_err == current_set_sum - target_set_sum,                                   f"Set_{s_idx}_Sum_Error_Definition"        # 定义绝对误差的约束        set_partitioning_model += abs_sum_errs[s_idx] >= set_sum_err,                                   f"Set_{s_idx}_Abs_Error_Upper_Bound_Pos"        set_partitioning_model += abs_sum_errs[s_idx] >= -set_sum_err,                                   f"Set_{s_idx}_Abs_Error_Upper_Bound_Neg"    # 约束:每个子集的大小是预设的    for n, st_vars in zip(set_sizes, covering.values()):        set_partitioning_model += pulp.lpSum(st_vars) == n,                                   f"Set_Size_Constraint_{set_sizes.index(n)}"    # 约束:超集中的每个元素只能被使用一次    for i, _ in enumerate(superset_data):        set_partitioning_model += (            pulp.lpSum([covering[s_idx][i] for s_idx in range(N)]) == 1,            f"Element_{i}_Used_Once"        )    # 求解模型    set_partitioning_model.solve(pulp.PULP_CBC_CMD(msg=False)) # msg=False 减少输出    # 解析结果    result_subsets = [[] for _ in range(N)]    for s_idx in range(N):        for i, var in enumerate(covering[s_idx]):            if var.value() == 1:                result_subsets[s_idx].append(superset_data[i])    return result_subsets, superset_mean# 示例 1: 完美分配superset1 = [100]*5 + [101]*10 + [102]*5set_sizes1 = [2, 4, 14]result_subsets1, superset_mean1 = solve_subset_partitioning(superset1, set_sizes1)print("--- 示例 1 结果 ---")print(f"超集均值: {superset_mean1}")for i, subset in enumerate(result_subsets1):    print(f"子集 {i}: {subset}, 均值: {mean(subset)}")# 示例 2: 最佳拟合(无法完美分配)superset2 = [100]*5 + [103]*10 + [104]*5set_sizes2 = [2, 4, 14]result_subsets2, superset_mean2 = solve_subset_partitioning(superset2, set_sizes2)print("n--- 示例 2 结果 ---")print(f"超集均值: {superset_mean2}")for i, subset in enumerate(result_subsets2):    print(f"子集 {i}: {subset}, 均值: {mean(subset)}")

示例 1 运行结果:

--- 示例 1 结果 ---超集均值: 101子集 0: [100, 102], 均值: 101子集 1: [100, 100, 102, 102], 均值: 101子集 2: [100, 100, 100, 101, 101, 101, 101, 101, 101, 101, 101, 102, 102, 102], 均值: 101

示例 2 运行结果:

--- 示例 2 结果 ---超集均值: 102.5子集 0: [103, 103], 均值: 103子集 1: [100, 100, 104, 104], 均值: 102子集 2: [100, 100, 100, 103, 103, 103, 103, 103, 103, 103, 103, 104, 104, 104], 均值: 102.57142857142857

注意事项:

计算复杂度: 线性规划求解器在理论上是多项式时间复杂度的,但在实际应用中,对于大规模的整数线性规划问题(变量数量和约束数量都很大),求解时间可能会显著增加。当超集元素数量和子集数量都很大时,可能无法在1秒内得到结果。绝对值处理: 在线性规划中,目标函数或约束中不能直接包含绝对值。通过引入辅助变量和一对不等式约束,可以将 |x| 转换为线性形式:y >= x 和 y >= -x,其中 y 是要最小化的变量。PuLP求解器: PuLP 默认使用 CBC 求解器,这是一个开源的混合整数规划求解器。对于更复杂的商业求解器(如 Gurobi, CPLEX),可能需要额外的配置。

解决方案二:启发式算法 (Karmarkar-Karp)

当精确求解的计算成本过高时,启发式算法提供了一种快速获得近似解的方法。Karmarkar-Karp 算法(也称为最大差值法)是解决数集划分问题的一种著名启发式算法,其目标是将一组数字划分为两部分,使两部分的和尽可能接近。

算法特点与局限性

Karmarkar-Karp 算法通常用于将一个集合划分为指定数量的子集,使其各子集的尽可能相等。然而,它不直接支持预设子集大小的约束。这意味着,虽然它能尝试使子集的均值接近(通过使和接近),但它无法保证每个子集都包含特定数量的元素。

因此,Karmarkar-Karp 算法不完全符合我们原始问题中“创建 N 个包含 x0, …, xn 元素的子集”的要求,但可以作为一种快速探索均值均衡分配的思路,或者在子集大小约束不那么严格时使用。

numberpartitioning 库示例

numberpartitioning 是一个 Python 库,实现了 Karmarkar-Karp 算法。

from statistics import meanfrom numberpartitioning import karmarkar_karpsuperset = [100]*5 + [103]*10 + [104]*5# 注意:Karmarkar-Karp算法不接受预设的子集大小# 它会尝试将超集划分为指定数量的子集,使它们的和(或均值)尽可能接近。print("--- Karmarkar-Karp 算法示例 ---")print(f"超集均值: {mean(superset)}")# 将超集划分为 3 个部分for p in karmarkar_karp(superset, num_parts=3).partition:    print(f"子集: {p}, 均值: {mean(p)}")

运行结果:

--- Karmarkar-Karp 算法示例 ---超集均值: 102.5子集: [104, 104, 103, 103, 103, 100], 均值: 102.83333333333333子集: [100, 103, 104, 103, 103, 103, 100], 均值: 102.28571428571429子集: [100, 104, 104, 103, 103, 103, 100], 均值: 102.42857142857143

从结果可以看出,Karmarkar-Karp 算法确实生成了均值相对接近的子集,但这些子集的大小(分别为 6, 7, 7)与我们预设的 [2, 4, 14] 并不匹配。

性能考量与策略选择

根据问题的规模和对精确度的要求,可以采用不同的策略:

小规模问题(超集元素少,子集数量少):策略: 直接使用线性规划(如 PuLP 方案)。它能找到最优解,确保均值偏差最小。适用场景: 超集元素数量在几百以内,子集数量在几十以内。优势: 结果

以上就是Python数据划分策略:在指定子集大小下实现均值均衡的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1372749.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
生成准确表达文章主题的标题
Python中计算阶乘末尾零的原理与高效方法
上一篇 2025年12月14日 12:35:18
Python初学者指南:正确在命令行运行Python脚本与解决cd命令错误
下一篇 2025年12月14日 12:35:30

相关推荐

  • composer require-dev和require有什么不同_Composer Require与Require-Dev区别解析

    require用于声明项目运行必需的依赖,如框架、数据库组件和第三方SDK,这些包会随项目部署到生产环境;2. require-dev用于声明仅在开发和测试阶段需要的工具,如PHPUnit、PHPStan、Faker等,不会默认部署到生产环境;3. 安装时composer install根据环境决定…

    2026年5月10日
    1000
  • Matplotlib 地图中多类型图例的创建与优化

    Matplotlib 地图中多类型图例的创建与优化Matplotlib 地图中多类型图例的创建与优化Matplotlib 地图中多类型图例的创建与优化Matplotlib 地图中多类型图例的创建与优化

    本教程旨在解决matplotlib地图可视化中,如何在一个图例中同时展示颜色块(如区域分类)和自定义标记(如特定兴趣点)的问题。文章详细介绍了当传统`patch`对象无法正确显示标记时,如何利用`matplotlib.lines.line2d`创建标记图例句柄,并将其与颜色块图例句柄合并,从而生成一…

    2026年5月10日 用户投稿
    100
  • Golang JSON序列化:控制敏感字段暴露的最佳实践

    本教程探讨golang中如何高效控制结构体字段在json序列化时的可见性。当需要将包含敏感信息的结构体数组转换为json响应时,通过利用`encoding/json`包提供的结构体标签,特别是`json:”-“`,可以轻松实现对特定字段的忽略,从而避免敏感数据泄露,确保api…

    2026年5月10日
    000
  • 利用海象运算符简化条件赋值:Python教程与最佳实践

    本文旨在探讨Python中海象运算符(:=)在条件赋值场景下的应用。通过对比传统if/else语句与海象运算符,以及条件表达式,分析海象运算符在简化代码、提高可读性方面的优势与局限性。并通过具体示例,展示如何在列表推导式等场景下合理使用海象运算符,同时强调其潜在的复杂性及替代方案,帮助开发者更好地掌…

    2026年5月10日
    000
  • Debian syslog性能优化技巧有哪些

    提升Debian系统syslog (通常基于rsyslog)性能,关键在于精简配置和高效处理日志。以下策略能有效优化日志管理,提升系统整体性能: 精简配置,高效加载: 在rsyslog配置文件中,仅加载必要的输入、输出和解析模块。 使用全局指令设置日志级别和格式,避免不必要的处理。 自定义模板: 创…

    2026年5月10日
    000
  • 比特币新手教程 比特币交易平台有哪些

    比特币是一种去中心化的数字货币,基于区块链技术实现点对点交易,具有匿名性、有限发行和不可篡改等特点;新手可通过交易所购买,P2P交易获得比特币,常用平台包括Binance、OKX和Huobi;交易流程包括注册账户、实名认证、绑定支付方式、充值法币并下单购买,可选择市价单或限价单;比特币存储方式有交易…

    2026年5月10日
    000
  • c++中的SFINAE技术是什么_c++模板编程中的SFINAE原理与应用

    SFINAE 是“替换失败不是错误”的原则,指模板实例化时若参数替换导致错误,只要存在其他合法候选,编译器不报错而是继续重载决议。它用于条件启用模板、类型检测等场景,如通过 decltype 或 enable_if 控制函数重载,实现类型特征判断。尽管 C++20 引入 Concepts 简化了部分…

    2026年5月10日
    000
  • Go语言mgo查询构建:深入理解bson.M与日期范围查询的正确实践

    本文旨在解决go语言mgo库中构建复杂查询时,特别是涉及嵌套`bson.m`和日期范围筛选的常见错误。我们将深入剖析`bson.m`的类型特性,解释为何直接索引`interface{}`会导致“invalid operation”错误,并提供一种推荐的、结构清晰的代码重构方案,以确保查询条件能够正确…

    2026年5月10日
    100
  • RichHandler与Rich Progress集成:解决显示冲突的教程

    在使用rich库的`richhandler`进行日志输出并同时使用`progress`组件时,可能会遇到显示错乱或溢出问题。这通常是由于为`richhandler`和`progress`分别创建了独立的`console`实例导致的。解决方案是确保日志处理器和进度条组件共享同一个`console`实例…

    2026年5月10日
    000
  • Golang goroutine与channel调试技巧

    使用go run -race检测数据竞争,结合runtime.NumGoroutine监控协程数量,通过pprof分析阻塞调用栈,利用select超时避免永久阻塞,有效排查goroutine泄漏、死锁和数据竞争问题。 Go语言的goroutine和channel是并发编程的核心,但它们也带来了调试上…

    2026年5月10日
    000
  • 《魔兽世界》将于6月11日开启国服回归技术测试

    《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试《魔兽世界》将于6月11日开启国服回归技术测试

    《%ign%ignore_a_1%re_a_1%》官方宣布,将于6月11日开启国服回归技术测试,时间为7天,并称可以在6月内正式开服,玩家们可以访问官网下载战网客户端并预下载“巫妖王之怒”客户端,技术测试详情见下图。 WordAi WordAI是一个AI驱动的内容重写平台 53 查看详情 以上就是《…

    2026年5月10日 用户投稿
    200
  • 使用 Jupyter Notebook 进行探索性数据分析

    Jupyter Notebook通过单元格实现代码与Markdown结合,支持数据导入(pandas)、清洗(fillna)、探索(matplotlib/seaborn可视化)、统计分析(describe/corr)和特征工程,便于记录与分享分析过程。 Jupyter Notebook 是进行探索性…

    2026年5月10日
    000
  • 如何在HTML中插入表单元素_HTML表单控件与输入类型使用指南

    HTML表单通过标签构建,包含action和method属性定义数据提交目标与方式,常用input类型如text、password、email等适配不同输入需求,配合label、required、placeholder提升可用性,结合textarea、select、button等控件实现完整交互,是…

    2026年5月10日
    000
  • 网站标题关键词更新后,搜索引擎为何仍显示旧标题?

    网站标题更新后,搜索引擎为何显示旧标题? 网站SEO优化中,站长常修改网站标题关键词,期望搜索结果显示自定义标题。然而,即使更新标签、meta keywords、meta description和结构化数据中的name属性后,搜索结果仍显示旧标题,这令人费解。本文将对此进行解释。 问题:站长修改了网…

    2026年5月10日
    100
  • 深入理解 Express.js 中 next() 参数的作用与中间件机制

    本文深入探讨 express.js 中间件函数中的 `next()` 参数。它负责将控制权传递给请求-响应周期中的下一个中间件或路由处理程序。文章将详细解释 `next()` 的工作原理、中间件的注册与执行顺序,以及不正确使用 `next()` 可能导致请求挂起的风险,并通过代码示例和实际应用场景,…

    2026年5月10日
    000
  • 创建指定大小并填充特定数据的Golang文件教程

    本文将介绍如何使用Golang创建一个指定大小的文件,并用特定数据填充它。我们将使用 `os` 包提供的函数来创建和截断文件,从而实现快速生成大文件的目的。示例代码展示了如何创建一个10MB的文件,并将其填充为全零数据。掌握这些方法,可以方便地在例如日志系统或磁盘队列等场景中,预先创建测试文件或初始…

    2026年5月10日
    000
  • Python命令怎样使用profile分析脚本性能 Python命令性能分析的基础教程

    使用Python的cProfile模块分析脚本性能最直接的方式是通过命令行执行python -m cProfile your_script.py,它会输出每个函数的调用次数、总耗时、累积耗时等关键指标,帮助定位性能瓶颈;为进一步分析,可将结果保存为文件python -m cProfile -o ou…

    2026年5月10日
    000
  • 如何插入查询结果数据_SQL插入Select查询结果方法

    如何插入查询结果数据_SQL插入Select查询结果方法如何插入查询结果数据_SQL插入Select查询结果方法如何插入查询结果数据_SQL插入Select查询结果方法如何插入查询结果数据_SQL插入Select查询结果方法

    使用INSERT INTO…SELECT语句可高效插入数据,通过NOT EXISTS、LEFT JOIN、MERGE语句或唯一约束避免重复;表结构不一致时可通过别名、类型转换、默认值或计算字段处理;结合存储过程可提升可维护性,支持参数化与动态SQL。 将查询结果数据插入到另一个表中,可以…

    2026年5月10日 用户投稿
    000
  • 使用 WebCodecs VideoDecoder 实现精确逐帧回退

    本文档旨在解决在使用 WebCodecs VideoDecoder 进行视频解码时,实现精确逐帧回退的问题。通过比较帧的时间戳与目标帧的时间戳,可以避免渲染中间帧,从而提高用户体验。本文将提供详细的解决方案和示例代码,帮助开发者实现精确的视频帧控制。 在使用 WebCodecs VideoDecod…

    2026年5月10日
    000
  • Discord.py 交互按钮超时与持久化解决方案

    本教程旨在解决Discord.py中交互按钮在一段时间后出现“This Interaction Failed”错误的问题。我们将深入探讨视图(View)的超时机制,并提供通过正确设置timeout参数以及利用bot.add_view()方法实现按钮持久化的具体方案,确保您的机器人交互功能稳定可靠,即…

    2026年5月10日
    000

发表回复

登录后才能评论
关注微信