Python 中的浅拷贝与深拷贝:区别与应用场景

浅拷贝创建新容器但共享内部元素,深拷贝递归复制所有层级确保完全独立。Python中通过切片、copy()实现浅拷贝,copy.deepcopy()实现深拷贝,前者高效但修改嵌套可变元素会影响原对象,后者开销大但隔离彻底。

python 中的浅拷贝与深拷贝:区别与应用场景

Python中的浅拷贝与深拷贝,核心在于它们处理复合对象内部元素的方式不同。简单来说,浅拷贝创建了一个新的容器对象,但其内部元素(如果也是对象的话)仍然是原对象的引用;而深拷贝则会递归地创建所有内部元素的独立副本,确保新旧对象之间完全独立。

在Python中,我们经常需要复制一个对象。直接赋值(

b = a

)仅仅是让两个变量名指向了内存中的同一个对象。这在处理可变对象时,往往不是我们想要的结果,因为修改

b

也会影响

a

。这时,拷贝就派上用场了。

浅拷贝:复制一层皮

浅拷贝,顾名思义,就是只复制了对象“最外层”的结构。如果你有一个列表,里面装着数字和另一个列表,浅拷贝会给你一个新的外层列表,但那个内部的列表,新旧对象还是共享同一个。

你可以通过几种方式实现浅拷贝:

立即学习“Python免费学习笔记(深入)”;

切片操作

[:]

:对于列表(list)而言,这是最常用也最简洁的方式。

import copyoriginal_list = [1, [2, 3], 4]shallow_copy_slice = original_list[:]print(f"原始列表ID: {id(original_list)}, 浅拷贝列表ID: {id(shallow_copy_slice)}")# 输出ID不同,说明是两个不同的列表对象print(f"原始列表内部列表ID: {id(original_list[1])}, 浅拷贝内部列表ID: {id(shallow_copy_slice[1])}")# 输出ID相同,说明内部列表是共享的

list()

dict()

构造函数

original_dict = {'a': 1, 'b': [2, 3]}shallow_copy_constructor = dict(original_dict)print(f"原始字典ID: {id(original_dict)}, 浅拷贝字典ID: {id(shallow_copy_constructor)}")print(f"原始字典内部列表ID: {id(original_dict['b'])}, 浅拷贝内部列表ID: {id(shallow_copy_constructor['b'])}")

copy.copy()

函数:这是标准库

copy

模块提供的通用浅拷贝方法,适用于任何实现了

__copy__

方法的对象,或者对于普通对象,它会创建一个新实例并浅拷贝其属性。

original_set = {1, 2, 3}shallow_copy_set = copy.copy(original_set)# 对于集合这种非复合结构,浅拷贝和深拷贝行为上无差异,因为元素是不可变的。# 但如果集合元素是可变对象,那就有区别了。

当浅拷贝的内部元素是可变对象时,问题就来了。修改浅拷贝内部的可变对象,原对象也会跟着变,反之亦然。这在调试时可能会让人抓狂,因为数据来源变得模糊不清。

original = [1, [2, 3], 4]shallow_copy = original[:]shallow_copy[0] = 100 # 修改顶层元素,不影响originalshallow_copy[1][0] = 99 # 修改内部可变元素,会影响originalprint(f"Original after shallow copy modification: {original}") # Output: [1, [99, 3], 4]print(f"Shallow copy after modification: {shallow_copy}")     # Output: [100, [99, 3], 4]

你看,

original

的第二个元素也被改了,这就是浅拷贝的“陷阱”所在。

深拷贝:独立王国

深拷贝则完全不同,它会递归地复制对象及其所有子对象,直到所有元素都是独立的。这意味着你对深拷贝的任何修改都不会影响到原对象,它们是两个完全独立的“王国”。

实现深拷贝主要依赖

copy

模块中的

copy.deepcopy()

函数。

import copyoriginal = [1, [2, 3], 4]deep_copy = copy.deepcopy(original)print(f"原始列表ID: {id(original)}, 深拷贝列表ID: {id(deep_copy)}")print(f"原始列表内部列表ID: {id(original[1])}, 深拷贝内部列表ID: {id(deep_copy[1])}")# 输出ID不同,说明内部列表也是独立的deep_copy[0] = 100deep_copy[1][0] = 99print(f"Original after deep copy modification: {original}") # Output: [1, [2, 3], 4]print(f"Deep copy after modification: {deep_copy}")         # Output: [100, [99, 3], 4]

这次,无论怎么修改

deep_copy

original

都毫发无损。这通常是我们期望的“复制”行为。

Python中何时需要使用浅拷贝?

说实话,很多人在遇到需要复制对象时,第一反应可能就是“深拷贝万岁”,觉得这样最安全。但浅拷贝在某些特定场景下,反而更高效、更合理。

一个常见的场景是,当你只需要创建一个新的顶层容器,而内部的元素是不可变对象(如数字、字符串、元组),或者你有意图让新旧容器共享内部可变对象时。比如,你有一个用户列表,每个用户对象可能包含一些不变的ID和名字,以及一个可变的“购物车”列表。如果你只是想创建一个新的用户列表,但希望所有用户对象仍然是内存中的同一个,只是列表的顺序或者增减用户不同,那么浅拷贝就足够了。

class User:    def __init__(self, user_id, name, cart):        self.user_id = user_id        self.name = name        self.cart = cart # 购物车是一个可变列表    def __repr__(self):        return f"User(id={self.user_id}, name='{self.name}', cart={self.cart})"user1 = User(1, "Alice", ["apple", "banana"])user2 = User(2, "Bob", ["orange"])all_users = [user1, user2]# 浅拷贝用户列表new_users_list = all_users[:]new_users_list.append(User(3, "Charlie", [])) # 新增一个用户,不影响all_usersprint(f"Original users: {all_users}")print(f"New users list: {new_users_list}")# 此时,user1和user2对象本身在两个列表中是共享的user1.cart.append("grape") # 修改user1的购物车,会影响all_users和new_users_list中对应的user1print(f"Original users after modification: {all_users}")print(f"New users list after modification: {new_users_list}")

在这个例子中,

new_users_list

all_users

共享

user1

user2

对象。如果我们的业务逻辑允许甚至需要这种共享(例如,用户对象本身是某种全局缓存或单例),那么浅拷贝就是正确的选择。此外,对于性能敏感的应用,如果对象结构很深且复制成本高昂,而你又不需要完全独立,浅拷贝能显著减少时间和内存开销。

深拷贝的开销与潜在问题是什么?

深拷贝虽然提供了完全的独立性,但它并非没有代价。

性能与内存开销:这是最直接的问题。

deepcopy

需要递归遍历整个对象图,为每个可变子对象创建新的副本。对于大型或深度嵌套的数据结构,这会消耗大量的CPU时间和内存。想象一下一个包含数千个元素的列表,每个元素又是一个包含复杂对象的字典,深拷贝这种结构可能会让程序明显变慢。

递归深度限制:Python解释器有默认的递归深度限制(通常是1000)。如果你的数据结构嵌套层级过深,

deepcopy

在递归过程中可能会超出这个限制,导致

RecursionError

。虽然可以通过

sys.setrecursionlimit()

来提高限制,但这通常不是一个好兆头,可能意味着你的数据结构设计本身就存在问题,或者深拷贝并非最佳方案。

循环引用问题:如果你的对象图存在循环引用(例如,对象A引用了B,B又引用了A),

deepcopy

需要特别处理以避免无限递归。

copy

模块通过一个内部的“备忘录”(memo)字典来跟踪已经复制过的对象,确保每个对象只被复制一次。这增加了

deepcopy

的内部复杂性和开销。

class Node:    def __init__(self, value):        self.value = value        self.next = Nonea = Node('A')b = Node('B')a.next = bb.next = a # 形成循环引用# deepcopy可以正确处理循环引用deep_copied_a = copy.deepcopy(a)print(f"Original a.next.next is a: {a.next.next is a}") # Trueprint(f"Deep copied a.next.next is deep_copied_a: {deep_copied_a.next.next is deep_copied_a}") # Trueprint(f"Original a is deep_copied_a: {a is deep_copied_a}") # False

尽管

deepcopy

能处理,但其内部机制的复杂性也意味着更高的开销。

不可拷贝的对象:并非所有对象都能被深拷贝。有些对象(如文件句柄、网络连接、线程锁、数据库连接等)是系统资源或外部资源的引用,它们不能被简单地复制。尝试深拷贝这些对象可能会引发

TypeError

AttributeError

,或者导致意想不到的副作用。对于自定义类,如果它们包含这类不可拷贝的属性,或者有特殊的拷贝逻辑,你需要实现

__copy__

__deepcopy__

方法来指导

copy

模块如何进行拷贝。

import threadingclass MyResource:    def __init__(self, name):        self.name = name        self.lock = threading.Lock() # 线程锁通常不应被深拷贝    def __deepcopy__(self, memo):        # 这是一个简单的示例,实际情况可能更复杂        # 我们可能希望锁是新的,或者根本不拷贝它        new_instance = MyResource(self.name)        # new_instance.lock = threading.Lock() # 创建一个新的锁        # memo[id(self)] = new_instance # 记录已拷贝的对象以处理循环引用        return new_instance# 尝试深拷贝一个包含线程锁的对象resource = MyResource("data")try:    # 默认的deepcopy可能会尝试复制lock对象,这通常是无效的    # 如果没有__deepcopy__,可能会出错或行为异常    deep_copied_resource = copy.deepcopy(resource)    print(f"Deep copied resource name: {deep_copied_resource.name}")    print(f"Original lock ID: {id(resource.lock)}, Deep copied lock ID: {id(deep_copied_resource.lock)}")except TypeError as e:    print(f"Error during deepcopy: {e}")

因此,在使用深拷贝前,我们必须仔细评估其必要性、潜在的性能影响,以及对象图中是否存在不可拷贝的元素。

如何避免Python拷贝操作中的常见陷阱?

理解Python的拷贝机制,很大程度上就是理解其对象引用和可变性。避免陷阱,关键在于有意识地思考数据流和对象生命周期。

1. 明确对象的“可变性”:这是理解拷贝行为的基石。Python中的对象分为可变(Mutable)和不可变(Immutable)两种。

不可变对象(如数字、字符串、元组、frozenset):赋值或浅拷贝它们,效果上与深拷贝无异,因为它们的值一旦创建就不能改变。你无法修改它们,只能创建新的对象。可变对象(如列表、字典、集合、自定义类实例):这是拷贝操作需要特别关注的。修改可变对象的任何部分都会影响所有指向它的引用。

2. 区分“赋值”、“浅拷贝”和“深拷贝”的语义

赋值 (

a = b

)

a

b

指向内存中的同一个对象。浅拷贝 (

a = b.copy()

a = copy.copy(b)

)

a

是一个新对象,但它内部的可变元素仍与

b

共享。深拷贝 (

a = copy.deepcopy(b)

)

a

是一个完全独立的新对象,包括其所有内部元素。

3. 使用

id()

is

进行调试:当你不确定两个变量是否指向同一个对象时,

id(obj)

可以返回对象的内存地址。如果

id(obj1) == id(obj2)

,那么它们就是同一个对象。

is

操作符(

obj1 is obj2

)直接检查两个变量是否引用同一个对象,比

==

(检查值是否相等)更严格,是判断对象身份的利器。

list1 = [1, [2, 3]]list2 = list1 # 赋值list3 = list1[:] # 浅拷贝list4 = copy.deepcopy(list1) # 深拷贝print(f"list1 is list2: {list1 is list2}") # Trueprint(f"list1 is list3: {list1 is list3}") # Falseprint(f"list1[1] is list2[1]: {list1[1] is list2[1]}") # Trueprint(f"list1[1] is list3[1]: {list1[1] is list3[1]}") # True (浅拷贝的内部元素是共享的)print(f"list1[1] is list4[1]: {list1[1] is list4[1]}") # False (深拷贝的内部元素是独立的)

4. 谨慎处理自定义类的拷贝:如果你创建了自己的类,并且它包含可变属性,或者它的实例需要被拷贝,那么你需要考虑如何实现

__copy__

__deepcopy__

方法。

__copy__(self)

:当调用

copy.copy(obj)

时,如果类定义了这个方法,就会调用它来执行浅拷贝。

__deepcopy__(self, memo)

:当调用

copy.deepcopy(obj)

时,如果类定义了这个方法,就会调用它。

memo

是一个字典,用于存储已经拷贝过的对象,以处理循环引用。你需要确保递归调用

copy.deepcopy()

来拷贝子对象,并把自身添加到

memo

中。

class MyCustomObject:    def __init__(self, data, nested_list):        self.data = data        self.nested_list = nested_list    def __copy__(self):        # 实现浅拷贝:创建一个新实例,浅拷贝属性        cls = self.__class__        new_obj = cls(self.data, self.nested_list) # 注意这里nested_list是直接引用        return new_obj    def __deepcopy__(self, memo):        # 实现深拷贝:创建一个新实例,深拷贝属性        cls = self.__class__        new_obj = cls.__new__(cls) # 创建一个空实例        memo[id(self)] = new_obj # 记录已拷贝的对象,处理循环引用        for k, v in self.__dict__.items():            setattr(new_obj, k, copy.deepcopy(v, memo)) # 递归深拷贝每个属性        return new_objobj1 = MyCustomObject(1, [10, 20])obj_shallow_copy = copy.copy(obj1)obj_deep_copy = copy.deepcopy(obj1)obj_shallow_copy.nested_list.append(30)print(f"Original obj1.nested_list: {obj1.nested_list}") # [10, 20, 30]obj_deep_copy.nested_list.append(40)print(f"Original obj1.nested_list: {obj1.nested_list}") # 仍然是 [10, 20, 30]

正确实现这些特殊方法,能让你的自定义类在拷贝操作中表现得符合预期。

5. 优先考虑不可变数据结构:在某些情况下,如果你的数据不需要被修改,或者你总是希望在修改时创建新版本,那么使用不可变数据结构(如元

以上就是Python 中的浅拷贝与深拷贝:区别与应用场景的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1369959.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月14日 10:07:00
下一篇 2025年12月14日 10:07:11

相关推荐

  • 如何连接并操作主流数据库(MySQL, PostgreSQL)?

    连接数据库需掌握连接参数、选择工具并理解SQL操作。编程接口如Python通过驱动库(mysql-connector-python或psycopg2)建立连接,执行SQL语句并管理事务;客户端工具如MySQL Workbench、pgAdmin提供图形化操作界面。连接失败常见原因包括认证错误、权限限…

    2025年12月14日
    000
  • 谈谈你对Python上下文管理器的理解(with语句)。

    Python的with语句通过上下文管理器协议(__enter__和__exit__方法)实现资源的自动管理,确保其在使用后无论是否发生异常都能被正确释放。它简化了try…finally结构,广泛应用于文件操作、数据库事务、线程锁、临时状态更改和测试mock等场景,提升代码可读性与可靠性…

    2025年12月14日
    000
  • 如何使用Python进行机器学习(Scikit-learn基础)?

    答案:Scikit-learn提供系统化机器学习流程,涵盖数据预处理、模型选择与评估。具体包括使用StandardScaler等工具进行特征缩放,SimpleImputer处理缺失值,OneHotEncoder编码类别特征,SelectKBest实现特征选择;根据问题类型选择分类、回归或聚类模型,结…

    2025年12月14日
    000
  • 如何用Python实现二分查找?

    二分查找基于有序数据,通过不断缩小搜索区间实现高效查找,适用于有序数组中找元素、插入位置或边界值,Python的bisect模块可简化操作,处理重复元素时需调整边界以定位首个或末个目标。 在Python中实现二分查找,核心在于利用数据已排序的特性,通过不断将搜索区间减半来高效定位目标元素。这并非什么…

    2025年12月14日
    000
  • 解释一下Python的垃圾回收机制。

    Python垃圾回收机制以引用计数为核心,辅以循环垃圾回收解决循环引用问题;通过PyObject结构体中的ob_refcnt字段实现引用计数,当对象引用计数为0时自动释放内存,同时循环垃圾回收器定期扫描并清理不可达对象;开发者可通过gc模块手动控制回收行为,但需权衡性能影响,如CPU占用、程序暂停和…

    2025年12月14日
    000
  • Pandas中高效比较两DataFrame值范围并计数匹配项

    本文探讨了在Pandas中如何高效地比较一个DataFrame的数值是否落在另一个DataFrame定义的范围内,并统计匹配数量。针对传统迭代方法的性能瓶颈,文章详细介绍了利用cross merge进行向量化操作的解决方案,包括其实现步骤、代码解析及关键注意事项,尤其强调了内存消耗问题,为数据分析师…

    2025年12月14日
    000
  • Pandas高效跨DataFrame值范围检查与匹配计数

    本文介绍了一种在Pandas中高效检查一个DataFrame的值是否落在另一个DataFrame定义范围之内的方法。针对传统迭代方式的性能瓶颈,我们提出并详细演示了如何利用cross merge操作结合条件筛选,快速计算匹配项数量,从而显著提升数据处理效率,避免了耗时的行级循环。 在数据分析和处理中…

    2025年12月14日
    000
  • 使用Pandas交叉合并高效检查DataFrame值范围

    本教程将介绍如何利用Pandas的交叉合并(cross merge)功能,高效地比较两个DataFrame中的数值范围,并统计满足特定条件的匹配项数量。针对传统迭代方法的性能瓶颈,文章提供了一种内存敏感型优化方案,通过一次性操作实现复杂的条件筛选与计数,显著提升数据处理效率。 在数据分析和处理中,我…

    2025年12月14日
    000
  • JAX vmap并行化模型集成推理:从列表结构到数组结构的转换技巧

    本教程深入探讨了在JAX中高效并行化神经网络集成模型推理的策略。当尝试使用jax.vmap处理list-of-structs(即包含多个独立模型参数的Python列表)时,常会遇到ValueError。文章详细解释了vmap作用于struct-of-arrays(即单个参数结构中包含批处理数组)的原…

    2025年12月14日
    000
  • JAX vmap 高效并行化模型集成推理:从列表到结构化数组的转换

    本文探讨了在JAX中利用jax.vmap高效并行化神经网络模型集成推理时遇到的常见问题及解决方案。当尝试对一个由多个网络参数构成的Python列表使用vmap时,常因vmap对输入结构的要求与实际不符而引发ValueError。核心在于将“结构列表”转换为“结构化数组”模式,通过jax.tree_m…

    2025年12月14日
    000
  • RESTful API 的设计与实现(FastAPI/Django REST Framework)

    RESTful API设计需平衡理论与实践,核心是资源抽象与标准操作,FastAPI和DRF分别以异步性能和Django集成优势支持高效开发;通过数据模型定义、端点规划实现接口结构化,遵循无状态原则确保可扩展性。为保障数据一致性,需结合数据库事务与幂等性设计,避免并发冲突;安全性方面,采用JWT或O…

    2025年12月14日
    000
  • Python的自省(Introspection)能力是什么?

    Python自省能力的核心机制包括type()、dir()、getattr()、hasattr()、setattr()、isinstance()等内置函数及inspect模块,它们使程序能动态检查对象类型、属性、方法和调用栈。通过这些工具,代码可在运行时探索结构、实现动态调度、构建插件系统与ORM框…

    2025年12月14日
    000
  • 你在Python项目开发中遵循哪些编码规范(PEP 8)?

    PEP 8是Python编码规范的核心,提升代码可读性与团队协作效率。我遵循4空格缩进、合理命名、适当行长、清晰空白符等原则,并结合black、flake8等工具自动化格式化。在团队中推行统一风格,避免风格争议,提升维护效率。同时灵活应对特殊情况,如使用# noqa处理例外,尊重遗留代码风格。除PE…

    2025年12月14日
    000
  • 什么是猴子补丁(Monkey Patch)?有什么风险?

    猴子补丁是一种运行时动态修改类或模块行为的技术,允许在不改动源码的情况下替换、添加或删除函数、方法和属性,常见于Python、Ruby等动态语言。其核心优势在于即时性和无侵入性,适用于热修复、测试模拟、扩展第三方库及反向移植等场景。通过示例可见,MyClass的original_method在运行时…

    2025年12月14日
    000
  • Django 的 MTV/MVC 架构理解

    Django采用MTV模式,M对应Model,负责数据和业务逻辑,通过ORM操作数据库;T对应Template,专注界面展示,使用模板语言渲染数据;V对应View,接收请求、处理逻辑并调用模板返回响应,而传统MVC中的Controller角色由URL分发器和框架机制承担,实现清晰的职责分离。 谈到D…

    2025年12月14日 好文分享
    000
  • Python中的垃圾回收机制是如何工作的?

    Python的垃圾回收机制由引用计数和分代垃圾回收共同构成,前者实时释放无引用对象,后者周期性清理循环引用,两者协同确保内存高效管理。 Python的垃圾回收机制,简而言之,就是一套自动管理内存的系统,它负责识别那些程序不再使用的对象,并将其占据的内存空间释放,以便后续可以重新分配。这套机制主要通过…

    2025年12月14日
    000
  • 如何使用Python操作数据库(SQLite/MySQL/PostgreSQL)?

    Python操作数据库的核心思路是建立连接、获取游标、执行SQL、处理结果、提交事务和关闭连接。该流程适用于SQLite、MySQL和PostgreSQL,遵循DB-API 2.0规范,接口一致,仅连接参数和库不同。SQLite轻量,适合本地开发;MySQL广泛用于Web应用;PostgreSQL功…

    2025年12月14日
    000
  • 如何用Python发送邮件?

    答案:Python发送邮件需使用smtplib和email模块,通过SMTP服务器认证连接并构造邮件内容。首先配置发件人邮箱、授权码、收件人及服务器信息,利用MIMEText创建纯文本邮件,MIMEMultipart构建多部分邮件以添加附件或HTML内容,发送时启用TLS或SSL加密,并妥善处理异常…

    2025年12月14日
    000
  • 如何对字典列表进行排序?

    使用sorted()函数配合key参数和lambda表达式可轻松对字典列表排序,支持单键、多键、升降序及缺失值处理,且Python排序稳定,能保持相同键值元素的相对顺序。 说起来,给一堆字典排个序,这事儿在Python里其实挺顺手的。核心思路就是用那个 sorted() 函数,然后关键在于给它一个 …

    2025年12月14日
    000
  • Python 教程:动态获取用户输入数字进行计算

    本文旨在帮助初学者掌握如何根据用户指定的数量,动态地获取多个数字输入,并将其存储在列表中,以便后续进行计算。通过示例代码和详细解释,您将学会如何利用循环结构和异常处理,构建一个灵活且健壮的输入模块。 在编写计算器或其他需要用户输入多个数值的程序时,硬编码输入数量显然是不灵活的。我们需要一种方法,让用…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信