python中set数据类型怎么用_python集合set数据类型操作方法

程序猿 • 2025年12月14日 11:23:19 • 用户投稿 • 阅读 0

Python中的set是无序且元素唯一的集合，适用于快速成员检测、去重和集合运算。通过花括号{}或set()创建，支持add、remove、discard等操作，并提供交集(&)、并集(|)、差集(-)、对称差集(^)等数学运算。与列表和元组不同，set不支持索引，元素必须可哈希，常用于高效去重和集合关系处理。注意空集合需用set()创建，且集合操作性能高但内存占用较大。

Python中的

set

数据类型本质上是一个无序且元素唯一的集合。它最核心的用处，在我看来，就是快速地进行成员检测、去除序列中的重复项，以及执行各种数学意义上的集合操作，比如求交集、并集和差集。当你需要处理一系列不关心顺序但又要求元素不能重复的数据时，

set

往往是那个最直接、最高效的选择。

解决方案

使用Python的

set

数据类型其实非常直观。你可以通过两种主要方式来创建它：

直接使用花括号

{}

：

my_set = {1, 2, 3, 4, 1} # 重复的1会被自动去除print(my_set) # 输出: {1, 2, 3, 4} (顺序可能不同)

需要注意的是，创建一个空的

set

不能直接用

{}

，因为这会创建一个空的字典。你应该使用

set()

。

立即学习“Python免费学习笔记（深入）”；

使用

set()

构造函数：

empty_set = set()print(empty_set) # 输出: set()from_list = set([1, 2, 2, 3])print(from_list) # 输出: {1, 2, 3}from_string = set("hello")print(from_string) # 输出: {'o', 'e', 'l', 'h'} (同样，顺序不确定，且字符唯一)

添加和删除元素：

add(element)

：向集合中添加一个元素。如果元素已存在，集合不会改变。

my_set.add(5)my_set.add(2) # 2已存在，无变化print(my_set) # 输出: {1, 2, 3, 4, 5}

remove(element)

：从集合中移除一个元素。如果元素不存在，会引发

KeyError

。

my_set.remove(5)# my_set.remove(99) # 这会引发KeyErrorprint(my_set) # 输出: {1, 2, 3, 4}

discard(element)

：与

remove()

类似，但如果元素不存在，不会引发错误。这在你不确定元素是否存在时非常有用。

my_set.discard(4)my_set.discard(99) # 不会报错print(my_set) # 输出: {1, 2, 3}

pop()

：随机移除并返回集合中的一个元素。由于

set

是无序的，你无法预测哪个元素会被移除。如果集合为空，会引发

KeyError

。

popped_element = my_set.pop()print(f"移除的元素: {popped_element}, 剩余集合: {my_set}")

clear()

：移除集合中的所有元素，使其变为空集。

my_set.clear()print(my_set) # 输出: set()

集合操作：

set

最强大的地方在于它能直接进行数学上的集合运算。

并集 (Union)：

或

union()

set_a = {1, 2, 3}set_b = {3, 4, 5}union_set = set_a | set_bprint(union_set) # 输出: {1, 2, 3, 4, 5}print(set_a.union(set_b)) # 同样输出: {1, 2, 3, 4, 5}

交集 (Intersection)：

或

intersection()

intersection_set = set_a & set_bprint(intersection_set) # 输出: {3}print(set_a.intersection(set_b)) # 同样输出: {3}

差集 (Difference)：

或

difference()

(A – B 表示在A中但不在B中的元素)

difference_set = set_a - set_bprint(difference_set) # 输出: {1, 2}print(set_a.difference(set_b)) # 同样输出: {1, 2}

对称差集 (Symmetric Difference)：

或

symmetric_difference()

(在A或B中，但不同时在两者中的元素)

symmetric_difference_set = set_a ^ set_bprint(symmetric_difference_set) # 输出: {1, 2, 4, 5}print(set_a.symmetric_difference(set_b)) # 同样输出: {1, 2, 4, 5}

成员检测和子集/超集判断：

element in my_set

：检查元素是否存在于集合中，效率极高。

print(1 in set_a) # 输出: Trueprint(9 in set_a) # 输出: False

issubset()

<=

：判断一个集合是否是另一个集合的子集。

set_c = {1, 2}print(set_c.issubset(set_a)) # 输出: Trueprint(set_c <= set_a) # 同样输出: True

issuperset()

>=

：判断一个集合是否是另一个集合的超集。

print(set_a.issuperset(set_c)) # 输出: Trueprint(set_a >= set_c) # 同样输出: True

isdisjoint()

：判断两个集合是否没有共同的元素（不相交）。

set_d = {6, 7}print(set_a.isdisjoint(set_d)) # 输出: Trueprint(set_a.isdisjoint(set_b)) # 输出: False (因为有共同元素3)

Python集合（Set）与列表（List）或元组（Tuple）有什么本质区别？

这个问题问得很好，因为这三者在Python中都是用来存储多个元素的，但它们的设计哲学和适用场景却大相径庭。理解这些差异，是高效选择数据结构的关键。

首先，最核心的区别在于元素的唯一性和元素的顺序性。

列表（List）：它是有序的，可以包含重复的元素。你可以通过索引访问任何位置的元素，并且列表是可变的，意味着你可以添加、删除或修改其中的元素。我们平时处理序列数据，比如一串用户操作记录、一份商品清单（即使商品有重复），列表总是首选。它的有序性保证了数据的输入和输出顺序一致，这在很多业务逻辑中是不可或缺的。

my_list = [1, 2, 3, 2, 1]print(my_list[0]) # 输出: 1my_list.append(4)print(my_list) # 输出: [1, 2, 3, 2, 1, 4]

元组（Tuple）：它也是有序的，可以包含重复的元素，但它是不可变的。一旦创建，就不能修改其内容。这使得元组在某些场景下比列表更安全，例如作为函数参数传递时，可以确保其内容不会被意外修改。同时，由于其不可变性，元组可以作为字典的键，或者作为集合的元素（而列表不行）。我个人觉得元组更像是一种“固定不变的记录”，比如坐标

(x, y)

、日期

(year, month, day)

等。

my_tuple = (1, 2, 3, 2, 1)print(my_tuple[0]) # 输出: 1# my_tuple.append(4) # 这会报错，元组不可变

集合（Set）：这是今天的主角。它最大的特点是无序的，并且只存储唯一的元素。这意味着你不能通过索引来访问集合中的元素，而且当你创建一个包含重复元素的集合时，重复项会自动被去除。集合是可变的，你可以添加或删除元素，但集合中的元素本身必须是不可变的（可哈希的）。这种设计让它在处理“成员资格”和“去重”问题时表现出色。当你只关心“有什么”而不关心“有多少个”或“在什么位置”时，

set

就是你的最佳拍档。

my_set = {1, 2, 3, 2, 1}print(my_set) # 输出: {1, 2, 3} (顺序不确定)# print(my_set[0]) # 这会报错，集合无序，不支持索引my_set.add(4)print(my_set) # 输出: {1, 2, 3, 4}

从性能角度看，由于

set

内部是基于哈希表实现的，它在进行成员检测（

in

操作）时通常比列表和元组快得多，平均时间复杂度是O(1)，而列表和元组是O(n)。所以，如果你有一个庞大的数据集，需要频繁检查某个元素是否存在，

set

无疑是更好的选择。

如何在Python中高效地处理重复数据并进行集合运算？

在Python中，

set

数据类型简直就是为“去重”和“集合运算”量身定制的。我经常在数据清洗和分析任务中用到它，它的简洁和效率确实能省下不少力气。

高效去重：

最常见的场景就是从一个列表中去除重复项。

set

提供了一种非常Pythonic且高效的方法：

# 假设我们有一份日志，里面有很多重复的IP地址log_ips = ["192.168.1.1", "10.0.0.5", "192.168.1.1", "172.16.0.10", "10.0.0.5"]# 去重只需要一步unique_ips = list(set(log_ips))print(unique_ips) # 输出: ['192.168.1.1', '10.0.0.5', '172.16.0.10'] (顺序不定)# 如果你不需要保持列表形式，直接用set就可以unique_ips_set = set(log_ips)print(unique_ips_set)

这种方法利用了

set

自动去重的特性，然后如果需要，再转换回列表。对于大型列表，这种方式比手动遍历并检查元素是否已存在要快得多。

高效集合运算：

set

的另一个强大之处在于它对数学集合运算的原生支持，这使得处理复杂的数据关系变得非常直观。

找出共同的元素 (交集)：假设我们有两个用户群体的ID列表，想知道哪些用户同时属于这两个群体。

group_a_users = {101, 103, 105, 107, 109}group_b_users = {105, 107, 110, 112, 114}common_users = group_a_users.intersection(group_b_users)# 或者 common_users = group_a_users & group_b_usersprint(f"共同用户: {common_users}") # 输出: 共同用户: {105, 107}

合并所有元素 (并集)：如果你想知道所有参与过这两个群体的用户有哪些。

all_users = group_a_users.union(group_b_users)# 或者 all_users = group_a_users | group_b_usersprint(f"所有用户: {all_users}") # 输出: 所有用户: {101, 103, 105, 107, 109, 110, 112, 114}

找出特定群体独有的元素 (差集)：想知道A群组中有哪些用户不在B群组中。

a_only_users = group_a_users.difference(group_b_users)# 或者 a_only_users = group_a_users - group_b_usersprint(f"A群组独有用户: {a_only_users}") # 输出: A群组独有用户: {101, 103, 109}

找出在任一群组但不同时在两个群组的元素 (对称差集)：这在找出两个集合中“不重叠”的部分时很有用。

exclusive_users = group_a_users.symmetric_difference(group_b_users)# 或者 exclusive_users = group_a_users ^ group_b_usersprint(f"任一群组独有用户: {exclusive_users}") # 输出: 任一群组独有用户: {101, 103, 109, 110, 112, 114}

这些操作不仅代码简洁，而且在Python底层都经过高度优化，对于处理大规模数据集时，性能表现通常非常出色。

另外，值得一提的是

frozenset

。它是

set

的不可变版本。这意味着一旦创建，就不能再添加或删除元素。

frozenset

的一个主要用途是作为字典的键，或者作为另一个

set

的元素，因为

set

的元素必须是可哈希的（即不可变的）。

frozen_set_example = frozenset([1, 2, 3])# my_set_of_sets = {frozen_set_example, frozenset([3, 4])} # 这样是合法的# my_set_of_sets = {{1, 2}, {3, 4}} # 这样会报错，因为普通的set是可变的，不可哈希

Python Set操作中常见的陷阱与性能考量有哪些？

尽管

set

非常强大和高效，但在实际使用中，我们还是会遇到一些需要注意的地方，特别是关于它的特性和性能边界。我个人在项目里就踩过几个小坑，所以总结了一些经验。

常见的陷阱：

空花括号

{}

创建的是字典，不是空集合。这是初学者最容易犯的错误之一。如果你想创建一个空的

set

，必须使用

set()

。

empty_dict = {}print(type(empty_dict)) # 输出: empty_set = set()print(type(empty_set)) # 输出:

这个细节很重要，因为如果你误用

{}

并期望它是一个集合，后续的集合操作都会失败。

集合的元素必须是可哈希的（Hashable）。这意味着集合不能包含可变的数据类型，比如列表（

list

）、字典（

dict

）或其他集合（

set

）。如果你尝试将这些可变对象添加到集合中，Python会抛出

TypeError: unhashable type

。

# valid_set = {[1, 2]} # 这会报错！list是不可哈希的valid_set = {1, "hello", (1, 2)} # 数字、字符串、元组都是可哈希的print(valid_set)

这是因为

set

内部依赖元素的哈希值来快速查找和存储，而可变对象的哈希值可能会改变，这会破坏集合的内部结构。如果确实需要存储集合的集合，可以考虑使用

frozenset

作为内部元素。

remove()

与

discard()

的选择。前面提到过，

remove()

在元素不存在时会抛出

KeyError

，而

discard()

则不会。在编写代码时，需要根据你的业务逻辑来选择。

如果你确定元素一定存在，或者你希望在元素不存在时明确捕获这个错误并处理，使用

remove()

。如果你不确定元素是否存在，只是想“尝试”移除它，并且不希望程序因为元素不存在而中断，那么

discard()

是更安全的选项。

pop()

的随机性。由于

set

是无序的，

pop()

方法移除哪个元素是不可预测的。这意味着你不能依赖

pop()

来按照特定顺序获取或移除元素。如果需要按顺序处理，最好先将集合转换为列表并排序。

性能考量：

成员检测 (

操作) 的高效性。这是

set

最显著的性能优势之一。平均情况下，检查一个元素是否在集合中，时间复杂度是O(1)（常数时间）。这意味着无论集合有多大，查找一个元素所需的时间大致相同。相比之下，在列表中查找元素是O(n)（线性时间），随着列表增大，查找时间会线性增长。

import timelarge_list = list(range(1_000_000))large_set = set(large_list)# 列表查找start = time.time()_ = 999_999 in large_listend = time.time()print(f"列表查找耗时: {end - start:.6f}秒")# 集合查找start = time.time()_ = 999_999 in large_setend = time.time()print(f"集合查找耗时: {end - start:.6f}秒")# 通常会看到集合查找快得多

因此，当你的核心需求是频繁地进行成员资格测试时，

set

是毋庸置疑的首选。

内存占用。

set

在存储元素时，需要为每个元素计算哈希值，并将其存储在一个哈希表中。这通常意味着

set

会比存储相同元素的列表占用更多的内存，因为它需要额外的空间来维护哈希表的结构。对于内存敏感的应用，这可能是一个需要权衡的因素。

集合操作的效率。像并集、交集、差集这样的集合操作，在

set

上执行也是非常高效的，通常是O(min(len(s1), len(s2))) 或 O(len(s1) + len(s2))，具体取决于操作类型。Python底层对这些操作进行了高度优化，使得它们在处理大量数据时表现出色。

创建集合的开销。从一个列表或其他可迭代对象创建

set

时，Python需要遍历所有元素并计算它们的哈希值，这会有一定的初始化开销。如果你的数据量非常大，并且只需要进行一次性操作（比如去重后就不再使用集合的特性），那么这个创建成本也需要考虑。

总的来说，

set

是一个非常强大的工具，但了解它的这些特性和限制，可以帮助我们更好地利用它，避免不必要的错误，并在性能和内存之间做出明智的权衡。

以上就是python中set数据类型怎么用_python集合set数据类型操作方法的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1371367.html

app python 内存占用区别可迭代对象工具

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

向 Python Dash 应用的 Plotly 图表模式栏添加全屏图标

上一篇 2025年12月14日 11:23:11

python中什么是列表推导式_Python列表推导式概念与实战

下一篇 2025年12月14日 11:23:28

用户投稿

composer require-dev和require有什么不同_Composer Require与Require-Dev区别解析

require用于声明项目运行必需的依赖，如框架、数据库组件和第三方SDK，这些包会随项目部署到生产环境；2. require-dev用于声明仅在开发和测试阶段需要的工具，如PHPUnit、PHPStan、Faker等，不会默认部署到生产环境；3. 安装时composer install根据环境决定…

程序猿
2026年5月10日
10000
Matplotlib 地图中多类型图例的创建与优化

本教程旨在解决matplotlib地图可视化中，如何在一个图例中同时展示颜色块（如区域分类）和自定义标记（如特定兴趣点）的问题。文章详细介绍了当传统`patch`对象无法正确显示标记时，如何利用`matplotlib.lines.line2d`创建标记图例句柄，并将其与颜色块图例句柄合并，从而生成一…

程序猿
2026年5月10日 • 用户投稿
9000
用户投稿

利用海象运算符简化条件赋值：Python教程与最佳实践

本文旨在探讨Python中海象运算符（:=）在条件赋值场景下的应用。通过对比传统if/else语句与海象运算符，以及条件表达式，分析海象运算符在简化代码、提高可读性方面的优势与局限性。并通过具体示例，展示如何在列表推导式等场景下合理使用海象运算符，同时强调其潜在的复杂性及替代方案，帮助开发者更好地掌…

程序猿
2026年5月10日
3000
用户投稿

Debian syslog性能优化技巧有哪些

提升Debian系统syslog (通常基于rsyslog)性能，关键在于精简配置和高效处理日志。以下策略能有效优化日志管理，提升系统整体性能：精简配置，高效加载: 在rsyslog配置文件中，仅加载必要的输入、输出和解析模块。使用全局指令设置日志级别和格式，避免不必要的处理。自定义模板: 创…

程序猿
2026年5月10日
0000
用户投稿

比特币新手教程比特币交易平台有哪些

比特币是一种去中心化的数字货币，基于区块链技术实现点对点交易，具有匿名性、有限发行和不可篡改等特点；新手可通过交易所购买，P2P交易获得比特币，常用平台包括Binance、OKX和Huobi；交易流程包括注册账户、实名认证、绑定支付方式、充值法币并下单购买，可选择市价单或限价单；比特币存储方式有交易…

程序猿
2026年5月10日
0000
用户投稿

c++中的SFINAE技术是什么_c++模板编程中的SFINAE原理与应用

SFINAE 是“替换失败不是错误”的原则，指模板实例化时若参数替换导致错误，只要存在其他合法候选，编译器不报错而是继续重载决议。它用于条件启用模板、类型检测等场景，如通过 decltype 或 enable_if 控制函数重载，实现类型特征判断。尽管 C++20 引入 Concepts 简化了部分…

程序猿
2026年5月10日
0000
用户投稿

RichHandler与Rich Progress集成：解决显示冲突的教程

在使用rich库的`richhandler`进行日志输出并同时使用`progress`组件时，可能会遇到显示错乱或溢出问题。这通常是由于为`richhandler`和`progress`分别创建了独立的`console`实例导致的。解决方案是确保日志处理器和进度条组件共享同一个`console`实例…

程序猿
2026年5月10日
3000
用户投稿

Golang goroutine与channel调试技巧

使用go run -race检测数据竞争，结合runtime.NumGoroutine监控协程数量，通过pprof分析阻塞调用栈，利用select超时避免永久阻塞，有效排查goroutine泄漏、死锁和数据竞争问题。 Go语言的goroutine和channel是并发编程的核心，但它们也带来了调试上…

程序猿
2026年5月10日
0000
用户投稿

使用 Jupyter Notebook 进行探索性数据分析

Jupyter Notebook通过单元格实现代码与Markdown结合，支持数据导入（pandas）、清洗（fillna）、探索（matplotlib/seaborn可视化）、统计分析（describe/corr）和特征工程，便于记录与分享分析过程。 Jupyter Notebook 是进行探索性…

程序猿
2026年5月10日
0000
用户投稿

php常量怎么用_PHP常量（define/const）定义与使用方法

PHP中可通过define函数和const关键字定义常量，用于存储不可变值。define适用于全局作用域，支持动态名称和条件定义，如define(‘SITE_NAME’, ‘MyWebsite’)；const在编译时生效，语法简洁但限制多，只能在类或全…

程序猿
2026年5月10日
0000
用户投稿

网站标题关键词更新后，搜索引擎为何仍显示旧标题？

网站标题更新后，搜索引擎为何显示旧标题？网站SEO优化中，站长常修改网站标题关键词，期望搜索结果显示自定义标题。然而，即使更新标签、meta keywords、meta description和结构化数据中的name属性后，搜索结果仍显示旧标题，这令人费解。本文将对此进行解释。问题：站长修改了网…

程序猿
2026年5月10日
3000
用户投稿

深入理解 Express.js 中 next() 参数的作用与中间件机制

本文深入探讨 express.js 中间件函数中的 `next()` 参数。它负责将控制权传递给请求-响应周期中的下一个中间件或路由处理程序。文章将详细解释 `next()` 的工作原理、中间件的注册与执行顺序，以及不正确使用 `next()` 可能导致请求挂起的风险，并通过代码示例和实际应用场景，…

程序猿
2026年5月10日
0000
用户投稿

Python命令怎样使用profile分析脚本性能 Python命令性能分析的基础教程

使用Python的cProfile模块分析脚本性能最直接的方式是通过命令行执行python -m cProfile your_script.py，它会输出每个函数的调用次数、总耗时、累积耗时等关键指标，帮助定位性能瓶颈；为进一步分析，可将结果保存为文件python -m cProfile -o ou…

程序猿
2026年5月10日
0000
如何插入查询结果数据_SQL插入Select查询结果方法

使用INSERT INTO…SELECT语句可高效插入数据，通过NOT EXISTS、LEFT JOIN、MERGE语句或唯一约束避免重复；表结构不一致时可通过别名、类型转换、默认值或计算字段处理；结合存储过程可提升可维护性，支持参数化与动态SQL。将查询结果数据插入到另一个表中，可以…

程序猿
2026年5月10日 • 用户投稿
4000
用户投稿

Python递归函数追踪与性能考量：以序列打印为例

本文深入探讨了Python中一种递归打印序列元素的方法，并着重演示了如何通过引入缩进参数来有效追踪递归函数的执行流程和参数变化。通过实际代码示例，文章揭示了递归调用可能带来的潜在性能开销，特别是对调用栈空间的需求，以及Python默认递归深度限制可能导致的错误，为读者提供了理解和优化递归算法的实用见…

程序猿
2026年5月10日
3000
用户投稿

python中zip函数详解 python多序列压缩zip函数应用场景

zip函数的应用场景包括：1) 同时遍历多个序列，2) 合并多个列表的数据，3) 数据分析和科学计算中的元素运算，4) 处理csv文件，5) 性能优化。zip函数是一个强大的工具，能够简化代码并提高处理多个序列时的效率。在Python中，zip函数是一个非常有用的工具，它能够将多个可迭代对象打包成…

程序猿
2026年5月10日
3000
用户投稿

JavaScript 闭包：理解闭包原理与内存泄漏问题

闭包是函数访问其外部作用域变量的能力，即使外部函数已执行完毕。如 inner 函数引用 outer 中的 count，形成闭包，使变量持久存在。闭包本身无害，但可能因延长变量生命周期导致内存泄漏，例如事件监听器引用大对象时。若未及时清理 DOM 事件或定时器，闭包会阻止垃圾回收，造成内存占用过高。解…

程序猿
2026年5月10日
1000
谷歌浏览器如何截图谷歌浏览器页面截图技巧

使用谷歌浏览器的开发者工具截图步骤：1. 按ctrl+shift+i（windows/linux）或cmd+option+i（mac）打开开发者工具。2. 点击右上角三个点，选择”更多工具”，再选择”截图”。3. 选择截取整个页面。推荐的谷歌浏览器扩展…

程序猿
2026年5月10日 • 用户投稿
1000
用户投稿

Python中怎样使用pymongo？

在python中使用pymongo可以轻松地与mongodb数据库进行交互。1)安装pymongo：pip install pymongo。2)连接到mongodb：from pymongo import mongoclient; client = mongoclient(‘mongod…

程序猿
2026年5月10日
0000
用户投稿

JS如何实现迭代器？迭代器协议

JavaScript中实现迭代器需遵循可迭代协议和迭代器协议，通过定义[Symbol.iterator]方法返回具备next()方法的迭代器对象，从而支持for…of和展开运算符；该机制统一了数据结构的遍历接口，实现惰性求值，适用于自定义对象、树、图及无限序列等复杂场景，提升代码通用性与…

程序猿
2026年5月10日
3000