python怎么从列表中删除重复项_python列表去重高效实现方法

程序猿 • 2025年12月14日 12:07:06 • 好文分享 • 阅读 0

Python列表去重的核心思路是利用集合的唯一性或遍历记录元素。最高效方法是使用set，但不保留顺序；若需保留顺序，推荐collections.OrderedDict.fromkeys()或列表推导式结合辅助set，两者均高效且保持O(n)时间复杂度；对于不可哈希对象，可通过转换为元组或自定义__hash__和__eq__方法处理。

Python列表中删除重复项的核心思路，无非就是利用数据结构的特性（比如集合的唯一性），或者通过遍历并记录已出现过的元素来实现。最直接且高效的方法通常是借助Python内置的

set

类型，它天生就保证了元素的唯一性。如果需要保留原有顺序，则需要一些额外的技巧，比如结合

set

和列表遍历，或者利用

collections.OrderedDict

。

解决方案

说实话，每次遇到列表去重的问题，我脑子里首先跳出来的就是

set

。它简直是为去重而生。

方法一：利用

set

的特性（最简洁高效，但不保留顺序）

这是最Pythonic，也是我个人最喜欢的一种方法，尤其是在对元素顺序没有要求的时候。

set

是一个无序不重复的元素集，所以你把列表转换成

set

，它自然就把重复的元素给“过滤”掉了。

立即学习“Python免费学习笔记（深入）”；

original_list = [1, 2, 2, 3, 4, 4, 5, 1]unique_elements = list(set(original_list))print(unique_elements) # 输出可能是 [1, 2, 3, 4, 5] 或其他顺序

这个方法的优点是代码极其简洁，执行效率也相当高，尤其对于大型列表。但它有个明显的“副作用”：原始列表的顺序会丢失，因为

set

本身就是无序的。如果你对顺序有要求，那这个方法就不太合适了。

方法二：使用循环和辅助列表（保留顺序，但效率相对低）

这种方法更像是我们用“人脑”去重的方式：遍历一遍列表，看到一个元素，如果它之前没出现过，就把它加到新列表里。

original_list = [1, 2, 2, 3, 4, 4, 5, 1]unique_elements = []for item in original_list:    if item not in unique_elements:        unique_elements.append(item)print(unique_elements) # 输出: [1, 2, 3, 4, 5]

这种方法能完美保留元素的原始顺序。但效率上，当

original_list

非常大时，

item not in unique_elements

这个操作的开销会变得很大，因为它需要遍历

unique_elements

来查找，最坏情况下时间复杂度接近O(n^2)。所以，如果列表特别长，我一般会避免这种直接的循环查找。

方法三：利用

collections.OrderedDict.fromkeys()

（保留顺序，且高效）

这是一个非常优雅且高效的解决方案，它结合了字典键的唯一性和

OrderedDict

的顺序保持特性。

OrderedDict.fromkeys(iterable)

会创建一个字典，其中

iterable

中的元素作为键，值都为

None

。由于字典的键必须是唯一的，重复的元素自然就被忽略了，同时

OrderedDict

会记住键的插入顺序。

from collections import OrderedDictoriginal_list = [1, 2, 2, 3, 4, 4, 5, 1]unique_elements = list(OrderedDict.fromkeys(original_list))print(unique_elements) # 输出: [1, 2, 3, 4, 5]

我个人觉得这个方法非常巧妙，它在保证了顺序的同时，也保持了接近

set

的效率（平均O(n)）。这是我处理需要保留顺序的去重任务时，经常会用的一个“小窍门”。

方法四：使用列表推导式与辅助

set

（保留顺序，高效且Pythonic）

这其实是方法二的优化版，用一个

set

来快速判断元素是否已出现，而不是遍历

unique_elements

列表。

original_list = [1, 2, 2, 3, 4, 4, 5, 1]seen = set()unique_elements = [item for item in original_list if item not in seen and not seen.add(item)]print(unique_elements) # 输出: [1, 2, 3, 4, 5]

这里

not seen.add(item)

是一个常见的Python技巧。

set.add()

方法总是返回

None

，而

not None

是

True

。所以这个条件判断的逻辑是：如果

item

不在

seen

中，那么

item not in seen

为

True

，

seen.add(item)

会被执行（将

item

加入

seen

），然后

not seen.add(item)

也为

True

，

item

就会被加入

unique_elements

。如果

item

已经在

seen

中，那么

item not in seen

为

False

，整个条件判断就短路了，

item

不会被加入。这种写法非常Pythonic，兼顾了效率和简洁性。

Python列表去重，哪种方法最快？

要说“最快”，这其实得看具体情况和你的需求。但我们通常可以根据元素的数量级和是否需要保持顺序来做个大致的判断。

从理论上讲，基于哈希表（

set

或

dict

）的去重方法，平均时间复杂度是O(n)，这意味着处理时间与列表长度成线性关系。而那些需要遍历列表并在另一个列表中查找元素的方法，最坏情况下可能达到O(n^2)。

set()

转换法：这是最快的，毫无疑问。因为它直接利用了Python底层对哈希表的优化。如果你对元素的原始顺序不关心，或者说，去重后重新排序对你来说不是问题，那么

list(set(your_list))

绝对是首选。它的速度优势在大列表面前尤其明显。

collections.OrderedDict.fromkeys()

法：这个方法在保持原有顺序的前提下，效率也非常高，接近

set

转换法。它内部也是基于哈希表实现的，所以平均时间复杂度也是O(n)。对于需要保留顺序的场景，它是我个人认为性能和简洁性兼顾的最佳选择。

列表推导式与辅助

set

法：这种方法同样保持了O(n)的平均时间复杂度，因为它用

set

来快速判断元素是否已存在。它的性能和

OrderedDict.fromkeys()

法非常接近，在某些微基准测试中可能会略有差异，但实际应用中基本可以认为是同级别的。

循环遍历与

操作法：这是最慢的，尤其是当

unique_elements

列表变得很长时。每次

item not in unique_elements

都需要线性扫描

unique_elements

，导致总时间复杂度上升到O(n^2)。对于小列表（比如几十个元素），你可能感觉不到差异，但对于成千上万甚至更多的元素，它会显著拖慢你的程序。

总结一下我的看法：

不关心顺序，只求最快：

list(set(your_list))

，简单粗暴有效。关心顺序，同时追求效率：

list(OrderedDict.fromkeys(your_list))

或列表推导式加辅助

set

，这两者都很棒。列表非常小，且代码可读性优先：循环遍历加

in

操作也未尝不可，但要心里有数它的性能瓶颈。

我通常会根据实际项目需求和列表规模来选择。如果不是性能瓶颈，我更倾向于代码的清晰和简洁。

处理包含不可哈希对象的Python列表去重，有什么特别技巧吗？

这确实是个让人头疼的问题！当你的列表里装着一些“不听话”的家伙，比如其他列表、字典，或者自定义的、没有实现

__hash__

方法的对象时，

set()

和

OrderedDict.fromkeys()

这些依赖哈希值的“神器”就统统失效了。Python会直接给你抛出一个

TypeError: unhashable type: 'list'

之类的错误。

面对这种场景，我们得换个思路，或者说，得“曲线救国”。

技巧一：手动遍历，并自定义“相等”判断

这是最通用但也最“笨拙”的方法，但它能处理一切情况。你需要自己定义什么是“重复”。

original_list_of_lists = [[1, 2], [3, 4], [1, 2], [5, 6], [3, 4, 5]]unique_elements = []for item in original_list_of_lists:    # 这里的关键是判断 item 是否已存在于 unique_elements 中    # 对于列表，Python默认的 == 操作符会进行值比较    if item not in unique_elements:        unique_elements.append(item)print(unique_elements) # 输出: [[1, 2], [3, 4], [5, 6], [3, 4, 5]]

这种方法的核心在于

item not in unique_elements

这一步。对于列表、字典这类不可哈希对象，Python会使用它们的

__eq__

方法进行值比较。它的缺点是效率低下，和之前提到的O(n^2)方法一样，不适合处理大型列表。

技巧二：将不可哈希对象转换为可哈希的“代理”形式

这是我个人觉得比较优雅且高效的解决方案，前提是你的不可哈希对象能被可靠地转换为可哈希的形式。

对于列表的列表（list of lists）：我们可以把内部的列表转换为元组（tuple），因为元组是不可变的，因此是可哈希的。

original_list_of_lists = [[1, 2], [3, 4], [1, 2], [5, 6], [3, 4, 5]]# 将内部列表转换为元组，然后用set去重# 这里用map很简洁，也可以用列表推导式tuple_list = list(map(tuple, original_list_of_lists))unique_tuples = list(set(tuple_list))# 如果需要，再转回列表的列表unique_elements = list(map(list, unique_tuples))print(unique_elements) # 输出: [[1, 2], [3, 4], [5, 6], [3, 4, 5]] (顺序可能打乱)

如果需要保留顺序，可以结合

OrderedDict

：

from collections import OrderedDictoriginal_list_of_lists = [[1, 2], [3, 4], [1, 2], [5, 6], [3, 4, 5]]# 将内部列表转换为元组，然后用OrderedDict去重unique_tuples_ordered = list(OrderedDict.fromkeys(map(tuple, original_list_of_lists)))unique_elements_ordered = list(map(list, unique_tuples_ordered))print(unique_elements_ordered) # 输出: [[1, 2], [3, 4], [5, 6], [3, 4, 5]] (顺序保留)

对于字典的列表（list of dicts）：字典是不可哈希的。如果你想基于字典的内容去重，一个常见的做法是：

将字典转换为一个可哈希的表示，比如按键排序后的元组的元组（tuple of sorted key-value tuples）。或者，将字典序列化为JSON字符串（如果字典内容复杂且有嵌套）。

list_of_dicts = [    {'id': 1, 'name': 'Alice'},    {'id': 2, 'name': 'Bob'},    {'name': 'Alice', 'id': 1}, # 这是一个重复项，但键顺序不同    {'id': 3, 'name': 'Charlie'}]seen_hashes = set()unique_dicts = []for d in list_of_dicts:    # 将字典转换为可哈希的形式    # 确保键值对的顺序一致，以便生成相同的哈希    # 排序后的items()返回一个列表，再转为元组    dict_hashable = tuple(sorted(d.items()))     if dict_hashable not in seen_hashes:        seen_hashes.add(dict_hashable)        unique_dicts.append(d)print(unique_dicts) # 输出: [{'id': 1, 'name': 'Alice'}, {'id': 2, 'name': 'Bob'}, {'id': 3, 'name': 'Charlie'}]

这里我们通过

tuple(sorted(d.items()))

将字典转换成了一个可哈希的元组，这样就可以用

set

来快速判断是否重复了。

技巧三：自定义对象的

__hash__

和

__eq__

方法

如果你处理的是自定义类的实例，并且希望它们能被用于

set

或作为字典的键，那么你就需要在类中实现

__hash__

和

__eq__

方法。

class MyObject:    def __init__(self, id, name):        self.id = id        self.name = name    # 定义相等性：当id和name都相同时，两个MyObject实例被认为是相等的    def __eq__(self, other):        if not isinstance(other, MyObject):            return NotImplemented        return self.id == other.id and self.name == other.name    # 定义哈希值：基于id和name的哈希值    # 注意：如果两个对象相等，它们的哈希值必须相等    def __hash__(self):        return hash((self.id, self.name))    def __repr__(self):        return f"MyObject(id={self.id}, name='{self.name}')"objects = [    MyObject(1, 'A'),    MyObject(2, 'B'),    MyObject(1, 'A'), # 重复项    MyObject(3, 'C')]unique_objects = list(set(objects))print(unique_objects) # 输出: [MyObject(id=1, name='A'), MyObject(id=2, name='B'), MyObject(id=3, name='C')]

实现这两个魔法方法后，你的自定义对象就变得“哈希友好”了，可以和普通的可哈希对象一样，直接用

set

或

OrderedDict

进行去重。这是处理自定义对象去重的最“正规”也是最推荐的方式。

Python列表去重时，如何保持原有顺序？

在实际开发中，列表元素的顺序往往很重要。你可能不希望去重后，原本的排列被打乱。幸运的是，Python提供了几种既能去重又能保留原始顺序的方法。我个人在处理这类问题时，通常会在效率和代码简洁性之间做权衡。

使用

collections.OrderedDict.fromkeys()

(推荐，简洁高效)这是我个人最喜欢且最常使用的方法，因为它兼顾了效率和代码的优雅。

OrderedDict

会记住元素的插入顺序，而

fromkeys()

方法又保证了键的唯一性。

from collections import OrderedDictmy_list = ['apple', 'banana', 'orange', 'apple', 'grape', 'banana']unique_ordered_list = list(OrderedDict.fromkeys(my_list))print(unique_ordered_list) # 输出: ['apple', 'banana', 'orange', 'grape']

这个方法非常直观，一行代码就能搞定，而且底层实现基于哈希表，所以效率很高，平均时间复杂度是O(n)。这是我处理哈希able对象去重并保留顺序时的首选。

使用列表推导式与辅助

set

(推荐，Pythonic)这种方法稍微比

OrderedDict

多写几行，但它同样高效且易于理解。它通过一个

set

来记录已经见过的元素，确保只将未见过的元素添加到结果列表中。

my_list = ['apple', 'banana', 'orange', 'apple', 'grape', 'banana']seen = set()unique_ordered_list = [item for item in my_list if item not in seen and not seen.add(item)]print(unique_ordered_list) # 输出: ['apple', 'banana', 'orange', 'grape']

这里的

not seen.add(item)

是一个巧妙的用法。

set.add()

方法返回

None

，

not None

即为

True

。所以，当

item

不在

seen

中时，

item not in seen

为

True

，

seen.add(item)

被执行，并且

not seen.add(item)

也为

True

，

item

因此被添加到

unique_ordered_list

。如果

item

已在

seen

中，

item not in seen

为

False

，整个条件判断短路，

item

不会被添加。这种方式同样是O(n)的平均时间复杂度。

传统循环与辅助

set

(易理解，但不如列表推导式简洁)这其实是上面列表推导式方法的“展开版”，对于初学者来说可能更容易理解其逻辑。

my_list = ['apple', 'banana', 'orange', 'apple', 'grape', 'banana']unique_ordered_list

以上就是python怎么从列表中删除重复项_python列表去重高效实现方法的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1372185.html

app apple js json python red 代码可读性排列键值对

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

Python字符串重复：正确处理用户输入与类型转换

上一篇 2025年12月14日 12:07:00

Python怎么读取环境变量_Python环境变量读取与设置方法

下一篇 2025年12月14日 12:07:13

好文分享

如何利用BFC和inline-block解决兄弟元素间margin塌陷问题？

BFC清除兄弟元素间margin塌陷原理 margin塌陷问题当相邻的块级元素垂直排列，它们的margin可能会塌陷并重叠，称为margin塌陷。 BFC清除margin塌陷清除margin塌陷的一种常见方法是将下方元素包裹在一个新的块级格式化上下文（BFC）中，因为BFC之间不会相互影响。 d…

程序猿
2025年12月24日
6000
好文分享

如何优化CSS Grid布局中子元素排列和宽度问题？

css grid布局中的优化问题在使用css grid布局时可能会遇到以下问题：问题1：无法控制box1中li的布局 box1设置了grid-template-columns: repeat(auto-fill, 20%)，这意味着容器将自动填充尽可能多的20%宽度的列。当li数量大于5时，它们…

程序猿
2025年12月24日
9000
为什么设置 `overflow: hidden` 会导致 `inline-block` 元素错位？

overflow 导致 inline-block 元素错位解析当多个 inline-block 元素并列排列时，可能会出现错位显示的问题。这通常是由于其中一个元素设置了 overflow 属性引起的。问题现象在不设置 overflow 属性时，元素按预期显示在同一水平线上：不设置 overf…

程序猿
2025年12月24日 • 好文分享
5000
好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
3000
好文分享

面板翻页显示16张图片和信息，如何实现模块靠左显示并按行排列？

如何在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示？问题：在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果。已知信息：图片和信息使用json数据定义。使用paginationbyjs函数进行分页。使…

程序猿
2025年12月24日
0000
好文分享

如何在面板上翻页显示16个图片和信息，并实现模块靠左显示、内容按行排列？

如何设置div内的模块靠左显示，模块内容按行显示？问题：在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果。答案：要将div内的模块靠左显示，并按行排列模块内容，可以使用以下方式：给div容器添加flexbox属性： #list {…

程序猿
2025年12月24日
0000
好文分享

如何实现 div 内模块靠左显示并按行排列，且翻页显示图片和信息？

如何设置div内的模块靠左显示，模块内容按行显示？在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果中间部分里面的图片，文字显示在图片下方第二页图片靠左显示以上就是如何实现 div 内模块靠左显示并按行排列，且翻页显示图片和信息？的…

程序猿
2025年12月24日
0000
好文分享

inline-block元素错位了，是为什么？

inline-block元素错位背后的原因 inline-block元素是一种特殊类型的块级元素，它可以与其他元素行内排列。但是，在某些情况下，inline-block元素可能会出现错位显示的问题。错位的原因当inline-block元素设置了overflow:hidden属性时，它会影响元素的…

程序猿
2025年12月24日
1000
好文分享

如何让 div 内的模块靠左显示，模块内容按行排列，并在面板上实现翻页展示？

如何设置div内的模块靠左显示，模块内容按行显示？在面板上翻页显示16个图片和信息，如何设置div内的模块靠左显示，模块内容按行显示，设置了float没有效果 css 代码： #List { display: flex; flex-wrap: wrap;}#List > div { text…

程序猿
2025年12月24日
0000
好文分享

如何使用 CSS Grid 布局实现固定头部和动态渲染的子元素布局？

如何实现固定布局和遍历 div？如图所示，第一个 div 固定在页面顶部，后四个 div 通过 for 循环动态渲染在下方。询问如何实现此布局，以及是否有更好的解决方案。解决方案： grid 布局立即学习“前端免费学习笔记（深入）”； grid 布局非常适合解决此问题： html 代码：固定…

程序猿
2025年12月24日
0000
好文分享

Flex 布局中，padding-right 为何无效？

在 flex 布局中，padding-right 为何无效？在使用 flex 布局时，当父元素设置了 padding-right，而内部元素纵向排列且高度固定，并允许横向滑动时，padding-right 可能不起作用。解决此问题的一个方法是修改父元素的 width 属性。将 width: 10…

程序猿
2025年12月24日
2000
好文分享

如何用 CSS 实现固定布局和遍历生成的 DIV，使其第一个固定不动，剩余的以 1234 顺序排列？

如何实现固定布局和遍历div 如图所示，大的div固定在第一个位置，而标有1234的div则是通过for循环生成的。能否实现这样的布局，或者有更好的解决方案？解决方案：要实现这样的布局，推荐使用grid布局，它可以完美地解决这个问题。立即学习“前端免费学习笔记（深入）”；布局如下：第一个d…

程序猿
2025年12月24日
0000
如何用CSS Grid布局实现首个div固定位置，其他div自动排列？

css布使用固定布局和遍历div 如图所示，有一个大的div固定在第一个位置，里面有若干个通过for循环生成的div，编号为1、2、3、4。解决方案使用css的grid布局可以完美解决这个问题。立即学习“前端免费学习笔记（深入）”； html结构固定不动其他1 其他2 其他3 其他4 其他…

程序猿
好文分享 2025年12月24日
0000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
3000
好文分享

如何使用 Grid 布局解决固定布局和遍历 Div 问题？

解决固定布局和遍历 div 问题在开发中，我们有时需要创建固定布局中循环生成的元素。使用传统的定位方法可能比较复杂，这里为大家推荐一个完美的解决方案：grid 布局。方案：使用 grid 布局，设置容器为一行两列布局，第一个元素占据两行一列，其他元素自动排列。为容器设置边框和间距样式。为第一个…

程序猿
2025年12月24日
6000
垂直排版如何解决纵向展示文字溢出问题？

纵向展示文字溢出的省略号处理在纵向排列的文字中，传统的水平溢出省略方案变得不适用。针对这一问题，css 提供了一种优雅的解决方案：垂直排版。垂直排版方案通过 css 的 writing-mode 属性，可以将原先水平排列的文字垂直排列。具体代码如下： p { writing-mode: ver…

程序猿
好文分享 2025年12月24日
0000
好文分享

如何实现与设计稿一致的前端进度条？

前端进度条的实现方案及优化方法要实现一个如设计稿所示的进度条，以下是一些思路：自定义原生进度条优点：可高度定制，可以满足各种特殊需求。缺点：需要自己编写所有代码，包括圆环效果和鼠标移上提示信息。立即学习“前端免费学习笔记（深入）”；基于 Element-UI 进度条优点：使用现成组件，可…

程序猿
2025年12月24日
0000
好文分享

掌握 Flexbox：我关于构建响应式布局的学习笔记

好吧，喝杯咖啡（或者茶，我们不评判），让我们深入flexbox的世界！如果您曾因试图让网页在任何设备上看起来都不错而感到沮丧 – 别担心，您并不孤单。 flexbox 来拯救世界，相信我，它并不像听起来那么可怕！ flexbox 到底是什么？ flexbox 就像您的个人布局助手，可以…

程序猿
2025年12月24日
0000
好文分享

如何使用 CSS 实现横向排列带横线和圆圈的元素？

一个 CSS 样式的实现如何使用 CSS 实现上图中红框所示的效果？其中，横向排列、内容居中，并且有横线和圆圈。解答：要实现该效果，需要使用多个 CSS 属性：立即学习“前端免费学习笔记（深入）”；横向排列和内容居中：使用元素并将其 text-align 属性设置为 “ce…

程序猿
2025年12月24日
3000
如何用 CSS 实现图中所示的点线效果？

如何用 CSS 实现图中的点线效果？要实现图中所示的效果，可以按照以下步骤进行：放置元素首先，将元素水平排列并设置文本居中。这可以使用 text-align:center 属性来实现。创建横线最简单的创建横线的方法是使用上边框，但要注意第一个和最后一个元素的横线会缺一半。立即学习“前端免…

程序猿
好文分享 2025年12月24日
1000