Python数据挖掘入门与实践:Apriori算法代码如何避免频繁项集重复计数?

python数据挖掘入门与实践》apriori算法代码优化:避免频繁项集重复计数

本文针对《Python数据挖掘入门与实践》一书中Apriori算法代码片段中存在的重复计数问题,提出改进方案。原代码在寻找频繁2-项集时,由于遍历所有可能的1-项集,导致相同的2-项集被多次计算。

问题描述:

原代码片段如下:

from collections import defaultdictdef find_frequent_itemsets(favorable_reviews_by_users, k_1_itemsets, min_support):    counts = defaultdict(int)    for user, reviews in favorable_reviews_by_users.items():        for itemset in k_1_itemsets:            if itemset.issubset(reviews):                for other_reviewed_movie in reviews - itemset:                    current_superset = itemset | frozenset((other_reviewed_movie,))                    counts[current_superset] += 1    return dict([(itemset, frequency) for itemset, frequency in counts.items() if frequency >= min_support])

当用户评论集合为 {a, b} 时,算法会分别以 {a}{b} 作为 itemset 进行计算,分别生成 {a, b}{b, a},由于 frozenset({a, b}) == frozenset({b, a}),导致 {a, b} 被重复计数。

立即学习“Python免费学习笔记(深入)”;

改进方案:

为了避免重复计数,可以采用以下两种方法:

方法一:计数前检查

counts[current_superset] += 1 之前,检查 current_superset 是否已存在于 counts 中。如果存在,则直接累加计数;否则,新增计数。

from collections import defaultdictdef find_frequent_itemsets_improved1(favorable_reviews_by_users, k_1_itemsets, min_support):    counts = defaultdict(int)    for user, reviews in favorable_reviews_by_users.items():        for itemset in k_1_itemsets:            if itemset.issubset(reviews):                for other_reviewed_movie in reviews - itemset:                    current_superset = itemset | frozenset((other_reviewed_movie,))                    counts[current_superset] +=1 #直接计数,避免重复    return dict([(itemset, frequency) for itemset, frequency in counts.items() if frequency >= min_support])

方法二:排序后生成项集

在生成 current_superset 之前,对 itemsetother_reviewed_movie 进行排序,确保所有项集的元素顺序一致。这样可以保证相同的项集只会被计算一次。

from collections import defaultdictdef find_frequent_itemsets_improved2(favorable_reviews_by_users, k_1_itemsets, min_support):    counts = defaultdict(int)    for user, reviews in favorable_reviews_by_users.items():        for itemset in k_1_itemsets:            if itemset.issubset(reviews):                for other_reviewed_movie in sorted(list(reviews - itemset)): #排序                    current_superset = frozenset(sorted(list(itemset | frozenset((other_reviewed_movie,))))) #排序                    counts[current_superset] += 1    return dict([(itemset, frequency) for itemset, frequency in counts.items() if frequency >= min_support])

总结:

方法二比方法一效率更高,因为它避免了重复的计数检查。 两种方法都能有效解决原代码中频繁项集重复计数的问题,得到正确的频繁2-项集。 选择哪种方法取决于具体的性能需求和代码风格偏好。 建议读者在学习Apriori算法时,理解其原理,并尝试改进代码以提高效率和准确性。

Python数据挖掘入门与实践:Apriori算法代码如何避免频繁项集重复计数?

以上就是Python数据挖掘入门与实践:Apriori算法代码如何避免频繁项集重复计数?的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1357629.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月13日 21:07:31
下一篇 2025年12月13日 21:07:42

相关推荐

发表回复

登录后才能评论
关注微信