在Python中的推荐系统

在python中的推荐系统

推荐系统是Python中的一个工具,它根据用户的偏好和过去的行为向用户推荐项目或内容。该技术利用算法来预测用户未来的偏好,从而为他们提供最相关的内容。

该系统的范围非常广泛,广泛应用于电子商务、流媒体服务和社交媒体等各个行业。产品、电影、音乐、书籍等都可以通过这些系统推荐。提供个性化推荐不仅有助于提高客户参与度和忠诚度,还可以促进销售。

推荐系统的类型

基于内容的推荐系统

这些操作的理念是,用户可以获得与他们以前接触过的项目相当的推荐。这种系统利用算法来查明与用户偏好非常相似的项目,目的是创建适合用户的建议列表。在此设置中,算法分析与商品相关的数据(例如其质量和用户评分),以确定提出哪些建议。

算法

步骤 1 − 导入必要的库

立即学习“Python免费学习笔记(深入)”;

第 2 步 – 加载数据集

步骤 3 – 预处理数据

步骤 4 – 计算相似性矩阵

第5步 − 对于每个用户 −

选择他们已经互动过的项目

对于在步骤5a中选择的每个项目 –

检索与所有其他项目的相似度分数

使用用户的评分作为权重,计算相似度分数的加权平均值

根据加权相似度分数按降序对项目进行排序

向用户推荐前N个项目

第六步 – 返回所有用户的推荐。

示例

import pandas as pdfrom sklearn.feature_extraction.text import TfidfVectorizerfrom sklearn.metrics.pairwise import cosine_similarity# Load datadata = pd.read_csv('movies.csv')# Compute TF-IDF vectors for each movietfidf = TfidfVectorizer(stop_words='english')tfidf_matrix = tfidf.fit_transform(data['description'])# Compute cosine similarity between all moviescosine_sim = cosine_similarity(tfidf_matrix, tfidf_matrix)# Function to get top 10 similar movies based on input moviedef get_recommendations(title):   idx = data[data['title'] == title].index[0]   sim_scores = list(enumerate(cosine_sim[idx]))   sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)   sim_scores = sim_scores[1:11]   movie_indices = [i[0] for i in sim_scores]   return data.iloc[movie_indices]# Example usage: get top 10 movies similar to 'The Godfather'get_recommendations('The Godfather')

我们从本地CSV文件加载电影数据到一个数据帧中。我们通过使用fit_transform()函数将电影描述转换为矩阵,并计算余弦相似性矩阵。

然后我们定义一个函数,它以电影标题作为参数,并在数据帧中检索电影标题的索引(如果存在)。

然后我们创建一个包含传递的电影标题与所有其他电影标题之间相似度分数的元组列表。每个元组由索引和相似度分数组成。然后我们通过索引数据框来显示电影标题的列表。

输出

                                title  783                 The Godfather   1512          The Godfather: Part II   1103                       Casino   3509  Things to Do in Denver When   1246                       Snatch   3094             Road to Perdition   2494                     Scarface   1244                    Following   2164                       Dancer   2445        The Day of the Jackal   

协同过滤推荐系统

相反,这些依赖于其他用户的数据来生成推荐。这种系统会比较各种用户的偏好和行为,然后建议其他具有类似口味的用户可能喜欢的物品。与基于内容的系统相比,协同过滤通常更准确,因为它在生成推荐时考虑了许多用户的意见。

算法

步骤 1 − 导入必要的库。

第 2 步 – 加载可提供用户评分的“ ratings.csv”文件。

第 3 步 – 创建“user_item_matrix”以将用户评分数据转换为矩阵

第 4 步 – 使用余弦相似度计算用户评分的相似度。

第 5 步 – 识别相似用户

第 6 步 – 计算平均评分。

步骤 7 – 选择目标用户 ID。

第 8 步 – 打印电影 ID 和评级。

示例

import pandas as pdfrom sklearn.metrics.pairwise import cosine_similarity# Load dataratings_data = pd.read_csv('ratings.csv')# Create user-item matrixuser_item_matrix = pd.pivot_table(ratings_data, values='rating', index='userId', columns='movieId')# Calculate cosine similarity between usersuser_similarity = cosine_similarity(user_item_matrix)# Get top n similar users for each userdef get_top_similar_users(similarity_matrix, user_index, n=10):    similar_users = similarity_matrix[user_index].argsort()[::-1]    return similar_users[1:n+1]# Get recommended items for a user based on similar usersdef get_recommendations(user_id, user_similarity, user_item_matrix, n=10):   similar_users = get_top_similar_users(user_similarity, user_id, n)   recommendations = user_item_matrix.iloc[similar_users].mean(axis=0).sort_values(ascending=False).head(n)   return recommendations# Example usageuser_id = 1recommendations = get_recommendations(user_id, user_similarity, user_item_matrix)print("Top 10 recommended movies for user", user_id)print(recommendations)

输出

Top 10 recommended movies for user 1movieId1196        5.00000050            5.0000001210        5.000000260          5.0000001198        5.0000002571        5.000000527          5.0000001197        5.0000002762        5.000000858          4.961538

结论

创建推荐系统任务可能会给程序员带来极大的复杂性,但它是一个有价值的工具,可以带来巨大的好处。利用 Python 构建推荐系统提供了多种选项,可以简化创建和定制过程。然而,与任何编码工作一样,开发推荐系统时可能会出现潜在问题。意识到这些典型的并发症并采取措施解决它们对于确保推荐系统的成功至关重要。

最终,重要的是要记住,推荐系统可以是一种非常强大的资产,因此值得投入必要的时间和精力来确保其正确构建并以最佳方式运行。

以上就是在Python中的推荐系统的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1342992.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月13日 06:04:24
下一篇 2025年12月13日 06:04:27

相关推荐

  • Python程序示例,演示字符串插值

    在Python中,我们可以使用f-string、%运算符和format()方法来演示字符串插值。字符串插值是将动态数据或变量插入字符串的过程。当使用变量或表达式形成字符串时,它非常有用,而无需使用任何字符串格式化或字符串连接。在本文中,我们将看到如何使用Python进行字符串插值。 Method 1…

    2025年12月13日
    000
  • 如何用Python编写求解最小公倍数的算法?

    如何用Python编写求解最小公倍数的算法? 最小公倍数是指两个数中能够整除这两个数的最小整数。在数学中,求解最小公倍数是一项基本的数学任务,而在计算机编程中,我们可以使用Python来编写一个求解最小公倍数的算法。下面将介绍基本的最小公倍数算法,并给出具体的代码示例。 最小公倍数的数学定义是:如果…

    2025年12月13日
    000
  • 如何使用Python实现贪心算法?

    如何使用Python实现贪心算法? 贪心算法(Greedy Algorithm)是一种简单而有效的算法,适用于解决那些具有最优子结构性质的问题。它在每一步选择中都采取当前状态下最优的选择,希望能够找到全局最优解。在本篇文章中,将介绍如何使用Python实现贪心算法,并附带具体的代码示例。 一、贪心算…

    2025年12月13日
    000
  • 如何使用Python实现基数排序算法?

    如何使用Python实现基数排序算法? 基数排序是一种根据数字的位数进行排序的算法,它将待排序的元素按照每个位上的数字进行比较和排序。在这篇文章中,我们将学习如何使用Python实现基数排序算法,并提供详细的代码示例。 算法实现步骤如下: 步骤1:找到待排序的数字中最大值,并确定最大值的位数。 立即…

    2025年12月13日
    000
  • 如何使用Python实现回归分析算法?

    如何使用Python实现回归分析算法? 回归分析是一种常用的统计方法,用于研究变量之间的关系,并预测一个变量的值。在机器学习和数据分析领域,回归分析得到广泛应用。Python作为一种流行的编程语言,在大数据分析和机器学习中拥有强大的库和工具。本文将介绍如何使用Python实现回归分析算法,并提供具体…

    2025年12月13日
    000
  • 如何用Python编写深度优先搜索算法?

    如何用Python编写深度优先搜索算法? 深度优先搜索(Depth-First Search,简称DFS)是一种常用的图遍历算法。在深度优先搜索中,从起始节点开始,不断探索邻接节点,直至无法继续探索,然后回退到上一节点,继续遍历还未探索的邻接节点,直至所有节点都被访问。 下面是一个用Python编写…

    2025年12月13日
    000
  • 如何使用Python实现SHA哈希算法?

    如何使用Python实现SHA哈希算法? SHA(安全散列算法)是一种常用的密码学哈希函数,它对任意长度的数据生成固定长度的唯一哈希值。Python中提供了hashlib模块,它包含了常用的哈希算法,包括SHA算法。本文将详细介绍如何使用Python实现SHA哈希算法,并提供相关的代码示例。 首先,…

    2025年12月13日
    000
  • 如何用Python编写动态规划算法?

    如何用Python编写动态规划算法? 动态规划算法是一种常用的问题求解方法,它通过将问题分解为子问题,并将子问题的解保存起来,从而避免重复计算,提升算法效率。Python作为一种简洁易读的编程语言,非常适合用来编写动态规划算法。本文将介绍如何用Python编写动态规划算法,并提供具体代码示例。 一、…

    2025年12月13日
    000
  • 如何用Python编写KNN算法?

    如何用Python编写KNN算法? KNN(K-Nearest Neighbors,K近邻算法)是一种简单而常用的分类算法。它的思想是通过测量不同样本之间的距离,将测试样本分类到最近的K个邻居中。本文将介绍如何使用Python编写并实现KNN算法,并提供具体的代码示例。 首先,我们需要准备一些数据。…

    2025年12月13日
    000
  • 如何使用Python实现蒙特卡洛算法?

    如何使用Python实现蒙特卡洛算法? 蒙特卡洛算法是一种基于概率的数值计算方法,常用于求解复杂问题和模拟实验。它的核心思想是通过随机抽样来近似计算无法用解析方法求解的问题。在本文中,我们将介绍如何使用Python来实现蒙特卡洛算法,并提供具体的代码示例。 蒙特卡洛算法的基本步骤如下: 定义问题:首…

    2025年12月13日
    000
  • 如何用Python编写桶排序算法?

    如何用Python编写桶排序算法? 引言:桶排序(Bucket Sort)是一种非比较排序算法,其原理是将待排序的元素分到不同的桶中,然后对每个桶中的元素进行排序,最后将所有桶中的元素依次取出即可得到排好序的结果。桶排序适用于待排序的元素在一定范围内且分布均匀的情况,时间复杂度为O(n+k),n表示…

    2025年12月13日
    000
  • python语言%表示什么意思

    python语言%是用于字符串格式化的特殊运算符,可以将变量的值插入到字符串中的特定位置,以创建动态的字符串输出。%运算符可以与格式化字符串一起使用,将变量的值插入到字符串中的占位符位置,占位符由%后面的字符指定,不同的占位符对应不同的数据类型。除了基本的字符串格式化,%运算符还支持更多的格式化选项…

    2025年12月13日
    000
  • 为什么Python允许在列表和元组的末尾使用逗号?

    Python 允许在列表和元组末尾使用逗号。它是可选的,使项目更具可读性,并且您可以重新排序项目而不会出现任何错误。如果您在末尾添加逗号,则无需一次又一次记住在每个项目后添加尾随逗号。 让我们看一些例子 – 列表 示例 在这个例子中,我们将在列表中添加一个尾随逗号,这样就不会出现任何错误…

    2025年12月13日
    000
  • 如何在Python中获取整数的符号?

    简介 Python 整数是主要数据类型之一,用于几乎所有主要的数学和逻辑运算。在Python中,整数是零、正整数或负整数,没有小数部分,并且具有无限的精度。它们可以用二进制、八进制和十六进制值表示。在本文中,我们将学习如何获取整数的符号。 使用的方法 使用与零的简单数学比较 使用数学模块的copys…

    2025年12月13日
    000
  • 如何使用Python实现马尔可夫链算法?

    如何使用Python实现马尔可夫链算法? 马尔可夫链是一种用来描述随机演化过程的数学模型。在自然语言处理、机器学习等领域,马尔可夫链被广泛应用于文本生成、语言模型等任务。本文将介绍如何使用Python实现马尔可夫链算法,并给出具体的代码示例。 一、马尔可夫链算法原理 马尔可夫链是一个离散时间的随机过…

    2025年12月13日
    000
  • 如何使用Python实现朴素贝叶斯算法?

    如何使用Python实现朴素贝叶斯算法? 导语:朴素贝叶斯算法是一种基于概率理论的分类算法,在文本分类、垃圾邮件过滤、情感分析等领域有广泛应用。本文将简要介绍朴素贝叶斯算法的原理,并给出使用Python实现朴素贝叶斯算法的代码示例。 一、朴素贝叶斯算法原理 条件概率与贝叶斯公式朴素贝叶斯算法基于条件…

    2025年12月13日
    000
  • 如何利用Python编写希尔排序算法?

    如何利用Python编写希尔排序算法? 希尔排序(Shell Sort)是一种改进的插入排序算法,它通过比较相距一定间隔的元素来移动元素,从而减少了移动的次数。希尔排序的核心思想是将待排序的元素按照一定的间隔分组,然后对每个分组进行插入排序,不断缩小间隔直至为1,最后再进行一次完整的插入排序。 下面…

    2025年12月13日
    000
  • 如何使用Python实现广度优先搜索算法?

    如何使用Python实现广度优先搜索算法? 广度优先搜索(BFS)是一种基本的图搜索算法,用于在图或树中寻找特定节点(或状态)的最短路径。它可以被广泛应用于许多领域,如寻找社交网络中最短的朋友关系链、迷宫问题的解决等。Python提供了强大的数据结构和函数库,使得实现BFS成为一项相对容易的任务。本…

    2025年12月13日
    000
  • 如何用Python编写Tarjan算法?

    如何用Python编写Tarjan算法? Tarjan算法是一种基于深度优先搜索(DFS)的图算法,用于求解强连通分量(SCC)问题。本文将介绍如何用Python编写Tarjan算法,并附上具体的代码示例。 Tarjan算法的基本思想是通过DFS遍历图中的节点,同时记录每个节点的遍历序号和最小可达序…

    2025年12月13日
    000
  • 如何用Python实现快速排序算法?

    如何用Python实现快速排序算法? 快速排序是一种常见而高效的排序算法,它能够在平均情况下以O(n log n)的时间复杂度对一个包含n个元素的列表进行排序。本文将介绍如何使用Python编写快速排序算法的代码示例。 快速排序的基本思想是选取一个元素作为基准(通常选择列表第一个元素),将列表分割成…

    2025年12月13日
    000

发表回复

登录后才能评论
关注微信