Netflix,但更好

netflix,但更好

免责声明:本项目与Netflix无关,仅为技术实验。

超越Netflix:构建更智能的电影推荐系统

Netflix作为流媒体巨头,拥有超过2亿用户和17000多部电影及电视节目,其推荐系统功不可没。该系统基于用户观看历史、相似节目、用户趋势和热门剧集等数据进行推荐。但如果我们能以更简便的方式复制这一功能呢?

本项目旨在构建一个简易的电影推荐系统,包含直接搜索、基于向量的推荐引擎以及AI内容推荐功能。

技术选型

本应用基于Next.js、Tailwind CSS和shadcn UI构建。项目灵感源于Tejas Kumar的DataStax电影推荐系统演讲,技术选型则借鉴了Lee Robinson的库存项目。为确保性能,我们使用Next.js的服务器端渲染(SSR)功能及图像组件进行图像预渲染和积极预取。数据存储采用Neon Cloud PostgreSQL数据库,Vercel AI SDK用于嵌入式搜索,并使用Prisma作为ORM。

数据准备

我们使用Kaggle上的开源数据集,包含8000多部电影和电视节目(CSV格式),直接导入数据库。OMDb API用于获取海报图像和IMDb评分。演示CSV文件使用cast作为列名,但在数据库中,我们使用_cast避免与数据库函数冲突。

COPY tmp_titles (show_id, title, description, director, genres, _cast, production_country, release_date, rating, duration)FROM '/data/netflix_titles.csv'DELIMITER ','CSV HEADER;

为建立表间关系,我们创建了多个表,shows表作为主要数据来源:

CREATE TABLE "shows" (    "id" SERIAL PRIMARY KEY NOT NULL,    "title" TEXT NOT NULL,    "poster" TEXT, -- 海报图片URL    "description" TEXT, -- 简短描述    "release_year" INTEGER, -- 发行年份    "duration" TEXT, -- 时长    "imdb_score" NUMERIC, -- IMDb评分    "imdb_id" TEXT, -- IMDb ID    "content_type" TEXT -- 类型 (电影或剧集));

接下来,创建actors表并建立与shows表的多对多关系:

CREATE TABLE "actors" (    "id" SERIAL PRIMARY KEY NOT NULL,    "name" TEXT NOT NULL,    CONSTRAINT "actors_name_unique" UNIQUE("name"));CREATE TABLE "show_actors" (    "show_id" INTEGER NOT NULL,    "actor_id" INTEGER NOT NULL,    CONSTRAINT "show_actors_show_id_actor_id_pk" PRIMARY KEY("show_id", "actor_id"));

这使得我们可以关联节目和演员。通过递归,可以将演员链接到他们出演的节目。这通过匹配tmp_titles表中的节目和shows表,并解析_cast列来实现。

-- 将tmp_titles._cast中的演员插入actors表WITH RECURSIVE split_cast AS (    SELECT DISTINCT -- 去除空格并以逗号分割_cast字符串        TRIM(UNNEST(STRING_TO_ARRAY(_cast, ','))) AS actor_name    FROM tmp_titles    WHERE _cast IS NOT NULL)INSERT INTO actors (name)SELECT actor_nameFROM split_castWHERE actor_name != '' -- 跳过空字符串ON CONFLICT (name) DO NOTHING;

类似过程应用于类别、导演和国家表。

全文搜索

为提升搜索功能,我们在shows表中添加search_text列,存储标题、描述、类型、演员、导演和类别的文本组合,方便全文搜索。我们使用PostgreSQL的pg_trgm扩展提高搜索效率。

-- 创建文本搜索扩展CREATE EXTENSION IF NOT EXISTS pg_trgm;-- 添加search_text列ALTER TABLE "shows"ADD COLUMN "search_text" TEXT;-- 创建search_text列索引CREATE INDEX "idx_shows_search_text_tsv" ON "shows" USING gin (to_tsvector('english', "search_text"));

迁移完成后,我们可以使用脚本填充search_text列:

// ... (代码片段,用于填充search_text列) ...

现在,我们可以使用search_text列执行全文搜索:

// ... (代码片段,用于执行全文搜索) ...

to_tsvectorto_tsquery函数用于匹配向量和查询。

基于AI嵌入的向量搜索

全文搜索功能强大,但不足以满足所有需求。我们需要支持语义搜索,用户可以根据给定标题或抽象标准查找相似节目。

Vercel AI SDK可以创建元数据的向量表示(嵌入),增强语义搜索。我们使用Mistral模型:

// ... (代码片段,使用Mistral模型生成嵌入) ...

我们定义Zod模式用于AI生成嵌入:

// ... (代码片段,定义Zod模式) ...

使用该模式,我们可以要求AI模型分析节目信息并生成元数据:

// ... (代码片段,生成元数据) ...

结果类似于《绝命毒师》的元数据:

// ... (《绝命毒师》的元数据JSON) ...

使用此元数据,我们在shows表中存储每个节目的嵌入,启用向量搜索。创建必要的扩展并添加新列:

-- 创建扩展CREATE EXTENSION IF NOT EXISTS vector;-- 添加embedding列ALTER TABLE "shows"ADD COLUMN "embedding" vector(1024);-- 创建embedding列索引CREATE INDEX "embeddingindex" ON "shows" USING ivfflat ("embedding" vector_cosine_ops);

然后,使用AI SDK生成并存储嵌入:

// ... (代码片段,生成并存储嵌入) ...

现在,我们可以查询最近邻:

// ... (代码片段,查询最近邻) ...

未来展望

您可以克隆项目仓库并在本地运行。实时演示链接(此处应插入链接)。您可以添加新功能,例如新的推荐类型或使用OpenAI或Gemini改进搜索。还可以扩展数据集,添加更多元数据。

总结

通过PostgreSQL、Next.js和AI驱动的嵌入,我们可以构建高效可扩展的推荐引擎。全文搜索和语义AI搜索相结合,提供更强大、个性化的体验。

参考链接

pgvectorpg_trgmPrismaVercel AI SDKPostgreSQL中的向量搜索向量与Prisma的相似性

以上就是Netflix,但更好的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1501281.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月19日 23:25:39
下一篇 2025年12月19日 23:25:50

相关推荐

  • 什么是函数组合?函数式编程中的组合

    函数组合与管道的区别在于执行方向:compose从右到左执行,pipe从左到右执行,两者都通过连接纯函数提升代码的可读性、可维护性和可测试性,广泛应用于数据处理管道、中间件和表单验证等场景,使代码更清晰、模块化且易于演进。 函数组合,简单来说,就是把多个小函数像乐高积木一样拼起来,形成一个全新的、更…

    2025年12月20日
    000
  • js如何实现颜色转换

    颜色转换的核心是理解rgb、hex、hsl之间的数学关系并通过解析与计算实现格式互转;2. hex到rgb需解析十六进制字符串,处理简写和透明度,转为十进制数值;3. rgb到hex则是将每个通道值转为两位十六进制并拼接,支持透明度扩展;4. rgb到hsl涉及归一化、计算最大最小值、色相判定、饱和…

    2025年12月20日
    000
  • 什么是DSL?领域特定语言的实现

    dsl的核心选择在于内部dsl与外部dsl的权衡,答案是根据项目需求、团队能力和领域复杂度来决定;内部dsl利用宿主语言特性构建流畅api,开发成本低且易于集成,适合初期探索和通用语言能表达的场景,而外部dsl通过自定义语法和解析器实现极致表达力,适合领域高度专业化且需业务与技术解耦的情况,尽管开发…

    2025年12月20日
    000
  • Zod 中的本地化设置:使用 setErrorMap 和 zod-i18n

    本文将介绍如何在 Zod 中实现类似于 Yup 的 setLocale 功能,用于自定义验证错误信息,特别是针对国际化 (i18n) 的场景。 使用 z.setErrorMap 自定义错误信息 Zod 提供了 z.setErrorMap(errorMap) 方法,允许你全局定义错误映射,从而定制验证…

    2025年12月20日
    000
  • 使用 Zod 实现类似 Yup 的 setLocale 功能

    本文旨在介绍如何在 Zod 中实现类似 Yup 的 setLocale 功能,即自定义验证错误信息以支持国际化(i18n)。通过 z.setErrorMap 方法,您可以全局设置自定义错误映射,从而根据不同的错误类型和上下文返回相应的本地化错误信息。此外,我们还将介绍 zod-i18n 库,这是一个…

    2025年12月20日
    000
  • 使用 Async/Await 和 Map 实现异步操作的正确姿势

    本文旨在帮助开发者理解如何在 JavaScript 中正确使用 async/await 和 map 方法处理异步操作,避免因异步执行顺序导致的数据错乱问题。通过实例代码,我们将演示如何确保异步操作按照预期顺序执行,并最终得到正确的结果。 在 JavaScript 中,map 方法常用于对数组中的每个…

    2025年12月20日
    000
  • 使用 Async/Await 和 Map 函数时数据顺序错乱的解决方案

    本文旨在解决在使用 async/await 关键字与 map 函数结合时,由于异步操作的无序性导致数据处理顺序错乱的问题。我们将通过示例代码,详细解释如何利用 Promise.all() 确保异步操作按照预期顺序执行,并最终获得正确的数据结果。 在使用 JavaScript 的 map 函数处理数组…

    2025年12月20日
    000
  • Vercel单页应用深度URL资产加载问题:路径配置指南

    本文探讨Vercel上单页应用(SPA)在处理深度URL时遇到的资产加载问题。尽管Vercel的路由配置(vercel.json)通常正确,但问题的根源常在于index.html中使用了相对路径引用静态资源。文章将详细解释为何相对路径会导致问题,并提供将资产路径改为绝对路径的解决方案,确保SPA在任…

    2025年12月20日
    000
  • Vercel SPA路由与资源加载:解决深层URL访问问题

    本文旨在解决在Vercel上部署单页应用(SPA)时,深层URL刷新或直接访问导致页面资源加载失败的问题。核心在于理解Vercel的路由重写机制与浏览器解析相对路径的差异。通过配置vercel.json实现所有路径重定向至index.html,并修正HTML中静态资源的引用方式,将相对路径改为绝对路…

    2025年12月20日 好文分享
    000
  • Vercel单页应用深层URL路由与资源加载问题解析

    本文深入探讨了在Vercel上部署单页应用(SPA)时,深层URL(如/projects/home)可能遇到的路由和资源加载问题。尽管Vercel的vercel.json配置看似正确,但问题的根源往往在于HTML文件中引用的相对资源路径。文章详细解释了如何通过将相对路径修改为绝对路径来解决此类问题,…

    2025年12月20日
    000
  • Vercel 单页应用 (SPA) 部署指南:解决深度 URL 资产加载问题

    本教程旨在解决 Vercel 上部署单页应用 (SPA) 时,在访问多层级 URL(如 /projects/home)时遇到的资产(CSS、JS、图片等)加载失败问题。核心在于理解 Vercel 的路由重写机制与 HTML 中相对/绝对路径的差异。通过正确配置 vercel.json 确保所有非文件…

    2025年12月20日
    000
  • Shiny应用开发:有效禁用回车键自动触发按钮的策略

    在Shiny应用中,回车键默认会模拟上一个被点击按钮的行为,这可能与自定义的JavaScript输入确认逻辑冲突。本文将提供一个简洁的JavaScript解决方案,通过监听全局的keydown事件并阻止其默认行为,从而有效禁用回车键自动触发按钮的功能,确保用户交互的预期性与流畅性。 问题阐述 在基于…

    2025年12月20日
    000
  • 修复点击事件无法触发菜单显示的问题

    摘要:本文旨在解决使用 JavaScript 实现点击按钮控制菜单显示时,菜单默认显示且点击事件无法正确触发的问题。我们将深入分析问题原因,并提供有效的解决方案,确保菜单在页面加载时处于隐藏状态,并通过点击事件流畅地切换显示与隐藏状态。通过将 JavaScript 代码放置在 DOMContentL…

    2025年12月20日
    000
  • 修复点击事件失效:DOM加载完成前访问元素的问题

    本文将探讨如何解决JavaScript中点击事件失效的问题。这种问题通常发生在尝试在DOM(文档对象模型)完全加载之前访问HTML元素时。 问题分析 当JavaScript代码在HTML文档的 部分或部分靠前的位置执行时,可能会尝试访问尚未加载的HTML元素。此时,document.querySel…

    2025年12月20日
    000
  • 解决点击事件无法触发菜单显示问题的教程

    本文旨在解决使用 JavaScript 控制菜单显示时,点击事件无法正确触发的问题。通过将 JavaScript 代码放置在 DOMContentLoaded 事件监听器中,确保在 DOM 加载完成后再执行相关操作,从而避免因元素未加载而导致的事件绑定失败。文章将提供详细的代码示例和解释,帮助开发者…

    2025年12月20日
    000
  • 使用 localStorage 持久化 React 应用中的状态:收藏夹功能实现

    本文旨在解决 React 应用中使用 localStorage 持久化状态,特别是收藏夹功能遇到的问题。我们将深入探讨如何正确地更新和保存状态到 localStorage,以确保数据在页面刷新后依然保留。通过修改 toggleFavorites 函数,并在每次更新收藏状态后立即保存到 localSt…

    2025年12月20日
    000
  • 将多个对象数组转换为单个对象

    在处理复杂的数据结构时,经常会遇到需要将多个对象数组合并成一个单一对象的情况。例如,一个包含不同类型对象(例如 “cat” 和 “dog”)的数组,每个对象都有一个 errors 属性,该属性包含一个对象数组,而我们希望将所有 errors 数组中的对…

    2025年12月20日
    000
  • 合并多个对象数组为一个对象

    合并多个对象数组为一个对象 在实际开发中,我们经常会遇到需要处理嵌套较深的数据结构,例如一个数组包含多个对象,而每个对象又包含一个包含多个错误对象的数组。此时,我们需要将这些错误对象合并为一个单一的对象,方便后续处理。本文将介绍一种简洁高效的方法,使用 Array.flatMap() 和 Objec…

    2025年12月20日
    000
  • Zod 中设置全局错误消息:替代 Yup 的 setLocale 方法

    本文将介绍如何在 Zod 中实现类似 Yup 的 setLocale 功能,用于设置全局自定义错误消息,特别是针对国际化 (i18n) 的场景。Zod 提供了 z.setErrorMap 方法来实现自定义错误映射,并推荐使用 zod-i18n 库来集成 i18next 实现国际化错误消息。本文将详细…

    2025年12月20日
    000
  • js怎样实现甘特图

    实现甘特图的核心是使用javascript结合合适的库来处理数据与时间的可视化;1. 选择合适的库如d3.js、chart.js、frappe gantt或bryntum gantt,其中frappe gantt轻量且专用于甘特图;2. 准备包含id、name、start、end、progress、…

    2025年12月20日 好文分享
    000

发表回复

登录后才能评论
关注微信