如何在nodejs中使用sqlite构建矢量数据库

如何在nodejs中使用sqlite构建矢量数据库

SQLite凭借其轻量、快速和经过实战检验的特性,广泛应用于各种系统,从大型系统到微型嵌入式设备,甚至网络浏览器和Android手机都依赖于它。 如今,AI技术日新月异,大型语言模型(LLMs)也正朝着小型化、高效化的方向发展。通过量化等技术手段,LLMs 的体积不断缩小,效率不断提升。 当LLMs 能够在小型设备上本地运行时,对存储空间的需求也随之降低,而SQLite正是满足这一需求的理想选择。

然而,我们不妨更进一步思考:如果我们不仅将SQLite用作存储引擎,还将其用于向量计算呢?在AI领域,LLMs 依赖于向量和嵌入——文本本质的数字表示。虽然PostgreSQL拥有用于向量搜索的pgvector扩展,但我们也可以探索如何将SQLite打造成强大的向量数据库。

本文将指导您如何在Node.js中构建一个基于SQLite的向量数据库,用于构建检索增强型生成应用程序(RAG)。

准备工作:数据准备与数据库设置

首先,克隆包含数据文件夹的项目仓库。该文件夹包含来自白皮书的文本片段,非常适合用于测试嵌入。

git clone https://github.com/sfundomhlungu/nodejs-vectordb.git

注意: 原始代码较为简略,为了方便理解,建议您创建一个新的文件夹,将数据文件夹复制到其中,然后初始化一个新的Node.js项目。 最终目录结构如下:

vectordb/├── data/├── embed.js└── index.js

安装必要的依赖包:

pnpm add better-sqlite3 ollama uuid

这将安装SQLite3驱动、用于生成嵌入的Ollama库以及UUID生成库。 确保您已安装Ollama并配置好API密钥。

数据库播种:嵌入生成与存储

打开embed.js文件,您将看到数据库的创建和嵌入表定义。 关键字段包括sessid(用于模拟会话)和embeddings(用于存储向量嵌入)。

读取数据文件夹中的文本文件,并使用Ollama生成每个文件的嵌入向量:

// ... (导入必要的模块) ...async function embed(content, meta) {    const res = await ollama.embed({        model: "mxbai-embed-large",        truncate: true,        input: content,    });    // ... (将嵌入向量转换为Float32Array并保存到数据库) ...}// ... (读取数据文件并调用embed函数) ...

向量搜索:余弦相似度计算与相似文档检索

接下来,在index.js中实现余弦相似度计算函数和向量搜索函数。 该函数将用户查询嵌入到向量空间,并在数据库中查找最相似的文档。

// ... (导入必要的模块) ...function cosineSimilarity(v1, v2) {    // ... (计算余弦相似度) ...}async function checkSimilarity(userQuery, session) {    // ... (生成用户查询的嵌入向量,并在数据库中查找最相似的文档) ...}// ... (实现与模型聊天的函数) ...

性能优化:使用原生模块提升效率

为了提升性能,可以使用vector-sqlite3原生模块。 安装该模块后,更新代码以启用原生向量函数:

import sqlitevector from 'vector-sqlite3';// ... (数据库连接) ...sqlitevector(db, { usenative: ["cosine_similarity", "l2_distance", "dot_product"] });

这将使用优化的原生函数来计算余弦相似度,显著提升搜索速度。

总结

本文简要介绍了如何在Node.js中使用SQLite构建向量数据库,并利用Ollama生成文本嵌入。 通过使用原生模块,可以进一步优化性能。 您可以根据实际需求调整模型和参数,以获得最佳的检索效果。 完整的代码和更详细的说明请参考原始仓库。

以上就是如何在nodejs中使用sqlite构建矢量数据库的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1501597.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年12月19日 23:42:05
下一篇 2025年12月19日 23:42:17

相关推荐

  • 前端工程化与JavaScript构建流程自动化

    前端工程化通过标准化和自动化提升开发效率与协作能力,核心是JavaScript构建流程的自动化。1. 模块化处理:使用ES Module或CommonJS规范组织代码,由Webpack、Vite等工具进行依赖解析与打包;2. 语法转换:通过Babel将ES6+转为ES5以兼容旧浏览器;3. 代码压缩…

    2025年12月21日
    000
  • 使用JavaScript实现一个简单的虚拟DOM_javascript框架原理

    虚拟DOM通过JS对象描述DOM结构,利用h函数创建VNode,render函数生成真实DOM,patch函数对比新旧节点实现最小化更新,提升频繁UI操作的性能。 虚拟DOM的核心思想是用JavaScript对象来描述真实DOM结构,通过对比新旧虚拟DOM的差异,最小化地更新真实DOM。这种方式能显…

    2025年12月21日
    000
  • JavaScript 无法禁用 HTML 按钮?原因及解决方案

    本文旨在解决 JavaScript 无法正确禁用或启用 HTML 按钮的问题。通过分析常见错误原因,提供详细的代码示例和调试技巧,帮助开发者轻松实现按钮的动态控制,提升用户交互体验。文章重点讲解了`disabled`属性的正确用法,以及如何结合输入框内容动态控制按钮状态。 在 Web 开发中,经常需…

    2025年12月21日
    000
  • JavaScript实现前端自动化构建流程_javascript工程化

    前端自动化构建通过Node.js与工具链提升开发效率,使用Webpack、Gulp等实现打包、压缩、编译,集成ESLint、测试及CI/CD部署,确保代码质量与流程可控。 前端自动化构建是现代JavaScript工程化的重要组成部分,它能帮助开发者提升开发效率、减少人为错误,并确保代码质量。通过Ja…

    2025年12月21日
    000
  • JavaScript中数组去重的十种高效方法

    答案:JavaScript数组去重有十种常用方法。1. Set去重最简洁,适用于基本类型;2. filter+indexOf兼容性好但性能差;3. reduce+includes逻辑清晰但慢;4. for循环+对象键值性能高但仅限基本类型;5. Map可处理复杂键;6. 双重循环暴力对比适合小数组;…

    2025年12月21日
    000
  • 解决Blazor富文本编辑器中JSInterop与OnClick事件的常见问题

    本文深入探讨了在blazor应用中利用jsinterop构建富文本编辑器时,因事件处理机制和组件重渲染导致的双击、重复提示及内容丢失问题。通过优化jsinterop调用方式,将命令直接从blazor传递给javascript,并利用blazor组件的`shouldrender`生命周期方法来控制`c…

    2025年12月21日
    000
  • React Router中区分具有相同参数名的嵌套路由

    本文探讨了在react router中,当多个路由路径定义了相同名称的参数(如`:token`)时,如何在一个共享布局组件(如`mainlayout`)中准确判断当前激活的是哪个具体路由分支。文章提供了两种核心解决方案:一是通过为不同路由分支的参数使用唯一的命名来消除歧义;二是通过利用`usemat…

    2025年12月21日
    000
  • 使用 React Native 下载多个 PDF 文件:最佳实践指南

    本文档旨在提供一个在 React Native 应用中高效下载和管理大量 PDF 文件的实用指南。我们将探讨使用 `react-native-blob-util` 或 `rn-fetch-blob` 等库进行文件下载的最佳方法,并讨论在离线模式下存储和访问这些文件,解决一次性下载大量文件可能带来的性…

    2025年12月21日
    000
  • React Native 中批量下载 PDF 文件的最佳实践

    本文介绍了在 React Native 应用中实现批量 PDF 文件下载的最佳方法,特别针对离线模式应用场景。我们将探讨如何利用 react-native-blob-util 或 rn-fetch-blob 等库高效地下载大量 PDF 文件到移动设备本地存储,以便用户在没有网络连接的情况下也能预览这…

    2025年12月21日
    000
  • 优化Outlook泰语邮件显示:实现文本智能换行策略

    本文旨在解决outlook桌面客户端在处理泰语邮件时文本无法自动换行的问题。针对泰语等无显式词分隔符的语言,outlook的渲染机制常导致文本溢出或显示不佳。文章将详细介绍两种主要解决方案:使用“标签提供可选换行点,以及利用outlook条件注释实现针对性的硬换行,旨在帮助开发者优化邮件在outl…

    2025年12月21日
    000
  • 如何避免 Vue 组件中 v-model 每次更改时都调用方法?

    本文旨在解决 Vue 组件中使用 Vuetify 的 `v-autocomplete` 组件时,由于 `v-model` 频繁更新导致关联的 API 调用方法被重复执行的问题。通过使用 `watch` 监听特定的 `v-model` 变化,并结合条件判断,可以有效控制 API 调用的时机,从而优化组…

    2025年12月21日
    000
  • Vue组件中v-model变更时控制方法执行频率的策略

    本文探讨了vue组件中,当v-model绑定的数据发生变化时,如何避免不必要的api方法重复调用导致的性能问题。通过分析直接在模板中调用方法的弊端及常见误区,文章提出并详细阐述了使用vue的`watch`选项来精确控制数据获取时机,从而优化组件性能的解决方案。此方法适用于依赖关系复杂的表单场景,确保…

    2025年12月21日
    000
  • 如何在Matter.js中移动通过约束连接的物体组

    在Matter.js中,当多个物理体通过约束连接而非组成复合体时,直接使用`setPosition`移动其中一个物理体并不能使整个组按预期移动。本文将介绍一种有效且优雅的解决方案:通过为连接的物理体组分配唯一标签,并利用`Matter.Body.translate`方法对组内所有物理体进行整体平移,…

    2025年12月21日
    000
  • 如何避免 Vue 组件中 v-model 每次更改都调用方法?

    本教程旨在解决 Vue 组件中使用 Vuetify 的 v-autocomplete 组件时,由于 v-model 的频繁更改导致关联的 API 调用方法被重复触发的问题。我们将探讨如何利用 Vue 的 watch 属性,实现仅在必要时才更新下拉列表数据,从而优化组件性能。 在使用 Vue 开发表单…

    2025年12月21日
    000
  • Vue组件中v-model改变时避免重复调用方法的最佳实践

    本文针对vue组件中使用v-model时,方法被频繁调用的性能问题,提出了使用watch监听数据变化并结合条件判断来避免不必要的api调用。通过示例代码详细解释了如何利用watch的immediate属性和自定义判断函数,实现仅在必要时才更新下拉列表数据,从而优化组件性能。同时,强调了compute…

    2025年12月21日
    000
  • 在 React Data Grid 中实现动态列与数据转换

    本教程详细介绍了如何在 react data grid 组件中处理嵌套数据结构,将其转换为动态列和对应的行数据。通过将 `devices` 数组中的设备名称映射为表格列,并将设备值填充到相应行中,实现灵活的数据展示。文章涵盖了列定义、行数据转换的实现细节,并提供了完整的代码示例,帮助开发者高效地构建…

    2025年12月21日
    000
  • 掌握React中Fetch API的健壮错误处理:构建可复用的API请求工具

    本文旨在指导开发者如何在react应用中,特别是结合useeffect时,构建一个健壮的fetch api请求机制。我们将深入探讨fetch默认错误处理的局限性,并提供一个可复用的fetcher工具,以统一处理网络异常和http状态码错误,从而提升应用的数据请求稳定性和错误诊断能力。 理解Fetch…

    2025年12月21日
    000
  • JS实现颜色主题切换功能_javascript技巧

    通过JavaScript结合CSS类、自定义属性和localStorage实现主题切换,支持深浅模式切换与系统偏好匹配,提升用户体验。 实现颜色主题切换功能在现代网页开发中非常常见,比如深色模式与浅色模式的切换。使用 JavaScript 可以轻松控制页面的主题颜色,提升用户体验。核心思路是通过 J…

    2025年12月21日
    000
  • JS实现图片压缩与预览功能_javascript技巧

    答案:通过JavaScript结合FileReader、Canvas和Blob实现图片上传前的压缩与预览。首先利用FileReader读取图片并生成base64预览,再通过Canvas绘制并缩放图片,调用toDataURL方法按质量压缩,最后将压缩后的base64数据用于预览或转为Blob上传,有效…

    2025年12月21日
    000
  • 前端数据存储:Cookie、LocalStorage与IndexedDB_js存储方案

    答案:前端存储方案需根据数据大小、持久化需求及性能选择。Cookie适合小量敏感信息,因自动携带影响性能;LocalStorage提供5~10MB持久化存储,适用于缓存配置等非频繁更新数据;IndexedDB为异步数据库,支持大量结构化数据操作,适合离线应用与复杂数据逻辑。 在前端开发中,数据存储是…

    2025年12月21日
    000

发表回复

登录后才能评论
关注微信