深入浅析Node中的Stream(流)

什么是流?如何理解流?下面本篇文章就来带大家深入了解一下nodejs中的流(stream),希望对大家有所帮助!

深入浅析Node中的Stream(流)

stream 是一个抽象的数据接口,它继承了 EventEmitter,它能够发送/接受数据,本质就是让数据流动起来,如下图:Untitled.png

流不是 Node 中独有的概念,是操作系统最基本的操作方式,在 Linux 中 | 就是 Stream,只是 Node 层面对其做了封装,提供了对应的 API

为啥要一点一点?

首先使用下面的代码创建一个文件,大概在 400MB 左右 【相关教程推荐:nodejs视频教程】

Untitled 1.png

当我们使用 readFile 去读取的时候,如下代码

Untitled 2.png

正常启动服务时,占用 10MB 左右的内存

Untitled 3.png

使用curl http://127.0.0.1:8000发起请求时,内存变为了 420MB 左右,和我们创建的文件大小差不多

Untitled 4.png

改为使用使用 stream 的写法,代码如下

Untitled 5.png

再次发起请求时,发现内存只占用了 35MB 左右,相比 readFile 大幅减少

Untitled 6.png

如果我们不采用流的模式,等待大文件加载完成在操作,会有如下的问题:

内存暂用过多,导致系统崩溃CPU 运算速度有限制,且服务于多个程序,大文件加载过大且时间久

总结来说就是,一次性读取大文件,内存和网络都吃不消

如何才能一点一点?

我们读取文件的时候,可以采用读取完成之后在输出数据

Untitled 7.png

上述说到 stream 继承了 EventEmitter 可以是实现监听数据。首先将读取数据改为流式读取,使用 on("data", ()⇒{}) 接收数据,最后通过 on("end", ()⇒{}) 最后的结果

Untitled 8.png

有数据传递过来的时候就会触发 data 事件,接收这段数据做处理,最后等待所有的数据全部传递完成之后触发 end 事件。

数据的流转过程

数据从哪里来—source

数据是从一个地方流向另一个地方,先看看数据的来源。

http 请求,请求接口来的数据

Untitled 9.png

console 控制台,标准输入 stdin

Untitled 10.png

file 文件,读取文件内容,例如上面的例子

连接的管道—pipe

在 source 和 dest 中有一个连接的管道 pipe,基本语法为 source.pipe(dest) ,source 和 dest 通过 pipe 连接,让数据从 source 流向 dest

我们不需要向上面的代码那样手动监听 data/end 事件.

pipe 使用时有严格的要求,source 必须是一个可读流,dest 必须是一个可写流

??? 流动的数据到底是一个什么东西?代码中的 chunk 是什么?

到哪里去—dest

stream 常见的三种输出方式

console 控制台,标准输出 stdout

Untitled 11.png

http 请求,接口请求中的 response

Untitled 12.png

file 文件,写入文件

Untitled 13.png

流的种类

Untitled 14.png

可读流 Readable Streams

可读流是对提供数据的源头(source)的抽象

所有的 Readable 都实现了 stream.Readable 类定义的接口

Untitled 15.png

? 读取文件流创建

fs.createReadStream 创建一个 Readable 对象

Untitled 16.png

读取模式

可读流有两种模式,流动模式(flowing mode)暂停模式(pause mode),这个决定了 chunk 数据的流动方式:自动流动和手工流动

在 ReadableStream 中有一个 _readableState 属性,在其中有一个 flowing 的一个属性来判断流的模式,他有三种状态值:

ture:表示为流动模式false:表示为暂停模式null:初始状态

Untitled 17.png

可以使用热水器模型来模拟数据的流动。热水器水箱(buffer 缓存区)存储着热水(需要的数据),当我们打开水龙头的时候,热水就会从水箱中不断流出来,并且自来水也会不断的流入水箱,这就是流动模式。当我们关闭水龙头时,水箱会暂停进水,水龙头则会暂停出水,这就是暂停模式。

流动模式

数据自动地从底层读取,形成流动现象,并通过事件提供给应用程序。

监听 data 事件即可进入该模式
当 data 事件被添加后,可写流中有数据后会将数据推到该事件回调函数中,需要自己去消费数据块,如果不处理则该数据会丢失

调用 stream.pipe 方法将数据发送到 Writeable

调用 stream.resume 方法

Untitled 18.png

暂停模式

数据会堆积在内部缓冲器中,必须显式调用 stream.read() 读取数据块

监听 readable 事件可写流在数据准备好后会触发该事件回调,此时需要在回调函数中使用 stream.read() 来主动消费数据。readable 事件表明流有新的动态:要么有新的数据,要么流已经读取所有数据

Untitled 19.png

百度文心百中 百度文心百中

百度大模型语义搜索体验中心

百度文心百中 22 查看详情 百度文心百中

两种模式之间如何进行转换呢

可读流在创建完成之后处于初始状态   //TODO:和网上的分享不一致

暂停模式切换到流动模式

- 监听 data 事件- 调用 stream.resume 方法- 调用 stream.pipe 方法将数据发送到 Writable

Untitled 20.png

流动模式切换到暂停模式

- 移除 data 事件- 调用 stream.pause 方法- 调用 stream.unpipe 移除管道目标

实现原理

创建可读流的时候,需要继承 Readable 对象,并且实现 _read 方法

Untitled 21.png

创建一个自定义可读流

Untitled 22.png

当我们调用 read 方法时,整体的流程如下:Untitled 23.png

doRead

流中维护了一个缓存,当调用 read 方法的时候来判断是否需要向底层请求数据

当缓存区长度为0或者小于 highWaterMark 这个值得时候就会调用 _read 去底层获取数据 源码链接

Untitled 24.png

可写流 Writeable Stream

可写流 是对数据写入目的地的一种抽象,是用来消费上游流过来的数据,通过可写流把数据写入设备,常见的写入流就是本地磁盘的写入

Untitled 25.png

可写流的特点

通过 write 写入数据

Untitled 26.png

通过 end 写数据并且关闭流,end = write + close

Untitled 27.pngUntitled 28.png

当写入数据达到 highWaterMark 的大小时,会触发 drain 事件

Untitled 29.png

调用 ws.write(chunk) 返回 false,表示当前缓冲区数据大于或等于 highWaterMark 的值,就会触发 drain 事件。其实是起到一个警示作用,我们依旧可以写入数据,只是未处理的数据会一直积压在可写流的内部缓冲区中,直到积压沾满 Node.js 缓冲区后,才会被强行中断

自定义可写流

所有的 Writeable 都实现了 stream.Writeable 类定义的接口

只需要实现 _write 方法就能够将数据写入底层

Untitled 30.png

通过调用调用 writable.write 方法将数据写入流中,会调用 _write 方法将数据写入底层当 _write 数据成功后,需要调用 next 方法去处理下一个数据必须调用 writable.end(data) 来结束可写流,data 是可选的。此后,不能再调用 write 新增数据,否则会报错在 end 方法调用后,当所有底层的写操作均完成时,会触发 finish 事件

双工流 Duplex Stream

双工流,既可读,也可写。实际上继承了 Readable 和 Writable 的一种流,那它既可以当做可读流来用又可以当做可写流来用

自定义的双工流需要实现 Readable 的 _read 方法和 Writable 的 _write 方法

Untitled 31.png

net 模块可以用来创建 socket,socket 在 NodeJS 中是一个典型的 Duplex,看一个 TCP 客户端的例子

Untitled 32.png

client 就是一个 Duplex,可写流用于向服务器发送消息,可读流用于接受服务器消息,两个流内的数据并没有直接的关系

转换流 Transform Stream

上述的例子中,可读流中的数据(0/1)和可写流中的数据(’F’,’B’,’B’)是隔离的,两者并没有产生关系,但对于 Transform 来说在可写端写入的数据经过变换后会自动添加到可读端。

Transform 继承于 Duplex,并且已经实现了 _write 和 _read 方法,只需要实现 _tranform 方法即可

Untitled 33.png

gulp 基于 Stream 的自动化构建工具,看一段官网的示例代码

Untitled 34.png

less → less 转为 css → 执行 css 压缩 → 压缩后的 css

其实 less() 和 minifyCss() 都是对输入的数据做了一些处理,然后交给了输出数据

Duplex 和 Transform 的选择

和上面的示例对比起来,我们发现一个流同时面向生产者和消费者服务的时候我们会选择 Duplex,当只是对数据做一些转换工作的时候我们便会选择使用 Tranform

背压问题

什么是背压

背压问题来源于生产者消费者模式中,消费者处理速度过慢

比如说,我们下载过程,处理速度为3Mb/s,而压缩过程,处理速度为1Mb/s,这样的话,很快缓冲区队列就会形成堆积

要么导致整个过程内存消耗增加,要么导致整个缓冲区慢,部分数据丢失

Untitled 35.png

什么是背压处理

背压处理可以理解为一个向上”喊话”的过程

当压缩处理发现自己的缓冲区数据挤压超过阈值的时候,就对下载处理“喊话”,我忙不过来了,不要再发了

下载处理收到消息就暂停向下发送数据

Untitled 36.png

如何处理背压

我们有不同的函数将数据从一个进程传入另外一个进程。在 Node.js 中,有一个内置函数称为 .pipe(),同样地最终,在这个进程的基本层面上我们有二个互不相关的组件:数据的_源头_,和_消费者_

当 .pipe() 被源调用之后,它通知消费者有数据需要传输。管道函数为事件触发建立了合适的积压封装

在数据缓存超出了 highWaterMark 或者写入的列队处于繁忙状态,.write() 会返回 false

当 false 返回之后,积压系统介入了。它将暂停从任何发送数据的数据流中进入的 Readable。一旦数据流清空了,drain 事件将被触发,消耗进来的数据流

一旦队列全部处理完毕,积压机制将允许数据再次发送。在使用中的内存空间将自我释放,同时准备接收下一次的批量数据

Untitled 37.png

我们可以看到 pipe 的背压处理:

将数据按照chunk进行划分,写入当chunk过大,或者队列忙碌时,暂停读取当队列为空时,继续读取数据

更多node相关知识,请访问:nodejs 教程!

以上就是深入浅析Node中的Stream(流)的详细内容,更多请关注创想鸟其它相关文章!

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/543985.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月9日 16:31:24
下一篇 2025年11月9日 16:36:15

相关推荐

  • Python中利用自定义类实现分层字符串常量与点符号路径自动构建

    本文深入探讨如何在python中优雅地组织分层字符串常量,尤其适用于http端点路径等场景。通过自定义`endpoint`类,我们能够实现类似点符号的层级访问,并自动构建完整的路径字符串,显著提升代码的可读性、可维护性及开发效率。 在构建需要与分层API(如RESTful服务)交互的Python客户…

    2025年12月15日
    000
  • 精通Django角色与权限管理:构建灵活的访问控制系统

    django提供强大的用户、组和权限系统,可用于实现精细的角色访问控制。本文将深入探讨如何利用django的内置功能,结合自定义逻辑,为不同用户角色(如经理、普通用户)分配差异化的数据访问权限,特别是如何实现部门级数据隔离,确保系统安全与业务需求。我们将从模型设计、组与权限配置,到视图层的数据过滤,…

    2025年12月15日
    000
  • Python中通过点分表示法组织分层字符串常量的高效策略

    本文探讨了在Python中如何优雅地管理和访问具有层级结构的字符串常量,特别是针对HTTP端点等场景。通过设计一个自定义的`Endpoint`类,我们能够实现通过点分表示法访问各级常量,并自动将其展开为完整的路径字符串,同时支持IDE的自动补全功能,极大提高了代码的可读性和维护性。 1. 挑战:管理…

    2025年12月15日
    000
  • 如何将HTML逗号分隔的字符串输入转换为NumPy数组并用于机器学习预测

    本文详细介绍了如何从HTML表单获取逗号分隔的字符串输入,并将其正确转换为NumPy数组,以满足机器学习模型(如scikit-learn)对输入数据形状和类型的要求。教程涵盖了字符串解析、数据类型转换以及解决常见的数组维度错误,确保数据能够被模型正确处理,适用于需要从前端收集用户输入进行实时预测的应…

    2025年12月15日
    000
  • Wagtail页面路径的访问速率限制:策略与实践

    本文深入探讨了在wagtail cms项目中实现url路径访问速率限制的多种策略。针对wagtail页面缺乏内置速率限制机制的挑战,文章首先分析了通过覆盖页面`serve`方法应用django `ratelimit`装饰器的可行性与局限性。随后,重点推荐并详细阐述了在web服务器(如nginx)和c…

    2025年12月15日
    000
  • Wagtail教程:构建无URL或重定向的组织性页面

    wagtail %ignore_a_1%中,为实现清晰的内容层级,常需创建纯粹用于组织子页面、自身不承载实际内容或不应有公开url的“组织性页面”。本文详细阐述了如何通过自定义wagtail page类型来设计此类页面,使其在管理后台提供直观的结构,同时通过重写核心方法(如 `serve`、`get…

    2025年12月14日
    000
  • Wagtail中创建纯组织性页面的最佳实践

    本文探讨了在Wagtail中创建纯粹用于内容组织、不承载实际内容或公共URL的页面的方法。通过引入一个名为“MenuOnlyPage”的自定义页面类型,文章详细阐述了如何通过重写`serve`方法、定制管理面板、禁用预览以及将其从站点地图和搜索中排除,从而优化内容结构和用户体验。 在Wagtail内…

    2025年12月14日
    000
  • Wagtail内容组织:构建纯组织型页面的实践指南

    在wagtail中,为了更好地组织内容结构,常需要创建仅用于分组的父页面。本文将探讨如何设计和实现一种“纯组织型”页面类型,该页面不承载实际内容,能有效处理url路由、管理界面显示及seo,从而优化wagtail后台管理体验和网站结构。 理解Wagtail中的内容组织挑战 在构建内容丰富的网站时,如…

    2025年12月14日
    000
  • Django视图实现表单创建与编辑的通用策略

    本教程详细阐述如何在Django中构建一个单一视图函数,以同时处理模型对象的创建(新增)和编辑(更新)操作。文章将涵盖URL路由配置、视图函数逻辑设计以及前端表单`action`属性的动态设置,确保无论是新建还是修改,都能高效、安全地提交数据。 在Web应用开发中,用户经常需要在同一个页面或类似的流…

    2025年12月14日 好文分享
    000
  • 如何冻结项目依赖并分享给团队

    答案:通过生成并提交依赖锁定文件、纳入版本控制、提供清晰安装说明及定期同步更新,可确保团队开发环境一致。例如Python用pip freeze生成requirements.txt,Node.js使用package-lock.json或yarn.lock,Go通过go.mod和go.sum锁定版本,均…

    2025年12月14日
    000
  • python中PyQuery库是什么?

    PyQuery 是一个受 jQuery 启发的 Python 库,用于解析和操作 HTML 文档,支持从字符串、文件或 URL 加载内容,可通过 CSS 选择器查找元素、获取文本与属性,实现链式调用和 DOM 遍历修改,常用于网络爬虫和静态页面处理,可与 requests 结合使用,语法直观简洁,适…

    2025年12月14日
    000
  • 解决PySide6应用在Windows上打包时NumPy导入错误的教程

    当开发者尝试将基于PySide6和Pandas等库构建的Python应用程序打包部署到Windows环境时,一个常见的挑战是处理复杂的第三方依赖。特别是当应用程序依赖于NumPy这类底层有C扩展的科学计算库时,使用如pyside6-deploy等工具进行打包时,可能会遭遇ImportError: U…

    2025年12月14日
    000
  • 基于LangChain和FAISS构建RAG问答机器人:CSV数据集成指南

    本文详细介绍了如何利用langchain、faiss和huggingface embeddings构建一个基于检索增强生成(rag)的问答机器人,使其能够根据csv文件中的特定数据生成答案。教程涵盖了从数据加载、向量数据库创建到检索器集成和llm交互的完整流程,并提供了具体的代码示例和实现细节,帮助…

    2025年12月14日
    000
  • Node.js与Python进程通信:实时获取子进程输出的策略

    当node.js使用`child_process.spawn`执行python脚本时,常遇到stdout输出被缓冲,导致无法实时获取数据的问题。本文将深入解析python标准输出的缓冲机制,并提供两种高效解决方案:一是通过在python `print`函数中添加`flush=true`参数强制刷新缓…

    2025年12月14日
    000
  • TensorFlow图像增强机制:模型对原始图像的“可见性”深度解析

    tensorflow的图像增强层在训练过程中对每个批次的图像随机应用转换,这意味着模型主要学习的是原始图像的多种变体。尽管从统计学上讲,模型在训练期间偶然看到未增强的原始图像并非完全不可能,但增强的核心目的是通过引入多样性来提升模型的泛化能力和鲁棒性,而非保证原始图像的直接可见性。 引言:图像增强的…

    2025年12月14日
    000
  • Python 文件上传功能的实现思路

    实现文件上传需通过Web框架接收文件并安全保存。1. 使用Flask等框架处理HTTP请求中的文件字段,前端表单设enctype=”multipart/form-data”,后端用request.files[‘file’]获取文件对象,并检查是否存在。…

    2025年12月14日
    000
  • Django 安全动态删除功能实现教程

    本教程详细介绍了如何在 Django 应用中实现一个安全、精确的动态删除功能。针对用户遇到的删除按钮总是删除第一篇文章而非指定文章的问题,我们将通过优化后端视图函数和前端模板,确保删除操作能够正确地关联到用户点击的特定文章,并提供严格的权限验证,避免误删并提升用户体验。 1. 问题分析与解决方案概述…

    2025年12月14日
    000
  • 解决Jupyter Notebook v7+中粘贴功能异常的策略与实践

    本文旨在解决Jupyter Notebook v7及更高版本中用户遇到的无法直接粘贴文本到单元格的问题。此问题通常与浏览器设置、权限或版本有关。教程将提供一系列解决方案,包括更新浏览器、使用原生右键菜单粘贴、检查剪贴板权限以及考虑环境重装,以恢复正常的粘贴功能,确保流畅的代码和文本编辑体验。 在Ju…

    2025年12月14日
    000
  • Python 项目环境配置的最佳文档写法

    明确Python版本、依赖管理工具及系统要求;2. 按步骤列出克隆、虚拟环境、依赖安装与配置流程;3. 分开发、测试、生产环境说明依赖差异;4. 提供验证命令与常见问题解决方案,确保可操作性。 Python 项目环境配置的最佳文档写法 一个清晰、实用的 Python 项目环境配置文档,能极大降低新成…

    2025年12月14日
    000
  • Python网页版怎样做跨域请求处理_Python网页版跨域问题解决方案与代码实现

    跨域问题指协议、域名或端口不一致时浏览器阻止请求,Flask可通过flask-cors扩展配置CORS,FastAPI使用CORSMiddleware中间件处理,推荐使用框架扩展而非手动添加响应头。 在使用Python网页版(如通过Flask、FastAPI等后端框架提供接口)时,前端页面如果运行在…

    2025年12月14日
    000

发表回复

登录后才能评论
关注微信