研究了这么久的MongoDB,我也来吐下槽。

MongoDB做为一款NOSQL数据库,在刚接触它的时候,被它的性能深深的吸引了。在一四核,4G内存的centos虚拟机上,插入了500W每条大小200byte的数据。发现它的写性能太令我震惊了。在不做索引的情况下,前一百万条,只用了二分钟就插完了,这只是我WIN7上的一台

   mongodb做为一款nosql数据库,在刚接触它的时候,被它的性能深深的吸引了。在一四核,4g内存的centos虚拟机上,插入了500w每条大小200byte的数据。发现它的写性能太令我震惊了。在不做索引的情况下,前一百万条,只用了二分钟就插完了,这只是我win7上的一台虚拟机,win7执行插入操作。在先建索引的情况下,再插入了一百万条,只是比没有索引的情况下,慢了20秒。但发现它对磁盘的占用,有点超出了我的估计!它占用的磁盘空间太大,而实际上数据大小没有这么大。磁盘占用大小差不多是数据的三倍。

  插完数据后,进行了一些读取操作。性能还是非常可观的,查询都是MS秒级的。欣喜之余,接着再插数据。坑爹的事情就发生了。32位的mongodb最大一块文件块是512M,当512M有存储空间用完时,再插数据会先划出512M的数据块。当内存被大量占用后,发现它的插入数据,变龟速了。特别是在开辟一块新的存储空间时,完全阻塞了。Mongo在内存足够的情况下,开始插入的数据能达到6000条/秒,到内存不足后,速度瞬间降到了200条/秒,如果内存进一步退化,索引比数据量大的话,香港空间,有可能完全阻塞。

  换到64位的MongoDB测试,发现他的内存充足的情况下,比32位的插入100W条速度要快到十几秒。而且64位的MongoDB,他最大的一块存储是2G的数据块。当内存不足的情况下,哥哭了~~~,绝大部分时间在阻塞。速度降到你不能忍受。关闭MongoDB,重启centos后,再接着插入,在将部分MongoDB的数据加载进内存后,又非常快了,插入速度几M/秒。好景不长,当2G的数据块用完后,再开辟一块2G的数据块时,发现MongoDB占用的内存瞬间升高,写入速度直线下降,直至阻塞。我怀疑MongoDB在开辟了那2G的空间后,同时在内存中开辟了一块2G的内存,由于当时内存不足(发现SWAP中的虚拟内存也占用过高),所以产生了阻塞情况。MongoDB可能是内存映射写入方式,所以它在内存足够的情况下,写入速度非常快。建议实际生产环境中,如果数据量大的话,给它多留点内存吧,MongoDB绝对是吃内存的老虎。

  之后重启centos,内存又降下来了,MongoDB中已经存储了500万条数据了,再进行有索引查询,发现MongoDB在数据在冷的情况下,响应很慢,多执行几次查询预热后,性能才能回升,直至像刚插入时再查询那样。500万条数据查询,返回1000行数据内的,有索引情况下,查询时间是几十MS,然后继续测试了各种复杂查询。执行下面一条语句后,哥泪牛满面了

db.jqueue.find({“$or”:[{“Name”:”janson7″},{“Age”:{“$in”:[1,2,3]}}]}).sort({“_id”:-1}).explain(){“cursor” : “BtreeCursor _Name_ reverse”,”isMultiKey” : false,”n” : 301,”nscannedObjects” : 5000000,”nscanned” : 5000000,”nscannedObjectsAllPlans” : 5000000,”nscannedAllPlans” : 5000000,”scanAndOrder” : false,”indexOnly” : false,”nYields” : 0,”nChunkSkips” : 0,”millis” : 50989,”indexBounds” : {“_id” : [[{“$maxElement” : 1},{“$minElement” : 1}]]},”server” : “localhost:27017”}

  发现他全表遍历了一次,反复测试后,都是这样的情况,一去掉sort,后,就是直接读索引,或者把OR操作去掉,也是读索引。我认为,排序应该是在查询到的数据中进行排序的,也就是先去索引中找到了相应的项,再把项根据我的要求排序啊,不可能出现遍历表的情况。

  然后经过了坚辛的百度和Google,终于找到了答案,原来这是MongoDB的一个Bug,从他一设计出来后,这个Bug就一直没解决过。

  园子里这位兄台的文章里写了

  它自已的官方上的反馈:https://jira.mongodb.org/browse/SERVER-1205 发现这个问题,从10年就有人提出了,直到现在,2.2.2版本了,都还没有解决。如果有要进行$or查询,再sort排序业务的兄弟,请三思,我们开始想用MongoDB,就是因为我们业务里面这个查询是一个非常频繁且关键的查询。

  在倍受打击后,改变设计方法,改变业务模式,虚拟主机,我不再进行$or查询了,我直接用Capped Collection来做一个临时映射,通过Capped表中数据进行排序,分页偏移,再用ID去主表查询。

吐槽大师 吐槽大师

吐槽大师(Roast Master) – 终极 AI 吐槽生成器,适用于 Instagram,Facebook,Twitter,Threads 和 Linkedin

吐槽大师 26 查看详情 吐槽大师

  在使用Capped Collection时,又发现了坑爹的事。2.2之前的版本,Capped Collection是默认没有索引的,2.2后就默认加了_id,并做索引了.我用的是C#驱动,然后按照驱动说明方法,

var collectionOptions = CollectionOptions.SetCapped(true).SetMaxDocuments(1000).SetMaxSize(1000000).SetAutoIndexId(false);

  建了一个Capped表,去MongoDB里面看,发现,他还是建了索引。头大了,又开始找资料,发现了官方提供的驱动版本是1.7版本以前的,网站空间,也就是说,这个版本有可能不会支持2.2的新功能,在2.2以前,Capped默认是不建索引的,2.2是默认建索引了。查找官方驱动源码,下载地址:https://github.com/mongodb/mongo-csharp-driver

 

Sets whether the collection is capped.CollectionOptionsBuilder SetCapped(bool value){if (value){_document[] = value;}else{_document.Remove();}return this;}

发现他的源码是这样写的,因为早期版本默认情况下是不建索引的,所以,如果 SetCapped传入的参数是false的话,他就直接执行了_document.Remove(“capped”);这一句,直接把这个参数选项从CollectionOptions项中删除了,没有带这个参数传入至数据库,而默认情况下,它是要建索引的,也就是说,在这个驱动版本,你是怎么样做Capped都会给你建索引,最后没办法,只好改了他的源码

 

Sets whether the collection is capped.CollectionOptionsBuilder SetCapped(bool value){_document.Remove();}

让它不管输入什么参数,这项都得输入,然后再执行时 ,发现MongoDB里面的Capped就没有建索引了。

  

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/472828.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2025年11月8日 08:15:24
下一篇 2025年11月8日 08:16:32

相关推荐

  • 为什么多年的经验让我选择全栈而不是平均栈

    在全栈和平均栈开发方面工作了 6 年多,我可以告诉您,虽然这两种方法都是流行且有效的方法,但它们满足不同的需求,并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序,但它们的实现方式却截然不同。如果您在两者之间难以选择,我希望我在两者之间的经验能给您一些有用的见解。 在这篇文章中,我…

    2025年12月24日
    000
  • 揭示粘性定位的关键要素是什么?揭示达到粘性定位的关键要点

    研究粘性定位的关键因素是什么?探索粘性定位的要点 粘性定位(stickiness positioning)是指在市场营销中,企业通过创造和维护与消费者之间的积极、持久的关系,使其成为消费者心中的首选品牌。在如今竞争激烈且消费者选择众多的市场环境下,粘性定位成为企业获取长期竞争优势的关键要素之一。那么…

    2025年12月24日
    000
  • 使用HTML表单GET方法创建带查询参数的动态搜索链接

    本教程详细阐述了如何在网页中,通过简单地将HTML表单的提交方法从`POST`更改为`GET`,来自动生成包含用户选择搜索条件的动态URL查询参数。这使得搜索结果页面的链接可分享、可收藏,并简化了%ignore_a_1%生成复杂URL的逻辑,后端可直接从URL中解析查询参数进行数据检索。 引言:动态…

    2025年12月23日
    000
  • Web表单提交:如何利用GET方法构建动态查询链接

    本文将指导您如何利用html表单的get方法,根据用户输入的搜索条件动态生成带有查询参数的url。当用户在表单中输入数据并提交时,get方法会自动将表单字段及其值附加到url作为查询字符串,从而创建如`/search?param1=value1&param2=value2`的链接。这对于实现…

    2025年12月23日
    000
  • Node.js中多字段多文件上传与MongoDB路径存储:Multer实践指南

    本教程详细讲解如何在node.js中使用multer处理html表单中的多字段文件上传,并将文件保存到服务器指定目录。核心内容包括multer配置,express路由集成,以及如何在控制器中正确获取上传文件信息并将其存储路径而非文件本身的数据存入mongodb,优化数据库性能和可维护性。 在现代We…

    2025年12月23日
    000
  • Node.js 多字段图片上传与 MongoDB 路径存储实践教程

    本教程详细阐述了如何在 Node.js 环境下,利用 Multer 中间件处理来自 HTML 表单的多个文件字段上传,并将图片分别存储到服务器的不同目录。更重要的是,教程纠正了直接将图片二进制数据存入 MongoDB 的常见误区,转而采用最佳实践——仅在数据库中存储图片的文件路径,从而优化数据库性能…

    2025年12月23日
    000
  • MongoDB/Mongoose中从数组中按ID删除子文档的教程

    本教程详细阐述了如何在mongodb/mongoose环境中,从一个文档的嵌套数组中,根据子文档的_id删除特定对象。我们将利用mongoose自动生成的_id字段和mongodb的$pull操作符,通过构建后端api路由,实现对特定子文档的精确、高效删除,并提供前端集成示例。 在构建复杂的应用程序…

    2025年12月23日
    000
  • 在MongoDB中通过子文档ID删除数组中的对象

    在MongoDB中处理复杂的数据结构时,我们经常会遇到需要在文档内部的数组中存储一系列子文档(或称内嵌文档)的场景。例如,在一个电影数据库中,一部电影文档可能包含一个`references`数组,其中每个元素都是一个描述电影引用的独立对象。当需要删除某个特定引用而非整个电影文档时,就需要一种精确的方…

    2025年12月23日
    000
  • MongoDB中通过子文档ID从数组删除对象的教程

    本教程详细介绍了如何在%ignore_a_1%中,利用mongoose框架从父文档的数组字段中删除特定的子文档。我们将探讨mongodb的`$pull`操作符,并提供完整的服务器端(node.js/express)和客户端(ejs)代码示例,指导你如何通过子文档的`_id`高效地移除数组中的元素,确…

    2025年12月23日
    000
  • 从MongoDB数组中按ID删除内嵌文档的教程

    本教程详细介绍了如何在mongodb中使用mongoose和`$pull`操作符,从一个文档的数组字段中删除特定的内嵌文档。我们将通过一个电影参考数据库的示例,演示如何根据内嵌文档的唯一id(`_id`)来精准定位并移除数组中的元素,确保数据管理的精确性和效率。 在构建数据库应用程序时,经常会遇到需…

    2025年12月23日
    000
  • HTML数据如何实现数据智能 HTML数据智能分析的技术架构

    实现HTML数据智能分析需构建包含采集、解析、存储、分析与可视化的闭环系统,首先通过爬虫技术获取网页数据并进行清洗标准化,接着利用DOM树分析与NLP技术提取结构化信息,随后将数据存入合适数据库或数据仓库并建立元数据管理机制,进而应用AI模型开展分类、情感分析、趋势预测与知识图谱构建等智能分析,最终…

    2025年12月23日
    000
  • HTML数据如何构建数据市场 HTML数据市场平台的架构设计

    答案是构建HTML数据市场需整合采集、管理、交易与合规体系,通过爬虫或上传获取网页数据,利用解析引擎将HTML转为结构化信息并标注元数据,依托分布式存储与版本控制保障数据可用性,建立索引分类和质量评估机制提升检索效率,通过商品发布、搜索推荐、API服务和计费系统实现数据流通,同时遵守法律规范,实施身…

    2025年12月23日
    000
  • HTML数据如何构建数据生态 HTML数据生态系统的建设思路

    HTML数据本身是网页内容的载体,但要将其转化为可用的数据资产并构建完整的数据生态系统,需要系统化的采集、处理、整合与应用流程。关键在于将静态的HTML内容动态化、结构化,并与其他数据源打通,形成可持续更新和高效利用的数据闭环。 1. 数据采集:从HTML中提取有效信息 构建HTML数据生态的第一步…

    2025年12月23日
    000
  • HTML数据如何实现分布式采集 HTML数据分布式爬虫的架构设计

    答案:构建分布式HTML采集系统需整合任务调度、去重、存储与监控模块,以Redis为核心协调任务分发与去重,通过消息队列实现负载均衡,结合布隆过滤器减少重复抓取,利用无状态工作节点支持弹性扩展,依托ZooKeeper保障高可用,并集成反爬适配与请求控制机制,确保系统稳定高效运行。 要实现HTML数据…

    好文分享 2025年12月23日
    000
  • HTML5在线如何添加实时编辑功能 HTML5在线协作工具的集成方案

    实现实时编辑需结合WebSocket与协同算法,核心是内容同步和冲突解决。2. 使用WebSocket实现低延迟通信,用户操作实时发送至服务器并广播给其他客户端。3. 冲突处理推荐CRDT或OT算法,CRDT因逻辑简单、天然无冲突更适用于现代系统。4. 集成Y%ignore_a_1%等成熟库可快速搭…

    好文分享 2025年12月23日
    000
  • 如何实现HTML在线编辑功能_HTML在线编辑功能实现方法与技术选型指南

    答案:实现HTML在线编辑需选型富文本编辑器如TinyMCE、Quill或CKEditor,通过前端获取HTML字符串并经AJAX提交,后端存储至数据库,同时使用DOMPurify防范XSS攻击,结合实时预览与样式隔离提升体验,并可扩展图片上传、代码高亮等功能。 要实现HTML在线编辑功能,核心是提…

    2025年12月23日
    000
  • 如何实现HTML在线协作编辑_HTML在线协作编辑实现技术与实时同步方案

    实现HTML在线协作编辑需选型合适编辑器并构建实时同步体系。推荐Tiptap + Yjs组合,基于CRDT模型实现无冲突数据合并,通过WebSocket或Socket.IO建立低延迟通信,配合Y-WebRTC/Y-Socket.IO完成多端状态同步,后端可用Node.js搭建中继服务器,必要时结合M…

    2025年12月23日
    000
  • Node.js中基于JWT和Cookie实现持久化登录状态管理与免登录访问

    本文详细阐述了如何在node.js应用中,利用jwt(json web tokens)和cookie实现持久化的用户登录状态管理,从而避免用户在每次访问时重复登录。通过引入一个认证中间件,我们能够有效地检查用户是否已通过有效令牌进行身份验证,并据此控制页面访问权限,实现无缝的用户体验,同时提供了登出…

    2025年12月23日
    000
  • 使用FastAPI实现POST请求后文件下载的教程

    本文详细介绍了在fastapi中处理post请求后下载文件的两种主要方法。第一种是直接使用`fileresponse`返回文件,适用于简单场景,通过设置`content-disposition`头部实现强制下载,并探讨了内存加载和流式传输大文件的替代方案。第二种是异步下载模式,通过post请求生成文…

    2025年12月23日
    000
  • Spring Boot中将特定字段映射到HTML页面:DTO与视图渲染实践

    本文将深入探讨如何在Spring Boot应用中,从后端实体中选择性地提取特定字段,并将其高效且安全地渲染到HTML页面。我们将重点介绍数据传输对象(DTO)作为最佳实践,结合Spring MVC控制器和模板引擎(如Thymeleaf),实现数据展示层与业务逻辑的解耦,并讨论其他序列化控制策略。 1…

    2025年12月22日
    000

发表回复

登录后才能评论
关注微信