Java Stream API：高效筛选列表中具有最新日期的唯一组合数据

程序猿 • 2025年11月15日 22:39:16 • 用户投稿 • 阅读 0

本教程详细阐述了如何利用Java Stream API结合Collectors.toMap方法，从一个包含重复数据（基于特定字段组合）的列表中，高效筛选出每个唯一组合中具有最新日期（或其他条件）的记录。通过实例代码，演示了如何构建复合键、应用合并函数来解决复杂的数据去重与选择问题。

场景描述：处理复杂列表数据

在实际开发中，我们经常会遇到需要处理包含重复数据的列表。例如，一个员工列表中可能存在多条记录，它们拥有相同的姓氏和名字，但薪资或记录日期不同。我们的目标是，对于每一个唯一的姓氏和名字组合，只保留其中日期最新（或满足其他特定条件）的那条记录。

假设我们有一个Employee类定义如下：

import lombok.AllArgsConstructor;import lombok.Data;import lombok.NoArgsConstructor;import java.time.LocalDate;@Data@AllArgsConstructor@NoArgsConstructor // 添加无参构造函数，方便Jackson等反序列化public class Employee {    private String firstName;    private String lastName;    private double salary;    private LocalDate date; // 使用LocalDate表示日期    // 方便测试的toString方法    @Override    public String toString() {        return "Employee(" +               "firstName='" + firstName + ''' +               ", lastName='" + lastName + ''' +               ", salary=" + salary +               ", date=" + date +               ')';    }}

现在，我们有一个Employee对象列表，其中包含一些具有相同firstName和lastName但date不同的记录：

List employees = new ArrayList();employees.add(new Employee("John", "Smith", 10, LocalDate.of(2022, 9, 1)));employees.add(new Employee("John", "Smith", 20, LocalDate.of(2022, 10, 1)));employees.add(new Employee("John", "Smith", 5, LocalDate.of(2022, 11, 1)));employees.add(new Employee("Kelly", "Jones", 12, LocalDate.of(2022, 3, 1)));employees.add(new Employee("Sara", "Kim", 21, LocalDate.of(2022, 3, 1)));employees.add(new Employee("Sara", "Kim", 7, LocalDate.of(2022, 7, 1)));

我们的目标是，对于”John Smith”、”Kelly Jones”和”Sara Kim”这三个唯一的姓名组合，分别找出日期最新的那条员工记录。预期输出应为：

“John”, “Smith”, 5, 2022-11-01″Kelly”, “Jones”, 12, 2022-03-01″Sara”, “Kim”, 7, 2022-07-01

核心工具：Java Stream API与Collectors.toMap()

Java 8引入的Stream API提供了一种声明式处理数据集合的强大方式。Collectors.toMap()是java.util.stream.Collectors类中一个非常实用的方法，它允许我们将流中的元素收集到一个Map中。toMap()有多个重载版本，其中最常用的是接受三个参数的版本：

立即学习“Java免费学习笔记（深入）”；

keyMapper (Function)：用于从流元素中提取键的函数。valueMapper (Function)：用于从流元素中提取值的函数。mergeFunction (BinaryOperator)：一个合并函数，用于处理当两个或多个流元素映射到同一个键时如何解决冲突。

这个mergeFunction正是解决我们当前问题的关键。当多个Employee对象（例如，不同的”John Smith”记录）尝试映射到同一个键时，mergeFunction会介入，让我们决定保留哪一个。

解决方案详解与代码实现

我们将使用Collectors.toMap()来实现上述需求。

键的生成 (keyMapper)为了确保每个唯一的姓氏和名字组合对应一个键，我们可以将firstName和lastName拼接成一个字符串作为键。例如，e -> e.getFirstName() + e.getLastName()。

值的映射 (valueMapper)我们希望将整个Employee对象作为Map的值，因此可以使用Function.identity()，它会直接返回流中的当前元素。

合并函数 (mergeFunction)这是最核心的部分。当两个Employee对象（e1和e2）映射到同一个键时，我们需要比较它们的date字段，并选择日期较新的那个。BinaryOperator会接收这两个冲突的Employee对象，并返回我们希望保留的那一个。表达式(e1, e2) -> e1.getDate().isAfter(e2.getDate()) ? e1 : e2正是实现了这一逻辑：如果e1的日期在e2之后，则保留e1，否则保留e2。

综合以上分析，完整的Stream操作代码如下：

import java.time.LocalDate;import java.util.ArrayList;import java.util.Collection;import java.util.List;import java.util.function.Function;import java.util.stream.Collectors;// Employee 类定义如上所示 (需要Lombok的@Data, @AllArgsConstructor, @NoArgsConstructor)// 为了代码完整性，这里再次包含Employee类定义// @Data// @AllArgsConstructor// @NoArgsConstructor// public class Employee {//     private String firstName;//     private String lastName;//     private double salary;//     private LocalDate date;////     @Override//     public String toString() {//         return "Employee(" +//                "firstName='" + firstName + ''' +//                ", lastName='" + lastName + ''' +//                ", salary=" + salary +//                ", date=" + date +//                ')';//     }// }public class EmployeeFilterTutorial {    public static void main(String[] args) {        List employees = new ArrayList();        employees.add(new Employee("John", "Smith", 10, LocalDate.of(2022, 9, 1)));        employees.add(new Employee("John", "Smith", 20, LocalDate.of(2022, 10, 1)));        employees.add(new Employee("John", "Smith", 5, LocalDate.of(2022, 11, 1)));        employees.add(new Employee("Kelly", "Jones", 12, LocalDate.of(2022, 3, 1)));        employees.add(new Employee("Sara", "Kim", 21, LocalDate.of(2022, 3, 1)));        employees.add(new Employee("Sara", "Kim", 7, LocalDate.of(2022, 7, 1)));        // 使用Stream API和Collectors.toMap()进行过滤        Collection filteredEmployees = employees.stream()                .collect(Collectors.toMap(                        // keyMapper: 生成唯一键 (firstName + lastName)                        e -> e.getFirstName() + e.getLastName(),                        // valueMapper: 将Employee对象本身作为值                        Function.identity(),                        // mergeFunction: 处理键冲突，选择日期最新的Employee                        (e1, e2) -> e1.getDate().isAfter(e2.getDate()) ? e1 : e2                ))                .values(); // 获取Map中的所有值，即我们筛选出的Employee列表        // 打印结果        filteredEmployees.forEach(System.out::println);    }}

输出结果：

Employee(firstName='John', lastName='Smith', salary=5.0, date=2022-11-01)Employee(firstName='Sara', lastName='Kim', salary=7.0, date=2022-07-01)Employee(firstName='Kelly', lastName='Jones', salary=12.0, date=2022-03-01)

可以看到，输出结果与我们的预期完全一致，成功地为每个唯一的姓名组合筛选出了日期最新的员工记录。

注意事项与最佳实践

键的生成策略

字符串拼接：如示例所示，e.getFirstName() + e.getLastName()简单直接，适用于字段数量不多且字段值不会包含分隔符导致歧义的情况。自定义复合键对象：对于更复杂的场景或需要更好的类型安全性，可以定义一个不可变的自定义类作为键，并正确实现equals()和hashCode()方法。例如：

@Data@AllArgsConstructor@EqualsAndHashCode // Lombok自动生成equals和hashCodepublic class EmployeeKey {    private String firstName;    private String lastName;}// keyMapper: e -> new EmployeeKey(e.getFirstName(), e.getLastName())

使用Map.entry()或AbstractMap.SimpleEntry：如果不想创建自定义类，也可以使用Map.entry(e.getFirstName(), e.getLastName())作为键，但需要注意其equals()和hashCode()的实现。

合并函数的灵活性mergeFunction不仅可以用于选择最新日期，还可以根据任何其他条件进行选择，例如：

选择薪资最高的员工：(e1, e2) -> e1.getSalary() > e2.getSalary() ? e1 : e2选择日期最早的员工：(e1, e2) -> e1.getDate().isBefore(e2.getDate()) ? e1 : e2合并某些字段（例如，计算总薪资）：(e1, e2) -> new Employee(e1.getFirstName(), e1.getLastName(), e1.getSalary() + e2.getSalary(), e1.getDate())（需要根据实际业务逻辑调整日期字段）。

性能考量Collectors.toMap()在内部会构建一个HashMap。对于非常大的数据集，这会占用额外的内存。然而，对于大多数常见场景，其性能是可接受的。如果内存是一个极其敏感的因素，可能需要考虑其他基于迭代的解决方案，但通常Stream API的简洁性和可读性带来的好处更大。

处理空值在实际数据中，date字段可能为null。在合并函数中，如果直接调用e.getDate().isAfter()，可能会抛出NullPointerException。因此，在生产代码中，需要添加空值检查：

(e1, e2) -> {    if (e1.getDate() == null) return e2;    if (e2.getDate() == null) return e1;    return e1.getDate().isAfter(e2.getDate()) ? e1 : e2;}

或者使用Comparator.nullsLast()等辅助方法。

替代方案：groupingBy结合reducing或maxBy虽然toMap在此场景下非常简洁高效，但对于更复杂的聚合需求，Collectors.groupingBy()结合Collectors.reducing()或Collectors.maxBy()（配合Comparator）也是强大的选择。例如，使用groupingBy和maxBy：

Collection filteredEmployeesAlternative = employees.stream()    .collect(Collectors.groupingBy(        e -> e.getFirstName() + e.getLastName(),        Collectors.collectingAndThen(            Collectors.maxBy(Comparator.comparing(Employee::getDate)),            opt -> opt.orElse(null) // 处理Optional，如果分组为空则返回null        )    ))    .values()    .stream()    .filter(java.util.Objects::nonNull) // 过滤掉可能存在的null值    .collect(Collectors.toList());

这种方式在语义上更明确地表达了“按组查找最大值”，但代码会稍微复杂一些。对于本教程中的“键冲突时选择一个”的场景，toMap的mergeFunction通常是更直接和简洁的选择。

总结

通过本教程，我们学习了如何利用Java Stream API的Collectors.toMap()方法，结合自定义的keyMapper和mergeFunction，高效地从列表中筛选出满足特定条件（如最新日期）的唯一记录。这种模式在处理数据去重、聚合和选择的复杂业务场景中非常有用，能够显著提升代码的简洁性和可读性。掌握Collectors.toMap()及其mergeFunction的用法，是深入理解和有效运用Java Stream API的关键一步。

以上就是Java Stream API：高效筛选列表中具有最新日期的唯一组合数据的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/81587.html

ai app java red 回流工具

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

客户端管理手段有哪些

上一篇 2025年11月15日 22:39:11

客户售后管理办法有哪些

下一篇 2025年11月15日 22:39:30

用户投稿

composer require-dev和require有什么不同_Composer Require与Require-Dev区别解析

require用于声明项目运行必需的依赖，如框架、数据库组件和第三方SDK，这些包会随项目部署到生产环境；2. require-dev用于声明仅在开发和测试阶段需要的工具，如PHPUnit、PHPStan、Faker等，不会默认部署到生产环境；3. 安装时composer install根据环境决定…

程序猿
2026年5月10日
10000
用户投稿

修复Django电商项目中AJAX过滤产品列表图片不显示问题

在Django电商项目中，当使用AJAX动态加载过滤后的产品列表时，常遇到图片无法正常显示的问题。这通常是由于前端模板中图片加载方式（如data-setbg属性结合JavaScript库）与AJAX动态内容更新机制不兼容所致。解决方案是直接在AJAX返回的HTML中使用标准的标签来渲染图片，确保浏览…

程序猿
2026年5月10日
0000
Matplotlib 地图中多类型图例的创建与优化

本教程旨在解决matplotlib地图可视化中，如何在一个图例中同时展示颜色块（如区域分类）和自定义标记（如特定兴趣点）的问题。文章详细介绍了当传统`patch`对象无法正确显示标记时，如何利用`matplotlib.lines.line2d`创建标记图例句柄，并将其与颜色块图例句柄合并，从而生成一…

程序猿
2026年5月10日 • 用户投稿
1000
用户投稿

Golang JSON序列化：控制敏感字段暴露的最佳实践

本教程探讨golang中如何高效控制结构体字段在json序列化时的可见性。当需要将包含敏感信息的结构体数组转换为json响应时，通过利用`encoding/json`包提供的结构体标签，特别是`json:”-“`，可以轻松实现对特定字段的忽略，从而避免敏感数据泄露，确保api…

程序猿
2026年5月10日
0000
用户投稿

利用海象运算符简化条件赋值：Python教程与最佳实践

本文旨在探讨Python中海象运算符（:=）在条件赋值场景下的应用。通过对比传统if/else语句与海象运算符，以及条件表达式，分析海象运算符在简化代码、提高可读性方面的优势与局限性。并通过具体示例，展示如何在列表推导式等场景下合理使用海象运算符，同时强调其潜在的复杂性及替代方案，帮助开发者更好地掌…

程序猿
2026年5月10日
0000
用户投稿

Debian syslog性能优化技巧有哪些

提升Debian系统syslog (通常基于rsyslog)性能，关键在于精简配置和高效处理日志。以下策略能有效优化日志管理，提升系统整体性能：精简配置，高效加载: 在rsyslog配置文件中，仅加载必要的输入、输出和解析模块。使用全局指令设置日志级别和格式，避免不必要的处理。自定义模板: 创…

程序猿
2026年5月10日
0000
用户投稿

比特币新手教程比特币交易平台有哪些

比特币是一种去中心化的数字货币，基于区块链技术实现点对点交易，具有匿名性、有限发行和不可篡改等特点；新手可通过交易所购买，P2P交易获得比特币，常用平台包括Binance、OKX和Huobi；交易流程包括注册账户、实名认证、绑定支付方式、充值法币并下单购买，可选择市价单或限价单；比特币存储方式有交易…

程序猿
2026年5月10日
0000
用户投稿

c++中的SFINAE技术是什么_c++模板编程中的SFINAE原理与应用

SFINAE 是“替换失败不是错误”的原则，指模板实例化时若参数替换导致错误，只要存在其他合法候选，编译器不报错而是继续重载决议。它用于条件启用模板、类型检测等场景，如通过 decltype 或 enable_if 控制函数重载，实现类型特征判断。尽管 C++20 引入 Concepts 简化了部分…

程序猿
2026年5月10日
0000
用户投稿

Go语言mgo查询构建：深入理解bson.M与日期范围查询的正确实践

本文旨在解决go语言mgo库中构建复杂查询时，特别是涉及嵌套`bson.m`和日期范围筛选的常见错误。我们将深入剖析`bson.m`的类型特性，解释为何直接索引`interface{}`会导致“invalid operation”错误，并提供一种推荐的、结构清晰的代码重构方案，以确保查询条件能够正确…

程序猿
2026年5月10日
1000
用户投稿

RichHandler与Rich Progress集成：解决显示冲突的教程

在使用rich库的`richhandler`进行日志输出并同时使用`progress`组件时，可能会遇到显示错乱或溢出问题。这通常是由于为`richhandler`和`progress`分别创建了独立的`console`实例导致的。解决方案是确保日志处理器和进度条组件共享同一个`console`实例…

程序猿
2026年5月10日
0000
用户投稿

修复点击时按钮抖动：CSS垂直对齐实践

本文探讨了在Web开发中，交互式按钮（如播放/暂停按钮）在点击时发生意外垂直位移的问题。通过分析CSS样式变化对元素布局的影响，我们发现这是由于按钮不同状态下的边框样式和内边距改变，以及默认的垂直对齐行为共同作用所致。核心解决方案是利用CSS的vertical-align属性，将其设置为middle…

程序猿
2026年5月10日
0000
用户投稿

Golang goroutine与channel调试技巧

使用go run -race检测数据竞争，结合runtime.NumGoroutine监控协程数量，通过pprof分析阻塞调用栈，利用select超时避免永久阻塞，有效排查goroutine泄漏、死锁和数据竞争问题。 Go语言的goroutine和channel是并发编程的核心，但它们也带来了调试上…

程序猿
2026年5月10日
0000
《魔兽世界》将于6月11日开启国服回归技术测试

《%ign%ignore_a_1%re_a_1%》官方宣布，将于6月11日开启国服回归技术测试，时间为7天，并称可以在6月内正式开服，玩家们可以访问官网下载战网客户端并预下载“巫妖王之怒”客户端，技术测试详情见下图。 WordAi WordAI是一个AI驱动的内容重写平台 53 查看详情以上就是《…

程序猿
2026年5月10日 • 用户投稿
2000
用户投稿

使用 Jupyter Notebook 进行探索性数据分析

Jupyter Notebook通过单元格实现代码与Markdown结合，支持数据导入（pandas）、清洗（fillna）、探索（matplotlib/seaborn可视化）、统计分析（describe/corr）和特征工程，便于记录与分享分析过程。 Jupyter Notebook 是进行探索性…

程序猿
2026年5月10日
0000
用户投稿

如何在HTML中插入表单元素_HTML表单控件与输入类型使用指南

HTML表单通过标签构建，包含action和method属性定义数据提交目标与方式，常用input类型如text、password、email等适配不同输入需求，配合label、required、placeholder提升可用性，结合textarea、select、button等控件实现完整交互，是…

程序猿
2026年5月10日
0000
用户投稿

前端缓存策略与JavaScript存储管理

根据数据特性选择合适的存储方式并制定清晰的读写与清理逻辑，能显著提升前端性能；合理运用Cookie、localStorage、sessionStorage、IndexedDB及Cache API，结合缓存策略与定期清理机制，可在保证用户体验的同时避免安全与性能隐患。前端缓存和JavaScript存…

程序猿
2026年5月10日
1000
用户投稿

网站标题关键词更新后，搜索引擎为何仍显示旧标题？

网站标题更新后，搜索引擎为何显示旧标题？网站SEO优化中，站长常修改网站标题关键词，期望搜索结果显示自定义标题。然而，即使更新标签、meta keywords、meta description和结构化数据中的name属性后，搜索结果仍显示旧标题，这令人费解。本文将对此进行解释。问题：站长修改了网…

程序猿
2026年5月10日
1000
用户投稿

HTML5网页如何实现手势操作 HTML5网页移动端交互的处理技巧

首先利用原生touch事件实现滑动判断，再通过preventDefault解决滚动冲突，接着引入Hammer.js处理复杂手势，最后通过优化点击区域、避免事件冲突和增加视觉反馈提升体验。在移动端浏览器中，HTML5网页可以通过触摸事件实现手势操作，提升用户体验。虽然原生JavaScript提供了基…

程序猿
2026年5月10日
0000
用户投稿

深入理解 Express.js 中 next() 参数的作用与中间件机制

本文深入探讨 express.js 中间件函数中的 `next()` 参数。它负责将控制权传递给请求-响应周期中的下一个中间件或路由处理程序。文章将详细解释 `next()` 的工作原理、中间件的注册与执行顺序，以及不正确使用 `next()` 可能导致请求挂起的风险，并通过代码示例和实际应用场景，…

程序猿
2026年5月10日
0000
用户投稿

创建指定大小并填充特定数据的Golang文件教程

本文将介绍如何使用Golang创建一个指定大小的文件，并用特定数据填充它。我们将使用 `os` 包提供的函数来创建和截断文件，从而实现快速生成大文件的目的。示例代码展示了如何创建一个10MB的文件，并将其填充为全零数据。掌握这些方法，可以方便地在例如日志系统或磁盘队列等场景中，预先创建测试文件或初始…

程序猿
2026年5月10日
0000