用状态机逐字符解析CSV可正确处理引号包裹、双引号转义和跨行字段;核心是维护in_quotes状态,区分引号内外的逗号与换行;封装为read_csv返回vector,分离文件读取与字段解析逻辑。

用 C++ 实现一个简单的 CSV 解析器,核心在于正确处理逗号分隔、引号包裹、换行和转义等常见规则。不需要依赖第三方库,用标准库 、 和 就能完成——关键是把“字段解析逻辑”和“文件读取逻辑”分开设计。
理解 CSV 的基本规则(避免踩坑)
标准 CSV(RFC 4180)中,字段可能被双引号 " 包裹,此时内部的双引号要写成两个(""),换行符也可出现在引号内。例如:
"name","score","note""张三",95,"likes ""C++""""李四",87,"ok"
这意味着不能简单用 std::getline(file, line) + std::stringstream 按逗号切分——会错判引号内的逗号或换行。
逐字符状态机解析(轻量可靠)
推荐用状态机方式逐字符扫描:维护当前是否在引号内(in_quotes)、是否刚遇到引号(用于识别 "" 转义)。伪逻辑如下:
立即学习“C++免费学习笔记(深入)”;
遇到 ":切换 in_quotes;若下一个也是 ",跳过一个,当前字段加一个 " 遇到 , 且不在引号内:当前字段结束 遇到 n 或文件尾且不在引号内:本行结束 其他字符:直接追加到当前字段
这样能自然支持跨行字段和嵌套引号,代码约 50 行即可实现健壮基础版。
封装为易用接口(读文件 → 行向量 → 字段向量)
定义清晰结构,比如:
using CSVRow = std::vector;using CSVData = std::vector;CSVData read_csv(const std::string& filename);
函数内部打开文件、逐行解析、每行调用解析函数 parse_csv_line(const std::string&),返回 CSVRow。注意:文件以 std::ios::in 打开,无需二进制模式;中文系统建议用 UTF-8 编码保存 CSV,C++ 标准库不自动处理 BOM,但多数现代编辑器和 Excel 可识别。
简单示例:只处理无引号、无换行的 CSV(快速上手)
如果确定数据干净(如导出日志、实验数据),可用简化版:
std::ifstream fin("data.csv");std::string line;while (std::getline(fin, line)) { std::vector fields; std::stringstream ss(line); std::string field; while (std::getline(ss, field, ',')) { // 去除首尾空格(可选) field.erase(0, field.find_first_not_of(" t")); field.erase(field.find_last_not_of(" t") + 1); fields.push_back(field); } // 处理 fields...}
这种写法简洁,但遇到 "a,b",c 就会错误拆成三个字段。仅限受控环境使用。
基本上就这些。真正健壮的 CSV 解析不复杂,但容易忽略引号转义和跨行场景。按状态机写一遍,以后读配置、导报表、做小工具都够用。
以上就是c++++如何实现一个简单的CSV解析器_c++文件读写与字符串处理【工具】的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/1489842.html
微信扫一扫
支付宝扫一扫