Python解释器开发：解析器中无限循环的诊断与修复

程序猿 • 2025年12月14日 12:17:03 • 用户投稿 • 阅读 1

本文深入探讨了Python解释器开发中常见的解析器（parser）无限循环问题。通过分析一个具体的代码案例，揭示了循环变量i未在所有执行路径中正确递增是导致KeyboardInterrupt错误的原因。文章提供了详细的修复方案，并进一步优化了parse函数，使其能够健壮地处理各类令牌，包括打印语句和独立数值/表达式，从而构建一个更完善的解释器组件。

构建Python解释器基础

在构建一个语言解释器时，通常会涉及两个核心阶段：词法分析（lexing）和语法分析（parsing）。

词法分析器（Lexer）: 负责将源代码字符串分解成一系列有意义的“令牌”（tokens）。例如，将print “HELLO”分解为PRINT令牌和STRING:”HELLO”令牌。在提供的代码中，lex函数承担了这一职责，它将输入文件内容转换为如[“PRINT”, “STRING:”HELLO WORLD””, “PRINT”, “STRING:”string””, “NUM:566755664645454”, “EXPR:5+6”, “PRINT”, “NUM:55”, “PRINT”, “EXPR:5+8”]这样的令牌列表。

语法分析器（Parser）: 负责接收词法分析器生成的令牌流，并根据语言的语法规则构建抽象语法树（AST）或直接执行相应的操作。在提供的代码中，parse函数的目标是识别如PRINT STRING、PRINT NUM、PRINT EXPR等模式，并执行打印操作。

例如，对于以下语言输入：

PRINT "HELLO WORLD"print "string"5667556646454545 + 6print 55print 5 + 8

lex函数会将其转换为一个令牌列表，parse函数则需要遍历这个列表并执行对应的操作。

立即学习“Python免费学习笔记（深入）”；

问题诊断：解析器中的无限循环

在解释器开发中，一个常见的错误是解析器进入无限循环。原始代码在执行时，仅打印了前两个字符串，随后便抛出了KeyboardInterrupt错误，这通常是由于程序陷入了死循环，用户不得不手动中断执行。

PS C:UsersessamDesktopspl> python basic.py test.lang"HELLO WORLD""string"Traceback (most recent call last):  File "C:UsersessamDesktopsplbasic.py", line 73, in     run()  File "C:UsersessamDesktopsplbasic.py", line 71, in run    parse(toks)  File "C:UsersessamDesktopsplbasic.py", line 58, in parse    while(i < len(toks)):              ^^^^^^^^^KeyboardInterrupt

错误堆栈指向了parse函数内部的while循环条件while(i

分析原始的parse函数：

def parse(toks):    i = 0    while(i < len(toks)):        # 只有当满足 "PRINT STRING" 或 "PRINT NUM" 或 "PRINT EXPR" 条件时，i才递增        if toks[i] + " " + toks[i+1][0:6] == "PRINT STRING" or            toks[i] + " " + toks[i+1][0:3] == "PRINT NUM" or            toks[i] + " " + toks[i+1][0:4] == "PRINT EXPR":            if toks[i+1][0:6] == "STRING":                print(toks[i+1][7:])            elif toks[i+1][0:3] == "NUM":                print(toks[i+1][4:])            elif toks[i+1][0:4] == "EXPR":                print(toks[i+1][5:])            i+= 2 # 递增操作被嵌套在if条件内部

问题在于，i += 2这行代码被严格地放置在if条件块内部。这意味着，只有当toks[i]和toks[i+1]的组合精确匹配PRINT STRING、PRINT NUM或PRINT EXPR这三种模式之一时，i才会递增。

考虑以下场景：

解析器处理完PRINT “HELLO WORLD”和print “string”后，i的值为4。下一个令牌是NUM:566755664645454 (toks[4])。此时，if条件toks[4] + ” ” + toks[5][0:6] == “PRINT STRING”等将不再满足（因为toks[4]不是PRINT）。由于if条件不满足，i += 2这行代码不会被执行。i的值保持为4，while循环的条件i

核心修复：确保循环变量递增

解决无限循环问题的核心在于确保在while循环的每一次迭代中，无论是否匹配到特定的语法模式，循环变量i都必须有所进展。最直接的修复是将i的递增操作移到if条件块之外，使其在每次循环结束时都能够执行。

def parse(toks):    i = 0    while i < len(toks):        # 确保有足够的令牌进行检查，避免 IndexError        if i + 1 < len(toks) and            toks[i] == "PRINT" and            (toks[i+1].startswith("STRING:") or             toks[i+1].startswith("NUM:") or             toks[i+1].startswith("EX:")): # 注意：EXPR的简写是EX            # 处理 PRINT 语句            if toks[i+1].startswith("STRING:"):                print(toks[i+1][7:])            elif toks[i+1].startswith("NUM:"):                print(toks[i+1][4:])            elif toks[i+1].startswith("EXPR:"): # 修正为 EXPR                print(toks[i+1][5:])            i += 2 # 处理了 PRINT 和其参数，i递增2        else:            # 如果不匹配 PRINT 语句模式，也必须递增 i，避免无限循环            # 这里简单地跳过当前令牌，实际应用中可能需要更复杂的错误处理            print(f"Warning: Unhandled token or syntax error at index {i}: {toks[i]}")            i += 1 # 只处理了当前令牌，i递增1

通过将i的递增操作（i += 1或i += 2）放置在if/else结构的所有分支中，或者在if块外部（如果所有情况都递增相同步长），可以保证i在每次循环中都会前进，最终使i达到len(toks)，从而终止循环。

增强解析器：处理多种令牌类型

原始parse函数仅关注以PRINT开头的语句。然而，根据提供的测试用例，还有像566755664645454（NUM类型）和5 + 6（EXPR类型）这样的独立令牌，它们也需要被处理。为了使解析器更健壮和完整，我们需要扩展其逻辑来处理这些非PRINT开头的令牌。

以下是一个更完善的parse函数，它不仅解决了无限循环问题，还能够识别和处理独立的NUM和EXPR令牌，并加入了必要的边界条件检查：

def parse(toks):    i = 0    while i < len(toks):        current_token = toks[i]        # 1. 处理 PRINT 语句        if current_token == "PRINT":            # 确保 PRINT 后面有参数令牌            if i + 1 < len(toks):                next_token = toks[i+1]                if next_token.startswith("STRING:"):                    print(next_token[7:]) # 打印字符串内容                    i += 2 # 消耗了 PRINT 和 STRING 两个令牌                elif next_token.startswith("NUM:"):                    print(next_token[4:]) # 打印数字内容                    i += 2 # 消耗了 PRINT 和 NUM 两个令牌                elif next_token.startswith("EXPR:"):                    print(next_token[5:]) # 打印表达式内容                    i += 2 # 消耗了 PRINT 和 EXPR 两个令牌                else:                    # PRINT 后面跟着无法识别的令牌                    print(f"Error: Unexpected token after PRINT: {next_token}")                    i += 2 # 即使是错误，也要前进，避免死循环            else:                # PRINT 语句缺少参数                print("Error: PRINT statement missing argument.")                i += 1 # 消耗 PRINT 令牌，继续        # 2. 处理独立的 NUM 令牌        elif current_token.startswith("NUM:"):            print(current_token[4:]) # 打印数字内容            i += 1 # 消耗 NUM 令牌        # 3. 处理独立的 EXPR 令牌        elif current_token.startswith("EXPR:"):            print(current_token[5:]) # 打印表达式内容            i += 1 # 消耗 EXPR 令牌        # 4. 处理独立的 STRING 令牌 (如果需要)        elif current_token.startswith("STRING:"):            print(current_token[7:]) # 打印字符串内容            i += 1 # 消耗 STRING 令牌        # 5. 遇到其他未处理的令牌类型        else:            print(f"Warning: Unhandled token type: {current_token}. Skipping.")            i += 1 # 消耗当前令牌，继续

代码解释：

边界条件检查: if i + 1 多分支处理: 使用elif结构，根据current_token的类型进行不同的处理。如果遇到PRINT，则进一步检查

以上就是Python解释器开发：解析器中无限循环的诊断与修复的详细内容，更多请关注创想鸟其它相关文章！

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 chuangxiangniao@163.com 举报，一经查实，本站将立刻删除。
发布者：程序猿，转转请注明出处：https://www.chuangxiangniao.com/p/1372387.html

打赏

微信扫一扫

支付宝扫一扫

0 0

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

PEFT LoRA适配器与基础模型的高效合并策略

上一篇 2025年12月14日 12:17:02

PEFT LoRA适配器与基础模型合并的专业指南

下一篇 2025年12月14日 12:17:09

好文分享

如何解决本地图片在使用 mask JS 库时出现的跨域错误？

如何跨越localhost使用本地图片？问题: 在本地使用mask js库时，引入本地图片会报跨域错误。解决方案: 要解决此问题，需要使用本地服务器启动文件，以http或https协议访问图片，而不是使用file://协议。例如： python -m http.server 8000 然后，可以…

程序猿
2025年12月24日
3000
好文分享

使用 Mask 导入本地图片时，如何解决跨域问题？

跨域疑难：如何解决 mask 引入本地图片产生的跨域问题？在使用 mask 导入本地图片时，你可能会遇到令人沮丧的跨域错误。为什么会出现跨域问题呢？让我们深入了解一下： mask 框架假设你以 http(s) 协议加载你的 html 文件，而当使用 file:// 协议打开本地文件时，就会产生跨域…

程序猿
2025年12月24日
3000
好文分享

正则表达式在文本验证中的常见问题有哪些？

正则表达式助力文本输入验证在文本输入框的验证中，经常遇到需要限定输入内容的情况。例如，输入框只能输入整数，第一位可以为负号。对于不会使用正则表达式的人来说，这可能是个难题。下面我们将提供三种正则表达式，分别满足不同的验证要求。 1. 可选负号，任意数量数字如果输入框中允许第一位为负号，后面可输入…

程序猿
2025年12月24日
3000
好文分享

为什么多年的经验让我选择全栈而不是平均栈

在全栈和平均栈开发方面工作了 6 年多，我可以告诉您，虽然这两种方法都是流行且有效的方法，但它们满足不同的需求，并且有自己的优点和缺点。这两个堆栈都可以帮助您创建 Web 应用程序，但它们的实现方式却截然不同。如果您在两者之间难以选择，我希望我在两者之间的经验能给您一些有用的见解。在这篇文章中，我…

程序猿
2025年12月24日
3000
好文分享

姜戈顺风

本教程演示如何在新项目中从头开始配置 django 和 tailwindcss。 django 设置创建一个名为 .venv 的新虚拟环境。 # windows$ python -m venv .venv$ .venvscriptsactivate.ps1(.venv) $# macos/linu…

程序猿
2025年12月24日
1000
好文分享

花 $o 学习这些编程语言或免费

→ Python → JavaScript → Java → C# → 红宝石 → 斯威夫特 → 科特林 → C++ → PHP → 出发 → R → 打字稿 []https://x.com/e_opore/status/1811567830594388315?t=_j4nncuiy2wfbm7ic…

程序猿
2025年12月24日
0000
好文分享

html5怎么导视频_html5用video标签导出或Canvas转DataURL获视频【导出】

HTML5无法直接导出video标签内容，需借助Canvas捕获帧并结合MediaRecorder API、FFmpeg.wasm或服务端协同实现。MediaRecorder适用于WebM格式前端录制；FFmpeg.wasm支持MP4等格式及精细编码控制；服务端方案适合高负载场景。如果您希望在网页…

程序猿
2025年12月23日
4000
好文分享

如何查看编写的html_查看自己编写的HTML文件效果【效果】

要查看HTML文件的浏览器渲染效果，需确保文件以.html为扩展名保存、用浏览器直接打开、利用开发者工具调试、必要时启用本地HTTP服务器、或使用编辑器实时预览插件。如果您编写了HTML代码，但无法直观看到其在浏览器中的实际渲染效果，则可能是由于文件未正确保存、未使用浏览器打开或文件扩展名设置错误…

程序猿
2025年12月23日
4000
好文分享

html5怎么打包运行_HT5用Webpack或Gulp打包后浏览器打开运行【打包】

应通过 HTTP 服务运行打包后的 HTML5 页面，而非双击打开：一、Webpack 配 webpack-dev-server 启动本地服务；二、Gulp 配 BrowserSync 提供实时重载；三、用 Python/Node.js 轻量 HTTP 工具托管 dist 目录；四、仅当必须双击运行…

程序猿
2025年12月23日
1000
好文分享

html5文件运行不出来怎么回事_析html5文件运行失败原因【解析】

首先检查文件扩展名和编码格式，确保为.html且使用UTF-8编码；接着验证HTML5结构完整性，包含及正确闭合的标签；然后排查外部资源路径是否正确，利用开发者工具查看404错误；排除浏览器兼容性问题，优先在现代浏览器中测试并避免未广泛支持的API；检查JavaScript语法错误与执行顺序，确保脚…

程序猿
2025年12月23日
1000
好文分享

html5怎么插入文档_HT5用object或iframe嵌入PDF/Word文档显示【插入】

可在HTML5中用iframe或object标签嵌入PDF，需设宽高及可访问路径；Word文档需借OneDrive等第三方服务代理渲染；须处理跨域限制并提供下载降级方案。如果您希望在HTML5页面中嵌入PDF或Word文档并直接显示，可以使用或标签实现。以下是几种可行的嵌入方法：一、使用ifra…

程序猿
2025年12月23日
3000
好文分享

html5怎么设置黑体_html5用CSS font-family设黑体或font-weight加粗【设置】

在HTML5中实现黑体及加粗需用CSS的font-family和font-weight：一、font-family按优先级列“SimHei”,“Microsoft YaHei”,“Heiti SC”,sans-serif；二、font-weight用700或bold；三、组合声明并注意继承；四、可用…

程序猿
2025年12月23日
1000
好文分享

如何运行html代码_html代码运行方法【步骤】

HTML代码需保存为.html文件并用浏览器打开才能正确显示；若含AJAX或外部资源则需本地服务器；临时测试可用开发者工具；在线编辑器支持即时预览。如果您编写了一段HTML代码，但无法在浏览器中正确显示效果，则可能是由于文件未以正确的格式保存或未通过浏览器打开。以下是运行HTML代码的具体步骤： …

程序猿
2025年12月23日
1000
好文分享

html5怎么控制字体_HTML5用CSS font-family/weight/size控字体样式【控制】

可通过CSS的font-family、font-weight、font-size等属性精确控制HTML5文字外观：font-family设字体栈并兜底通用族；font-weight用数值或关键字设字重；font-size支持绝对/相对单位；font简写需固定顺序且必含font-size和font-f…

程序猿
2025年12月23日
0000
好文分享

safari怎么打开html5_Safari浏览器直接输入html5链接自动渲染打开【打开】

Safari中正确渲染HTML5内容需采用file://协议、禁用本地限制、启用HTTP服务器或更新版本并开启实验性功能。具体包括：一、用file:///绝对路径打开本地HTML文件；二、勾选高级设置中的“显示开发菜单”并禁用本地文件限制；三、用Python启动本地HTTP服务，通过http://l…

程序猿
2025年12月23日
0000
好文分享

html5怎么显示文字_html5用p/span等标签加CSS设样式显示文字【显示】

要在HTML5页面中正确显示文字，需用语义化标签（如p、span）并配合CSS设置字体、颜色、尺寸等样式，确保可见性、可访问性及响应式适配。如果您希望在HTML5页面中正确显示文字，需使用语义化标签并配合CSS控制样式。以下是实现文字显示的具体方法：一、使用p标签显示段落文字 p标签用于定义段落…

程序猿
2025年12月23日
0000
好文分享

电脑html5怎么使用_电脑用新版浏览器打开HTML5文件直接渲染使用【使用】

需用支持HTML5的现代浏览器，通过file://协议双击打开、浏览器菜单打开、本地HTTP服务器（Python/Node.js）、VS Code Live Server插件或Visual Studio内置功能加载页面。如果您编写完成一个HTML5页面文件，希望在电脑上直接查看其渲染效果，则需确保…

程序猿
2025年12月23日
0000
好文分享

html5怎样插入带样式的docx_html5docx样式保留与展示方案【攻略】

无法直接嵌入.docx，需转换为HTML：一、前端用docxtemplater+html-docx-js生成内联样式HTML；二、后端用python-docx等转为语义化HTML+CSS；三、用Office Online Viewer iframe只读展示；四、用docx-preview库解析Blo…

程序猿
2025年12月23日
0000
好文分享

mac html5 怎么下载_mac浏览器直接打开html5文件无需额外下载【说明】

Mac上HTML5文件被下载而非渲染，需检查文件关联、浏览器安全限制、使用Python服务器托管、验证编码与MIME声明、禁用干扰扩展。如果您在 Mac 上使用浏览器打开 HTML5 文件时发现需要额外下载而非直接渲染，可能是由于文件关联设置、浏览器默认行为或文件路径问题导致。以下是解决此问题的步…

程序猿
2025年12月23日
3000
好文分享

如何快速开发html5_快速开发HTML5应用的方法【应用】

快速构建HTML5应用有五种方法：一、用HTML5 Boilerplate模板跳过基础搭建；二、用Vite等构建工具链实现自动化开发；三、集成Bootstrap等UI组件库减少样式与交互开发；四、借助CodePen等在线平台即时调试；五、封装Web Components实现模块复用。如果您希望在短…

程序猿
2025年12月23日
3000