linux flex是什么

程序猿 • 2025年11月4日 09:34:18 • 用户投稿 • 阅读 0

在linux中，flex是一个词法分析工具，能够识别文本中的词法模式；Flex读入给定的输入文件，如果没有给定文件名的话，则从标准输入读取，从而获得一个关于需要生成的扫描器的描述。

本教程操作环境：linux5.9.8系统、Dell G3电脑。

flex:词法分析器

flex是一个词法分析器。用来将一个.l文件生成一个.c程序文件。即生成一个词法分析器。然后读取输入，和正则表达式匹配，再执行相应的动作，实现了程序的功能。我们可以发现flex实现在程序外部就可以接受输入的功能。

Flex是一个生成扫描器的工具，能够识别文本中的词法模式。Flex 读入给定的输入文件，如果没有给定文件名的话，则从标准输入读取，从而获得一个关于需要生成的扫描器的描述。此描述叫做规则，由正则表达式和 C代码对组成。Flex 的输出是一个 C 代码文件——lex.yy.c——其中定义了yylex() 函数。编译输出文件可以生成一个可执行文件。当运行可执行文件的时候，它分析输入文件，为每一个正则表达式寻找匹配。当发现一个匹配时，它执行与此正则表达式相关的C代码。Flex 不是GNU工程，但是GNU为Flex 写了手册。

用法

安装 flex

sudo apt-get install flex//或者下载相应版本的安装文件安装

然后新建一个文本文件，输入以下内容：

%%[0-9]+  printf("?");#       return 0;.       ECHO;%%int main(int argc, char* argv[]) {    yylex();    return 0;}int yywrap() {     return 1;}

将此文件另存为 hide-digits.l 。注意此文件中的 %% 必须在本行的最前面（即 %% 前面不能有任何空格）。

之后，在终端输入：

flex hide-digits.l

此时目录下多了一个 “lex.yy.c” 文件，把这个 C 文件编译并运行一遍：

 gcc -o hide-digits lex.yy.c./hide-digits

然后在终端不停的敲入任意键并回车，可以发现，敲入的内容中，除数字外的字符都被原样的输出了，而每串数字字符都被替换成 ? 了。最后敲入 # 后程序退出了。如下：

eruiewdkfjeruiewdkfj1245?fdsaf4578fdsaf?...#

当在命令行中运行 flex 时，第二个命令行参数（此处是 hide-digits.l ）是提供给 flex 的分词模式文件，此模式文件中主要是用户用正则表达式写的分词匹配模式，用flex 会将这些正则表达式翻译成 C 代码格式的函数 yylex ，并输出到 lex.yy.c 文件中，该函数可以看成一个有限状态自动机。

下面再来详细解释一下 hide-digits.l 文件中的代码，首先第一段是：

%%[0-9]+  printf("?");#       return 0;.       ECHO;%%

flex 模式文件中，用%% 和 %%做分割，上面分割的内容被称为规则（rules），本文件中每一行都是一条规则，每条规则由匹配模式（pattern）和事件（action）组成，模式在前面，用正则表达式表示，事件在后面，即 C 代码。每当一个模式被匹配到时，后面的 C 代码被执行。

flex 会将本段内容翻译成一个名为 yylex 的函数，该函数的作用就是扫描输入文件（默认情况下为标准输入），当扫描到一个完整的、最长的、可以和某条规则的正则表达式所匹配的字符串时，该函数会执行此规则后面的 C 代码。如果这些 C 代码中没有 return 语句，则执行完这些 C 代码后， yylex 函数会继续运行，开始下一轮的扫描和匹配。

当有多条规则的模式被匹配到时， yylex 会选择匹配长度最长的那条规则，如果有匹配长度相等的规则，则选择排在最前面的规则。

int main(int argc, char *argv[]) {    yylex();    return 0;}int yywrap() { return 1; }

第二段中的 main 函数是程序的入口， flex 会将这些代码原样的复制到 lex.yy.c 文件的最后面。最后一行的 yywrap 函数， flex 要求有这么一个函数。

示例

HTML+CSS+jQuery实现Flex悬停滑块

一款HTML+CSS+jQuery实现的Flex悬停滑块特效

131 查看详情

word-spliter.l

%{#define T_WORD 1int numChars = 0, numWords = 0, numLines = 0;%}WORD([^ tnra]+)%%n{ numLines++; numChars++; }{WORD}{ numWords++; numChars += yyleng; return T_WORD; }<>{ return 0; }.{ numChars++; }%%int main() {int token_type;while (token_type = yylex()) {printf("WORD:t%sn", yytext);}printf("nCharstWordstLinesn");printf("%dt%dt%dn", numChars, numWords, numLines);return 0;}int yywrap() {return 1;}

本例中使用到了 flex 提供的两个全局变量 yytext 和 yyleng，分别用来表示刚刚匹配到的字符串以及它的长度

编译执行

flex word-spliter.lgcc -o word-spliter lex.yy.c./word-spliter < word-spliter.l输出：WORD:       %{WORD:       #define...WORD:       }Chars       Words   Lines470 70      27

可见此程序其实就是一个原始的分词器，它将输入文件分割成一个个的 WORD 再输出到终端，同时统计输入文件中的字符数、单词数和行数。此处的 WORD 指一串连续的非空格字符。

扩展

（1）列出所需的所有类型的 token；

（2）为每种类型的 token 分配一个唯一的编号，同时写出此 token 的正则表达式；

（3）写出每种 token 的 rule （相应的 pattern 和 action ）。

第 1 类为单字符运算符，一共 15 种：

+ * - / % = , ; !  ( ) { }

第 2 类为双字符运算符和关键字，一共 16 种：

=, ==, !=, &&, ||void, int, while, if, else, return, break, continue, print, readint

第 3 类为整数常量、字符串常量和标识符（变量名和函数名），一共 3 种。

拓展后

%{#include "token.h"int cur_line_num = 1;void init_scanner();void lex_error(char* msg, int line);%}/* Definitions, note: 42 is '"' */INTEGER             ([0-9]+)UNTERM_STRING       (42[^42n]*)STRING              (42[^42n]*42)IDENTIFIER          ([_a-zA-Z][_a-zA-Z0-9]*)OPERATOR            ([+*-/%=,;!(){}])SINGLE_COMMENT1     ("//"[^n]*)SINGLE_COMMENT2     ("#"[^n]*)%%[n]                { cur_line_num++;                       }[ tra]+          { /* ignore all spaces */               }{SINGLE_COMMENT1}   { /* skip for single line comment */    }{SINGLE_COMMENT2}   { /* skip for single line commnet */    }{OPERATOR}          { return yytext[0];         }   "="                { return T_Ge;              }"=="                { return T_Eq;              }"!="                { return T_Ne;              }"&&"                { return T_And;             }"||"                { return T_Or;              }"void"              { return T_Void;            }"int"               { return T_Int;             }"while"             { return T_While;           }"if"                { return T_If;              }"else"              { return T_Else;            }"return"            { return T_Return;          }"break"             { return T_Break;           }"continue"          { return T_Continue;        }"print"             { return T_Print;           }"readint"           { return T_ReadInt;         }{INTEGER}           { return T_IntConstant;     }{STRING}            { return T_StringConstant;  }{IDENTIFIER}        { return T_Identifier;      }<>             { return 0; }{UNTERM_STRING}     { lex_error("Unterminated string constant", cur_line_num);  }.                   { lex_error("Unrecognized character", cur_line_num);        }%%int main(int argc, char* argv[]) {    int token;    init_scanner();    while (token = yylex()) {        print_token(token);        puts(yytext);    }    return 0;}void init_scanner() {    printf("%-20s%sn", "TOKEN-TYPE", "TOKEN-VALUE");    printf("-------------------------------------------------n");}void lex_error(char* msg, int line) {    printf("nError at line %-3d: %snn", line, msg);}int yywrap(void) {    return 1;}

上面这个文件中，需要注意的是，正则表达式中，用双引号括起来的字符串就是原始字符串，里面的特殊字符是不需要转义的，而双引号本身必须转义（必须用 ” 或 42 ），这是 flex 中不同于常规的正则表达式的一个特性。

除单字符运算符外的 token 的编号则在下面这个 token.h 文件，该文件中同时提供了一个 print_token 函数，可以根据 token 的编号打印其名称。

#ifndef TOKEN_H#define TOKEN_Htypedef enum {    T_Le = 256, T_Ge, T_Eq, T_Ne, T_And, T_Or, T_IntConstant,    T_StringConstant, T_Identifier, T_Void, T_Int, T_While,    T_If, T_Else, T_Return, T_Break, T_Continue, T_Print,    T_ReadInt} TokenType;static void print_token(int token) {    static char* token_strs[] = {        "T_Le", "T_Ge", "T_Eq", "T_Ne", "T_And", "T_Or", "T_IntConstant",        "T_StringConstant", "T_Identifier", "T_Void", "T_Int", "T_While",        "T_If", "T_Else", "T_Return", "T_Break", "T_Continue", "T_Print",        "T_ReadInt"    };    if (token < 256) {        printf("%-20c", token);    } else {        printf("%-20s", token_strs[token-256]);    }}#endif

makefile

out: scannerscanner: lex.yy.c token.hgcc -o $@ $<lex.yy.c: scanner.lflex $<

关于作者

程序猿签约作者

414.1K 文章

0 评论

2 粉丝

这个人很懒，什么都没有留下～

双出风+6赫兹超低频，一场由中国企业引发的中央空调体验革命

上一篇 2025年11月4日 09:34:17

苹果手机屏幕花屏怎么办

下一篇 2025年11月4日 09:34:18

用户投稿

Python命令怎样使用profile分析脚本性能 Python命令性能分析的基础教程

使用Python的cProfile模块分析脚本性能最直接的方式是通过命令行执行python -m cProfile your_script.py，它会输出每个函数的调用次数、总耗时、累积耗时等关键指标，帮助定位性能瓶颈；为进一步分析，可将结果保存为文件python -m cProfile -o ou…

程序猿
2026年5月10日
0000
用户投稿

c++如何实现UDP通信_c++基于UDP的网络通信示例

UDP通信基于套接字实现，适用于实时性要求高的场景。1. 流程包括创建套接字、绑定地址（接收方）、发送（sendto）与接收（recvfrom）数据、关闭套接字；2. 服务端监听指定端口，接收客户端消息并回传；3. 客户端发送消息至服务端并接收响应；4. 跨平台需处理Winsock初始化与库链接，编…

程序猿
2026年5月10日
0000
谷歌浏览器如何截图谷歌浏览器页面截图技巧

使用谷歌浏览器的开发者工具截图步骤：1. 按ctrl+shift+i（windows/linux）或cmd+option+i（mac）打开开发者工具。2. 点击右上角三个点，选择”更多工具”，再选择”截图”。3. 选择截取整个页面。推荐的谷歌浏览器扩展…

程序猿
2026年5月10日 • 用户投稿
1000
用户投稿

pycharm解析器怎么添加解析器添加详细流程

在pycharm中添加解析器的步骤包括：1) 打开pycharm并进入设置，2) 选择project interpreter，3) 点击齿轮图标并选择add，4) 选择解析器类型并配置路径，5) 点击ok完成添加。添加解析器后，选择合适的类型和版本，配置环境变量，并利用解析器的功能提高开发效率。在…

程序猿
2026年5月10日
0000
用户投稿

JavaScript Electron桌面应用

答案：使用JavaScript开发%ignore_a_1%桌面应用需结合Web技术与Node.js，通过主进程管理窗口、渲染进程展示界面，并利用IPC通信，调用系统功能如文件对话框，最后用electron-builder打包发布，注意安全与进程职责分离。用JavaScript开发Electron桌…

程序猿
2026年5月10日
0000
Linux文件系统iostat命令使用技巧

iostat是Linux系统中用于监控I/O设备负载的关键工具，能分析磁盘性能并识别瓶颈。默认输出包括CPU使用率和设备I/O统计，分为系统启动以来的平均值和当前采样周期数据。核心指标有：%util反映设备利用率，持续接近100%可能表示I/O瓶颈；await为平均I/O等待时间，过高说明响应变慢；…

程序猿
2026年5月10日 • 用户投稿
0000
用户投稿

如何测试html5编码_测试HTML5页面编码兼容性方法【编码测试】

HTML5页面编码兼容性测试需五步：一查meta charset是否正确且前置；二验HTTP响应头Content-Type charset是否为utf-8；三用file或chardet工具探测实际编码；四跨浏览器测试URL参数中中文、Emoji解析；五通过W3C验证服务检查编码声明与字节一致性。如…

程序猿
2026年5月10日
1000
用户投稿

后缀php怎么打开_php文件打开方式与运行环境搭建指南

要打开PHP文件需根据用途选择方式：查看代码可用文本编辑器或IDE，运行则需服务器环境。推荐新手使用XAMPP、WAMP等集成环境，将文件放入htdocs目录后访问localhost；开发者可利用PHP内置服务器，命令行执行php -S localhost:8000运行；高级用户可手动配置Apach…

程序猿
2026年5月10日
0000
用户投稿

Go语言：检查预编译库的构建版本与平台信息

本文详细介绍了如何利用go语言内置的`go tool pack`工具，从预编译的go静态库（`.a`文件）中提取其构建信息，包括go编译器版本、操作系统和cpu架构。当`go build`因库版本不匹配而失败时，此方法能帮助开发者准确诊断问题，确保构建环境与库的兼容性。在Go语言的开发实践中，我们…

程序猿
2026年5月10日
0000
用户投稿

解决Python脚本中相对路径文件找不到的常见问题与策略

本文旨在解决python脚本中因相对路径处理不当导致的文件找不到错误，尤其是在项目迁移后。文章将深入探讨python中相对路径的工作原理、当前工作目录（cwd）的影响，并提供使用`os.getcwd()`诊断问题以及利用`os.path.dirname(__file__)`结合`os.path.jo…

程序猿
2026年5月10日
0000
用户投稿

Golang如何提升TCP长连接处理效率_Golang TCP长连接处理性能优化实践详解

答案：通过非阻塞I/O、单Goroutine双工模型、sync.Pool对象复用、TCP_NODELAY优化及高效心跳管理，结合系统调优，可显著提升Golang百万级TCP长连接处理效率。在高并发网络服务场景中，TCP长连接的处理效率直接影响系统的吞吐能力和资源消耗。Golang凭借其轻量级Gor…

程序猿
2026年5月10日
0000
用户投稿

C++内存检测工具 Valgrind使用实践指南

Valgrind是一款主要用于Linux和macOS的内存调试工具，可检测内存泄漏、越界访问、未初始化内存使用等问题，通过memcheck工具结合–leak-check=full、–track-origins=yes等选项进行详细分析，需编译时添加-g选项以支持调试信息，虽然…

程序猿
2026年5月10日
0000
用户投稿

php源码怎么运行手机_php源码手机运行环境搭建步骤【教程】

可在手机上通过特定工具运行PHP源码。首先选择支持PHP的移动应用，安卓用户可安装UserLAnd或KSWEB，iOS用户可尝试iSH Shell或a-Shell；然后配置本地服务器环境，启动HTTP和PHP服务，将PHP文件放入指定根目录；接着可通过Termux搭建完整开发环境，更新包列表并安装P…

程序猿
2026年5月10日
2000
用户投稿

PHP动态网页数据库备份恢复_PHP动态网页MySQL数据库备份教程

答案：PHP动态网页的MySQL数据库备份与恢复需通过定期导出SQL文件并安全存储来保障数据安全，核心方法包括使用mysqldump命令行工具实现高效灵活的自动化备份，利用phpMyAdmin图形化工具进行手动导出导入以降低操作门槛，以及通过PHP脚本调用系统命令将备份过程集成到应用中；恢复时可采用…

程序猿
2026年5月10日
0000
用户投稿

解决Go语言中GOPATH未设置错误及工作区配置指南

本文旨在解决go语言开发中常见的“gopath not set”错误，并提供详细的go工作区配置指南。内容涵盖`gopath`环境变量的设置、go项目目录结构、`path`变量的扩展，以及一些高级配置技巧，旨在帮助开发者建立一个高效、规范的go开发环境，确保包的下载、编译和运行顺利进行。 Go语言在…

程序猿
2026年5月10日
0000
用户投稿

Linux用scp命令上传HTML文件到远程服务器

使用scp命令可安全上传HTML文件至远程服务器：1、上传单个文件需指定源路径与目标地址；2、批量上传可用*.html通配符；3、递归上传目录需加-r参数；4、非默认端口需用-P指定端口号，依次执行并输入密码即可完成传输。如果您需要将本地的HTML文件上传到远程服务器，并且拥有SSH访问权限，可以…

程序猿
2026年5月10日
0000
用户投稿

c++如何调用系统命令_c++执行系统命令方法

使用std::system()可执行系统命令，需包含cstdlib头文件，传入命令字符串，返回值表示执行结果。示例：Linux下用”ls -l”列出文件，Windows下用”dir”。返回0表示成功，非0表示失败，可用于判断命令执行状态。注意跨平台命令…

程序猿
2026年5月10日
2000
用户投稿

跨平台 C++ 代码中设计模式的移植问题与解决方案

在跨平台 c++++ 开发中，设计模式移植问题包括：平台依赖性、头文件可用性、命名冲突、内存管理。解决方案包括使用跨平台库、预处理器指令、命名空间、跨平台内存管理库等。跨平台 C++ 代码中设计模式的移植问题与解决方案在跨平台 C++ 开发中，将设计模式从一个平台移植到另一个平台时，可能会遇到一…

程序猿
2026年5月10日
0000
用户投稿

C++怎么使用静态库和动态库_C++链接静态库与动态库的方法与区别

静态库在编译时链接，生成独立可执行文件；动态库运行时加载，节省内存。1. 静态库用ar打包.o文件为.a，编译时通过-L和-l链接；2. 动态库需-fPIC编译生成.so，运行前配置LD_LIBRARY_PATH或系统路径；3. 静态库体积大但部署方便，动态库共享内存利于更新。在C++项目开发中，…

程序猿
2026年5月10日
0000
怎样为C++配置嵌入式AI开发环境 TensorFlow Lite Micro移植指南

要在c++++项目中使用tensorflow lite micro进行嵌入式ai开发，关键步骤包括：1. 确定mcu平台并安装对应的交叉编译工具链；2. 配置python环境并安装必要的依赖包；3. 获取并裁剪tflm源码，保留核心模块；4. 将tflm静态库集成到c++工程中；5. 按照模型加载、…

程序猿
2026年5月10日 • 用户投稿
0000

发表回复

登录后才能评论

linux flex是什么

关于作者

相关推荐

发表回复