别再死记硬背了！用Python手写一个简易编译器，彻底搞懂编译原理选择题考点

张

张建站

2026/4/16 11:24:21

10分钟阅读

用Python手写编译器从零破解编译原理选择题的底层逻辑编译原理考试前夜你是否还在机械记忆句柄是最左简单子树或LR分析采用最左归约这些抽象概念完全可以通过动手实践变得直观。今天我们将用不到200行Python代码实现一个能处理四则运算的微型编译器在编码过程中解开那些令人头疼的选择题谜团。1. 为什么动手写编译器是最高效的学习方式传统教学常将编译原理拆解成词法分析、语法分析、语义分析等孤立环节导致学生陷入见树不见林的困境。当我们真正从零构建编译器时会发现选择题考点本质上是工程实践的抽象比如句柄概念实际对应语法分析时的归约单元算法实现过程就是最佳记忆锚点亲手实现LR分析算法后自然理解其与LL分析的区别错误处理揭示理论本质在调试语法冲突时会深刻明白为什么需要活前缀提示本项目的完整代码已托管在GitHub建议边阅读边动手实现2. 搭建编译器基础框架我们先定义编译器的基本工作流程class MiniCompiler: def __init__(self, source_code): self.source source_code self.tokens [] self.ast None self.ir_code [] def compile(self): self.lexical_analysis() self.syntax_analysis() self.generate_ir() return self.ir_code这个框架直接对应考试中的经典问题编译程序应掌握哪些要素(选择题6)。显然我们需要处理源语言这里支持简单的算术表达式目标语言将生成中间表示(IR)编译技术包含完整的前端处理流程3. 词法分析从正则文法到DFA实现词法分析器的核心是将字符流转换为token流。我们先定义支持的token类型Token类型正则模式对应选择题考点NUMBER\dChomsky3型文法(题14)OPERATOR[-*/]终结符概念(题9)LPAREN(文法符号分类RPAREN)文法符号分类实现时需要注意DFA与NFA的区别(选择题7)def lexical_analysis(self): # 使用确定有限自动机(DFA)实现 i 0 while i len(self.source): if self.source[i].isdigit(): # 数字识别 start i while i len(self.source) and self.source[i].isdigit(): i 1 self.tokens.append((NUMBER, self.source[start:i])) elif self.source[i] in -*/: # 运算符识别 self.tokens.append((OPERATOR, self.source[i])) i 1 # 处理括号...这个简单的DFA实现印证了选择题7的考点DFA有且只有一个初始状态而NFA可以有多个。4. 语法分析LR算法的实战演绎语法分析是编译原理选择题的重灾区我们将实现一个简化版LR分析器来解释句柄识别(选择题2,13,16)每次归约的符号串规范归约(选择题1)最右推导的逆过程移进-归约冲突(选择题12)SLR分析中的典型问题首先定义算术表达式的文法规则grammar { E: [[E, , T], [E, -, T], [T]], T: [[T, *, F], [T, /, F], [F]], F: [[(, E, )], [NUMBER]] }实现LR分析器的核心逻辑def syntax_analysis(self): stack [0] # 状态栈 symbols [] # 符号栈 tokens self.tokens.copy() while True: state stack[-1] lookahead tokens[0][0] if tokens else $ action self.parse_table[state].get(lookahead) if not action: raise SyntaxError(Unexpected token) if action[0] s: # 移进 stack.append(int(action[1:])) symbols.append(tokens.pop(0)) elif action[0] r: # 归约 prod_num int(action[1:]) lhs, rhs self.get_production(prod_num) for _ in range(len(rhs)): stack.pop() symbols.pop() # 处理goto...这段代码生动展示了移进-归约过程(选择题9)遇到终结符移进匹配产生式后归约句柄识别每次归约时从栈顶弹出的符号串就是句柄活前缀分析过程中栈内的符号序列5. 中间代码生成从抽象语法树到四元式选择题17考查中间表示形式我们实现两种典型方案抽象语法树(AST)构造def build_ast(self, production): if production[0] E and len(production) 3: # E → E T return { op: production[2], left: self.ast_stack[-2], right: self.ast_stack[-1] } # 其他产生式处理...四元式生成def generate_ir(self): temp_counter 0 def traverse(node): nonlocal temp_counter if NUMBER in node: return node[NUMBER] left traverse(node[left]) right traverse(node[right]) temp ft{temp_counter} self.ir_code.append( (node[op], left, right, temp)) temp_counter 1 return temp traverse(self.ast)这解释了为什么选择题17中语法树不属于中间语言——它缺少语义信息而抽象语法树和四元式都包含操作语义。6. 算法选择背后的原理剖析通过实现过程我们可以回答许多典型考题为什么LR分析使用句柄归约(选择题4) 因为在规范归约中句柄是唯一可归约的符号串算符优先分析的特殊性(选择题3) 它直接比较运算符优先级归约对象是最左素短语而非句柄LL与LR的本质区别(选择题8) LL是递归下降LR是移进-归约前者属于自顶向下方法在实现语法分析器时我最初尝试用递归下降(LL)处理表达式很快发现需要处理左递归问题。改用LR方法后文法编写变得直观这印证了选择题8的选项——LL(1)确实不属于自底向上方法。7. 表达式编译的完整示例让我们编译表达式35*2词法分析[(NUMBER,3), (OPERATOR,), (NUMBER,5), (OPERATOR,*), (NUMBER,2)]语法分析简化版移进 3归约 F → NUMBER归约 T → F, E → T移进移进 5归约 F → NUMBER归约 T → F移进 *移进 2归约 F → NUMBER归约 T → T * F归约 E → E T生成的AST{ op: , left: {NUMBER: 3}, right: { op: *, left: {NUMBER: 5}, right: {NUMBER: 2} } }四元式输出(*, 5, 2, t0) (, 3, t0, t1)这个例子完美诠释了逆波兰式的生成原理选择题11最终结果35*2对应选项D。当实现遇到移进-归约冲突时比如某些文法中同时满足两个产生式的归约条件就需要使用SLR或LR(1)技术解决这正是选择题12考查的核心概念。