从左向右逐行扫描源程序的字符,识别出各个单词,确定单词的类型。
将识别出的单词转换成统一的机内表示——词法单元(token)形式。
token:<种别码,属性值>
字母表 $\Sigma$ 是一个有穷符号集合
设 $\Sigma$ 是一个字母表,$\forall x\in \Sigma^*$ ,x 称为是 $\Sigma$ 上的一个串
串是字母表中符号的一个有穷序列
串 s 的长度,记作 $|s|$,是指 s 中符号的个数
空串是长度为 0 的串,用 $\varepsilon$ (epsilon) 表示