AST 是什么
在计算机科学中,抽象语法树(Abstract Syntax Tree,AST),或简称语法树(Syntax tree),是源代码语法结构的一种抽象表示。它以树状的形式表现编程语言的语法结构,树上的每个节点都表示源代码中的一种结构。之所以说语法是“抽象”的,是因为这里的语法并不会表示出真实语法中出现的每个细节。比如,嵌套括号被隐含在树的结构中,并没有以节点的形式呈现;而类似于 if-condition-then 这样的条件跳转语句,可以使用带有三个分支的节点来表示。
和抽象语法树相对的是具体语法树(通常称作分析树)。一般的,在源代码的翻译和编译过程中,语法分析器创建出分析树,然后从分析树生成AST。一旦AST被创建出来,在后续的处理过程中,比如语义分析阶段,会添加一些信息。
对应的 AST 示例:
"AST":[
"Query(Query"{
"body":"Select(Select"{
"distinct":false,
"projection":[
"UnnamedExpr(Identifier(""a""))",
"UnnamedExpr(Identifier(""b""))",
UnnamedExpr(Value(Long(123))),
"UnnamedExpr(Function(Function"{
"name":"ObjectName("[
"myfunc"
]")",
"args":[
"Identifier(""b"")"
],
}"))"
],
"from":[
"TableWithJoins"{
"relation":"Table"{
"name":"ObjectName("[
"table_1"
]")",
"selection":"Some(BinaryOp"{
"left":"BinaryOp"{
"left":"Identifier(""a"")",
"op":"Gt",
"right":"Identifier(""b"")"
},
"op":"And",
"right":"BinaryOp"{
"left":"Identifier(""b"")",
"op":"Lt",
"right":Value(Long(100))
}
}")",
}")",
"order_by":[
"OrderByExpr"{
"expr":"Identifier(""a"")",
"asc":"Some(false)"
},
"OrderByExpr"{
"expr":"Identifier(""b"")",
}
],
}")"
]
从上图可以看到 AST 将SQL语法完全结构化,元数据化的展示了出来。
那AST到底有什么用?
AST的用途非常广泛,主要具有以下用途:
- SQL 解析:解析器通过将输入的 SQL 查询转换成 AST,检查 SQL 语法的正确性。在编译或解释 SQL 查询时,AST 是一个关键部分。
- 查询优化:优化器使用 SQL AST 对原始查询进行改写、优化,以获得更快的执行计划。例如:谓词下推、查询剪枝、索引选择等。
- 方言转换:与特定数据库兼容的 SQL 生成工具可以使用 SQL AST 进行多种方言的转换。例如:将 Oracle 数据库的 SQL 转换为 MySQL 数据库的 SQL。
- 检查约束和权限:通过分析 SQL AST,可以对查询进行约束和权限检查,以防止未授权访问、执行非法操作等。
- 静态代码分析:基于 SQL AST,开发者可以识别安全漏洞、编程错误以及风格不一致等问题。例如:常用的 Lint 工具。
- 自动补全与代码提示:在 IDE 或代码编辑器中,使用 SQL AST 的信息来为开发者提供智能提示、自动补全等功能,以提高代码编写效率。
- 代码重构与迁移:利用 AST,开发者可以更轻松地进行代码重构、迁移和优化,保留原始代码逻辑的同时进行修改。
- 语法高亮:代码编辑器可以通过 AST 进行语法高亮,根据代码的不同部分使用不同的颜色和样式,增强可读性。
- 查询自动生成与推理:在某些 AI 和 NLP 系统中,可以通过解析和生成 SQL AST,实现基于自然语言的查询自动生成与推理。
总的来说, SQL AST 作为源代码的抽象语法结构,在查询解析、优化、生成和分析等多个方面具有重要作用。基于 AST,开发者可以实现对 SQL 查询的更深入分析、更迅速的响应和更高效的操作。
那如何生成?
生成SQL 语法树的工具类包很多,各种常见的数据库驱动高级驱动 SDK 中都有会各种版本的工具类去解析 SQL 生成 AST
比如本文用到的
Extensible SQL Lexer and Parser for Rust
地址: https://github.com/sqlparser-rs/sqlparser-rs
use sqlparser::dialect::GenericDialect;
use sqlparser::parser::Parser;
let sql = "SELECT a, b, 123, myfunc(b) \
FROM table_1 \
WHERE a > b AND b < 100 \
ORDER BY a DESC, b";
let dialect = GenericDialect {}; // or AnsiDialect, or your own dialect ...
let ast = Parser::parse_sql(&dialect, sql).unwrap();
println!("AST: {:?}", ast);