「高级数据工程」是「龙虾部署大师」技能市场中的数据系统设计技能:作用是根据你的数据来源、目标仓库、延迟要求、日处理规模和重跑要求,在 Airflow、dbt、Spark、Kafka、Flink 等方案之间完成技术选型,输出管道架构、编排配置思路、数据质量校验、模型设计和性能调优建议,帮团队搭起可靠、可观测、可维护的数据基础设施。
技能效果
让它设计订单库到 Snowflake 的每日 ETL 时,它产出了水位线控制表、Staging/维度/事实表的建表 SQL 和对应的 Airflow DAG 配置。

搭数据管道,难在哪一步
从源库把数据搬到数仓看似只是"抽取—转换—加载",但真正的难点在选型和取舍:是批处理还是实时流?延迟要求几分钟还是几小时?日处理量是百万行还是十亿行?错误数据怎么处理、跑挂了怎么重放?这些决定了该用 Airflow 还是 Flink、该建什么样的表模型、要不要做数据质量校验。选错方向,轻则后期返工,重则数据不可靠、排查无从下手。再加上一条 Spark 聚合或一个 DAG 跑得过慢时,瓶颈往往藏在执行计划、分区和缓存里,不展开看根本定位不到。
这个技能能帮你设计和优化什么
它覆盖数据系统的四块工作。技术选型层面,它根据需求在批处理、流处理和 Lakehouse 架构之间给出选型路径,明确什么场景该用 Airflow、dbt,什么场景该上 Kafka、Flink、Spark Streaming。编排配置层面,它生成 Airflow 编排、数据抽取和仓库加载的配置思路。数据质量层面,它建立完整性、新鲜度、唯一性等校验,以及数据契约、血缘和可观测性机制,让数据出问题时能被及时发现、能追溯。性能调优层面,它分析 Spark、SQL 和 DAG 的执行瓶颈,给出分区、缓存等具体优化建议。
把可观测性和数据契约前置进设计,是这套思路的关键:可靠的数据基础设施不是事后补监控,而是在管道设计阶段就把"怎么发现错误、怎么重放、怎么追溯"想清楚。
用前须知
该技能需要 Python、SQL 环境,并按场景配合 Spark、Airflow、dbt、Kafka 等工具使用,没有统一的 API Key;连接云数仓(如 Snowflake、BigQuery)所需的凭据需自行配置并妥善保管。它的产出是架构与配置思路,落地仍需在你自己的技术栈中实现和验证。
怎么用它
用法是把数据来源、目标仓库、延迟与规模要求,或当前遇到的性能问题用自然语言交给它,由它给出选型与配置方案。例如可以这样对它说:
可以这样对它说
- "设计订单库到 Snowflake 的每日 ETL,帮我生成 Airflow 编排配置思路。"
- "Kafka 事件要实时入湖,延迟数据、去重和重放策略一起考虑。"
- "这条 Spark 聚合跑太慢,分析一下执行计划,给分区和缓存的优化建议。"
它适合这些场景:企业要从 PostgreSQL 同步数据到 Snowflake 或 BigQuery;事件流需要在 Kafka、Flink 或 Spark Streaming 中实时处理;数据团队要为核心表建立完整性、新鲜度和唯一性校验;现有 Airflow DAG 或 Spark 作业跑得过慢、需要定位瓶颈。适合数据工程师、数据平台负责人、分析工程师、后端团队以及正在建设现代数据栈的企业技术团队。
注:技能的实际效果与所选用的 AI 模型能力有关,不同模型下的表现可能存在差异。

提示