简介
网名:惊帆,三国名马之一,晋 崔豹 《古今注·杂记》记载:
曹真 有駃马,名为惊帆,言其驰骤如烈风之举帆疾也。 |
Hive/Kafka contributor,现就职于字节跳动,大数据资深技术专家,前ThoughtWorks中国区首席数据咨询师,DataMesh主推者,多年咨询经验,给众多大厂进行架构设计,拥有较为全面的全栈开发能力,具备大数据组件内核源码开发,且具有独立研发大数据组件的能力。
除了研发技能之外,具备较强的管理和咨询能力,可带领大规模团队,对to B类交付业务全流程有着深刻的理解,多次参与整个交付流程,熟悉交付环节中可能的问题。
- 火山云大数据产品EMR数据PAAS产品 https://www.volcengine.com/product/emr 技术架构设计者,存算分离架构方案主要负责人。
- 字节自研缓存系统核心成员 https://www.volcengine.com/docs/6491/149821 。
- Hadoop,Hive和Spark内核研发成员。
- Spark引擎SQL网关服务研发者。
- Thoughtworks AI PAAS平台Gluon Meson(交界)负责人,专注于大模型应用规模化。
个人技术发展路线
- 学生期间:迷恋Java和Linux,第一次编程使用的操作系统便是Linux,Linux缺乏应用生态,于是从应用到游戏,都使用Java自我开发:https://mp.weixin.qq.com/s/Zv9KMW7_nTJrO6dmFEdmZw
- 首次工作:参与跨国(印度)的电商系统构建,在那个时间点,从头领略参与整套微服务架构体系,以及敏捷软件研发,为后续做咨询师打下基础。
- 14年投入手游:相比应用,游戏对高可用,低延迟,高并发的要求更高,为了追求技术,于是投入游戏服务端开发,参与一家创业公司。
- 15年投入大数据:经过游戏的经验,隐约感觉游戏产生的大量数据无法得到有效的处理,以及游戏在AI方面的需求很旺盛,特别是机器人和智能NPC,于是投入大数据和AI领域,逐步从技术深入到架构,例如数据PAAS的架构设计,从引擎使用到内核研发设计,且带队做了多个实施。
- 18年投入AI:有了大数据经验,加上算力的发展,深度学习已经可以逐步进行规模化应用,于是聚焦在AI PAAS,以及深度学习引擎本身的优化,同时参与发起了一款基于Scala的深度学习框架。
- 21年投入大数据PAAS 云平台:有了众多to B经验,于是投入到了云上大数据PAAS产品的研发。
- 24年投入大模型PAAS 平台研发:在大模型出现后,逐步意识到,在大模型应用和大模型本身之间,需要有一层PAAS来支持更好的做大模型应用,于是投入到大模型PAAS平台产品的研发。
多年的经验和积累,都随着时间的递增在逐步沉淀,虽然内容会略微变动,但是主题始终唯一。
开源贡献
- 深度神经网络框架DeepLearning.scala创作者之一:https://github.com/ThoughtWorksInc/DeepLearning.scala
- Hive contributor: https://github.com/apache/hive/pull/3009
- 分布式存储JFS深度使用者与 contributor(意外):https://github.com/juicedata/juicefs
- Kafka Connect contributor:https://github.com/confluentinc/kafka-connect-jdbc
- Livy Flink Engine Support特性开发
- 字节EMR产品中Spark SQL Server组件研发者
专业技能
- 尤其擅长大数据 & AI平台的端到端搭建,参与主导设计过众多数据&AI PAAS平台产品。
- 熟悉主流如Java/Scala/Python等编程语言以及对应的常用框架,常年作为技术咨询战斗在互联网一线解决不同客户各种技术问题,熟悉微服务架构设计。
- 对大数据领域有非常丰富的经验,熟悉Hadoop,Spark,SparkStreaming,Flink,搜索引擎等通用组件,拥有相关组件源码开发经验。
- 熟悉传统机器学习,以及深度学习,熟悉Tensorflow,DeepLearing4j,Keras,Sklearn等常用机器学习和深度学习框架,主讲了深度学习高级算法班系列课程。
- 带领团队或者客户的团队,解决问题,同时负责团队内部成员技能提升,在团队培养方面拥有比较好的亲和力,帮助多个客户从零开始构建自己的数据团队。
- 敏捷教练,Devops,在客户很多时候需要充当技术教练,或者敏捷教练,带着团队一起解决问题。同时规范在开发过程中一些不当的行为。
- 了解安全,区块链,IOT,业余时间折腾了不少智能机器人开发,安全漏洞挖掘等内容。
- 常年和战斗在客户现场,空闲期间随时参与售前项目,具备基本的售前能力。多次带领超过30+人的团队,传授技术,沟通能力较好,影响力较大。
游戏产品
- 大话仙境(2014年):参与过一款2.5D的桌面端游戏的开发,具体查看:https://baike.baidu.com/item/%E5%A4%A7%E8%AF%9D%E4%BB%99%E5%A2%83online/6003382?fr=aladdin
- 棋牌类(2015年):主导技术,开发过多款棋牌类游戏,其中一款:https://baike.baidu.com/item/%E6%91%87%E4%BD%A0%E9%AD%85/15279844?fr=aladdin
个人玩具
- 各个领域都比较熟悉的全栈工程师,5天时间开发完一款APP,起名音乐管家,成功上架各个商场,涉及IOS,安卓和后端服务器,下载地址:安卓:https://www.pgyer.com/Ave4 IOS:https://testflight.apple.com/join/hjH5kI5I 更多的介绍: https://www.baifachuan.com/musical/public/
- 认国旗:一款全球国旗学习软件,可以朗读,展示介绍国旗,看不惯这么简单的功能,很多APP做的广告满天飞,还无法关闭,于是忍不住自己动手做了个。IOS下载: https://testflight.apple.com/join/iVxIzI8L 安卓下载:https://www.pgyer.com/3b2805e5cc169c056d31c4365d436dc2
- Alpha Zero中国象棋:基于Alpha Zero实现的机器学习下象棋游戏:https://github.com/baifachuan/ChineseChess-AlphaZero
专利
- 《一种提高HiveServer2任务级别可靠性的方法》 个人占比40%(感谢队友,自己纯粹辅助)
- 《一种通过引擎预热方式提升Spark SQL任务效率的方法》 个人占比100%
对外演讲
- 雷锋网《TensorFlow算法高级应用班系列课程》讲师:https://www.leiphone.com/special/custom/mooc04.html;
- 数据中台到AI中台:https://www.jnexpert.com/weike/detail?id=363
- 企业如何构建自己工程化的AI能力:https://max.book118.com/html/2022/0407/5343001241004211.shtm
- WOT2018全球人工智能技术峰会-《持续智能》主讲人:http://wot.51cto.com/act/wot2018/ai/page/agent/hall_sign/hall_50;
- 51CTO学院数据《中台的技术实施与落地》主讲人:https://edu.51cto.com/course/26662.html?so1
- 2020中国DevOps社区峰会成都站《持续交付在机器学习领域的应用与实践》主讲人:https://www.sgpjbg.com/baogao/28817.html
- ThoughtWorks十年技术雷达《持续智能》讲师;
- ThoughtWorks多年技术雷达数据架构演讲布道师;
对外发表文章
ThoughtWorks
- 数据智能架构的度量标准:https://insights.thoughtworks.cn/data-intelligence-architecture-levels/
- 演进式数据架构:https://insights.thoughtworks.cn/evolutionary-data-architecture/
- Apache HBase内核深度剖析:https://insights.thoughtworks.cn/apache-hbase/
- Apache Kafka内核深度剖析:https://insights.thoughtworks.cn/apache-kafka/
- 机器学习在干什么?:https://insights.thoughtworks.cn/what-is-machine-learning-doing/
- 数据中台演进之AI中台:https://insights.thoughtworks.cn/ai-zhongtai/
- 常用的几种大数据架构剖析:https://insights.thoughtworks.cn/common-big-data-infrastructure/
- 从分布式计算到分布式训练:https://insights.thoughtworks.cn/from-distributed-computing-to-distributed-training/
- 企业智能检索系统:Envis项目创始人(公司内部开源);
- 书籍《银行转型下半场:决胜金融科技》作者之一;
- 关于GenAI,要冷静: https://www.thoughtworks.com/zh-cn/insights/blog/machine-learning-and-ai/stay-calm-with-GenAI
字节跳动
- 在字节跳动,一个更好的企业级SparkSQL Server这么做:https://mp.weixin.qq.com/s/kPOVEwbxbUpS6iUh84inMw
- 字节跳动EMR产品在Spark SQL的优化实践:https://mp.weixin.qq.com/s/G9Sa_MyIGwf-ZcWgdBl7ZQ
- SparkSQL在企业级数仓建设的优势:https://mp.weixin.qq.com/s/CLr6KfdzKhtfaT89NHv_8g
- HiveServer2 内存泄漏问题定位与优化方案:https://mp.weixin.qq.com/s/zkTW5zYUxCgIqRdNbjxrgg