关于我 | 白发川的BLOG

简介

网名：惊帆，三国名马之一，晋崔豹《古今注·杂记》记载：

曹真 有駃马，名为惊帆，言其驰骤如烈风之举帆疾也。

Hive/Kafka contributor，就职于字节跳动，大数据资深技术专家，前ThoughtWorks中国区首席数据咨询师，DataMesh主推者，多年咨询经验，给众多大厂进行架构设计，拥有较为全面的全栈开发能力，具备大数据组件内核源码开发，且具有独立研发大数据组件的能力。

除了研发技能之外，具备较强的管理和咨询能力，可带领大规模团队，对to B类交付业务全流程有着深刻的理解，多次参与整个交付流程，熟悉交付环节中可能的问题。

火山云大数据产品EMR数据PAAS产品 https://www.volcengine.com/product/emr 技术架构设计者，存算分离架构方案主要负责人。
字节自研缓存系统核心成员 https://www.volcengine.com/docs/6491/149821 。
Hadoop，Hive和Spark内核研发成员。
Spark引擎SQL网关服务研发者。
CAIE人工智能人才认证理事成员：https://www.caieglobal.com/ 。
四川省预防医学会眼科健康管理会委员。

个人技术发展路线

学生期间：迷恋Java和Linux，第一次编程使用的操作系统便是Linux，Linux缺乏应用生态，于是从应用到游戏，都使用Java自我开发：https://mp.weixin.qq.com/s/Zv9KMW7_nTJrO6dmFEdmZw
首次工作：参与跨国（印度）的电商系统构建，在那个时间点，从头领略参与整套微服务架构体系，以及敏捷软件研发，为后续做咨询师打下基础。
14年投入手游：相比应用，游戏对高可用，低延迟，高并发的要求更高，为了追求技术，于是投入游戏服务端开发，参与一家创业公司。
15年投入大数据：经过游戏的经验，隐约感觉游戏产生的大量数据无法得到有效的处理，以及游戏在AI方面的需求很旺盛，特别是机器人和智能NPC，于是投入大数据和AI领域，逐步从技术深入到架构，例如数据PAAS的架构设计，从引擎使用到内核研发设计，且带队做了多个实施。
18年投入AI：有了大数据经验，加上算力的发展，深度学习已经可以逐步进行规模化应用，于是聚焦在AI PAAS，以及深度学习引擎本身的优化，同时参与发起了一款基于Scala的深度学习框架。
21年投入大数据PAAS 云平台：有了众多to B经验，于是投入到了火山引擎云上大数据PAAS产品的研发。
24年投入大模型PAAS 平台研发：在大模型出现后，逐步意识到，在大模型应用和大模型本身之间，需要有一层PAAS来支持更好的做大模型应用，于是创立了北京智宇宙苍穹科技有限公司，专注于企业大模型PAAS平台产品的研发。
25年开始逐步调整，从平台收敛至行业，专注于于医疗行业，参与创立小满安达医疗科技有限公司，深耕垂类智能体。

多年的经验和积累，都随着时间的递增在逐步沉淀，虽然内容会略微变动，但是主题始终唯一。

开源贡献

开源知识库Ragflow前10%代码贡献者：https://github.com/infiniflow/ragflow
深度神经网络框架DeepLearning.scala创作者之一：https://github.com/ThoughtWorksInc/DeepLearning.scala
Hive contributor: https://github.com/apache/hive/pull/3009
分布式存储JFS深度使用者与 contributor（意外）：https://github.com/juicedata/juicefs
Kafka Connect contributor：https://github.com/confluentinc/kafka-connect-jdbc
Livy Flink Engine Support特性开发
字节EMR产品中Spark SQL Server组件研发者

专业技能

尤其擅长大数据 & AI平台的端到端搭建，参与主导设计过众多数据&AI PAAS平台产品。
熟悉主流如Java/Scala/Python等编程语言以及对应的常用框架，常年作为技术咨询战斗在互联网一线解决不同客户各种技术问题，熟悉微服务架构设计。
对大数据领域有非常丰富的经验，熟悉Hadoop，Spark，SparkStreaming，Flink，搜索引擎等通用组件，拥有相关组件源码开发经验。
熟悉传统机器学习，以及深度学习，熟悉Tensorflow，DeepLearing4j，Keras，Sklearn等常用机器学习和深度学习框架，主讲了深度学习高级算法班系列课程。
带领团队或者客户的团队，解决问题，同时负责团队内部成员技能提升，在团队培养方面拥有比较好的亲和力，帮助多个客户从零开始构建自己的数据团队。
敏捷教练，Devops，在客户很多时候需要充当技术教练，或者敏捷教练，带着团队一起解决问题。同时规范在开发过程中一些不当的行为。
了解安全，区块链，IOT，业余时间折腾了不少智能机器人开发，安全漏洞挖掘等内容。
常年和战斗在客户现场，空闲期间随时参与售前项目，具备基本的售前能力。多次带领超过30+人的团队，传授技术，沟通能力较好，影响力较大。

游戏产品

大话仙境(2014年)：参与过一款2.5D的桌面端游戏的开发，具体查看：https://baike.baidu.com/item/%E5%A4%A7%E8%AF%9D%E4%BB%99%E5%A2%83online/6003382?fr=aladdin
棋牌类(2015年)：主导技术，开发过多款棋牌类游戏，其中一款：https://baike.baidu.com/item/%E6%91%87%E4%BD%A0%E9%AD%85/15279844?fr=aladdin

个人玩具

各个领域都比较熟悉的全栈工程师，5天时间开发完一款APP，起名音乐管家，成功上架各个商场，涉及IOS，安卓和后端服务器，下载地址：安卓：https://www.pgyer.com/Ave4 IOS：https://testflight.apple.com/join/hjH5kI5I 更多的介绍： https://www.baifachuan.com/musical/public/
认国旗：一款全球国旗学习软件，可以朗读，展示介绍国旗，看不惯这么简单的功能，很多APP做的广告满天飞，还无法关闭，于是忍不住自己动手做了个。IOS下载： https://testflight.apple.com/join/iVxIzI8L 安卓下载：https://www.pgyer.com/3b2805e5cc169c056d31c4365d436dc2
Alpha Zero中国象棋：基于Alpha Zero实现的机器学习下象棋游戏：https://github.com/baifachuan/ChineseChess-AlphaZero

专利

《一种提高HiveServer2任务级别可靠性的方法》
《一种通过引擎预热方式提升Spark SQL任务效率的方法》
《一种多维度量化评分的大语言模型动态选择方法》

对外演讲

雷锋网《TensorFlow算法高级应用班系列课程》讲师：https://www.leiphone.com/special/custom/mooc04.html；
数据中台到AI中台：https://www.jnexpert.com/weike/detail?id=363
企业如何构建自己工程化的AI能力：https://max.book118.com/html/2022/0407/5343001241004211.shtm
WOT2018全球人工智能技术峰会-《持续智能》主讲人：http://wot.51cto.com/act/wot2018/ai/page/agent/hall_sign/hall_50；
51CTO学院数据《中台的技术实施与落地》主讲人：https://edu.51cto.com/course/26662.html?so1
2020中国DevOps社区峰会成都站《持续交付在机器学习领域的应用与实践》主讲人：https://www.sgpjbg.com/baogao/28817.html
ThoughtWorks十年技术雷达《持续智能》讲师；
ThoughtWorks多年技术雷达数据架构演讲布道师；

对外发表文章

ThoughtWorks

数据智能架构的度量标准：https://insights.thoughtworks.cn/data-intelligence-architecture-levels/
演进式数据架构：https://insights.thoughtworks.cn/evolutionary-data-architecture/
Apache HBase内核深度剖析：https://insights.thoughtworks.cn/apache-hbase/
Apache Kafka内核深度剖析：https://insights.thoughtworks.cn/apache-kafka/
机器学习在干什么？：https://insights.thoughtworks.cn/what-is-machine-learning-doing/
数据中台演进之AI中台：https://insights.thoughtworks.cn/ai-zhongtai/
常用的几种大数据架构剖析：https://insights.thoughtworks.cn/common-big-data-infrastructure/
从分布式计算到分布式训练：https://insights.thoughtworks.cn/from-distributed-computing-to-distributed-training/
企业智能检索系统：Envis项目创始人(公司内部开源)；
书籍《银行转型下半场：决胜金融科技》作者之一；
关于GenAI，要冷静: https://www.thoughtworks.com/zh-cn/insights/blog/machine-learning-and-ai/stay-calm-with-GenAI

字节跳动

在字节跳动，一个更好的企业级SparkSQL Server这么做：https://mp.weixin.qq.com/s/kPOVEwbxbUpS6iUh84inMw
字节跳动EMR产品在Spark SQL的优化实践：https://mp.weixin.qq.com/s/G9Sa_MyIGwf-ZcWgdBl7ZQ
SparkSQL在企业级数仓建设的优势：https://mp.weixin.qq.com/s/CLr6KfdzKhtfaT89NHv_8g
HiveServer2 内存泄漏问题定位与优化方案：https://mp.weixin.qq.com/s/zkTW5zYUxCgIqRdNbjxrgg

外部采访：

InfoQ：https://www.infoq.cn/article/QwWOZRTjNpL8maADmxtY

联系方式

piaobomengxiang@gmail.com