白发川的BLOG

mlflow将模型数据保存至外部存储

2024-10-10T04:20:04.000Z

安装：

mlflow
boto3

设置环境变量：

AWS_ACCESS_KEY_ID=admin
AWS_SECRET_ACCESS_KEY=admin
MLFLOW_S3_ENDPOINT_URL=http://192.168.5.108:9000
MLFLOW_TRACKING_URI=http://192.168.5.108:15000/

例子：

import mlflow.sklearn
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

# 加载数据集
iris = load_iris()
X, y = iris.data, iris.target

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 训练模型
lr = LogisticRegression(max_iter=1000)
lr.fit(X_train, y_train)

# 设置 MLflow 运行
with mlflow.start_run():
    # 记录模型参数和性能指标（这里省略了具体指标的计算）
    mlflow.log_param("solver", lr.solver)
    mlflow.log_param("max_iter", lr.max_iter)

    # 保存模型到 MinIO
    mlflow.sklearn.log_model(sk_model=lr, artifact_path="iris_model", registered_model_name="iris-logistic-regression")

便可以在minio和mlflow里面看到对应的数据。

import mlflow.sklearn
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

iris = load_iris()
X, y = iris.data, iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

loaded_model = mlflow.pyfunc.load_model("runs://iris_model")

predictions = loaded_model.predict(X_test)
print(predictions)

在mlflow里面找到对应的run id，进行加载即可使用对应的模型。

Elasticsearch python dsl关于对双下划线的处理

2024-09-09T12:59:47.000Z

在es中，如果字段名中包含双下划线，es是被允许的，但是我最近在使用py的es dsl库的时候，发现一个问题，就是字段名称如果带有双下划线。例如 a__b__c 就查询不出东西，经过debug发现在es的dsl内部经过转换后，最终生成的es的查询语法中，a__b__c已经变成了a.b.c，这意味着字段名称和es的已经不匹配了，自然就查询不出东西。

可以得知，es的py dsl在设计的时候，借鉴的是Django ORM 设计思路，而在Django ORM 的设计中，__ 也就是双下划线，代表着嵌套查询，因为是嵌套查询了，那么a__b__c 自然也就会被翻译成 a.b.c 了。

https://github.com/elastic/elasticsearch-dsl-py/issues/28

在这个issue中，社区进行了大量讨论，不过都对要做转换这个结论是认可的。

具体到代码的位置：

https://github.com/elastic/elasticsearch-dsl-py/blob/605d7570e2a1501f319fdc74ad8d8270a5e61ea2/elasticsearch_dsl/utils.py#L222-L223

def __init__(self, _expand__to_dot=EXPAND__TO_DOT, **params):
        self._params = {}
        for pname, pvalue in iteritems(params):
            if '__' in pname and _expand__to_dot:
                pname = pname.replace('__', '.')
            self._setattr(pname, pvalue)

可以看到这里做了转换。

不过作为es的dsl库，约束不像es向下对齐，而是向上对齐，也是少见了。

使用shell脚本实现命令失败后重试

2024-08-27T01:01:28.000Z

典型场景：程序的实现需要调用第三方的API，但是我们并不能保证第三方API一直好用，也不能保证网络一直畅通，所以在调用第三方API时需要加上错误重试。

通用场景：程序的运行不符合预期，我们知道再次调用大概率可以使之符合预期，这时就需要重试。

#!/bin/bash

# 最大重试次数
MAX_RETRY=5

# 当前重试次数
retry_count=0

# 循环执行命令，如果失败则重试
while true; do
    # 执行命令，可以将具体的命令替换为你需要执行的命令
    command_result=$(some_command)

    # 检查命令的返回值，如果成功则退出循环
    if [ $? -eq 0 ]; then
        echo "Command succeeded!"
        break
    fi

    # 命令执行失败，检查是否已达到最大重试次数
    if [ $retry_count -ge $MAX_RETRY ]; then
        echo "Command failed after $MAX_RETRY attempts."
        exit 1
    fi

    # 命令执行失败，增加重试次数，等待一段时间后再次执行命令
    echo "Command failed, retrying in 10 seconds..."
    retry_count=$((retry_count+1))
    sleep 10
done

在上面的脚本中，MAX_RETRY定义了最大重试次数，retry_count用于记录当前重试次数，while循环用于不断执行命令，if语句用于检查命令的返回值，如果成功则退出循环，否则增加重试次数，并等待一段时间后再次执行命令，直到命令成功或达到最大重试次数。如果命令在最大重试次数内执行失败，则脚本退出并返回错误码1。

为什么那么多企业都要考虑All in AI

2024-08-19T04:08:44.000Z

23年4月张一鸣在会上表示，字节无法错过AGI（通用人工智能），它可以解决字节跳动的第二曲线增长困境。
24年2月，魅族宣布战略调整，将停止传统智能手机新项目的开发，全力投入“明日设备”（AI For New Generations）。
24年2月，OPPO称，AI手机将成为继功能机、智能手机之后的第三阶段。
23年华为正式启动全面智能化新战略。
腾讯要让混元大模型成为腾讯业务的“倍增器”。
阿里确立以“AI驱动”为战略重心。
周鸿祎在第21届中国企业领袖年会向在座的企业家强调要建立「AI信仰」，否则将被使用AI的同行淘汰。
百度和360也都喊出了“All in AI”的口号。

几乎所有的企业，都开始考虑All in ai这一件事，这不单纯是炒作或者跟风，也不是在竞争某个新技术，比如出现过的区块链，元宇宙，VR/AR，都是非常优秀的技术，但是并没有企业喊出All in 区块链，唯一一家喊出all in 元宇宙，还改名的企业，现在已经全面拥抱大模型了。

这些企业之所以喊出All in AI的口号，虽然在动作上少有差异，但是如同张一鸣所说，一语点中了本质，因为 All in AI可以解决企业第二曲线增长困境，就是这么简单。

如果组织和企业能在第一曲线到达巅峰之前，找到带领企业二次腾飞的第二曲线，并且第二曲线必须在第一曲线达到顶点前开始增长，弥补第二曲线投入初期的资源消耗，那么企业永续增长愿景就能实现。

实现永续增长无非两种方式：

一是产品实际需求相对稳定，但公司具有持续的提价能力，比如奢侈品公司。
二是不断通过二次增长实现迭代增长，不断推出新产品和服务实现持续增长，比如苹果公司不断进行新产品迭代更新。

要形成持续的提价能力对许多行业和公司来说是比较困难的，大部分行业和企业要实现永续增长愿景一般都要依赖第二增长曲线。

我们再看看历史上为第二曲线做了选择的那些企业：

阿里是第二曲线做的最好的公司之一，最早是B2B，然后是淘宝，蚂蚁金服，阿里云到钉钉等，正是不断地找到这些第二增长曲线，阿里才能成长为今天市值万亿的巨无霸企业。
苹果的第一曲线是iMac，之后做的iPod、iPhone、iPad都是它的第二增长曲线。
亚马逊也是如此，第一曲线是网上书店，之后做电商，做云计算，做物流，始终保持增长，才成为全球市值最高的企业。

可见，企业要保持基业长青，永续经营，就要不断突破增长拐点，跨越非连续性，找到第二增长曲线。

再看上面的第二曲线，虽然不同企业的选择不同，比如阿里做淘宝，苹果做iPhone，看起来业务不太一样，但是背后实质性都是因为生产力的变化，移动互联网的出现，移动互联网才是第二增长的源动力。

同样在今天，几乎所有企业都认为GenAI是源动力，可以成为带领企业走出第二增长曲线的动力，于是围绕这个动力，不同企业扩展了自己的第二曲线业务，比如360做安全Agent，字节用抖音做防守，剪映博AI。

mlserver1.4.0开始对dataframe的序列化逻辑调整

2024-08-05T14:10:22.000Z

最近对于本地私有化模型，我是通过seldon这一套进行封装，也就是最终是通过mlserver启动模型服务，然后外部调用mlserver的接口去做模型的推理。

其中调用mlserver的推理服务的时候，涉及到传输参数的序列化，序列化的大概样例如下：

tools: list = None
df=pd.Series(
            [
                tools
            ],
            index=[     
                "tools"
            ],
        )
PandasCodec.encode_request(df, use_bytes=False)

其中PandasCodec是mlserver提供的序列化类，此代码在mlserver 1.4.0以前的版本下都没有问题，在1.4.0开始，包括1.4.0会出现如下问题：

TypeError: ufunc 'isnan' not supported for the input types, and the inputs could not be safely coerced to any supported types according to the casting rule ''safe''

跟踪代码会发现：

https://github.com/SeldonIO/MLServer/blob/release/1.4.0/mlserver/codecs/numpy.py#L108

对于dataframe中的每列，会做是否非空的检查：

def _to_response_output(series: pd.Series, use_bytes: bool = True) -> ResponseOutput:
    datatype = to_datatype(series.dtype)
    data = series.tolist()

    # Replace NaN with null
    has_nan = series.isnull().any()
    if has_nan:
        data = list(map(convert_nan, data))

convert_nan的逻辑为：

def convert_nan(val):
    if np.isnan(val):
        return None

    return val

由于np的isnan是：

The `isnan` method doesn't work on Numpy arrays with non-numeric

这就意味着，对于前面的tools来说，是non-numeric类型，通过调试也可以看到，tools的类型为BYTES，这就导致np.isnan(val)直接抛出异常。

由于mlserver.1.4.0之前并无此校验，因此之前的代码不会有问题。

https://github.com/SeldonIO/MLServer/issues/1873 首先给他们挂了个issue描述了一下问题。

通过追踪mlserver的commit记录，可以看到：

https://github.com/SeldonIO/MLServer/commit/be8bab5938b478d68f3ac0da895a5e8af73c2586

在这个commit后，新增了这段逻辑，按照seldon自己的描述：

The NaN (Not a Number) value is used in Numpy and other scientific libraries to
describe an invalid or missing value (e.g. a division by zero).
In some scenarios, it may be desirable to let your models receive and / or
output NaN values (e.g. these can be useful sometimes with GBTs, like XGBoost
models).
This is why MLServer supports encoding NaN values on your request / response
payloads under some conditions.

In order to send / receive NaN values, you must ensure that:

- You are using the `REST` interface.
- The input / output entry containing NaN values uses either the `FP16`, `FP32`
  or `FP64` datatypes.
- You are either using the [Pandas codec](#pandas-dataframe) or the [Numpy
  codec](#numpy-array).

Assuming those conditions are satisfied, any `null` value within your tensor
payload will be converted to NaN.

For example, if you take the following Numpy array:

归纳下来就是因为如果对于非基本类型接收None，那么在某些模型下，比如XGBoost就会出现模型输出NAN，为了解决这个问题，就不再支持None。

搞清楚了原因，那么解决方案就明确了，按照官方的描述，既然他们是这样认定，基本上后续的版本中也不会做额外的处理。

于是我自己重写了一个codecs，重写了PandasCodec的方法：

from typing import List

import numpy as np
import pandas as pd
from mlserver.codecs import PandasCodec
from mlserver.codecs.numpy import to_datatype
from mlserver.codecs.pandas import _process_bytes
from mlserver.codecs.utils import inject_batch_dimension
from mlserver.types import InferenceRequest, Parameters, RequestInput, ResponseOutput, Datatype


def convert_nan(val):
    try:
        if np.isnan(val):
            return None
    except Exception:
        return val
    return val


def _to_response_output(series: pd.Series, use_bytes: bool = True) -> ResponseOutput:
    datatype = to_datatype(series.dtype)
    data = series.tolist()

    # Replace NaN with null
    has_nan = series.isnull().any()
    if has_nan:
        data = list(map(convert_nan, data))

    content_type = None
    if datatype == Datatype.BYTES:
        data, content_type = _process_bytes(data, use_bytes)

    shape = inject_batch_dimension(list(series.shape))
    parameters = None
    if content_type:
        parameters = Parameters(content_type=content_type)

    return ResponseOutput(
        name=series.name,
        shape=shape,
        data=data,
        datatype=datatype,
        parameters=parameters,
    )


class SeldonPandasCodec(PandasCodec):
    @classmethod
    def encode_outputs(
            cls, payload: pd.DataFrame, use_bytes: bool = True
    ) -> List[ResponseOutput]:
        return [
            _to_response_output(payload[col], use_bytes=use_bytes) for col in payload
        ]

    @classmethod
    def encode_request(
            cls, payload: pd.DataFrame, use_bytes: bool = True, **kwargs
    ) -> InferenceRequest:
        outputs = cls.encode_outputs(payload, use_bytes=use_bytes)

        return InferenceRequest(
            parameters=Parameters(content_type=cls.ContentType),
            inputs=[
                RequestInput(
                    name=output.name,
                    datatype=output.datatype,
                    shape=output.shape,
                    data=output.data,
                    parameters=output.parameters,
                )
                for output in outputs
            ],
        )

针对isnan的判断做了额外的处理，使用的时候由PandasCodec.encode_request换成SeldonPandasCodec.encode_request即可。

Docker container中的nvidia-smi无法看到其他地方启动的程序

2024-06-16T14:12:58.000Z

当在docker container里面运行GPU程序的时候，通过 nvidia-smi 只能看到当前 container里面启动的程序，而无法看到所有运行在GPU上的程序，这个原因是因为nvidia-smi 这个命令通过扫描持有驱动的PID来查找对应的程序。

因此在docker container里面默认看不到别的地方启动的PID，而实际上实际上看不到才是正统的，因为docker container存在的价值就是进行多租户隔离，自己管自己，如果能看到别人，还能干掉别人的，实际上已经破坏多租户的概念了，这个隔离意义就不大，单纯就是个程序环境隔离了。

如果非要看到，也可以通过-pid=host 把物理机器的透过去，就能看到，不过这样来说，基本上就破坏了隔离性。

https://stackoverflow.com/questions/63654885/is-it-correct-that-nvidia-smi-on-docker-does-not-show-processes

https://github.com/NVIDIA/nvidia-docker/issues/179

如何调试卡住的python程序

2024-06-13T07:33:30.000Z

调试Python程序卡住，寻找原因

最近大模型平台有个知识库模块，在对文件进行加工处理，进行embedding，逻辑上不复杂，基本就是对文本切片，再embedding，然后落库milvus。

不过出现一个现象就是当文本过大的时候，knowledge based的处理过程会卡住，且knowledge based停止服务，请求处于等待状态，由于knowledge based的整个服务是部署在docker中的，于是查看卡在哪儿，只能在docker中进行了。

首先通过：

docker exec  --privileged -it ID /bin/bash

进入容器，查找到PID：

root@815eb533c377:/app# ps -eaf
UID          PID    PPID  C STIME TTY          TIME CMD
root           1       0  0 Jun12 ?        00:00:00 /bin/sh -c cd /app/src && poetry run alembic upgrade head && poetry run python main.py
root          57       1  0 Jun12 ?        00:05:24 /root/.cache/pypoetry/virtualenvs/knowledge-base-9TtSrW0h-py3.10/bin/python main.py

可以看到PID分别为1和57，这里需要调试的是PID 57。

通过：

gdb python 57

进行调试，碰到一个问题：

Attaching to process 57 
ptrace: Operation not permitted

看了下docker container里面的/proc/sys/kernel/yama/ptrace_scope 的值是1，1 意味着无法attach，对于docker来说，这个值是跟随宿主机走的，也就是需要修改宿主机的值，也就是执行：

echo 0 > /proc/sys/kernel/yama/ptrace_scope

对于默认是zsh的会碰到错误：

zsh: permission denied: /proc/sys/kernel/yama/ptrace_scope

这时候可以通过切换bash解决：

sudo bash -c "echo 0 > /proc/sys/kernel/yama/ptrace_scope"

再通过：

gdb python 57

进行调试，通过py-list查看当前执行的位置：

(gdb) py-list
 700            self._checkReadable()
 701            if self._timeout_occurred:
 702                raise OSError("cannot read from timed out object")
 703            while True:
 704                try:
>705                    return self._sock.recv_into(b)
 706                except timeout:
 707                    self._timeout_occurred = True
 708                    raise
 709                except error as e:
 710                    if e.errno in _blocking_errnos:

gdb -p pid
pid是指进程号，可以通过 ps -ef 查看，请替换为实际的进程号

步骤5: 打印信息
py-bt
解释: 查看当前进程的堆栈信息，这是很重要的命令，一般可以看到进程运行到哪里发生死锁或者卡住，进而可以回到python源码确定最终问题在哪里

py-list
解释: 显示python进程当前代码运行到哪里

py-locals
解释: 显示当前进程中的局部变量

py-print
解释: 打印python变量的值
用法: 例如
py-print self

info threads
thread
解释: 先查看线程信息，然后切换线程想要查看的线程

thread apply all py-list:
解释:查看所有进程执行位置

通过py-bt查看当前堆栈，除了使用gdb之外，还可以使用其他调试工具，比如pystack：

pip install pystack-debugger

执行pystack 57能看到：

 root@815eb533c377:/app# pystack 57
Dumping Threads....


  File "/usr/local/lib/python3.10/threading.py", line 973, in _bootstrap
    self._bootstrap_inner()
  File "/usr/local/lib/python3.10/threading.py", line 1016, in _bootstrap_inner
    self.run()
  File "/root/.cache/pypoetry/virtualenvs/knowledge-base-9TtSrW0h-py3.10/lib/python3.10/site-packages/anyio/_backends/_asyncio.py", line 797, in run
    item = self.queue.get()
  File "/usr/local/lib/python3.10/queue.py", line 171, in get
    self.not_empty.wait()
  File "/usr/local/lib/python3.10/threading.py", line 320, in wait
    waiter.acquire()

---------------

也可以使用hypno:

pip install hypno

这个库的目标不太一样，主要是为了 inject 到正在运行的 Python 进程里跑一些代码，所以灵活性比单纯打 callstack 更高，比如可以打印一些变量之类。我们用如下的命令来实现获取 callstack 的功能：

hypno "import traceback; traceback.print_stack()"

还有py-spy：

pip install py-spy

获取 callstack 可以使用 dump 命令：

py-spy dump --pid 54

此外py-spy还支持top形式的实时 profiling，以及生成火焰图（操作稍麻烦）的功能，除了程序 hang 之外也能做性能优化的监控工具。不过易用性上来说比下面要介绍的austin还是稍微差了些。

conda install -c conda-forge austin-tui

这是一个集大成的 profiling 工具，不光可以看 callstack，还可以看对应的采样（近似理解为程序时间开销）百分占比信息，以及实时更新的 flamegraph 等，竟然还是跨平台的！官网上还有更多高级特性，感觉已经可以跟 JDK 里的 visualvm 来媲美了。

python 调试工具 pyrasite 可以附加到python进程中，在这个进程中打开一个python 命令行。然后再这个里面执行代码。

pyrasite-shell PID

（对于这种挂死问题通常是由于多进程和多线程混用导致的，多线程中如果有锁，在使用fork创建多进程的过程中fork出来的进程是单线程执行的，只会复制内存中的对象当前的信息，如果有一把锁被别的线程获取到，我们当前fork出的进程中的这个线程中，这把锁的状态只会是锁定状态，会导致子进程中再使用这个锁的时候会导致死锁。）

对于python进程中的挂死问题，我们需要对于进程中所有的线程查看它们卡死在了哪一个位置。

当我们进入这个进程中后，我们可以执行下面的代码查看进程的帧栈。

import sys
for threadid,stack in sys._current_frames().items():
    print(threadid,stack)

对于内存泄漏问题，我们可以使用objgraph来查看内存泄漏，对于python 代码造成的内存泄漏，我们可以很容易得看出来泄漏对象的引用关系。
但是对于C代码造成的泄漏，我们通常只能看出对象类型来，并不能看出泄漏对象的引用关系。所以还要一步一步排除。

py-spy 也可以看出进程是否挂死

使用方法 pip install py-spy

py-spy dump -p $pid

py-spy dump -l -p $pid

关于GenAI，要冷静

2024-06-12T00:50:32.000Z

本文由我书写，原文发于：https://www.thoughtworks.com/zh-cn/insights/blog/machine-learning-and-ai/stay-calm-with-GenAI

疯狂的全民大模型

大约一年前，大家热聊的先是LLM，LLM的全称是Large language models，也就是大语言模型，那么它必然有两个特点，一个是自然语言，第二个是大。随后然后它带来了一个效果，就是能“生成”可以生成东西，可以像人一样发言，不过输出仅限于文本，看起来，能够自我输出和自我思考，于是基于这个理念，产生了AIGC这个概念应运而生。紧接着，围绕它诞生了非常多看起来更加“多模态的东西”，比如文生图，图生文，但是背后实质上性是多个模型的配合完成这项工作。

当然这无可厚非，因为人脑也不是单纯靠脑袋在工作，依旧有很多末端神经充当包工头的角色。

然后随之而来的，似乎都不谈LLM了，开始谈GenAI了，谈大模型了，仿佛因为人类想象中能够触达的输出，大模型也都可以。似乎都有大模型能够触达，于是各种通用人工智能纷至沓来，“人类被计算机碾压，无数群体即将失业”的舆论被拉起来，整个世界被GenAI裹挟着前进。

大厂不断的进行军备竞赛，抢购显卡，开始跑模型，甚至不知道自己在干嘛，就因为大家都在干，于是自己也得干，而其中甚至多数，抓着开源的代码，站上在巨人的肩膀，开始赛跑。

除了基础设施厂商在做模型、在不断演进外，围绕大模型生态的企业也没闲着，通过各种方式，演绎自己的故事。例如大模型既然动脑能力不错，但是动手能力差，那么就安装手和脚，做Agent和MulAgent。，大模型无法感知企业内部知识，于是开始做RAG。

谁在做大模型

前面提到，LLM有两个特点，一个是自然语言，一个是大。因为大，那么自然不是任何一家企业都能做，真正具备做大模型能力的企业必须满足这样的条件：

拥有足够的硬件
拥有足够的数据
拥有足够的人才
拥有足够的资金

目前叫得的上名字的企业都能分别满足这几个维度，但是满足的程度是不一样的。比如nivdia在硬件资源方面的沉淀就非常深厚，而有的企业则拥有更加多和好的数据，但在硬件资源方面则相对欠缺。Nivdia拥有硬件能力，和资金，但是人才和数据，满足度并不高，这里的人才特指大模型人才，数据也特指数据的能力，而非单纯的数据量。

而类似月之暗面，百川这类企业，由于本身是AI领域的前几排带队，加上庞大的融资，在人才和资金方面，占据着极高的优势，但是依旧需要去抢硬件，其次，这类企业的数据，一言难尽。

不过，即便如此，也能发现一个现象，那就是当谈到大模型的时候，似乎出头的并不是之前已经存在的大厂，而是某些新秀，甚至源源不断的新秀出现，而之前就已经声名鹊起已经存在的大厂，其存在感反而弱了非常多。

这些新秀企业都有非常鲜明的特点，很多企业的成员都非常年轻，且更加优秀，大部分都在大模型领域有非常深的学术造诣，进而步入到大模型的实践落地中。其次相对于纯软件工程来说，在大模型领域，模型精准度优化的重要性会高于代码本身。当然这种情况在软件工程中也存在，比如当我们赶着推进功能进度的时候，就会降低代码质量要求。然而其不同之处在于大模型领域的代码和最终推理的运行没有必然的联系，此特点从开源生态可见一斑。软件工程开源的是源码本身，而大模型领域开源的是模型。

也就是说，在软件工程领域，软件源码质量会直接影响可运行的软件本身，所以于是不得不做好软件工程这件事，甚至会过度关注源码质量本身，通过源码的质量来控制最终的交付的功能的质量。很多甲方企业甚至会把软件源码交付质量作为项目验收的条款之一。把这个逻辑映射到大模型领域，交付件是什么？是大模型，一个文件，这个文件可能1GB，可能100GB，可能1TB，当运行这个模型进行推理的时候，没有人关心当时训练出来这个模型的那一堆代码，到底质量如何，甚至把那堆代码丢掉，也不影响这个模型的后续使用。

因为源码和交付件没有必然关系，可能有人会有疑问，难道模型不需要再优化？如果要扩展功能怎么办？且不说站在外围来看，微调已经是标准手法，模型文件里面本身是什么？权重，权重再抽象呢？参数，也就是当你拿到一个模型文件之后，有无之前的代码，并不影响这个模型的持续演进，极端情况下，代码就是一次性产物，是一次性消耗品，既然是一次性消耗，那么就不用过度追求它的可演进。

所以目前真正在投入做大模型的企业，通常是拥有足够硬件的企业，并且有足够人才。在这两个维度满足度较高，那么投入做大模型，就会脱颖而出。

谁在用大模型

既然有人做，那就应该有人用，否则做大模型的厂商就应该消亡了，可是看目前的势头，似乎并没有，那么就意味着，一定有人在用，或者资本看好，认为未来一定有人用，那么会是谁？

站在资本的角度，如果大模型具备人一样的能力，那么就可以把手下的人全部裁掉，采购大模型服务，24小时不间断地的上班。那么在，也就是这样的业务下，需要满足如下两个条件：

招聘的员工的成本比大模型低，否则裁掉不是一笔划算的买卖。
自身业务属于资源生产的上游，最好有垄断，否则最后会变成你和你的朋友，大家都用大模型在搞，最后变成了一堆机器人互玩，不但没有新的资源产生，反而会把消耗完资源消耗殆尽。

站在个人的角度，对大模型有没有需求？有，且非常多，各种自媒体视频、文案，还不算灰产那些杂七杂八乱七八糟的东西。

也就是个人自身日常生活需求下，和企业基于自身业务的需求下，都存在对大模型的需求，那么这些需求里面，哪些需求是正统的？或者真正有价值的？我认为会是以下这几类：

GenAI服务于C端用户自身的GenAI：如果是C端用户借助大模型提升自己的短板并把这个过程当作内容产物对外输出，如果借助大模型能力去弥补自己欠缺的地方，且把这个输出，当成自己的产出物对外输出，这样的场景是没有价值的，最后不外乎所有地方都充斥着者大模型产生的内容，甚至可能是同一个模型产生的，所以类似自媒体借助大模型去搞视频这种业务，最后都会如此，唯有大模型的输出，服务于自身个人需求，才会细水长流。
GenAI服务于B端的GenAI：只有服务于实体生产，产生真实真正生活资源的，或者服务于自身对内流程的，才真正有价值，其余的都是昙花一现。可能有人会觉得，很多企业使用大模型做一个客服人员来，代替人，24小时值班回答客户问题，这类业务场景非常有价值。确实有价值，不过有没有思考过一个问题，很有可能提问的这个“用户”也不是人，提问的这个用户，并不是人，而是是一个人的虚拟助理在帮他提问，设置这个虚拟助手和这个企业的客服人员，恰好是购买了同一个模型服务？

因此虽然看起来似乎地球上每一个角落，都能找到对可以用大模型的需求，甚至都没有办法反驳它的合理性。为什么不做，但是这些需求，未必都是真正有意义和价值的。

关于GenAI，要冷静

关于GenAI的实施，我劝你冷静。抛开C端用户随意使用大模型生成内容满足自身需求外，在大部分企业中，企业在考虑大模型的时候，有如下问题是没法绕过的：

安全问题：安全且不提调戏大模型泄漏原始数据这种比较好处理的问题，安全问题的核心是合规，这里的合规是感性的，而非理性的。，是定性的，而非定量的。，比如你没有办法通过规则穷举所有性别歧视的情况，但是你需要保证要求模型的输出，在你的业务场景下的输出是没有性别歧视的。
绝对正确：大模型输出不可能绝对正确，但是有部分场景，就是要求绝对正确，当没有大模型的时候，就算0.0001%的情况下出现绝对不正确，一定有解决办法，比如通知张三是临时工，张三的领导李四负有直接管理职责，如果是大模型呢？
版权问题：老生常谈。

我们站在三个角色的视角来思考这样一个问题（虽然这个问题目前可以被100%解决）：

一个基于大模型做的BI系统上线了，但是这个系统在统计过去1年销售额度的时候，连续问了10次，其中有1次和其余9次不一样。

这个BI系统涉及到有三方企业：甲方A，大模型厂商B和软件实施方C，A开始就这个P0事故进行追责寻求，C进行一番Debug后发现是因为大模型幻觉问题，于是这个问题划到了B，但是B作为大模型服务提供商，一定不会保证100%不出现幻觉，且这一点一定不会出现在SLA里面，那么这个问题怎么解决？如果非要找一方来承担这个问题，会是谁？

目前来说，期望引入GenAI来服务于对外的业务，相对来说风险较高，而从商业模式来说，以GenAI作为项目交付物，且服务于甲方的客户的交付项目，几乎有着不可评估的交付风险，当然潜在就存在不可估量的咨询潜力。

目前来说，期望引入GenAI来解决企业发展问题，或者来解决流程问题，几乎都是不太可能的。

金融学家吴晓求说，IPO的钱不是企业“ICU”的救命钱，它是发展的钱，不是救命的钱，而目前任何把GenAI定位为“IPO”的需求，基本大概率都，不会成功。

所以对于GenAI，在全面狂欢之下，反而更应该冷静，因为隐藏在GenAI美好表象后的风险远比想象中要大。里面的风险，远比表象的美好更加危险。

关于nextjs下配置文件的加载顺序

2024-06-03T05:54:57.000Z

在nextjs下，将.env.production 修改成 .env.production.local，发现.lcoal会被优先加载，这取决于配置文件的加载顺序，首先在node实现的定义下：

process.env
.env.$(NODE_ENV).local
.env.local (Not checked when NODE_ENV is test.)
.env.$(NODE_ENV)
.env

以上为加载顺序，也就是说如果同时存在.env.development.local和.env.development，那么.env.development.local的优先级更高。

https://nextjs.org/docs/pages/building-your-application/configuring/environment-variables

Linux关于2个python server使用相同端口不会出错的原因

2024-05-31T00:45:57.000Z

今天有人问了个python的小问题，python -m http.server 同时启动2个，监听了相同的端口，但是不会报错。

这个情况其实不止Linux，Windows也是一样的，看一下python的源码：

https://github.com/python/cpython/blob/3.12/Lib/socketserver.py#L469

也就是在Linux下使用了 SO_REUSEADDR 和 SO_REUSEPORT ，来实现一个端口多个进程提供服务。

具体解释可以看： https://stackoverflow.com/questions/51090637/running-a-python-web-server-twice-on-the-same-port-on-windows-no-port-already

关于sudo执行命令的环境变量问题

2024-02-06T03:12:15.000Z

有时候在执行某些脚本的时候，需要使用到sudo命令，但是如果没有设置好环境变量，则可能造成命令执行失败的问题，比如：

root@fcbai:~$ sudo -u hive hive
Unable to determine Hadoop version information.
'hadoop version' returned:
ERROR: Cannot execute /usr/bin/../libexec/hadoop-config.sh.

这是因为默认的sudo，除了提权的作用外，还会基于sudo的配置，重置掉环境变量，导致真正执行的环境变量和需要的环境变量不一致，从而出现sudo找不到环境变量，引起命令失败的问题。

而sudo命令会重置环境变量,查看文件/etc/sudoers,可以看到这样的配置：

Defaults      env_reset

解决办法也比较简单，思路就是在执行sudo的时候，不要使用sudo的配置去覆盖环境变量，而是使用当前需要提权的用户自己的环境变量，有多种方式去达到这个目的，其中一个方式就是使用-E参数，比如：

sudo -E hive hive

-E显示的设置当前的命令不要去重置环境变量，而是使用当前用户的环境变量，这样设置麻烦的地方就在每一个命令都要这样显示的去配置，也可以把这个配置项设置在配置文件里面，比如：

修改/etc/sudoers文件，将Defaults env_reset改为 Defaults !env_reset，这样以后使用sudo就再也不会重置环境变量了，也不需要通过-E去设置，需要注意一下，/etc/sudoers是只读文件,vim不能更改,要使用visudo命令(不用加文件名)来更改内容。

不过大部分环境变量我们一般都用不着，这种情况就可以在配置中添加env_keep，来使指定的几个环境变量保持不变：

具体的做法是在 /etc/sudoers中添加语句 Defaults env_keep += “env1 env2” ，这样环境变量env1 和env2就可以在sudo执行时保留原来的值
不过既然/etc/sudoers是个只读文件,就不是用来让我们改来改去的；还除了它，我们还可以在目录/etc/sudoers.d/下随便创建文件，写入 Defaults env_keep += “env1 env2”，效果和在/etc/sudoers中是一样的，也更加方便删除和修改

这样就可以继续保持原来的用法：

sudo -u hive hive

sudo的更多用法可以查看：https://wiki.archlinux.org/title/Sudo

大模型这门生意，你真的摸透了吗 ?

2024-01-29T01:35:06.000Z

百花齐放的大模型

围绕大模型的生意，百花齐放，不同企业在不同维度上各自做着不同的事，但是都围绕着大模型讲故事。

同时，对于存在大模型需求的企业来说，同时也在观望大模型可能带来的价值，但是又摸不透大模型的投入产出比，始终徘徊在是否采纳的门槛上。

我一直坚持认为，大模型只是数据的另一种消费形式，除了大模型之外，报表工具，数据服务，以及大屏业务都属于数据消费的形态，只是大模型目前被大概论证，已经可以投入生产了，于是数据多了一种消费方式：把数据注入到大模型中，让大模型可以在不同的业务场景下，输出符合条件的内容。

所以对于大多数企业来说，要做好大模型业务，还是先踏踏实实地把数据平台搞好，当一个企业没有较为完备的数据平台去存储，加工，治理企业数据的时候，是没有办法完成一个大模型对接业务的完整生命周期的，最多只能在一些小的业务场景下去完成部分POC测试。

同时从模型视角来看，存在无数个大模型提供商可以供大家选择，开源的，服务化的，国内，国外的，大厂的，创业公司的，玲琅满目，但是大模型这项业务，围绕这个业务的生意，应该怎么做呢？

大模型的那些生意

好卖的东西，大概率不赚钱，而赚钱的生意，大概率不好卖，原因在于好卖的东西，一定是刚好打中对方的喜好点，也正因为如此，这个喜好点更大可能就他有，于是这门生意会变成一项定制化的工作，最后演变成单纯人力成本且不可复制。

而赚钱的生意，意味着收入和投入的关系，是指数的形态，而非线形增长，要达到这个效果，自然得是标品，既然是标品，那自然你能做，我也能做，就不那么好卖。

于是用好卖的东西亏本投入，去拉动赚钱的东西，才是正常的流程，对于大模型业务来说，这个逻辑依旧适用。

围绕大模型来看，目前主要存在的生意基本上这几类：

硬件开发：围绕AI 芯片开发的企业，以及做GPU的企业，属于纯硬件厂商，这里特别强调下AI芯片和GPU不是一码事。
基础设施：做大模型本身的企业，这类企业需要采购大量的大模型相关的硬件，然后训练自己的大模型，卖点就在大模型的涌现能力，拼的就是模型能力。
模型PAAS：这类企业不做大模型，但是会提供一个运行模型所需要的PAAS平台，直观上感觉，很多人会觉得做大模型训练的企业，就应该自己有这样一个平台，但是并不是，比如大家去BAT大模型平台，使用模型服务的时候，能够看到这些平台卖的模型，除了自家的模型外，还同时支持售卖其余厂商的模型，这背后核心的原因是在于驾驭大模型本身，训练一个大模型需要的投入并不低，做模型训练的团队需要更多精力关注在模型本身上，至于模型商业化，可以交由其他合作伙伴进行，其次大部分大模型企业，所有的技术构建都是以AI为主，并不能快速切到构建一个PAAS平台上来，因此合作是最佳的方式。
模型应用：围绕一个模型，构建具体的业务，这个业务是明确，且清晰的，在这个维度上，我认为凡是做AI+的，也就是拿着模型去重做业务的，都很难做起来，而+AI的，也就是本身存在了业务，只是把模型融合进去，一定会做的很不错。

其实仔细看看这里面的几类生意就能发现，不同位置有明显的侧重点，但是一定会和周边衔接的地方存在竞争，比如做大模型的企业，一旦大模型训练这件事趋于稳定，且投入过程标准化后，必然会走向自己做PAAS平台，甚至会做自己的芯片，这就是构建商业版图，无他，我都要而已。

而一个企业能在这场战斗中活下来的前提条件，就是在别人开始进行版图辐射之前，巩固了自己的堡垒，且可以辐射出去。

那么不同维度的核心竞争力在哪？

硬件开发：自然是芯片设计和工艺，这属于硬技能，非大投入，不可成。
基础设施：数据的全面度和算法以及拥有多少算力，最终会变成，拼时间和算力。
模型PAAS：堡垒必然在模型服务的标准化上，同时重点的关注点一定是二次开发和私有化部署。
模型应用：跟业务走，有啥做啥，没啥技术竞争力，核心竞争力是业务理解能力。

不同企业一定需要在不同的层面找到自己的定位，比如而做软件服务商的，关注点必然是在模型工程化上，而自身就存在业务的，需要采纳模型的，那么一定要慎重的投入模型再训练，微调这些工作上面，没有价值，迟早被大模型企业给打掉。

未来怎么发展？

除了当下的逻辑外，大模型未来的发展是什么样的？首先开源大模型一定会是个玩具，仅可拿来做POC而已，这就意味着真正可稳定且高效运行的大模型服务，一定来自模型/平台厂商提供的模型服务。

目前很多企业觉得自己买一堆GPU放在自己的机房里，HF中把模型一拉，处理一些数据微调一下，似乎就能输出符合预期的结果了，于是自己私有化部署一套的方案似乎成为可行，实际上并不是。
大模型的定位，甚至在更广的层面，对它的定位是：新一代基础设施，怎么理解这个概念？简单来讲，当我们提到云上基础设施的时候，无论是说IAAS的云上虚拟的硬件，还是说PAAS级别的容器服务，一个单例服务都必须扛住万作单位的TPS和QPS，否则如何承载未来万物都构建在AI之上？其次还需要考虑模型推理的成本，那么大模型未来的发展的方向必然是：
小型化：只有小型化之后，才能降低硬件的需求，才可能降低成本，而小型化并不是卖点，但是会成为模型厂商的重点优化方向，一旦做好了这个事，就可以拥有更大的商务议价空间和更高的利润，就获得了更强的生存能力，甚至可以运行在远端，自然扩大了业务范围，也就实现了降维打击。
标准化：这里说的标准化，并不是只是模型本身，目前大家看到的模型，更像是一个操作系统内核，使用者需要自行构建用户态，而未来模型成为标品后，这些事情会打包起来，变成一个模块，比如微调就会变成一个标准的接口，根本不需要使用者感知。

而这些竞争力，并不会出现在开源市场，开源市场依旧会存在，且不停的放出一些阉割版的模型供大家娱乐，但是存在的价值，仅仅在于扩大影响力，吸引更多的人去了解这个领域，同时提供一个简陋版的模型，让你自己去POC，然后买更好的模型。

如何开始做？

如果你开始做一件事，发现全世界只有你在做，那么并不是你找到了一门独家生意，而是大概率这是个死胡同。

很多人开始做事的时候，总会看到前面有无数的人或者产品已经存在，于是会陷入疯狂卷功能，抄袭的阶段，因为担心推出太晚，最后没了市场，其实这种担心会过于过度，这个世界这么大，容得下所有人的生意。

使用Python连接Livy执行py代码的例子

2023-12-15T03:31:49.000Z

import requests

# Livy 服务器的 URL
LIVY_URL = "http://localhost:8998"

# 创建会话的请求参数
data = {
    "kind": "pyspark",
    "name": "fcbai"
}

# 发送创建会话的请求
response = requests.post(f"{LIVY_URL}/sessions", json=data)

# 获取会话 ID
session_id = response.json()["id"]

# 打印会话 ID
print(f"Session ID: {session_id}")


# 提交 Python 代码的请求参数
data = {
    "code": "print('Hello, Livy!')"
}

# 提交代码的请求 URL
url = f"{LIVY_URL}/sessions/{session_id}/statements"

# 发送提交代码的请求
response = requests.post(url, json=data)

# 获取提交代码的执行结果
statement_id = response.json()["id"]

# 打印提交代码的执行结果
print(f"Statement ID: {statement_id}")


# 获取执行结果的请求 URL
url = f"{LIVY_URL}/sessions/{session_id}/statements/{statement_id}"

# 发送获取执行结果的请求
response = requests.get(url)

# 获取执行结果
status = response.json()["state"]

# 打印执行结果
print(f"Statement status: {status}")

# 关闭会话的请求 URL
url = f"{LIVY_URL}/sessions/{session_id}"

# 发送关闭会话的请求
requests.delete(url)

Yarn关于调度器从Capacity切换至Fair因为monitor无法启动的问题

2023-12-12T06:57:00.000Z

Yarn支持配置不同的调度器，比较常用的就是Capacity和Fair，实际上Yarn一共有3中调度方式：

FIFO Scheduler

在 Hadoop 1.x 系列版本中，默认使用的调度器是 FIFO，它采用队列方式将每个任务按照时间先后顺序进行服务。比如排在最前面的任务需要若干 Map Task 和 Reduce Task，当发现有空闲的服务器节点时就分配给这个任务，直到任务执行完毕。

Capacity Scheduler

在 Hadoop 2.x/3.x 系列版本中，默认使用的调度器是 Capacity Scheduler（容量调度器），这是一种多用户、多队列的资源调度器。每个队列可以配置资源量，可限制每个用户、每个队列的并发运行作业量，也可限制每个作业使用的内存量；每个用户的作业有优先级，在单个队列中，作业按照先来先服务（实际上是先按照优先级，优先级相同的再按照作业提交时间）的原则进行调度。

容量资源调度器，支持多队列，但默认情况下只有 root.default 这一个队列。

当不同用户提交任务时，任务都会在这个队列里按照先进先出策略执行调度，很明显，单个队列会大大降低多用户的资源使用率。

因此，要使用容量资源调度，一定要配置多个队列，每个队列可配置一定比率的资源量（CPU、内存）；同时为了防止同一个用户的任务独占队列的所有资源，调度器会对同一个用户提交的任务所占资源量进行限定。

Fair Scheduler

Fair Scheduler（公平调度器）支持多用户、多分组管理，每个分组可以配置资源量，也可限制每个用户和每个分组中并发运行的作业数量；每个用户的作业有优先级，优先级越高分配的资源就越多。公平调度器的主要目标是实现 Yarn 上运行的任务能公平的分配到资源。

Fair Scheduler 将整个 Yarn 的可用资源划分成多个队列资源池，每个队列中可以配置最小和最大的可用资源（内存和 CPU）、最大可同时运行 Application 数量、权重，以及可以提交和管理 Application 的用户等。

Yarn也提供了通过参数的方式去切换调度器，但是这个切换在实现的时候，在源码层面是有瑕疵的，这个问题放到文章最后去描述，先看配置手法，具体的配置方式，都是修改yarn-site.xml然后修改配置项，例如：


  yarn.resourcemanager.scheduler.class</name>
  org.apache.hadoop.yarn.server.resourcemanager.scheduler.fair.FairScheduler</value>
</property>

公平调度器的配置文件路径位于 HADOOP_CONF_DIR下的 fair-scheduler.xml 文件中，这个路径可以通过配置 yarn-site.xml 文件，添加如下内容来实现：


  yarn.scheduler.fair.allocation.file</name>
  /etc/hadoop/conf/fair-scheduler.xml</value>
</property>

若没有这个配置文件，调度器会在用户提交第一个应用时为其自动创建一个队列，队列的名字就是用户名，所有的任务都会被分配到 default 队列中。

接下来重点看看 fair-scheduler.xml 文件如何编写，此文件中定义队列的层次是通过嵌套元素实现的。所有的队列都是 root 队列的孩子，下面是一个定义好的公平调度策略：


      
            
            10</userMaxAppsDefault>
    
             </aclSubmitApps>
             </aclAdministerApps>
            
                    12000mb,5vcores</minResources>
                    100000mb,50vcores</maxResources>
                    22</maxRunningApps>
                    fair</schedulingMode>
                    1</weight>
                    *</aclSubmitApps>
            </queue>
           
            
                    115000mb,50vcores</minResources>
                    500000mb,150vcores</maxResources>
                    181</maxRunningApps>
                    fair</schedulingMode>
                    5</weight>
                     dev_group</aclSubmitApps>
                    hadoop dev_group</aclAdministerApps>
            </queue>
                                                                                                             
                                              
            
                    23000mb,10vcores</minResources>
                    300000mb,100vcores</maxResources>
                    22</maxRunningApps>
                    fair</schedulingMode>
                    4</weight>
                     test_group</aclSubmitApps>
                    hadoop test_group</aclAdministerApps>
            </queue>
                                                          
    </queue>
      
      
      
    
      
      </queuePlacementPolicy>
    </allocations>

如果已经使用的是Yarn，或者FIFO，再切换至Capacity，是没有问题的，但是当已经使用了Capacity的时候，如果要再切换至Fair则有问题，这是因为对于Capacity来说，有一个参数：

yarn.resourcemanager.scheduler.monitor.enable

这个参数默认是false：


    Enable a set of periodic monitors (specified in
        yarn.resourcemanager.scheduler.monitor.policies) that affect the
        scheduler.</description>
    yarn.resourcemanager.scheduler.monitor.enable</name>
    false</value>
</property>

如果需要使用Capacity则需要把这个参数设置成true，这个参数是在Capacity场景下，对队列的监听，但是通过编码规则也能发现，光是从这个key，是无法感知到这个参数是只作用于Capacity的，因此如果切换至其他调度器而不把这个至设置成false。

则会出错，具体的错误看源码就能知道：

public void init(Configuration config, RMContext context,
      ResourceScheduler sched) {
    LOG.info("Preemption monitor:" + this.getClass().getCanonicalName());
    assert null == scheduler : "Unexpected duplicate call to init";
    if (!(sched instanceof CapacityScheduler)) {
      throw new YarnRuntimeException("Class " +
          sched.getClass().getCanonicalName() + " not instance of " +
          CapacityScheduler.class.getCanonicalName());
    }
    rmContext = context;
    scheduler = (CapacityScheduler) sched;
    rc = scheduler.getResourceCalculator();
    nlm = scheduler.getRMContext().getNodeLabelManager();
    updateConfigIfNeeded();
}

这里hard code了CapacityScheduler的检查，所以在切换的时候，一定需要注意这个参数。

解决SuperSet加载样例数据出现网络不稳定的问题

2023-11-21T01:26:23.000Z

Superset的安装挺简单的，基本就几个命令：

# Create an admin user in your metadata database (use `admin` as username to be able to load the examples)
export FLASK_APP=superset
superset fab create-admin

# Load some data to play with
superset load_examples

# Create default roles and permissions
superset init

# Build javascript assets
cd superset-frontend
npm ci
npm run build
cd ..

# To start a development web server on port 8088, use -p to bind to another port
superset run -p 8088 --with-threads --reload --debugger

但是通常在 superset load_examples 这一步的时候会出现比较麻烦的情况，主要就是网络问题，国内访问github并不特别稳定，如果网络没有特别处理的情况下，大概这一步一直会过不去，各种http timeout。

superset这一步做的事是从github上下载样例数据，然后进行本地的加载，既然知道这个流程，那么就可以很容易的通过其他方式绕过网络问题。

首先从：https://github.com/apache-superset/examples-data 把数据下载下来，放到某个目录下，然后执行：

python -m http.server 8080

这时候就以文件服务的方式发布了一个文件管理服务，接着修改superset的examples/helpers.py 代码，把原本的：

BASE_URL ="https://github.com/apache-superset/examples-data/blob/master/"

改成:

BASE_URL ="http://(自己电脑的IP)：【端口号】/examples-data-master/"

具体的地址可以基于当前的情况自行调整，然后再次执行：

superset load-examples

就会通过本地搭建的服务去下载样例数据，从而极大的减少网络问题带来的不稳定性。

Livy中对session的超时处理逻辑

2023-10-12T08:52:02.000Z

最近有反馈这样一个问题：通过note book给livy提交代码片段，无论代码有没有执行完毕，超过1小时后，作业都会被强制kill掉。
这里就需要了解到livy对session的超时管理机制，在livy里面，对于每一次来自客户的的请求，比如发送一个代码片段过来执行，整个过程称为一个session过程。
也就是说livy里面管理的session代表的就是和某一个客户端的链接，和yarn里面的app并不完全一对一的关联，也不和spark context完全一对一的关联，虽然大部分情况下都是一对一
比如极端情况，完全可以在自己的代码里面再造一个作业或者spark context出来。
回到livy的session的管理上来说，session有这样的状态：

def apply(s: String): SessionState = s match {
    case "not_started" => NotStarted
    case "starting" => Starting
    case "recovering" => Recovering
    case "idle" => Idle
    case "running" => Running
    case "busy" => Busy
    case "shutting_down" => ShuttingDown
    case "error" => Error()
    case "dead" => Dead()
    case "killed" => Killed()
    case "success" => Success()
    case _ => throw new IllegalArgumentException(s"Illegal session state: $s")
}

livy会在livy server中维护session的状态机，这个状态和livy在处理timeout的时候，非常有关系，看下livy关于timeout的默认配置：

// How long to check livy session leakage
val YARN_APP_LEAKAGE_CHECK_TIMEOUT = Entry("livy.server.yarn.app-leakage.check-timeout", "600s")
// how often to check livy session leakage
val YARN_APP_LEAKAGE_CHECK_INTERVAL = Entry("livy.server.yarn.app-leakage.check-interval", "60s")

// Whether session timeout should be checked, by default it will be checked, which means inactive
// session will be stopped after "livy.server.session.timeout"
val SESSION_TIMEOUT_CHECK = Entry("livy.server.session.timeout-check", true)

// Whether session timeout check should skip busy sessions, if set to true, then busy sessions
// that have jobs running will never timeout.
val SESSION_TIMEOUT_CHECK_SKIP_BUSY = Entry("livy.server.session.timeout-check.skip-busy", false)

// How long will an inactive session be gc-ed.
val SESSION_TIMEOUT = Entry("livy.server.session.timeout", "1h")

// How long a finished session state will be kept in memory
val SESSION_STATE_RETAIN_TIME = Entry("livy.server.session.state-retain.sec", "600s")

// Max creating session in livyServer
val SESSION_MAX_CREATION = Entry("livy.server.session.max-creation", 100)

里面有几个很有意思的参数，基本上看参数就明白，关于timeout的逻辑，我在这里总结一下就是：

默认每隔1小时，livy会把所有的session都关掉，也就是无论作业有没有结束，超过一小时，session都会被关掉，对于长作业来说，这个行为其实是不合理的。

livy也提供了配置项：livy.server.session.timeout-check 如果为false则永不过期。
livy.server.session.timeout-check.skip-busy 如果为true则在每次超时轮询检查的时候，会跳过正处于busy状态的session，这样可以用在长时作业下，那么就需要搞清楚，什么是busy状态。

当一个代码片段发送过来后，确认session处于running状态：

if (statement.state.get() == StatementState.Running) {
    statement.started = System.currentTimeMillis()
    statement.output = executeCode(interpreter(tpe), statementId, code)
}

则会开始执行代码：

private def executeCode(interp: Option[Interpreter],
     executionCount: Int,
     code: String): String = {
    changeState(SessionState.Busy)
  ..........省略其他代码

这里会将状态修改为busy，也就是如果一个session正在有代码片段执行，那么当前session就会标记为busy。

所以如果需要运行大作业，那么建议修改skip busy为true。

Linux上监听文件读取等行为

2023-10-09T08:45:41.000Z

最近有一种场景，是需要监听某个文件在创建后是否发生了进程读取的行为，如果是写的话，直接ls -l 就能通过修改时间判断出来，但是读并不会触发文件属性的修改，光是查看属性是无法感知的。

在linux下可以使用inotify-tools 来完成这个场景，只有在内核 2.6.13 (June 18, 2005) 以上的Linux版本中才支持inotify-tools。

在系统中通过 apt-get install inotify-tools 安装后，执行：

inotifywait -o access.out -m  -e access 文件地址

即可对文件进行监听，上面命令的含义为：对某个文件进行监听，不退出，循环监听，且将结果输出到access.out文件中。

更详细的命令格式为：

inotifywait [-hcmrq] [-e  ] [-t  ] [--format  ] [--timefmt  ]  [ ... ]

选项参数有：

-h|--help     显示帮助信息
@       排除不需要监视的文件，可以是相对路径，也可以是绝对路径
--exclude 
                正则匹配需要排除的文件，大小写敏感
--excludei 
                正则匹配需要排除的文件，忽略大小写。
-m|--monitor  接收到一个事情而不退出，无限期地执行。默认行为是接收到一个事情后立即退出
-d|--daemon   跟--monitor一样，除了是在后台运行，需要指定--outfile把事情输出到一个文件。也意味着使用了--syslog
-r|--recursive监视一个目录下的所有子目录
--fromfile 
                从文件读取需要监视的文件或排除的文件，一个文件一行，排除的文件以@开头
-o|--outfile 
                输出事件到文件.
-s|--syslog   输出错误信息到系统日志
-q|--quiet    不输出详细信息，只输出事件
-qq           除了致命错误，不会输出任何信息
--timefmt 指定时间格式，用于�format选项中的%T格式
-c|--csv      输出csv格式。
-t|--timeout 
                设置超时时间，如果为0，则无限期地执行下去。
-e|--event  [ -e|--event  ... ]
                指定监听的时间，如果省略，则侦听所有事件。
--format 指定输出格式
     %w 表示发生事件的目录
     %f 表示发生事件的文件
     %e 表示发生的事件
     %Xe 事件以“X”分隔
     %T 使用由--timefmt定义的时间格式

可监听的事件：

access    文件或者目录被读
modify    文件或目录被写入
attrib    文件或者目录属性被更改
close_write  文件或目录关闭，在写模式下打开后
close_nowrite文件或目录关闭，在只读模式打开后
close      文件或目录关闭，而不管是读/写模式
open      文件或目录被打开
moved_to    文件或者目录移动到监视目录
moved_from  文件或者目录移出监视目录
move      文件或目录移出或者移入目录
create    文件或目录被创建在监视目录
delete    文件或者目录被删除在监视目录
delete_self  文件或目录移除，之后不再监听此文件或目录
unmount    文件系统取消挂载，之后不再监听此文件系统

除了文件，也可以监听目录：

inotifywait -rmq /data

此工具包还包含一个inotifywatch工具，用来收集关于被监视的文件系统的统计数据，包括每个 inotify 事件发生多少次。

命令格式：

inotifywatch [-hvzrqf] [-e  ] [-t  ] [-a  ] [-d  ]  [ ... ]

选项参数：

-h|--help                显示帮助信息
-v|--verbose             详细信息
@                 排除不需要监视的文件，可以是相对路径，也可以是绝对路径
--fromfile          从文件读取需要监视的文件或排除的文件，一个文件一行，排除的文件以@开头
--exclude        正则匹配需要排除的文件，大小写敏感
--excludei       正则匹配需要排除的文件，忽略大小写。
-z|--zero                 输出表格的行和列，即使元素为空
-r|--recursive          监视一个目录下的所有子目录
-t|--timeout 
                          设置超时时间，如果为0，则无限期地执行下去。
-e|--event  [ -e|--event  ... ]
                          指定监听的时间，如果省略，则侦听所有事件。
-a|--ascending     以指定事件升序排列
-d|--descending    以指定事件降序排列

更多的使用方式，请查看 inotifywatch man page

分析Java中OutputStream打开文件的行为

2023-10-08T03:30:56.000Z

看如下代码：

@Test
public void testFileWriter() throws IOException {
  FileWriter writer = new FileWriter("test.file");
}

运行如上代码会发生什么？

看起来这个代码是只new了一个FileWriter对象，实际上当这个对象被new出来后，test.file文件内容就已经被清空了，也就是创建对象后没有做任何write, flush以及close等行为。

只是简单的new 了一下，就已经把文件现有内容清空了。这里不单是FileWriter，所有文件相关的output stream都是如此，FileWriter本质上也是创建了一个FileOutputStream。

而FileOutputStream的行为是：

public FileOutputStream(String name) throws FileNotFoundException {
    this(name != null ? new File(name) : null, false);
}

也就是默认append是false，最终Java中的所有output stream都会进入c的方法：

/**
 * Opens a file, with the specified name, for overwriting or appending.
 * @param name name of file to be opened
 * @param append whether the file is to be opened in append mode
 */
private native void open0(String name, boolean append)
    throws FileNotFoundException;

然后回归到操作系统的的io流，当操作系统以非append的方式去打开一个文件的时候，会冲掉这个文件本身的内容，所以映射到java这个层面，就是创建了一个对象，文件内容没了。

HiveMetaStore崩掉后引起的数据一致性问题

2023-09-23T08:55:03.000Z

最近碰到一个问题，在SparkSQL中周期调度，每天执行类似如下SQL：

drop table if exists testdb.testtbl;
create table testdb.testtbl select * from testdb.store_sales;

会出现问题：

Error in query: Can not create the managed table('`testdb`.`testtbl`'). The associated location('s3a://bucket/testdb/testtbl') already exists.

SparkSQL这边也能看到如下日志：

drop table if exists testdb.testtbl
23/09/23 16:16:02 WARN RetryingMetaStoreClient: MetaStoreClient lost connection. Attempting to reconnect (1 of 1) after 5s. dropTable
org.apache.thrift.transport.TTransportException
        at org.apache.thrift.transport.TIOStreamTransport.read(TIOStreamTransport.java:132)
        at org.apache.thrift.transport.TTransport.readAll(TTransport.java:86)
        at org.apache.thrift.protocol.TBinaryProtocol.readAll(TBinaryProtocol.java:425)
        at org.apache.thrift.protocol.TBinaryProtocol.readI32(TBinaryProtocol.java:321)
        at org.apache.thrift.protocol.TBinaryProtocol.readMessageBegin(TBinaryProtocol.java:225)
        at org.apache.thrift.TServiceClient.receiveBase(TServiceClient.java:77)
        at org.apache.hadoop.hive.metastore.api.ThriftHiveMetastore$Client.recv_drop_table_with_environment_context(ThriftHiveMetastore.java:1378)
        at org.apache.hadoop.hive.metastore.api.ThriftHiveMetastore$Client.drop_table_with_environment_context(ThriftHiveMetastore.java:1362)
        at org.apache.hadoop.hive.metastore.HiveMetaStoreClient.drop_table_with_environment_context(HiveMetaStoreClient.java:2447)
        at org.apache.hadoop.hive.ql.metadata.SessionHiveMetaStoreClient.drop_table_with_environment_context(SessionHiveMetaStoreClient.java:114)
        at org.apache.hadoop.hive.metastore.HiveMetaStoreClient.dropTable(HiveMetaStoreClient.java:1130)
        at org.apache.hadoop.hive.metastore.HiveMetaStoreClient.dropTable(HiveMetaStoreClient.java:1066)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:498)
        at org.apache.hadoop.hive.metastore.RetryingMetaStoreClient.invoke(RetryingMetaStoreClient.java:173)
        at com.sun.proxy.$Proxy31.dropTable(Unknown Source)
        at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
        at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62)
        at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
        at java.lang.reflect.Method.invoke(Method.java:498)
        at org.apache.hadoop.hive.metastore.HiveMetaStoreClient$SynchronizedHandler.invoke(HiveMetaStoreClient.java:2372)
        at com.sun.proxy.$Proxy31.dropTable(Unknown Source)
        at org.apache.hadoop.hive.ql.metadata.Hive.dropTable(Hive.java:1201)

我写了一个简单的demo就能复现这个开源的问题，进入SparkSQL执行如下SQL：

drop table if exists testdb.testtbl;
create table testdb.testtbl select * from testdb.store_sales;

注意，store_sales 是tpcds 里面的表，我直接拿了tpcds作为例子，关于如何使用tpcds这里不做过多介绍，自行查看。

由于这个store_sales 是个超大表，所以drop 会执行很长时间，当SparkSQL正在执行drop table的时候，让hms崩掉：

如下通过kill -9 让hms崩掉：

此时Spark这边会收到错误:

但是在testtbl背后的存储上依旧可以看到残留的文件：

此时执行create 语句：

出现错误，这个问题的核心原因在于hms的drop table是非原子性的，通过hms的代码 org/apache/hadoop/hive/metastore/HiveMetaStore.java ：

private boolean drop_table_core(final RawStore ms, final String catName, final String dbname,
                                final String name, final boolean deleteData,
                                final EnvironmentContext envContext, final String indexName)
    throws NoSuchObjectException, MetaException, IOException, InvalidObjectException,
    InvalidInputException {
    // 省略其他代码
    if (!ms.dropTable(catName, dbname, name)) {
      String tableName = getCatalogQualifiedTableName(catName, dbname, name);
      throw new MetaException(indexName == null ? "Unable to drop table " + tableName:
          "Unable to drop index table " + tableName + " for index " + indexName);
    } else {
      if (!transactionalListeners.isEmpty()) {
        transactionalListenerResponses =
            MetaStoreListenerNotifier.notifyEvent(transactionalListeners,
                                                  EventType.DROP_TABLE,
                                                  new DropTableEvent(tbl, true, deleteData, this),
                                                  envContext);
      }
      success = ms.commitTransaction();
    }
  } finally {
    if (!success) {
      ms.rollbackTransaction();
    } else if (deleteData && !isExternal) {
      // Data needs deletion. Check if trash may be skipped.
      // Delete the data in the partitions which have other locations
      deletePartitionData(partPaths, ifPurge, db);
      // Delete the data in the table
      deleteTableData(tblPath, ifPurge, db);
      // ok even if the data is not deleted
    }

    if (!listeners.isEmpty()) {
      MetaStoreListenerNotifier.notifyEvent(listeners,
                                            EventType.DROP_TABLE,
                                            new DropTableEvent(tbl, success, deleteData, this),
                                            envContext,
                                            transactionalListenerResponses, ms);
    }
  }
  return success;
}

可以看到在ms.dropTable(catName, dbname, name)里面先删除hms的元数据，然后在finally的时候去删除物理文件，这样就有一个潜在的风险，比如删除大表的时候，hms出问题，导致元数据和数据对不齐。

同样继续以这个SQL：

drop table if exists testdb.testtbl;
create table testdb.testtbl select * from testdb.store_sales;

为例，当执行drop table的时候，通过kill -9 杀死hms，会看到spark这边出现：

23/09/23 16:16:02 WARN RetryingMetaStoreClient: MetaStoreClient lost connection. Attempting to reconnect (1 of 1) after 5s. dropTable
org.apache.thrift.transport.TTransportException

的错误，此时hms中表已经不存在了：

desc testdb.testtbl;
Error in query: Table or view not found: testdb.testtbl; line 1 pos 5;
'DescribeRelation false, [col_name#15, data_type#16, comment#17]
+- 'UnresolvedTableOrView [testdb, testtbl], DESCRIBE TABLE, true

但表背后的底层物理数据依旧存在，此时去执行：

create table testdb.testtbl select * from testdb.store_sales;

的时候就会出现：

Error in query: Can not create the managed table('`testdb`.`testtbl`'). The associated location('s3a://bucket/testdb/testtbl') already exists.

因为在SparkSQL通过create select的方式去写hive表的时候，会额外做校验：

  private def validateNewLocationOfRename(
    oldName: TableIdentifier,
    newName: TableIdentifier): Unit = {
  val oldTable = getTableMetadata(oldName)
  if (oldTable.tableType == CatalogTableType.MANAGED) {
    val databaseLocation =
      externalCatalog.getDatabase(oldName.database.getOrElse(currentDb)).locationUri
    val newTableLocation = new Path(new Path(databaseLocation), formatTableName(newName.table))
    val fs = newTableLocation.getFileSystem(hadoopConf)
    if (fs.exists(newTableLocation)) {
      throw QueryCompilationErrors.cannotOperateManagedTableWithExistingLocationError(
        "rename", oldName, newTableLocation)
    }
  }
}

def cannotOperateManagedTableWithExistingLocationError(
    methodName: String, tableIdentifier: TableIdentifier, tableLocation: Path): Throwable = {
  new AnalysisException(s"Can not $methodName the managed table('$tableIdentifier')" +
    s". The associated location('${tableLocation.toString}') already exists.")
}

在SparkSQL中操作MANAGED表的时候，目标表的背后的存储目录存在，且非空，SparkSQL则会抛错误。

如下时序便是生产环境下一个由于hms的资源不足引起jvm崩溃从而导致数据不一致的一个时序：

2022-04-10 02:52:51 HSM接收到drop 的指令
2022-04-10 02:53:01 的HSM JVM开始不稳定，频繁GC，且中断响应
2022-04-10 02:54:22 的HSM JVM崩溃且自动拉起，导致之前正在执行的drop 指令中断，造成文件只删除了一半没有完整删除，由于Hive是先删除rds的记录，再去删除文件，因为hms中已经没有了表的记录，但是目录依旧存在残留。
2022-04-10 02:55:00 的HMS接收到spark的create指令，由于的目录已经存在，导致创建失败。

对于这类问题，一般有2种方案：

从运维入手：提升hms的稳定性，比如增大内存等等。
从代码入手：比如修改hive源码，让其先删数据，再删meta，这样会有一个副作用就是删除过程中，其余的SQL如果在执行查询的时候，会查询到不完整的数据，其次如果有新数据插入，也会带来额外的问题，需慎重。

如何把HDFS文件系统mount到本地

2023-09-22T02:55:23.000Z

hdfs支持把fs mount到本地，这种需求的使用场景基本集中在AI上，hadoop从2开始，就支持通过fuse的方式把fs mount上去。

具体的文档可以查看：

https://cwiki.apache.org/confluence/display/HADOOP2/MountableHDFS

由于hadoop fuse是属于hadoop native的一部分，所以在编译的时候需要额外处理：

mvn clean package -Pnative -DskipTests