Metrics SDK 是与字节内场时序数据库 ByteTSD 配套的用户指标打点 SDK,在字节内数十万服务中集成,应用广泛,因此 SDK 的性能优化是个重要和持续性的话题。本文主要以 Go Metrics SDK 为例,讲述对打点 API 的 hot-path 优化的实践。
用户在使用 SDK API 进行打点时,需要传入指标对应的 Tag:
tags := []m.T{{Name: "foo", Value: "a"}, {Name: "bar", Value: "b"}}
metric.WithTags(tags...).Emit(m.Incr(1))
SDK 内部需要对用户传入的 Tag Value 的合法性进行校验,IsValidTagValue,是 SDK 中对 Tag Value 进行字符合法性校验的 util 函数,在对内部一些用户的业务使用 pprof 拉取 profile 时,发现这两个函数的 CPU 消耗占整个打点 API 过程的10%~20%,由于该函数发生在打点 API 的 hot-path 上,因此有必要对其进行进一步优化。
我们先看一下 IsValidTagValue 函数内部的实现方式,是否有可优化的点。当前的实现,对于通过 API 传入的每一个Tag Value,会进行以下操作来判断其合法性:
var (
// these runes are valid in tag values
whiteListRunes = []rune{'_', '-', '.', '%', ':', ' ', '[', ']', ',', '%',
'/', ':', ';', '<', '=', '>', '@', '~'}
)func IsValidTagValue(s string) bool {
if len(s) == 0 || len(s) > maxTagLen {
return false
}
for i, r := range s {
if r < minValidChar || r > maxValidChar {
return false
}
if unicode.IsLetter(r) || unicode.IsNumber(r) || isRuneInWhiteList(r) {
continue
}
return false
}
return true
}
该实现的时间复杂度简单分析如下:
对于由 Letter、Number 这样的合法字符构成的字符串(大部分场景),其时间复杂度是:
对于全由特殊字符构成的字符串,其时间复杂度是:
整个字符串的时间复杂度将介于 之间
可以看到,从当前实现看,一个主要影响性能的点是白名单列表的循环遍历对比操作,我们需要考虑可能的优化方式来降低这个操作的时间复杂度。
Metrics SDK 所有允许的合法的字符,实际上是 ASCII 的一个子集,也就是说其所有可能的字符最多只有128个,因此,我们可以通过空间换时间的方式,将对白名单的 O(n) 遍历操作转换为 O(1) 的查表操作:
1
),这样就建立了一个快速的 lookup table1
即可table := [128]uint8{...}
// fill flags
for i := 0; i < 128; i++ {
if unicode.IsNumber(rune(i)) || unicode.IsLetter(rune(i)) || isRuneInWhiteList(rune(i)) {
table[i] = 1
}
}str := "hello"
for _, char := range []byte(str) {
if r > maxValidChar {
return false
}
if table[char] != 1 {
return false
}
}
return true
goos: linux
goarch: amd64
pkg: code.byted.org/gopkg/metrics_core/utils
cpu: Intel(R) Xeon(R) Platinum 8260 CPU @ 2.40GHz
BenchmarkLookupAlgoValid
BenchmarkLookupAlgoValid/baseline
BenchmarkLookupAlgoValid/baseline-8 2839345 478.9 ns/op
BenchmarkLookupAlgoValid/lookup-arraytable
BenchmarkLookupAlgoValid/lookup-arraytable-8 6673456 167.8 ns/op
可以看到,速度提升60%
基于 Lookup Table 的校验方式,将字符串校验的时间复杂度稳定在了, 但有没有可能进一步减少对字符串每一个字符的遍历次数,比如一次校验16个字符?
我们知道,SIMD 指令是循环展开优化的常用思路,那么这里是否可以引入 SIMD 来进一步提升运算并行度和效率?
答案是肯定的,以 intel x86 架构为例,参考其 Intrinsics Guide,在不同的 SIMD 指令集上提供了多个可以实现在不同大小的 lookup table 中查找数据的指令,这些指令可以作为我们加速方案的基础:
注:可以通过
cat /proc/cpuinfo
命令来查看机器支持的simd指令集
鉴于 vpermi2b 指令的支持目前不是很普遍的原因,我们考虑使用 pshufb 来实现一个 SIMD 版本,但我们的Lookup Table 需要调整下,因为:
因此,我们需要将 bitmap lookup table 做一次升维,变成一个16*8 bits 的二维 lookup table,做两次递进的行、列 lookup 完成查找,基于该思路,可以实现一次校验16个字符,大大提升并行度。
该方案主要参考这篇文章:SIMDized check which bytes are in a set(http://0x80.pl/articles/simd-byte-lookup.html)
对于一个 ASCII 字符,我们用其低 4bits 作为 lookup table 的 row index,用高 3bits 作为 lookup table 的 column index,这样对128个 ASCII 字符建立如下的一个二维 bitmap table:
我们先实现一个纯 go 语言版本的基于二维 bitmap lookup table 的方案,以便于理解其中的关键逻辑:
table := [16]uint8{}
// fill flags
for i := 0; i < 128; i++ {
if unicode.IsNumber(rune(i)) || unicode.IsLetter(rune(i)) || isRuneInWhiteList(rune(i)) {
lowerNibble := i & 0x0f
upperNibble := i >> 4
table[lowerNibble] |= 1 << upperNibble
}
}str := "hello"
for _, char := range []byte(str) {
if r > maxValidChar {
return false
}
lowerNibble := uint8(r) & 0x0f
upperNibble := uint8(r) >> 4
if table[lowerNibble]&(1<<upperNibble) == 0 {
return false
}
}
return true
如上代码示例,可以看到,判断某个字符合法的关键逻辑是:
而 SIMD 版本,即是将上述的每一步操作都使用对应的 SIMD 指令变成对16个字节的并行操作,SIMD 的关键操作流程以及和上述 go 代码的对应关系如下:
在 go 语言中,想要使用 SIMD,需要写 plan9 汇编,而编写 plan9 通常有两种方式:
这里采用 C code 转 plan9 的方式,先写一个 C 版本:
注:由于 goat 工具限制,不能很好的支持 C 代码中的常量定义,因此以下示例通过函数参数定义用到的 sm、hm 常量
#include <tmmintrin.h>// is_valid_string returns 1 if all chars is in table, returns 0 else.
void is_valid_string(char* table, char* strptr, long strlen, char* sm, char* hm, char* rt) {
__m128i bitmap = _mm_loadu_si128((__m128i*)table);
__m128i shift_mask = _mm_loadu_si128((__m128i*)sm);
__m128i high_mask = _mm_loadu_si128((__m128i*)hm);
size_t n = strlen/16;
for (size_t i = 0; i < n; i++)
{
__m128i input = _mm_loadu_si128((__m128i*)strptr);
__m128i rows = _mm_shuffle_epi8(bitmap, input);
__m128i hi_nibbles = _mm_and_si128(_mm_srli_epi16(input, 4), high_mask);
__m128i cols = _mm_shuffle_epi8(shift_mask, hi_nibbles);
__m128i tmp = _mm_and_si128(rows, cols);
__m128i result = _mm_cmpeq_epi8(tmp, cols);
size_t mask = _mm_movemask_epi8(result);
if (mask != 65535) {
*rt = 0;
return;
}
strptr = strptr + 16;
}
size_t left = strlen%16;
for (size_t i = 0; i < left; i++)
{
size_t lower = strptr[i] & 0x0f;
size_t higher = strptr[i] >> 4;
if ((table[lower] & (1<<higher)) == 0) {
*rt = 0;
return;
}
}
*rt = 1;
return;
}
通过以下命令转为 plan9:
goat is_valid_string.c -03 -mssse3
生成的 plan9 代码如下:
//go:build !noasm && amd64
// AUTO-GENERATED BY GOAT -- DO NOT EDITTEXT ·_is_valid_string(SB), $0-48
MOVQ table+0(FP), DI
MOVQ strptr+8(FP), SI
MOVQ strlen+16(FP), DX
MOVQ sm+24(FP), CX
MOVQ hm+32(FP), R8
MOVQ rt+40(FP), R9
WORD $0x8949; BYTE $0xd2 // movq %rdx, %r10
LONG $0x3ffac149 // sarq $63, %r10
LONG $0x3ceac149 // shrq $60, %r10
WORD $0x0149; BYTE $0xd2 // addq %rdx, %r10
LONG $0x0f428d48 // leaq 15(%rdx), %rax
LONG $0x1ff88348 // cmpq $31, %rax
JB LBB0_4
LONG $0x076f0ff3 // movdqu (%rdi), %xmm0
LONG $0x096f0ff3 // movdqu (%rcx), %xmm1
LONG $0x6f0f41f3; BYTE $0x10 // movdqu (%r8), %xmm2
WORD $0x894d; BYTE $0xd0 // movq %r10, %r8
LONG $0x04f8c149 // sarq $4, %r8
WORD $0xc031 // xorl %eax, %eax
LBB0_2:
LONG $0x1e6f0ff3 // movdqu (%rsi), %xmm3
LONG $0xe06f0f66 // movdqa %xmm0, %xmm4
LONG $0x00380f66; BYTE $0xe3 // pshufb %xmm3, %xmm4
LONG $0xd3710f66; BYTE $0x04 // psrlw $4, %xmm3
LONG $0xdadb0f66 // pand %xmm2, %xmm3
LONG $0xe96f0f66 // movdqa %xmm1, %xmm5
LONG $0x00380f66; BYTE $0xeb // pshufb %xmm3, %xmm5
LONG $0xe5db0f66 // pand %xmm5, %xmm4
LONG $0xe5740f66 // pcmpeqb %xmm5, %xmm4
LONG $0xccd70f66 // pmovmskb %xmm4, %ecx
LONG $0xfffff981; WORD $0x0000 // cmpl $65535, %ecx
JNE LBB0_8
LONG $0x10c68348 // addq $16, %rsi
LONG $0x01c08348 // addq $1, %rax
WORD $0x394c; BYTE $0xc0 // cmpq %r8, %rax
JB LBB0_2
LBB0_4:
LONG $0xf0e28349 // andq $-16, %r10
WORD $0xb041; BYTE $0x01 // movb $1, %r8b
WORD $0x294c; BYTE $0xd2 // subq %r10, %rdx
JE LBB0_9
WORD $0xc031 // xorl %eax, %eax
LBB0_7:
LONG $0x1cbe0f4c; BYTE $0x06 // movsbq (%rsi,%rax), %r11
WORD $0x8945; BYTE $0xda // movl %r11d, %r10d
LONG $0x0fe28341 // andl $15, %r10d
LONG $0x04ebc141 // shrl $4, %r11d
LONG $0x0cbe0f42; BYTE $0x17 // movsbl (%rdi,%r10), %ecx
LONG $0xd9a30f44 // btl %r11d, %ecx
JAE LBB0_8
LONG $0x01c08348 // addq $1, %rax
WORD $0x3948; BYTE $0xd0 // cmpq %rdx, %rax
JB LBB0_7
LBB0_9:
WORD $0x8845; BYTE $0x01 // movb %r8b, (%r9)
BYTE $0xc3 // retq
LBB0_8:
WORD $0x3145; BYTE $0xc0 // xorl %r8d, %r8d
WORD $0x8845; BYTE $0x01 // movb %r8b, (%r9)
BYTE $0xc3 // retq
对应的 Go Wrapper 代码如下:
var (
// these runes are valid in tag values
whiteListRunes = []rune{'_', '-', '.', '%', ':', ' ', '[', ']', ',', '%',
'/', ':', ';', '<', '=', '>', '@', '~'} rcBitTable [16]uint8
smTable [16]int8
hmTable [16]uint8
)
//go:noescape
func _is_valid_string(table unsafe.Pointer, str unsafe.Pointer, len int32, sm, hm unsafe.Pointer, rt unsafe.Pointer)
func init() {
// build tables
for i := 0; i < 128; i++ {
if unicode.IsNumber(rune(i)) || unicode.IsLetter(rune(i)) || isRuneInWhiteList(rune(i)) {
lowerNibble := i & 0x0f
upperNibble := i >> 4
rcBitTable[lowerNibble] |= 1 << upperNibble
}
}
smTable = [16]int8{1, 2, 4, 8, 16, 32, 64, -128, 1, 2, 4, 8, 16, 32, 64, -128}
hmTable = [16]uint8{0x0f, 0x0f, 0x0f, 0x0f, 0x0f, 0x0f, 0x0f, 0x0f, 0x0f, 0x0f, 0x0f, 0x0f, 0x0f, 0x0f, 0x0f, 0x0f}
}
func IsValidTagValueLookup2dBitTableSIMD(s string) bool {
l := len(s)
if l == 0 || len(s) > maxTagLen {
return false
}
sptr := unsafe.Pointer((*reflect.StringHeader)(unsafe.Pointer(&s)).Data)
var rt byte
_is_valid_string(unsafe.Pointer(&rcBitTable), sptr, int32(len(s)), unsafe.Pointer(&smTable), unsafe.Pointer(&hmTable), unsafe.Pointer(&rt))
return rt != 0
}
goos: linux
goarch: amd64
pkg: code.byted.org/gopkg/metrics_core/utils
cpu: Intel(R) Xeon(R) Platinum 8260 CPU @ 2.40GHz
BenchmarkLookupAlgoValid
BenchmarkLookupAlgoValid/baseline
BenchmarkLookupAlgoValid/baseline-8 2574217 510.5 ns/op
BenchmarkLookupAlgoValid/lookup-arraytable
BenchmarkLookupAlgoValid/lookup-arraytable-8 6347204 193.7 ns/op
BenchmarkLookupAlgoValid/lookup-2d-bittable-simd
BenchmarkLookupAlgoValid/lookup-2d-bittable-simd-8 6133671 185.2 ns/op
可以看到,SIMD 版本在平均水平上与 arraytable 相当
goos: linux
goarch: amd64
pkg: code.byted.org/gopkg/metrics_core/utils
cpu: Intel(R) Xeon(R) Platinum 8260 CPU @ 2.40GHz
BenchmarkLookupAlgoValidLong
BenchmarkLookupAlgoValidLong/baseline
BenchmarkLookupAlgoValidLong/baseline-8 3523198 356.4 ns/op
BenchmarkLookupAlgoValidLong/lookup-arraytable
BenchmarkLookupAlgoValidLong/lookup-arraytable-8 8434142 153.3 ns/op
BenchmarkLookupAlgoValidLong/lookup-2d-bittable-simd
BenchmarkLookupAlgoValidLong/lookup-2d-bittable-simd-8 13621970 87.29 ns/op
可以看到,在长 string 上 SIMD 版本表现出非常大的优势,相对于 arraytable 版本再次提升50%