【开源项目】Branchless UTF-8 Decoder 无分支的 UTF-8 解码器

【开源项目】Branchless UTF-8 Decoder 无分支的 UTF-8 解码器
【开源项目】Branchless UTF-8 Decoder 无分支的 UTF-8 解码器

 简介

Branchless UTF-8 Decoder 是一个用 C 编写的无分支 UTF-8 解码器，是一个从字节流中解码单个 UTF-8 代码点的函数，无需任何 if 语句、循环或其他类型的条件跳转。只有 utf8.h 单个头文件。

LICENSE：public domain

项目地址：
```
https://github.com/skeeto/branchless-utf8
1
```
在需要使用 UTF-8 解码功能的开发中，可以使用该项目，十分的快速简洁易用。

使用

Branchless UTF-8 Decoder 只有一个函数，如下：
```
static void * utf8_decode(void *buf, uint32_t *c, int *e);
1
```
该函数从 buf 中解码出下一个字符c，用 e 来返回错误。

参数

buf：输入缓冲区，用于从 buf 中解码。注意，由于这是一个无分支解码器，因此无论下一个字符的实际长度如何，都将从缓冲区中读取四个字节。这意味着缓冲区在数据流结束后必须至少有三个字节的零填充。

c：代码点（code points）。解码出的下一个代码点放在c中。

e：用于返回错误。成功为零，如果解析的字符因某种原因无效，则该错误将非零：无效的字节序（invalid byte sequence）、非规范编码（non-canonical encoding）或代理一半（a surrogate half）。

返回值

该函数返回一个指向下一个字符的指针。当发生错误时，将会根据特定的错误来猜测下一个字符的指针位置，但它将前进至少一个字节。

示例

下面通过例程来展示这个函数基本的用法。

我们用一个 buf 来存放你好这两个汉字的 UTF-8 编码，然后解码出这两个汉字的 Unicode 。注意 buf
```
int main(int argc, char* argv[])
{
    char buf[10] = {0xe4, 0xbd, 0xa0, 0xe5, 0xa5, 0xbd};//你 0xe4bda0 好 0xe5a5bd
    
    unsigned int c;
    int e;
    char *next = buf;
    while(*next != 0) {
        next = utf8_decode(next, &c, &e);
        if(!e)
            printf("0x%x\n", c);
    }
    
    return 0;
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
```
运行结果如下：
```
0x4f60
0x597d
1
2
```
解码出了你好这两个汉字正确的 Unicode 。

更加详细的关于该函数的使用说明，实现原理等信息请查看A Branchless UTF-8 Decoder

本文链接：https://blog.csdn.net/u012028275/article/details/126756082
相关阅读:
Redis 哨兵集群方案
 postman请求400错误-日期LocalData
JavaWeb开发之——DDL-操作表-查询表与创建表(07)
JWT 登录
 c语言--结构体
 postman中文乱码
 【机器学习】python机器学习使用scikit-learn对模型进行微调：按特征贡献大小保留最重要k个特征的transform
华为云云耀云服务器L实例评测｜云服务器初体验
 html_语义化标签
 学习编写代码的挑战与经验
原文地址：https://blog.csdn.net/u012028275/article/details/126756082

【开源项目】Branchless UTF-8 Decoder 无分支的 UTF-8 解码器

简介

使用

参数

返回值

示例